tceic.com
简单学习网 让学习变简单
当前位置:首页 >> 其它课程 >>

生物信息学讲义2011


第一章 绪论
? 一. 什么是生物信息学?(Bioinformatics)
? Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distributi

on, analysis, and interpretation.
它是一个学科领域,包含着基因组信息的获取、处理、存储、分 配 、分析和解释的所有方面。
(The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE)

? 从美国的三个国家计划说起:曼哈顿计划;阿波罗计 划;人类基因组计划。
? 破译人类遗传密码就要读懂由30亿符号组成的100 万页的“天书”

发展背景
? Biocomputing ? Computational Biology ? Bioinformatics

? 1986年,在EMBL Heidelberg成立Biocomputing部门,命名为 BIOinformatis.如果我们不能回答生物学问题,作为计算生物学 家是失败的。1997年底创立了CABIOS(Computer Applications in the Biosciences). ? we assert:computational planning and analysis is an integral part of the biological discovery process. ? 在完整基因组序列和高通量技术时代不要仅仅谈论分析海量数据 的挑战,相反,要谈论疾病产生的风险,关于人类遗传差异、基 因型改变的进化如何导致功能的改变,如何使用数据来回答这些 问题。

分子生物学和遗传学的文献积累从60年代 中期的接近10万篇迅速增长至60年代末期 的20多万篇,即在3-4年间,翻了一番。此 后,至80年代中期,上升至约30万篇,即 平均每年增长6-7千篇。至90年代中,文献 数已上升至40多万篇;即在10年中,平均 每年增长1万篇。到2000年,则增长至约50 万篇,即在约5年间,又增长了10万篇(根 据http://www.ncbi.nlm.nih.gov有关PubMed 数据整理)。

近年来GENBANK中的DNA碱基数目呈指数增加,大约每14个月 增加一倍。到1999年12月其数目已达30亿,它们来自47000种生 物。2000年4月DNA碱基数目是60亿。现在,2001年初这一数目 已达110亿。各种生物的EST序列已达600多万条,其中人类的 EST序列已超过300 万条,估计覆盖人类基因90%以上; UNIGENE的数目约达7万个;自1999年初单核苷酸多态性 ( SNPS,SINGLE NUCLEOTIDE POLYMORPHISMS )数据库出现以 来,到2000年3月20日SNP的总数是26569,现在已超过350万; 自全长1.8MB的嗜血流感杆菌(HAEMOPHILUS INFLUENZAE RD) 基因组序列于1995年发表(FLEISCHMANN ET AL.,1995)以来, 已有54个模式生物的完整基因组被测序完成,它们中有9个古细 菌、31个原核真细菌、14个真核生物的完整基因组或它们的完 整染色体,其中包括酿酒酵母和线虫。还有另外的70余个微生 物基因组正在测试当中;

计算机运算速度: 18个月增长一倍; DNA序列数据: 14个月增长一倍;

果蝇基因组包括1.2亿碱基对的编码区已于2000年2月 测序并组装完成;人类基因组研究的标志性工作,包含 三千三百万碱基对的人第22号染色体已于1999年11月 完成测序,其结果发表在1999年12月2日的Nature 杂 志上。从第22号染色体已鉴定出679个基因,其中55 %的基因是未知的。有35种疾病与该染色体突变相关, 象免疫系统疾病、先天性心脏病和精神分裂症。作为人 类基因组研究的里程碑性的工作,覆盖率为90%的人 完整基因组的“工作草图”已经在2000年4月底完成, 到2003年将获得覆盖率为99%的人类基因组全部序列。 对人的大约3万个基因, 到目前为止已定位在染色体上 的基因数目有14015个(见 http://www.ncbi.nlm.nih.gov/LocusLink/statistics.html);

美国的核酸数据库GenBank〖Banson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7〗从 1979年开始建设,1982年正式运行;欧洲 分子生物学实验室的EMBL数据库也于 1982年开始服务;日本于1984年开始建立 国家级的核酸数据库DDBJ,并于1987年正 式服务。从那个时候以来,DNA序列的数 据已经从80年代初期的百把条序列,几十 万碱基上升至现在的110亿碱基!这就是说, 在短短的约18年间,数据量增长了近十万 倍。

生物数据巨增带来的挑战
? 数据的储存 ? 数据的查询 ? 数据的传输 ? 新知识的发现

How many characters are in the “Heaven Book”? 9 3*10 10,000 books
1 book 100 pages 1 page 3,000 characters

CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCT GGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACA GACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATA CGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGG GGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCG AAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCG GGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACA GAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAG AGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTA AGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGAC AATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACG GTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGC TATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGG GCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGA GCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAA TTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAAC GTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTG TTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAG ATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATT TCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGA AGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTG GGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG (1250 characters)

关键是先要从一个个序列片段中得到这本天书

FROM SEQUENCE DATA OF DNA TO 3DSTRUCTURE OF PROTEIN gene (coding regions, exons)

primary sequence of protein
3D-structure of protein

biological function
“Junk DNA”

?
(uncoding regions, 95% of human genome)
One of the largest challenges is identifying the unknown functions that almost certainly exist in much of the “junk” DNA.

BIOINFORMATICS
广义的说: 生物信息学是在生命科学的研究中, 以计算机为工具对生物信息进行储存、 检索和分析的科学

DEFINITION OF BIOINFORMATICS (1)

? Bioinformatics is defined as a scientific discipline that

encompasses all aspects of biological information acquisition, processing, storage, distribution, analysis and interpretation, that combines the tools and techniques of mathematics, computer science and biology with the aim of understanding the biological significance of a variety of data.

? 生物信息学是一门交叉学科。它包含了生物信息的获取、处理、 存储、分发、分析和解释等在内的所有方面,它综合运用数学、 计算机科学和生物学的各种工具,来阐明和理解大量数据所包含 的生物学意义。
? Understanding Our Genetic Inheritance. The US Human Genome Project: The First Five Years 1991-1995. NIH Publibcation No. 901590, April, 1995

Computation

Informatics

Bioinformatics
Biology

生物信息学是把基因组DNA序列信息分析 作为源头,找到基因组序列中代表蛋白质和 RNA基因的编码区,特别是阐明非编码区的 信息实质,破译隐藏在DNA序列中的遗传语 言;归纳、整理出转录谱和蛋白质谱的数据, 从而认识代谢、发育分化、进化的规律;同 时在发现了新基因信息之后进行蛋白质空间 结构模拟和功能预测。进而将此类信息与生 命过程的生理生化信息相结合,阐明其分子 机制,最终进行分子设计、药物设计。

生物信息学的研究目标是揭示“基因组信 息结构的复杂性及遗传语言的根本规律”。 它是当今乃至下一世纪自然科学和技术科 学领域中“基因组、“信息结构”和“复 杂性”这三个重大科学问题的有机结合。 它是当今生命科学和自然科学的重大前沿 之一。

总结
Bioinformatics是以核酸、蛋白质等生物 大分子数据库为主要对象,以数学、信 息学、计算机为主要手段,以电脑硬件、 软件和网络为主要工具,对原始数据进 行储存、管理、注释、加工,使之成为 具有明确生物意义的生物信息。

BIOINFOMATICS的科学基础
? 需要发达的、复杂的、可相互交流的数 据库系统 ? 需要强有力的创新算法和软件
? 自动化的大规模高通量生物学研究方法 和平台技术。

生物信息学研究意义

利用数理统计、模式识别、动态规划、密 码解读、语意解析、信令传递、神经网络、 遗传算法以及隐马氏模型等各种方法 对序列、结构数据进行定性和定量分析,从 中获取基因编码、基因调控、序列-结构-功 能关系等理性知识
阐明细胞、器官和个体的发生、发育、病变、 衰亡的基本规律和时空联系

探索生命起源、生物进化、生命本质等重大 理论问题,最终建立“生物学周期表” 指导分子生物学实验

生物信息学的基本方法
? ? ? ? ? 建立生物数据库 数据库检索 序列分析 统计模型 算法

生物信息学前沿技术
? 数据库管理技术 ? 数据库中的知识发现技术 ? 图像处理与可视化技术

生物信息学 – 研究范围
? ? ? ? ? ? ? ? ? 基因组序列装配 基因识别 基因功能预报 基因多态性分析 基因进化 mRNA结构预测 基因芯片设计 基因芯片数据分析 疾病相关基因分析
? ? ? ? ? ? ? ? ? 蛋白质序列分析 蛋白质家族分类 蛋白质结构预测 蛋白质折叠研究 代谢途径分析 转录调控机制 蛋白质芯片设计 蛋白质芯片数据分析 药物设计

研究范围

? 基因组序列分析和解释
在基因组测序的原始数据发表后,仍 有许多信息研究需要开展,比如 注释、 同源性分析、基因分类、基因结构分析 等,这方面的研究需要建立较优化的数 理统计模型,大规模的数据库检索,模 式识别和可视化等

?基因多态性分析
即使一个基因的序列已经确定,它 只是有代表性的序列之一。在群体的 分布中,仍存在有基因的多态性。由 于多态性的存在,生物表型及对环境、 外源物和药物的反应即不同。研究基 因多态性可以对群体的基因共性及其 中的基因个性( SNPs)都有明确的认 识。

?基因进化
根据多种生物的基因组数据及对 垂直进化和平行演化的研究,可以 对生命至关重要的基因结构及它的 调控进行研究,对此需要建立较完 整的生物进化模型,用基因组的数 据来鉴别出环境因素对其进化的影 响。研究成果应对生态环境,环境 卫生提出指导性影响,对研究生命 起源也有科学意义。

?基于遗传的流行病学研究
流行病学研究是医学信息学的重要课 题之一。将流行病学的遗传和非遗传 性的研究与分子基因信息结合起来, 会导致对疾病的机理、个体对某种疾 病的易感性和疾病在群体中的分布有 更明确的认识,对疾病的预防和治疗 有极大的指导意义。

基因产物结构和功能预测
在确认了基因的基础上,通过与已 知的基因产物的结构和功能、代谢途 径和其它生物功能对照,可以实现新 基因产物功能的预报,结合定向的生 物实验,可以证实预报的功能。

药物设计
生物信息学所提供的数据资料,可以 指导对药物作用靶位的选定和药物分子 的设计。这种方法有快速高效的特点, 它的研究包括大分子结构功能的模拟和 预报,药物分子与大分子结合的模拟, 关键性基因的致病机制,及生物分子同 源性的分析,生物分子在指定细胞的分 布和位点等。

完整基因组的比较基因组学
在后基因组时代,不仅有大量的序列和 基因而且有越来越多的完整基因组。有了 这些资料就能对若干重大生物学问题进行 分析。据估计不同人种间基因组的差别仅 为 0.1%;人猿间差别约为1%。但他们表 型间的差异十分显著。因此其表型差异不 仅应从基因、DNA 序列找原因,也应考 虑到整个基因组、考虑染色体组织上的差 异。

生物信息学数据库
第二章

第一节 引言
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据

建立生物分子数据库

?

生物分子数据库应满足5个方面的 主要需求
? ? ? ?

(1)时间性 (2)注释 (3)支撑数据 (4)数据质量

?

(5)集成性

?

生物分子数据库
一级数据库
?

数据库中的数据直接来源于实验获 得的原始数据,只经过简单的归类 整理和注释 对原始生物分子数据进行整理、分 类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定 的应用目标而建立的 。

二级数据库
?

染色体

基因组图谱

基因组数据库
生物信息学 数据库工具

基因组作图

核酸
序列测定

DNA序列

核酸序列数据库

蛋白质序列 蛋白质 蛋白质结构
结构测定

蛋白质序列数据库
生物信息学 数据库工具

二 次 数 据 库

蛋白质结构数据库

ID AC SV DT DT DE KW OS OC OC OC OC RN RA RT RT RL RN RP RA RT RL RL RL DR DR DR FH FH FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT SQ

PSPPF1 standard; RNA; PLN; 1523 BP. Y12618; Y12618.1 30-JUN-1997 (Rel. 52, Created) 02-FEB-1999 (Rel. 58, Last updated, Version 4) Pisum sativum mRNA for PPF-1 protein ppf-1 gene; PPF-1 protein. Pisum sativum (pea) Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; euphyllophytes; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; Rosidae; eurosids I; Fabales; Fabaceae; Papilionoideae; Pisum. [1] Zhu Y., Zhang Y., Luo J., Davies P.J., Ho D.T.H.; "PPF-1, a post-floral-specific gene expressed in short-day-grown G2 pea, may be important for its never-senescing phenotype"; Gene 208:1-6(1998). [3] 1-1523 Zhang Y.; ; Submitted (02-FEB-1999) to the EMBL/GenBank/DDBJ databases. Y. Zhang, Peking University, Box 28, College of Life Sciences, Beijing, 100871, PRC Demeter; Y12618; Y12618. MENDEL; 14275; Pissa;2332;14275. SPTREMBL; O04699; O04699. Key Location/Qualifiers source 1..1523 /db_xref="taxon:3888" /organism="Pisum sativum" /strain="G2" /dev_stage="pre-floral seedlings" /tissue_type="apical bud" /clone_lib="lambda ZAPII" CDS 48..1376 /db_xref="SPTREMBL:O04699" /gene="ppf-1" /product="PPF-1 protein" /protein_id="CAA73179.1" /translation="MAKTLISSPSFLGTPLPSLHRTFSPNRTRLFTKVQFSFHQLPPIQ SVSHSVDLSGIFARAEGLLYTLADATVAADAAASTDVAAQKNGGWFGFISDGMEFVLKV LKDGLSSVHVPYSYGFAIILLTVIVKAATLPLTKQQVESTLAMQNLQPKIKAIQERYAG NQERIQLETSRLYTQAGVNPLAGCLPTLATIPVWIGLYQALSNVANEGLLTEGFLWIPS LGGPTSIAARQSGSGISWLFPFVDGHPLLGWYDTAAYLVLPVLLIVSQYVSMEIMKPPQ TNDPNQKNTLLIFKFLPLMIGYFSLSVPSGLTIYWFTNNVLSTAQQVWLRKLGGAKPAV NENAGGIITAGQAKRSASKPEKGGERFRQLKEEEKKKKLIKALPVEEVQPLASASASND GSDVENNKEQEVTEESNTSKVSQEVQSFSRERRSKRSKRKPVA" Sequence 1523 BP; 421 A; 325 C; 311 G; 466 T; 0 other; ctcaagcctt caagcctgaa gcgtctcgta cacaaacctt ctcatccatg gcgaagacac 60 tgatttcttc tccatcattc ctcggtactc cacttccttc acttcaccgt actttctccc 120 ctaatcgcac caggcttttc accaaagttc aattcagttt ccaccaactt cctccgattc 180 . . . . . . ggaccacata catttgtttg tagtttatag taagttttgt atatgtcaaa cagtttgtat 1440 catttttggg ttgacaattt tattgaacat gttatttaat catgcaaaat atcttttgtt 1500 tcatttaagt tccacatgtt agc 1523

//

SWISS-PROT: TXH1_SELHU (P56676) HUWENTOXIN-I (HWTX-I). Chinese bird spider). DISULFID 2-17 9-22 16- 29

蜘蛛毒素

胰岛素

金属硫蛋白

蛋白酶 光合作用受体

Ureaplasma urealyticum

Bacillus subtilis

Drosophila melanogaster

Rickettsia prowazekii

Helicobacter pylori

Buchnerasp. APS

Escherichia coli大肠杆菌

human

Arabidopsis 拟南芥

Thermotoga maritima

Thermoplasma acidophilum

mouse

Caenorhabitis elegans

rat

Borrelia burgorferi

Plasmodium falciparum

Borrelia burgorferi

Aquifex aeolicus

Neisseria meningitidis Z2491

Mycobacteriu m tuberculosis

种属 古细菌 真细菌

已经完成 正在进行 9 31 13 177 127

真核生物 5(14)

数据引自http://wit.integratedgenomics.com/GOLD/

图片引自http://www.ri.bbsrc.ac.uk/arkdb/sites.html

? ? ? ? ?

编号:U00096 名称:Escherichia coli

菌株: K-12 MG1655
基因数:4293个 碱基数:4639221 bp

生物分子数据库几个明显的特征:
(1)数据库的更新速度不断加快

数据量呈指数增长趋势
(2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用

(6)先进的软硬件配置

第二节 核酸序列数据库
? 国际上权威的核酸序列数据库
(1)欧洲分子生物学实验室的EMBL http://www.ebi.ac.uk/embl (2)美国生物技术信息中心的 GenBank http://www.ncbi.nlm.nih.gov (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/

核酸序列数据的增长趋势 (纵轴代表总的核酸序列长度,单位:百万bp)

? 三个数据库中的数据基本一致,仅在 数据格式上有所差别,对于特定的查询, 三个数据库的响应结果一样。 ? 这三个数据库是综合性的DNA和RNA序 列数据库,每条记录代表一个单独、连 续、附有注释的DNA或RNA片段。

GENBANK
是由美国国立卫生院(NCBI)维护的 DNA和RNA序列数据库。该库每天更新、 每年六版。目前数据库的倍增时间约为9 个月。由于数据量剧增,目前各大数据 库均采用分类的方式对库进行划分,将 其分为若干个子库。便于使用与管理。 另外还对直接来源于测序的的序列进行 了单独分类。

EMBL
是由欧洲分子生物学实验室(EBI) 创立的核酸序列数据库。通过文献、专 利申请和直接投送获得数据。每日更新, 每年4版。 EMBL的使用细则见 www.ebi.ac.uk/embl/documentation/use r_manual/usrman.html

DDBJ
是日本核酸数据库(DNA Data Bank of Japan),有日本国立遗传研究所信息中 心维护。首先反映日本产生的DNA序列。 与Genbank、EMBL合作,互通有无。该 库采用了和Genbank相同的数据格式。

数据格式
1、最基本的是 FASTA格式 >this is an example agttagtacgcggaattataactgcaggag caagctaagagatcagcttctaagccagaa aagggtggtg

数据格式
序列数据以文件的格式在数据库中保存。 文件由字段构成,每个字段由标识字起始, 后面为该字段的具体内容。 Genebank与embl的文件格式虽然有所 不同,但都包括以下的部分。 1、描述:描述了整个记录的基本信息 2、特性表:直接表达了记录的生物背景知 识及序列特征 3、序列本身:序列的分子组成

GENBANK与EMBL数据格式
LOCUS PSPPF1 1523 bp mRNA linear PLN 06JUN-2000 DEFINITION Pisum sativum mRNA for PPF-1 protein. ACCESSION Y12618 VERSION Y12618.1 GI:4218522 KEYWORDS ppf-1 gene; PPF-1 protein. SOURCE Pisum sativum (pea) ORGANISM Pisum sativum Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids I; Fabales; Fabaceae; Papilionoideae; Vicieae; Pisum. ID PSPPF1 standard; mRNA; PLN; 1523 BP. XX AC Y12618; XX SV Y12618.1 DT 30-JUN-1997 (Rel. 52, Created) DT 06-JUN-2000 (Rel. 64, Last updated, Version 5) DE Pisum sativum mRNA for PPF-1 protein KW ppf-1 gene; PPF-1 protein. OS Pisum sativum (pea) OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; OC eurosids I; Fabales; Fabaceae; Papilionoideae; Vicieae; Pisum

GENBANK与EMBL数据格式
REFERENCE 1 AUTHORS Zhu,Y., Zhang,Y., Luo,J., Davies,P.J. and Ho,D.T. TITLE PPF-1, a post-floral-specific gene expressed in short-day-grown G2 pea, may be important for its neversenescing phenotype JOURNAL Gene 208 (1), 1-6 (1998) MEDLINE 98147997 PUBMED 9479033 REFERENCE 2 AUTHORS Zhang,Y. TITLE Direct Submission JOURNAL Submitted (16-APR-1997) Y. Zhang, Peking University, Box 28, College of Life Sciences, Beijing, 100871, P.R China REMARK Revised by [3] COMMENT On Feb 3, 1999 this sequence version replaced gi:2231045 RN RX RX RA RT [1] MEDLINE; 98147997. PUBMED; 9479033. Zhu Y., Zhang Y., Luo J., Davies P.J., Ho D.T.H.; "PPF-1, a post-floral-specific gene expressed in short-day-grown G2 pea, may be important for its never-senescing phenotype"; Gene 208(1):1-6(1998). [2] Revised by [3] Zhang Y.; ; Submitted (16-APR-1997) to the EMBL/GenBank/DDBJ databases. Y. Zhang, Peking University, Box 28, College of Life Sciences, Beijing, 100871, P.R China

RT
RL RN RC RA RT RL RL RL

GENBANK与EMBL数据格式
FEATURES Location/Qualifiers source 1..1523 /organism="Pisum sativum" /mol_type="mRNA" /strain="G2" /db_xref="taxon:3888" /tissue_type="apical bud" /clone_lib="lambda ZAPII" /dev_stage="pre-floral seedlings" gene 1..1523 /gene="ppf-1" CDS 48..1376 /gene="ppf-1" /codon_start=1 /product="PPF-1 protein" /protein_id="CAA73179.1" /db_xref="GI:2231046" /db_xref="GOA:O04699" /db_xref="UniProt/TrEMBL:O04699" FH Key Location/Qualifiers FH FT source 1..1523 FT /db_xref="taxon:3888" FT /mol_type="mRNA" FT /organism="Pisum sativum" FT /strain="G2" FT /dev_stage="pre-floral seedlings" FT /tissue_type="apical bud" FT /clone_lib="lambda ZAPII" FT CDS 48..1376 FT /db_xref="UniProt/SwissProt:Q9FY06" FT /gene="ppf-1" FT /product="PPF-1 protein" FT /protein_id="CAA73179.1"

GENBANK与EMBL数据格式
FT /translation="MAKTLISSPSFLGTPLPSLH RTFSPNRTRLFTKVQFSFHQLPPI QSVSHSVDLSGIFARAEGLLYTLADATVA ADAAASTDVAAQKNGGWFGFISDGMEFV LKVLKDGLSSVHVPYSYGFAIILLTVIVKAA TLPLTKQQVESTLAMQNLQPKIKAIQERY AGNQERIQLETSRLYTQAGVNPLAGCLPT LATIPVWIGLYQALSNVANEGLLTEGFLWI PSLGGPTSIAARQSGSGISWLFPFVDGHP LLGWYDTAAYLVLPVLLIVSQYVSMEIMKP PQTNDPNQKNTLLIFKFLPLMIGYFSLSVP SGLTIYWFTNNVLSTAQQVWLRKLGGAK PAVNENAGGIITAGQAKRSASKPEKGGER FRQLKEEEKKKKLIKALPVEEVQPLASAS ASNDGSDVENNKEQEVTEESNTSKVSQE VQSFSRERRSKRSKR

/translation="MAKTLISSPSFLGTPLPSLHRTFSPN RTRLFTKVQFSFHQLPPIQ
FT SVSHSVDLSGIFARAEGLLYTLADATVAADAAAST DVAAQKNGGWFGFISDGMEFVLKV FT LKDGLSSVHVPYSYGFAIILLTVIVKAATLPLTKQQV ESTLAMQNLQPKIKAIQERYAG FT NQERIQLETSRLYTQAGVNPLAGCLPTLATIPVWIG LYQALSNVANEGLLTEGFLWIPS FT LGGPTSIAARQSGSGISWLFPFVDGHPLLGWYDTA AYLVLPVLLIVSQYVSMEIMKPPQ FT TNDPNQKNTLLIFKFLPLMIGYFSLSVPSGLTIYWFT NNVLSTAQQVWLRKLGGAKPAV FT NENAGGIITAGQAKRSASKPEKGGERFRQLKEEEK KKKLIKALPVEEVQPLASASASND FT GSDVENNKEQEVTEESNTSKVSQEVQSFSRERRS KRSKRKPVA"

GENBANK与EMBL数据格式
ORIGIN 1 ctcaagcctt caagcctgaa gcgtctcgta cacaaacctt ctcatccatg gcgaagacac 61 tgatttcttc tccatcattc ctcggtactc cacttccttc acttcaccgt actttctccc 121 ctaatcgcac caggcttttc accaaagttc aattcagttt ccaccaactt cctccgattc 181 aatccgtaag tcattctgtt gacttatccg gaatcttcgc tagagccgaa ggtttacttt 241 acacgctcgc cgatgctact gttgcggcgg atgcggctgc ttccactgat gttgctgcgc 301 agaagaacgg aggttggttc ggttttattt ctgatggaat ggagtttgtt ctcaaggtgt 361 taaaggatgg tttgtcttcc gtgcacgtgc cttactcata tggatttgct atcatattac 421 taactgttat tgttaaggct gctacacttc ccttgacaaa gcaacaggtt gaatcaacac 481 tagctatgca aaaccttcaa cctaaaatta aggccattca agaaagatat gctggcaatc 541 aggaaagaat acaacttgag acctcaaggc tttatactca ggctggggtt aacccgttgg 601 caggttgttt accaactttg gctactattc cagtctggat tggtctatac caagctttat 661 ctaatgtggc aaatgaggga ctgttaacag aaggtttctt atggatccct tctctgggtg 721 gtcccactag cattgctgct agacaaagcg gatccggaat ttcttggctt tttccgtttg 781 tggatggcca tccacttttg ggttggtatg acactgcagc atatcttgtt ttacctgttc 841 ttcttattgt ttctcaatat gtttcaatgg aaatcatgaa accccctcag acaaatgatc //

GENBANK与EMBL数据格式
SQ Sequence 1523 BP; 421 A; 325 C; 311 G; 466 T; 0 other; ctcaagcctt caagcctgaa gcgtctcgta cacaaacctt ctcatccatg gcgaagacac 60 tgatttcttc tccatcattc ctcggtactc cacttccttc acttcaccgt actttctccc 120 ctaatcgcac caggcttttc accaaagttc aattcagttt ccaccaactt cctccgattc 180 aatccgtaag tcattctgtt gacttatccg gaatcttcgc tagagccgaa ggtttacttt 240 acacgctcgc cgatgctact gttgcggcgg atgcggctgc ttccactgat gttgctgcgc 300 agaagaacgg aggttggttc ggttttattt ctgatggaat ggagtttgtt ctcaaggtgt 360 taaaggatgg tttgtcttcc gtgcacgtgc cttactcata tggatttgct atcatattac 420 taactgttat tgttaaggct gctacacttc ccttgacaaa gcaacaggtt gaatcaacac 480 tagctatgca aaaccttcaa cctaaaatta aggccattca agaaagatat gctggcaatc 540 aggaaagaat acaacttgag acctcaaggc tttatactca ggctggggtt aacccgttgg 600 caggttgttt accaactttg gctactattc cagtctggat tggtctatac caagctttat 660 ctaatgtggc aaatgaggga ctgttaacag aaggtttctt atggatccct tctctgggtg 720 gtcccactag cattgctgct agacaaagcg gatccggaat ttcttggctt tttccgtttg 780 catttttggg ttgacaattt tattgaacat gttatttaat catgcaaaat atcttttgtt 1500 tcatttaagt tccacatgtt agc 1523 //

数据格式(GENBANK、EMBL对比)
ID DE AC SV KW OS OC RN RA RT RL RX RC RP CC DR FH FT SQ LOCUS DEFINTION ACCESSION VERSION KEYWOODS SOURCE ORGANISM REFERENCE AUTHORS TITTLE JOURNAL MEDLINE REMARK COMMENT 序列名称 序列简单说明 序列检索号 序列版本号 与序列相关的关键词 序列来源的物种名 序列来源的物种学名和分类学位置 相关文献编号、或递交序列的注册信息 相关文献作者、或递交序列的作者 相关文献题目 相关文献刊物杂志名,或递交序列的作者单位 相关文献的Medline引文代码 相关文献注释 相关文献的其他注释 关于序列的注释信息 相关数据库的交叉引用号 序列特征表起始 序列特征表子项 碱基种类统计数

FEATURES
BASECOUNT

EMBL和GENBANK核酸序列数据库中各子库名 称 EMBL Genbank
英文含义
Primate Other mammalian Rodent Other vertebrate Invertebrate Plant 、fungi 、algi Fungal Prokaryotes Viral Bacteriophage Organelles

中文含义

HUM MAN ROD VRT INV PLN FUN PRO VRL PHG ORG SYN UNC EST

PRI MAN ROD VRT INV PLN PLN BCT VRL PHG

人类、灵长类 其他哺乳动物 啮齿类动物 其他脊椎动物 无脊椎动物 植物、真菌、藻类 真菌、藻类 细菌、原生动物 病毒 噬菌体 细胞器 人工合成序列 未分类/未注释 表达序列标签

SYN UNA EST

Synthetic Unclassified/unannotated Expressed sequence tag

PAT
STS GSS HTG

PAT
STS GSS HTG

Patent
Sequence tagged site Genome survey sequence High throughput genomic sequence

专利序列
序列标签位点 基因组概览序列 高通量基因组序列

数据库特征表说明符
CDS D-loop Enhancer GC-signal Gene IDNA LTR Mat-peptide RBS Sig-peptide Stem-loop N-region 3?UTR 3?CLIP 蛋白质编码区 D-环 增强子 真核生物启动子中的GC框
基因区域,包括上游启动子、增强子和下游控制区

重组引入的插入区 长末端重复序列 成熟肽编码区,不包括终止子 核糖体结合位点 信号肽编码区 DNA或RNA中的发夹环 N-免疫特征区 3?端不翻译序列 翻译时切除的3?端区域

提交序列
提交工具包括Sequin、BankIt。
1、序列格式:最常用FASTA格式

>this is an example
CGGTTGCTTGGGTTATAACAGT 2、提交步骤 BankIt是一个在线提交工具,比较适用于提 交量不大的工作

BANKIT

BANKIT

BANKIT

SEQUIN

第二节 基因组数据库
GDB最初于1990年在约翰· 霍普金 斯大学建立,现已经转由到加拿大多伦 多儿童医院的生物信息及超级计算中心 负责维护,国际上许多生物信息中心建 有镜像,北京大学生物信息中心的镜像 建于1999年。

人类基因组计划所得到的图谱数据

www.gdb.org
目前GDB包含对下述三种对象的描述: (1)人类基因组区域
包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位 点、 EST、综合区域、contigs、重复等.
包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集 成图谱,所有这些图谱都可以被直观地显示出来.

(2)人类基因组图谱,

(3)人类基因组中的变化,
包括基因突变和基因多态性,加上等位基因频率数据。

GDB数据库是用大型商业软件Sybase数据库管理系统开 发的,并用Java语言编写基因图谱显示程序,为用户提供了 很好的界面,缺点是传输速度受到一定限制。

与 染 色 体 相 关 的 信 息

其它模式生物基因组数据库

如:鼠基因组数据库 MGD

(http://www.informatics.jax.org/) 酵母基因组数据库 SGD (http://genomewww.stanford.edu/Saccharomyces/)

人类基因组数据库Ensembl
Ensembl (http://www.ensembl.org/)

Ensembl包括所有公开的人类基因组DNA序列,通过注 释形成的关于序列的特征。 现在包括其他基因组,如 大鼠、小鼠、线虫、果蝇等。
例如:基因 ?通过实验发现的 ?或者是通过GenScan程序预测的 其他的特征: 单核苷酸多态性(SNP)、重复序列等

Ensembl 数据库结构图

Ensembl提供多种查询方式
? 通过关键字查询 ?用BLAST进行相似序列的搜索 ? 另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 逐层放大浏览整个基因组

人的第9号 染色体及大 鼠对应的染 色体片段

GENE CARDS数据库
是由以色列魏茨曼科学研究所维护的关于基因及其产物以及生物医学应用的文 献库。以卡片的形式给出结果。其中列出所查询基因的以下信息 1、官方名称,GDB同义列表,小鼠中的同源物,细胞遗传学定位,基因产物名称,产 物功能(细胞中的作用、表达方式、产物定位、与其它蛋白的同源性及其在疾病中 的作用) 2、相关基因家族 3、相关疾病列表 4、有关的研究论文 5、医学方面的应用(如根据该基因有关知识而建立的新的治疗与诊断方法)

http://www-bimas.cit.nih.gov/cards//index.shtml

该库可以通过关键词、基因符号、基因接受号等进行查询

表达序列标记数据库dbEST
EST(Expressed Sequence Tags)方法已被证明 是识别转录序列的最有效方法 ,EST序列大约覆盖 了人类基因的90%。
DbEST

(http://www.ncbi.nlm.nih.gov/dbEST/index.html)

是GenBank的一个部分,该数据库包括不同生物的EST序列 数据及其它相关信息,主要是从大量不同组织和器官得到的短 mRNA片段。

WEB页面或email FTP

有关EST的数据

dbEST数据库

序列标记位点数据库dbSTS
STS(Sequence Tagged Sites)是序列标记位点

dbSTS(http://www.ncbi.nlm.nih.gov/dbSTS) 是NCBI的一个数据源,包含基因组短标记序列(STS) 的组成和定位信息。
可以通过BLAST搜索STS序列。

第三节 蛋白质序列数据库
1、PIR(Protein Information Resource) ? 目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 ? 它是一个全面的、经过注释的、非冗余的蛋白 质序列数据库。 ? 所有序列数据都经过整理,超过99%的序列已 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。

除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、 翻译后处理、活化等; (4)序列中相关的位点、功能区域。

http://pir.georgetown.edu

PIR提供三种类型的检索服务:

一是基于文本的交互式查询, 用户通过关键字进行数据查询。
二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。

三个子数据库

2、SWISS-PROT
SWISS-PROT (www.expasy.ch) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的

SWISS-PROT中的数据来源于不同源地: (1)从蛋白质数据库PIR挑选出合适的数据; (2)从科学文献中摘录; (3)研究人员直接提交的蛋白质序列数据

SWISS-PROT有三个明显的特点 :

(1)注释
在SWISS-PROT中,数据分为核心数据和注释两大类。

核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描述)

注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构; (E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。

(2)最小冗余
? 尽量将相关的数据归并,降低数据库的冗余程度。 ? 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。

(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。

TREMBL和GENPEPT
1、由EMBL核酸数据库直接翻译得到。包括EMBL中所 有CDS序列的信息。 2、分为两部分:SP-TrEMBL的条目已由专家人工分类 并且赋予SWISS-PROT的检索号。但还没有进行人 工审读。另一部分是REM-TrEMBL。 3、 GenPept是由Genbank翻译得到的蛋白质,收录在 NCBI中。

第四节 生物大分子结构数据库
1、PDB(Protein Data Bank)
? http://www.rcsb.org ? PDB中含有通过实验(X射线晶体 衍射,核磁共振NMR)测定的生 物大分子的三维结构
– – – – 蛋白质 核酸 糖类 其它复合物

? 一种是显式序列信息(explicit sequence) 在PDB文件中,以关键字SEQRES作为 显式序列标记,以该关键字打头的每一 行都是关于序列的信息。 ? 一种是隐式序列信息(implicit sequence) PDB的隐式序列即为立体化学数据,包 括每个原子的名称和原子的三维坐标。

PDB文件 示意
HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。。。。。。 COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。。。。。。 SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。。。。。。 REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。。。。。。 REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 HELIX 2 2 ASN 34 THR 36 5 HELIX 3 3 LEU 57 ILE 63 1 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42 -1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000

4 3 7

图4.5 PDB文件

显示分子结构(RasMol , ChemView )

第五节 其它生物分子数据库
1、单碱基多态性数据库dbSNP
(http://www3.ncbi.nlm.nih.gov/SNP/), ? 核酸序列变化 – 单碱基多态性SNPs(Single nucleotide polymorphisms) ? SNPs对人类遗传学研究和医学应用具有重要的意义 – 无论对于人类种群遗传学的研究,还是对疾病性 状分析或个体化医疗,都需要深入地研究SNPs。

实例:
GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tggtctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatcg tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCAT GCTTGTAATC

R=A/G

单倍型数据

2、蛋白质结构分类数据库SCOP
? SCOP数据库 ( http://scop.mrc-lmb.cam.ac.uk/scop/)的 目标是提供关于已知结构的蛋白质之间结构和进化关 系的详细描述,包括蛋白质结构数据库PDB中的所有 条目。 ? SCOP数据库除了提供蛋白质结构和进化关系信息外, 对于每一个蛋白质还包括下述信息:到PDB的连接, 序列,参考文献,结构的图像等。 ? 可以按结构和进化关系对蛋白质分类,分类结果是一 个具有层次结构的树,其主要的层次是家族、超家族 和折叠:
(1)家族:具有明显的进化关系 (2)超家族:具有远源进化关系,具有共同的进化源 (3)折叠类:主要结构相似

蛋白质结构分类数据库CATH
? CATH数据库(http://www.biochem.ucl.ac.uk/bsm/cath/)

是另一个著名的蛋白质分类数据库.它的分类基础是蛋 质的结构域。对蛋白质分为4层 1、类型(class):α为主类、β为主类、 α-β类、低二 级结构类。 2、构架(architecture):依据为由α、β形成的超二级 结构的排列方式,但不考虑它们的连接方式。 3、拓扑结构(topology):依据为二级结构的形状和 二级结构间的联系。 4、同源性(holomogy):依据为结构的同源性,先通 过序列比对然后再通过结构比较来确定。

3、蛋白质二级结构数据库DSSP
? DSSP(http://www.cmbi.kun.nl/gv/dssp/) 是一个二级结构推导数据库。
– 对生物大分子数据库PDB中的任何一个蛋 白质,根据其三维结构推导出对应的二级 结构。

? 对研究蛋白质序列与蛋白质二级结构及空间 结构的关系非常有用 ? 除了二级结构以外,DSSP还包括蛋白质的几 何特征及溶剂可及表面。

The DSSP code H = alpha helix B = residue in isolated beta-bridge E = extended strand, participates in beta ladder G = 3-helix (3/10 helix) I = 5 helix (pi helix) T = hydrogen bonded turn S = bend 例:

4、蛋白质同源序列比对数据库HSSP
? http://www.cmbi.kun.nl/gv/hssp/)
? 二级数据库。 ? 数据来源于PDB,或来源于SWISS-PROT ? 对于PDB中的每一个蛋白质,HSSP将与其同 源的所有蛋白质序列对比排列起来,从而将 相似序列的蛋白质聚集成结构同源的家族。 ? HSSP有助于分析蛋白质的保守区域,研究蛋 白质的进化关系,有助于蛋白质的分子设计。

From PDB

From Swiss-prot

多重序列比对

已知结构 → 未知结构

5、OMIM
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM

? OMIM (Online Mendelian Inheritance in Man), 是关于人类基因和遗传疾病的分类数据库 。
– 该数据库收集了已知的人类基因及由于这些基因

突变或者缺失而导致的遗传疾病。

? OMIM的使用非常方便
– 查询程序根据输入到检索窗口的一个或几个词执

行简单的查询,返回含有该词的文档的列表,用 户可以在列表中选择一个或更多的异常查看其 OMIM记录的全文

浏览染色体

6、EPD
? EPD( http://www.epd.isb-sib.ch/ ) ? 是真核基因启动子数据库 提供从EMBL中得到的真核基因的启动子 序列,目标是帮助实验研究人员、生物信 息学研究人员分析真核基因的转录信号。

7、TRANSFAC
? TRANSFAC (http://www.gene-regulation.com/) 是真核基因顺式调控元件和反式作用因子数据库,数 据搜集的对象从酵母到人类 ? TRANSFAC包括6类数据 :
(1)SITE类数据 (2)GENE类数据 (3)FACTOR类数据 (4)CELL类数据 (5)CLASS类数据 (6)MATRIX数据

8、BODYMAP
? BODYMAP (http://bodymap.ims.u-tokyo.ac.jp/)

? 是关于人和老鼠基因表达信息的数据库,基 因表达数据来自于不同组织、不同细胞以及 不同时刻。这里的基因表达数据实际上是3?端 的EST。 ? 通过分析这些数据,用户可以初步掌握基因 活性,了解组织中mRNA的组成,研究基因表 达规律,发现新的基因 。

9、PROSITE
? PROSITE ( http://www.expasy.ch/prosite/)是蛋 白质家族和结构域数据库,包含具有生物学 意义的位点、模式、可帮助识别蛋白质家族 的统计特征。 ? PROSITE中涉及的序列模式包括酶的催化位 点、配体结合位点、与金属离子结合的残基、 二硫键的半胱氨酸、与小分子或其它蛋白质 结合的区域等。 ? PROSITE还包括根据多序列比对而构建的序 列统计特征,能更敏感地发现一个序列是否 具有相应的特征。

10、DBCat
? DBCat是生物信息数据库的目录数据库,它收 集了500多个生物信息学数据库的信息,并根 据它们的应用领域进行了分类
– – – – – – –

(http://www.infobiogen.fr/services/dbcat/)

DNA RNA 蛋白质 基因组 图谱 蛋白质结构 文献著作等基本类型,

DBCat中分类数据库个数
数据对象 DNA RNA Protein Genomic Mapping 数据库个数 87 29 94 58 29

Protein structure
Literature Miscellaneous

18
43 153

11、PubMed
? PubMed(http://www.ncbi.nlm.nih.gov/) 是NCBI维护的生物学、医学文献引用数 据库,提供对MEDLINE、PreMEDLINE等文献数据库的引用查询和 对大量网络科学类电子期刊的链接。利 用Entrez系统可以对PubMed进行方便的 查询检索。

第三章

数据库查询与搜索

第一节 概述
分子生物学数据库的应用可分为两个 主要层面 数据库查询(query) 数据库搜索(search)

查询:对序列、结构以及各种二次数据库

中的注释信息进行关键词匹配查找。有时 也称之为数据库检索。

搜索:通过特定的序列相似性比对算法, 找出和酸或蛋白质序列数据库中与检测序 列具有一定程度的相似性的序列。
特点:search针对核酸或蛋白质序列 query针对数据库的注释信息

第二节 数据库查询
? 集成数据库的一种方法是构造一个“数 据仓库”,使其包含各种数据库中数据 集,通过自动或手工方式添加注释和连 接.
– Entrez和SRS就是这样的一类系统。

? 另一种实现数据库集成的方法是设计智 能查询工具,进行数据库的虚拟集成。

1、Entrez http://www.ncbi.nlm.nih.gov/Entrez/
? 查询和搜索系统 ? 集成NCBI各种数据库中的信息
核酸序列 蛋白质序列 生物大分子结构 基因组数据 生物分类数据库 孟德尔人类遗传学数据(OMIM) Pubmed

Entrez集成系统结构如图4.8所示。

图4.8、Entrez数据库系统结构图

2. SRS
? SRS(Sequence Retrieval System)是EMBL研制的一 个基于WEB的查询系统(http://srs.ebi.ac.uk/) ? SRS采用全菜单驱动方式
– 包括EMBL、EMBL_NEW、SwissProt、PIR等一级数据库 – 还包括许多二级数据库,

如蛋白质家族和结构域数据库Prosite、限制酶数据库ReBase、 PDB序列子集数据库NRL_3D、真核基因启动子数据库EPD、 E.coli 数据库ECD、酶名称和反应数据库ENZYME、生物计 算文献数据库SEQANALREF等,还有与功能、疾病相关的 数据库,总共有80个数据库。

? SRS在中国的镜像站点建立在北京大学生物信息中心。

SRS的特点
? 统一的用户界面 ? 高效的查询功能 ? 灵活的指针链接 ? 方便的程序接口 ? 开放的管理模式 ? 统一的开发平台

第三节 数据库搜索
? 数据库使用
– 关键字查询 – 目标搜索

? 序列搜索问题 搜索效率 标准算法 — O(n2) ? 最流行的序列数据库快速搜索程序
– FastA – BLAST

相似性与同源性
? 相似性是指一种很直接的数量关系,比 如部分相同或相似的百分比或其它一些 合适的度量。可进行自身局部比较。 如 Dot Plot (点阵序列比较) ? 同源性指从一些数据中推断出的两个基 因或蛋白质序列具而共同祖先的结论, 属于质的判断。 如 Alignment (同源性分析)

?序列联配问题的分类
如果两个序列具有足够的相似性, 则认为两者具有同源性。


? 序列相似性的比较 (两条序列的联配) ? 序列的分类 ? 多序列的联配

?两条序列联配问题的分类
? 全局联配(Global Alignment) ? 局部联配(Local Alignment) ? 空位罚分(Gap Penalty)

局部联配与全局联配
? 两条序列在一些局部的区域内具有 很高的相似度。 ? 在生物学中局部联配比全局联配更 具有实际的意义。
– 两条DNA长序列,可能只在很小的区域内 (密码区)存在关系。 – 不同家族的蛋白质往往具有功能和结构上的 相同的一些区域。

序列联配的基本思路
对两个序列进行比较,如果在相同位 置上的碱基相同,则赋予一个分值,从 多个比对结果中,挑选一个分值最高的 联配结果,作为最佳配对结果输出。

记分矩阵
记分矩阵是在联配 中对于相同位点赋分 的数值对核酸的联配 所使用的记分矩阵比 A 较简单。如表 C

A C G 0.9 0 0 0 0.9 0

T 0 0

G T

0 0

0 0

0.9 0 0 0.9

蛋白质比对的记分矩阵
蛋白质比对具有一定的特殊性 例如: 某位点上有如下三种配对方式 1、A-A 2、C-C 3、W-W 或有如下三种不配对的方式 1、V-I 2、S-T 3、V-K

蛋白质比对的记分矩阵
基于以上原因,在蛋白质的比对中采用 的记分矩阵与核酸采用的记分矩阵不同, 又称之为取代矩阵。常用的记分矩阵为突 变数据矩阵(mutation data matrix MD) 和模块替换矩阵(blocks substitution matrix) 或称为BLOSUM矩阵

PAM250取代矩阵

BLOSUM62取代矩阵

空位罚分
在进化的过程中可能会发生缺失、插入 等突变,为了更好的再现这一现象,在联 配的过程中应容许插入空位。但盲目的插 入空位,也会使联配变得面目全非。 如:a t g tt c a ctg actgattgctaggctg 因此对插入的空位要加以限制。即对空 位进行罚分。

空位罚分
空位罚分涉及到两个参数:空位开放 罚分(gap opening)及空位延伸罚分 (gap extension)

W=a+bk 具体使用时可参考分析目的。

FASTA
? 基本思想是:一个能够揭示出真实 的序列关系的联配至少包含一个两 个序列都拥有的字(片断),把查询 序列中的所用字编成索引,然后在 数据库搜索时查询这些索引,以检 索出可能的匹配,这样那些命中的 字很快被鉴定出来。

1、FASTA算法
FASTA的基本思想:
找出两个序列具有最大匹配的相对位移
序列s:

位移 = 6
序列 t:

6

8 10

s: -----A-A-T--t: --A-A-T----3 5 7

位移 = 3

? FASTA的基本算法是顺序将数据库中的 每一个序列与查询序列比较,返回与查 询序列非常相似的数据库序列
? 首先确定两个序列的共同k元组(即连 续的k个字符,k-tup),对于蛋白质序 列,k=1或2。
– k决定了字串的大小。增大k参数就会减少 字串命中的数目,也就会减少所需要的最 佳搜索的数目,提高搜索速度。

? 算法设置两个数据结构: (1)查找表
存放第一条序列各k元组的位置

(2)位移向量
位移决定一个序列相对于另一个发生字符替换的位 置。
如果共同的k元组起始于s[i]和t[j],则位移等于i-j。

1

2 A

3 R

4 F

5 Y

6 A

7 A

8 Q

9 I

10 V

11 L

查找表
A F H I L Q R V 2,6,7 4 1 9 11 8 3 10

s = H

1 t = V

2 D

3 M

4 A

5 A

6 Q

7 I

8 A

位移

+9

-2
+2 +3

-3
+1 +2

+2

+2

-6
-2 -1

Y

5

位移向量
-7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

1

1

2

1

1

4

1

1

最大匹配位移

位移累计最大值意义:
(1)该位移下匹配最多 (2)计算相应动态规划矩阵对角线附近区域

实际处理:
将在同一位移下距离较近的多个k元组联合起来,形成区域。一 个区域可被看成是一个片段对,或无空白的局部对比排列,根据 匹配或失配对区域进行打分。 对产生的5个最好区域按PAM矩阵进行重新打分,最高的得分就 是序列s和序列t相似性的初始得分。 对于数据库中的每一个序列,按上述方法计算与查询序列比较的 初始得分。根据初始得分将所有数据库序列按非递增顺序排序, 对于排在前面的几个具有最高初始得分的序列,利用动态规划算 法计算它们与查询序列最优对比排列的得分,但计算过程仅限于 初始对比排列(对应于初始得分的对比排列)附近区域。

FastA的最新版本是FastA3软件包,下表2列出FastA3 家族所有成员:
程序
FastA FASTX FASTY TFastA TFASTX TFASTY FASTS TFASTS FASTF TFASTF

查询序列类型
DNA 蛋白质 DNA 蛋白质 蛋白质

数据库类型
DNA 蛋白质 蛋白质 DNA DNA 蛋白质

一系列多肽片段
有序多肽混合物

DNA
蛋白质

DNA

FastA家族

http://www.ebi.ac.uk/fasta33

使 用 界 面

FastA

BLAST的基本思想:

找出两个序列共同的短片段 经过扩展后形成更长的相似片断
扩展
序列S:

序列t:

扩展

给定一个查询序列,BLAST返回 所有查询序列与数据库序列得分 超过某个阈值S的片段对。
? 阈值S可以由用户设定,但程序有一个 缺省的推荐值。选择S的基本原则是:
– 一条随机序列与查询序列比较的得分不会 超过S

? 在进行序列两两比较之前,BLAST首先 寻找一颗“种子”,它是两个序列之间 的一个非常短的片段对。 ? 种子可以向两个方向扩展,直至达到扩 展的最大可能的得分。

? BLAST的计算过程分为三个阶段:
(1)收集一系列高得分的串,形成高得分单 词表 (2)搜索种子 (3)扩展种子

对于蛋白序列的搜索:
? 单词表——所有w个字符构成的单词 与查询序列单词比较得分超过T
– 这里,w和T是两个参数 – 对于蛋白质序列搜索推荐的w值(即种子的长度)

为4 – 这一步所得到的高得分单词表实际上是一些候选 的种子

? 扫描数据库,搜索那些处于单词表中的种子
– Hash table

– 有限自动机

? 最后一步扩展过程比较直观。
– 当扩展时的得分低于该扩展前面的最佳得分的某

个下限时,扩展停止。

对于DNA序列搜索,
? 单词表包含查询序列长度为w的所有单 词
– 压缩数据,每个核酸仅用2位(bit)表示, 4个核酸组成一个字节

? 搜索、扩展过程与对蛋白质序列的处理 过程相似

? BLAST是一个序列数据库搜索程序家族 其中有许多特定用途的程序,

BLAST 使用界面

实际应用中倾向于蛋白质序列搜索
? 4种字符 Vs. 20种字符
? DNA序列数据库庞大、冗余 ? 打分矩阵

? 蛋白质序列比DNA序列更加保守

3、VAST
http://www.ncbi.nlm.nih.gov/Structure/VAST/)

? VAST是NCBI的相似结构搜索工具,它将一 个新的蛋白质三维结构与PDB或MMDB数据 库中的结构进行比较。 ? 通过结构相似搜索,VAST列出若干与查询待 查询结构相似的蛋白质,用户利用系统提供 的交互显示软件Cn3D(Wang et al., 2000)观 察重叠的分子模型图,详细分析这些蛋白质 空间结构的关系,分析蛋白质因为进化而改 变的结构区域 。

VAST的比较有三个步骤:
? 首先,在坐标数据的基础上,标出所有构成蛋白质核 心部分的α螺旋和β片层。 ? 然后根据这些二级结构单位的位置计算向量。使用这 些向量进行结构比对而不是整个一套坐标。然后,算 法试图最佳地匹配这些向量,寻找类型和相对方位相 同的成对结构单位,并且在这些单位之间还要有同样 的连接方式。 ? 最后,在每个残基位置上使用蒙特卡洛方法对结构的 比对进行优化。

BLITZ蛋白质序列搜索
Blitz是采用完全的Smith-Waterman算 法进行序列比对的工具。结果比Blast和 Fasta更准确。但耗费时间比较长。 http://www.ebi.ac.uk/MPsrch/index.html?Un iProt 也可采用e-mail的方式。详细使 用方式,可向blitz@ebi.ac.uk发送一份正 文为 HELP 的邮件。

生物信息分析工具GCG
? GCG (Genetics Computer Group) 软件包 是一个序列分析、数据库管理、数据挖掘 和可视化工具的综合系统 ? 由140多个独立的程序组成,每个程序进 行一项单一的分析任务。 ? 广泛应用

? GCG支持的两种核酸数据库
– GenBank数据库 – 简化版的EMBL核酸序列数据库

? GCG支持的三种蛋白质数据库
– PIR – SWISS-PROT – SP-TrEMBL数据库。

1、序列的两两比较

– –

– –
– –

Gap: BestFit: FrameAlign: Compare: DotPlot: GapShow: ProfileGap:

2、多个序列比较
– – – – – – – – – – – – –

PileUp: HmmerAlign: PlotSimilarity: Pretty: PrettyBox: MEME: HmmerBuild: HmmerCalibrate: ProfileMake: ProfileGap: Overlap: NoOverlap: OldDistances:

3、按字符方式搜索数据库


LookUp:




StringSearch:
Names:

4、按序列搜索数据库
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? BLAST: NetBLAST: FastA: Ssearch: TFastA/TfastX/FastX: FrameSearch: MotifSearch: HmmerSearch: ProfileSearch: ProfileSegments: FindPatterns: Motifs: WordSearch: HmmerPfam: Segments:

5、DNA/RNA二级结构
? Mfold
利用能量最小化方法,预测DNA或者RNA的最优二 级结构或局部最优二级结构。

? PlotFold
显示由Mfold预测的二级结构

? StemLoop
发现序列中反向重复,用户可以指定其长度、最大 和最小环尺寸等参数

6、进化分析
? ? ? ? PAUPSearch: PAUPDisplay: Distances: Diverge:

GENSCAN
GENSCAN是美国麻省理工大学的 Chris Burge于1997年开发成功的人类 (或脊椎动物)基因预测软件,它根据 基因的整体结构进行基因预测,不依赖 于已有的蛋白库,是一种"从头预测"软 件。目前Chris Burge还开发了适用于果 蝇、拟南芥菜、玉米的专用版本。对于 非版本专用的物种,其预测准确率会下 降。

根据作者Chris Burge本人的数据, 对特定核苷酸预测的校正准确率为91%, 对外显子的平均准确率为80%。

Genscan的用途
基因的识别 ? 外显子 ? 内含子 ? 基因间区域 ? 转录信号 ? 翻译信号 ? 剪接信号 ? 等等……

基因结构

基因识别的方法
? 利用同源比对.(blast) ? 基于基因中编码序列和非编码序列区域 碱基的统计差异性. ? 根据真核基因的生物结构,建立整体的 基因预测模型.(Genscan)

Genscan
? Genscan程序是通过设计基因序列模型 来得到真核生物的基因.其编码区使用 五阶的马可夫模型,而不使用来自同源 信息的模型,使得Genscan的结果不依靠 于目前的蛋白库中的相似基因,从而提 供了于同源基因识别不一样的方法.

Genscan 的特点
? 1.根据CG组分的不同使用不同的参数。 ? 2.可识别序列中的多个基因。 ? 3.新的受体和供位点的统计学模型。

模型的局限
? 仅能处理相邻状态间的相互作用 ?仅处理蛋白质编码基因(不用于 tRNA,rRNA) ? 翻译单元仅考虑了内含子(没有5`,3`不 翻译的区域) ? 重叠转录单元没有考虑 ? 一些调整元素没有考虑(增强子) ? 于可选择剪切有关的信号没有包含.

结业作业
1、从Genbank或EMBL中查找人类胰岛素 基因(insulin) 2、从PIR和Swissprot查找相应蛋白质 3、从PDB中找到蛋白结构 4、应用BLAST或FASTA搜索其同源蛋白。 5、设计外显子扩增引物 6、使用DNAman软件分析对应蛋白质

结业作业
1、谈谈你对生物信息学的认识和了解 2、从DNA开始。设计一条研究未知DNA 功能的途径 3、以人类胰岛素为例运行一个查询实例 4、运行一个BLAST或FASTA的实例


推荐相关:

2011春生物信息学上机考核题及要求

生物信息学讲义2011 暂无评价 245页 免费 2011生物信息学复习资料 暂无评价 3页...②第一页第一行左上角为“生物信息学课程考核” ,左对齐,黑体 5 号字体;第...


生物信息学电子资料总汇

tid=266342&extra=page%3D1 20.《生物信息学讲义 华中农业大学 http://nh...文档贡献者 WYbiocc 贡献于2011-12-13 专题推荐 2014教师资格材料分析辅... ...


生物信息学讲义

生物信息学讲义_医学_高等教育_教育专区。第一部分:生物信息学基础知识 第 1 节:生物信息学及现代组学 一、生物信息学的产生与发展 生物信息学(Bioinformatics)是...


《生物信息学》复习资料

生物信息学》复习资料_理学_高等教育_教育专区。《生物信息学》先锋版 中译本 第二版 科学出版社 《生物信息学》复习资料 《生物信息学》先锋版 中译本 第二...


生物信息学复习资料

生物信息学是生物和信息技术的结合,这一学科包括了用来管理、分析和操作大量生物数据集的任 何计算工具和方法。 (2)生物信息学主要由哪三 ...


生物信息学入门知识

生物信息学入门知识生物信息学是用数理和信息科学的观点、 理论和方法去研究生命现象、 组织和分析呈现 指数增长的生物学数据的一门学科。首先是研究遗传物质的载体 ...


生物信息学网站网址(全)

生物信息学网站网址(全)_生物学_自然科学_专业资料。生物信息学网站 分子生物学数据库综合目录 1. SRS 序列查询系统 ( 分子生物学数据库网络浏览器 ) http://...


生物信息学资料整理简约版

生物信息学资料整理简约版_生物学_自然科学_专业资料。1.生物信息学(Bioinformatics): 是研究生物信息的采集, 处理, 存储, 传播, 分析和解释等各方面的学科。新兴...


生物信息学学习资料

1.1 引言 1.1.1 生物信息学概念 20 世纪是科学技术迅速发展的世纪, 物理和化学的发展使我们可以清楚地认识物质的组成, 从分子、原子、电子等各层次上深入地...


生物信息学参考书籍(入门级)

生物信息学参考书籍(入门级)_生物学_自然科学_专业资料。生物信息学参考书籍(入门级) 1、 David W.Mount 《Bioinformatics sequence and genome analysis》 影印本...

网站首页 | 网站地图
All rights reserved Powered by 简单学习网 www.tceic.com
copyright ©right 2010-2021。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com