分子生物学数据库-计算生物学的摇篮_第1页
分子生物学数据库-计算生物学的摇篮_第2页
分子生物学数据库-计算生物学的摇篮_第3页
分子生物学数据库-计算生物学的摇篮_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分子生物学数据库

——计算生物学的摇篮

1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人

类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在

1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供

了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了

解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以

将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个

基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具

有的基因数却少于线虫,

这暗示着染色体上有些区域的基因没有直接被翻译成蛋

白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜

的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。人类

基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这

其中也含有大量的冗余序列。在获得了如此多的核算信息后,大量的蛋白质信息

也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相

互作用等等。

针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是

一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未

知的信息。在美国最初提出人类基因组计划时,成立了一个由42位专家组成的

生物信息研究小组,

专门处理获得的相关信息。

随着信息的积累,

生物学的发展,

以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计

学、

物理等学科的研究方式,

将会大大降低人类的工作量,同时更系统,

更全面,

更快速,更准确的分析已有的数据。

在此背景下,计算生物学和生物信息学应运而生。计算生物学和生物信息学

都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。总的来讲,计

算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物

学的问题,这些问题常常需要海量的数据,计算和分析。生物信息学侧重于生物

学信息的采集、储存、分析处理和可视化等方面,计算生物学则侧重于利用数学

模型和计算仿真技术对生物学问题进行研究,

计算生物学需要使用前期的生物信

息学的研究成果。计算生物学主要处理的问题有:比对和分析基因组序列;在不

同的序列、结构和功能之间找出相关性;精确计算(预测)生物分子结构;生物

物理和生物分子方面的研究等等,一般前三点偏向于使用信息生物学的手段,后

两项属于计算生物学的主要研究目的。

1996年,MaryClutter在"HearingonComputationBiology"中讲到:计算生物

学是一项影响科学技术发展的革命的一部分。这项革命将会受海量的、种类繁多

的数据,以及能够迅速准确全面的收集、存储和分析的智能系统所驱动。因此,

由庞大数据构成的分子生物学数据库在计算生物学这门学科中发挥了不可替代

的作用。

如今,大约有500-1000个分子生物学数据库正被越来越多的人使用着,常

见的有GenBank,EMBL-Bank(EuropeanMolecularBiologyLaboratoryBank)

DDBJ(DNADataBankofJapan)PIR(ProteinInformationResource)

SWISS-PROT等等。

EMBL-Bank是欧洲分子生物学实验室核酸序列数据库,是最早的数据库,

也是欧洲最主要的核算数据库,于1982年建立。EMBL-Bank数据库的数据来源

主要有两条途径:一是由序列发现者直接提交,几乎所有的国际权威生物学刊物

都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ,

得到数据库管理系统所签发的登录注册号。

二是从生物医学期刊上收录已经发表

的序列资料。截止2000年,EMBL-Bank数据库中的核酸序列总长度达70亿个

碱基,覆盖2/3的人类基因组序列。对于每个序列,相关数据包括序列名称、序

列、位点、关键字、来源、生物种、参考文献、注释、序列中具有重要生物学意

义的位点等。而到2004年2月,数据库中的核酸序列数超过3000万条,总的数

据量近400亿bp。随着分子生物学技术的不断发展,数据的增长速度将会不断

地提高,按照每年约60%的速度增长。

GenBank是美国国家生物技术信息中心(NCBI)建立的核算序列数据库,

从公共资源中获取序列数据,

主要是科研人员直接提供或来源于大规模的基因组

测序计划。GenBank数据库包含了所有已知的核算序列和蛋白质序列,以及与

它们先关的文献著作和生物学注释。到1999年,GenBank中收集的序列数量已

达450万条,34亿个碱基,而且数据增长速度逐渐加快。GenBank数据库里的

数据来源于约55000个物种,其中5%是人类基因组序列(所有序列中的34%是

人类的EST序列)每条Genbank数据记录包含了对序列的简要描述:它的科学

命名、物种分类名称、参考文献、序列特征表以及序列本身。序列特征表里包含

了对序列生物学特征的注释,如编码区、转录单元、重复区域、突变位点或修饰

位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮

齿类、EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST

数据等又被各自分成若干个文件。GenBank中最常见的是序列文件,索引文件及

其它相关文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注

释两部分;索引文件是根据数据库中作者、参考文献等字段建立的,用于数据库

查询。

DDBJ数据库建立于1984年,由日本国立遗传研究所遗传信息中心维护,

截至2002年,共收录1726万条记录,2015835万个核苷酸序列,他首先反映日

本所产生的DNA数据,同时与GenBank、EMBL合作,互通有无,同步更新。

PIR是一个蛋白数据库,它由美国生物医学基金会NBRF(National

BiomedicalResearchFoundation)于1984年建立的,其目的是帮助研究者鉴别和

解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是

一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整

理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分

类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户

可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。目前,PIR已

经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。至2004

年,

PIR有近30万个蛋白质的登录数据项,

包括来自不同生物体的蛋白质序列。

除了蛋白质序列数据之外,PIR还包含以下信息:蛋白质名称、分类、来源;关

于原始数据的参考文献;蛋白质功能和一般特征,包括基因表达、翻译后处理、

活化等;序列中相关的位点、功能区域。

SWISS-PROT是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年

联合建立的,它是目前国际上权威的蛋白质序列数据库,库中的蛋白质序列是经

过注释的。SWISS-PROT中的数据来源于不同源地:1)从核酸数据库经过翻译

推导而来;2)从蛋白质数据库PIR挑选出合适的数据;3)从科学文献中摘录;

(4)

研究人员直接提交的蛋白质序列数据。

2004年3月的SWISS-PROT43.0版

本有146720序列登录项,包含摘自113719篇参考文献的54093154个氨基酸。

数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类

学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二

级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体

和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数

据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利

用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。

SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页

面上完成。

除了上述几种最为常见的关于核酸和蛋白质分子信息的基本数据库外,目前

国际上还有很多实用的数据库,下面再简单介绍其中的几个。

遗传学研究的一个重要方面是建立生物分子序列变化与可遗传表型之间的

联系,其中最常见的序列变化就是单核苷酸多态性SNPs(Singlenucleotide

polymorphisms)

。在人类基因组中,大约在500到1000碱基长度范围内,就会

出现一次单碱基的变化。SNPs对人类遗传学研究和医学应用具有重要的意义,

无论对于人类种群遗传学的研究,还是疾病易感性分析、药物基因组研究或个体

化医疗,都需要深入地研究SNPs。单核苷酸多态性数据库dbSNP是由NCBI与

人类基因组研究所(NationalHumanGenomeResearchInstitute)合作建立的,它

是关于单碱基替换以及短插入、删除多态性的资源库。

具有相似结构的蛋白质很可能具有共同的祖先,

几乎对于任何一个蛋白质都

能找到与其它一些具有相似结构的蛋白质,

其中的一些蛋白质拥有一个共同的进

化原始结构。这种关系对于了解蛋白质的进化和发展是非常关键的,同样对于分

析基因组序列数据也是非常重要的。为了分析蛋白质序列与结构之间的关系,认

识不同折叠结构的进化过程,需要研究蛋白质结构分类的方法,并建立结构分类

数据库。SCOP数据库(StructuralClassificationofProteins)就是一个蛋白质结构

分类数据库。

SCOP的目标是提供关于已知结构蛋白质之间的结构和进化关系的

信息,所涉及的蛋白质包括结构数据库PDB中的所有条目。SCOP数据库除了

提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:通向

PDB的链接,序列,参考文献,结构的图像等。从目前的技术来看,很难借助

于自动的序列和结构比较工具发现蛋白质之间的结构和进化关系,因此,SCOP

的结构分类主要是通过人工来完成的,通过图形显示器观察和比较蛋白质结构,

并借助于一些软件工具进行分析,如同源序列搜索工具。

DSSP(DatabaseofSecondaryStructureofProtein)是一个二级结构推导数

据库,对生物大分子数据库PDB中的任何一个蛋白质,根据其三维结构推导出

对应的二级结构。因此,DSSP是一个二级数据库(相对于原始数据库)

,这个

数据库对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用。

根据上述数据库的不同功能,计算生物学可以涉及到许多领域。

DNA分析与测序。蛋白质是一种复杂的分子结构,以它为骨架才构成了人

类,蛋白的多样性是难以预料的,而编码蛋白的DNA更是复杂多变,利用随机

构建的方法可以获得大量的经验数据。

蛋白结构的预测。因为蛋白质的功能决定于它的结构,因此预测蛋白质的三

级结构是生命科学最重要的目的之一。利用计算生物学科可以准确、快速完整的

预测蛋白质的结构。

构建系统发生树。自从生命出现以来,时间无时无刻不在修饰着有机物物的

遗传密码,物种的的同源性与差异性是研究生命科学的重要依据,利用计算生物

学可以系统的处理大量的遗传信息,并确定其亲缘关系,为人类的研究提供了有

利辅助手段。

新陈代谢通路。新陈代谢是生物生存所必须的过程,这是一个多变的、复杂

的过程,利用计算生物学根据常规的新城代谢通路构建相似模型,就有可能研究

其他通路,或发现新的通路。

既然分子生物学数据库具有如此大的功能,作为一名科研工作者,应该怎样

面对、使用这些数据库呢?

分子数据库是为计算生物学提供了大浪资源,如何充分的使用这种,需要科

研工作者的大量努力,这就是计算生物学的研究目的。若是要物及其用的使用分

子生物学数据库,合适的检索工具是关键,它就是一条船,带我们驶过海洋般的

数据,到达目的地。其次,有效的数据分析软件和管理软件必不可少,它是开发

这些资源的工具。还有合适的生物学模型,这是分析数据的核心,是探索杂乱数

据间关系的重要手段。

中我国的计算生物学研究起步较晚,与欧美国家相比,在研究机构的数量

和规模、研究人员组成以及资金投入方面都存在比较大的差距。国内计算生物学

研究和研究人员大多分散在各个大学和研究院所的其他学科当中,没有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论