(生物医学工程专业论文)神经系统相关生物信息二级数据库的构建.pdf_第1页
(生物医学工程专业论文)神经系统相关生物信息二级数据库的构建.pdf_第2页
(生物医学工程专业论文)神经系统相关生物信息二级数据库的构建.pdf_第3页
(生物医学工程专业论文)神经系统相关生物信息二级数据库的构建.pdf_第4页
(生物医学工程专业论文)神经系统相关生物信息二级数据库的构建.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 a b s tr a o t 2 1 s tc e n t u r yi st h ec e n t u r yo fl i f es c i e n c e b i o i n f o r m a t i c sh a sg o t t e nu n p r e c e d e n t e d d e v e l o p m e n ti nr e c e n ty e a r sa n dh a sb e c o m e t h ef o r e l a n da n d h o t s p o to f t h es t u d yo fl i f e s c i e n c e a l o n gw i t ht h er a p i dr e s e a r c ho nn e u r a im o l e c u l a rb i o l o g y , t h ec o l l e c t i o na n d c o o r d i n a t i o no fh i g h t h r o u g h o u td a t aa b o u tn e u r a ls y s t e mr e l a t i v ep r o t e i n sa n dg e n e sa r e n e c e s s a r y f i r s t l y , am e t h o do fb u i l d i n gb i o i n f o r r a a t i o ns e c o n d a r yd a t a b a s e sm o r ea u t o m a t i c a l l y i sp r o p o s e d a g e n tp r o g r a m sa r eu s e dt or e t r i e v ed a t af i r o mi n t e m e tb i o l o g i c a ld a t a b a s e s t h e r e f o r e ,i n f o r m a t i o nc a l lb ec o l l e c t e da n du n a t e da u t o m a t i c a l l yi ns e c o n d a r yd a t a b a s e s b e s i d e s ,x m li sa d o p t e da st h es t a n d a r df o r m a tf o rn u c l e o t i d ea n dp r o t e i ns e q u e n c ed a t a d e s c r i p t i o na n de x c h a n g e t h er e q u i r e dw e bd a t aa r er e s t o r e di nx m l ,w h i c hc a l lb e p a r s e da n ds u b m i t t e di n t o t h es e c o n d a r yd a t a b a s e ,a n dt r a n s f o r m e di n t oh t m ld u et o p u b l i s h i n gc o n v e n i e n t l y t h u s s e m a n t i c a n a l y s i s i s s i m p l i f i e d a n dd a t a i n t e g r i t y i s g u a r a r t t e e d t h i sm e t h o d c a l lh e l ps e c o n d a r yd a t a b a s ed e v e l o p e r st oc o l l e c tt h ed a t ar a p i d l y t h a ta r e r e a l l yn e e d e df r o mm a g n a i l j m o u 5s o u r c e s ,u s et h e s ed a t ai na f l e x i b l ew a y , t h u s p a y m o r ea t t e n t i o nt om o r ep u r eb i o i n f o r m a t i o n p r o c e s s i n g t h r o u g h t h i sm e t h o d ,ag r e a td e a lo fd a t aa b o u tp m t e i n sa n dg e n e sc o n c e r n i n gn e u r a l s y s t e mf u n c t i o n sa n da c t i v i t i e sa r ec o l l e c t e da n da r r a n g e dt ob u i l dab r i e fa n ds p e c i a l i z e d n e u r a lb i o i n f o r m a t i o n s e c o n d a r yd a t a b a s e ,w h i c hc o n s i s t s o f1 2 t a b l e s ,i n c l u d e s s e q u e n c e so fp r o t e i n sa n dn u c l e i ca c i d s ,s t r u c t u r e so fp r o t e i n sa n df a m i l i a ra b b r e v i a t i o n s a b o u tn e u r a lm o l e c u l a rb i o l o g y t h i ss y m e mi se s t a b l i s h e do nt h eh i 曲p e r f o r m a n c ec l u s t e r s y s t e mo fl a n g c h a ot s l 0 0 0 0a n do r a c l e9 i j s p , j a v a b e a n sa n d r e l a t i v et e c h n o l o g ya r e u s e dt od e v e l o pa l lk i n d so f a p p l i c a t i o n sa n d d a t aa r es h a r e do i li n t e r a c t t h ee s t a b l i s h m e n to ft h en e u r a lb i o i n f o r m a t i o ns e c o n d a r yd a t a b a s ep r o v i d e sa n e x c e l l e n tr e s e a r c hp l a t f o r mo fn e u r a lm o l e c u l a rb i o l o g yr e s e a r c ha n df u r t h e rs e t su pt h e f o u n d a t i o no ft h ef o l l o w i n gb i o i n f o r m a t i o nr e s e a r c hs u c ha st h ev i s u a l i z a t i o no fn e u r a l s y s t e m r e l a t i 、,eg e n o m ed a t a , k e yw o r d s :b i o i n f o r m a t i c s ,n e u r a ls y s t e m ,s e c o n d a r yd a t a b a s e ,a g e n tp r o g r a m ,x m l 本课题受到国家高技术研究发展计划( 国家8 6 3 计划) 项目2 0 0 2 a a 2 3 4 0 5 1 和2 0 0 3 a a 2 3 1 0 1 1 的资助。 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的 研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 学位论文作者签名:五馨 日期:现l 眸s 月r 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存和汇编本学位论文。 保密口,在 本论文属于 不保密口。 ( 请在以上方框内打“4 ”) 学位论文作者签名:乏攀 日期:2 0 剖,侔s 月亨日 年解密后适用本授权书。 华中科技大学硕士学位论文 1 1 课题背景 1 绪论 在人类发展的历史长河中,人们从未停止过对生命奥秘的探索。上个世纪8 0 年 代后期,分子生物学技术的发展和人们对生物医学所带来的种种益处的期望,导致了 人类基因组计划( h u m a ng e n o m e p r o j e c t ,h g p ) 和其他模式生物基因组计划的的启动, 即在基因图谱上表示出来的基础上,将d n a 上所有基因的位置、结构、功能以及作 用方式全部加以破译。 基因组计划改变了经典遗传学的研究途径,而着眼于生物体的整个基因组的所有 基因。在分子遗传学上,基因组是代表并决定一个物种的所有d n a 分子的总和。例 如,组成人类基因组的染色体有2 4 条,由约3 0 亿对核苷酸的d n a 分子组成,而基 因的数目估计约为3 4 万个,携带了人类任何一个个体的,与生长、发育、疾病、 衰老、死亡有关的全部遗传信息。人类基因组计划的初步完成【l j 【习和其它一些模式生 物的基因组计划的相继完成或全面实撼p 删跚,把生命的研究推向更高的境界,同时 也为生物信息学创造了施展身手的巨大空间。 生物信息学是一个词典里还没有的英文新词b i o i n f o r m a t i c s 的直接翻译,它是基 于计算机和互联网的应用和信息科学的知识方法对生物信息进行收集整理、分析、处 理和应用的一门交叉学科。生物信息学从产生至今经历了2 个历史时代,即前基因组 时代( 也被称为测序基因组时代) 和后基因组时代( 也被称为功能基因组时代) 。目 前,生物信息学正处于这样一种时代的交叉中,在核酸、蛋白质的序列和结构等生物 学数据呈指数级增长的同时,生物信息学的研究重点己悄然由数据的积累转到数据的 处n t 6 1 1 7 1 。 由此看来,虽然生物信息学的研究范围很广,但其研究对象与生物学数据直接相 关,即生物信息学的研究工作都是围绕着数据获取、加工和利用展开的。随着基因组 研究的日益深入,生物学数据积累出现了前所未有的飞跃。这些迅速增长的生物学数 据包括分子序列( 核酸和蛋白质) 、蛋白质二级结构和三维数据结构、蛋白质疏水性 数据,等等。例如,n c b i ( 美国国家生物技术信息中心) 维护的g e n b a n k 数据库博 序列的数量目前已经超过2 2 0 0 万条记录,而碱基对的数量超过2 9 0 亿,并且还在以 华中科技大学硕士学位论文 每秒2 2 0 个碱基对的速度增加( 参见图1 1 ) ,同时保持与其他核酸数据库1 9 1 1 0 】的数据 交换。与d n a 序列数据指数增长同步的还有蛋白质序列数据,截止2 0 0 4 年4 月,蛋 白质序列数据库s w i s s p r o t 1 1 1 实际测得的蛋白质序列数已经接近1 5 万,f h 核酸序 列翻译得到的蛋白质序列总数达到t 0 6 万。此外,蛋白质三维结构数据库p d b ”2 j 中 已有2 万套原子坐标以不同的分辨精度被测定。面对如此迅速增长的生物学数据,如 何有效管理、准确解读、充分使用这些信息,而不被这些浩如烟海的数据所淹没,并 从中找到明确的研究方向,已成为生物学发展亟须解决的问题l l 。 f t f l | 一一一一 茧虽豢虽餮营aa 。、a 口、o 一一 h_ _ 一(-q 图1 1g o n b a n k 数据增长( - 表示碱基对;表示序列) 例如,虽然作为生物信息学研究万里长征第一步的人类全基因组测序计划已于 2 0 0 1 年提前吹响了胜利的号角,但是面对这本仅由4 个字母组成的长达3 2 亿字的“天 书”,凭借今天人类所掌握的“遗传密码”知识,所能读懂的几万个基因而己。所以 迫切需要一种工具来有效地分析这些数据,生物信息学正是扮演了这样一个重要的角 色,即最终将借助生物信息学的知识方法读懂这本“天书”,从海量数据中寻找生物 遗传的本质,发现生命运动中那些最基本的规律。 总之,随着越来越多的物种的基因组被测定,那种倾毕生精力研究一个基因、一 条代谢途径或一种生理周期的时代已经逐渐过去。人们需要阐明细胞内的全部相互耦 合的调控网络和代谢网络,细胞间的全部信号转导过程,从受精卵到成体的全部生理 和病理的基因表达变化,等等,这一切都超出了手工分析的可能性。因发明了一种 d n a 快速测序方法而同f s a n g e r 分享1 9 8 0 年诺贝尔化学奖的wo i i b e r t ,1 9 9 1 年在 2 碱基对数一单位一百万一 o 蝴 删 姗 如 篮 ” 5 o 序列数一单位百万一 华中科技大学硕士学位论文 英国自然周刊上针对生物学研究形式的变化撰文,指出:“正在兴起的新的范式 在于,所有的基因将被知晓( 以电子可操作方式存储于数据库中) ,今后生物学 研究项目的起点将是理论的。一位科学家将从理论推测出发,然后再回到实验中去追 踪或验证这些理论假设。”这段话对生物信息学的研究和发展有着重要的影响。 1 2 国内外概况 1 2 1 生物信息学数据库 分子生物学数据令人惊愕的数据积累以及对它们内部神秘而精细的作用模式的 揭示形成了当前数以百计的生物信息学数据库。归纳起来,大体可以把这些生物信息 数据库分为4 个大类( 图1 2 ) ,即基因组数据库、核酸和蛋白质一级结构序列数据库、 生物大分子( 主要是蛋白质) 三维空间结构数据库以及上述3 类数据库和文献资料为 基础构建的二级数据库( s e c o n d a r yd a t a b a s e ) 。 基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自x 一 衍射和核磁共振结构测定。这些数据库是分子生物信息学的基本数据资源,通常称为 基本数据库( p r i m a r yd a t a b a s e ) ,也称一级数据库。根据生命科学不同研究领域的实 际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、 整理、归纳、注释,构建具有特殊生物学意义和专门用途的二级数据库,是数据库开 发的有效途径。近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百 个二级数据库和复合数据库,也称专门数据库、专业数据库、专用数据库。 一级数据库一般是国家或国际组织建设和维护的数据库,其数据来源一般为直接 实验测得的原始数据,只经过简单的归类整理和注释。而二级数据库是在一级库的基 础上,结合工作的实际需要将部分数据从一级库中取出,重新组合( 包括定的修正 和调整) 而成的特定的数据库。一级数据库的数据库量大,更新速度快,用户面广, 通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。例 如,欧洲生物信息学研究所( e b i ) 使用o r a c l e 数据库软件管理核酸数据库e m b l ; 而基因组数据库g d b ”】的管理则基于s y b a s e 数据库系统,即使是安装其镜像,也需 要有s y b a s e 支撑。而二级数据库的容量则要小得多,更新速度也不象一级数据库那 样快,甚至可以不需要大型商业数据库软件的支撑。许多二级数据库的开发基于w e b 浏览器,使用超文本语言h t m l 和j a v a 程序编写的图形界面,有的还带有搜索程序。 华中科技大学硕士学位论文 这类针对不同问题开发的二级数据库的最大特点是使用方便,特别适用于计算机使用 经验并不丰富的生物学家。 染色体 基因组作图 基因组图谱 核酸卜1 广叫d n a 序列 蛋白质 序列测定 结构测定 蛋白质序列 蛋白质结构 基因组 数据库 核酸序列 数据库 蛋白质序列 数据库 蛋白质结构 数据库 图12 生物信息学数据库 生物信息学 数据库工具 生物信息学 数据库工具 级 数 据 库 复 口 数 据 库 国际上二级数据库非常多,它们因为针对不同的研究内容和需要而各具特色,种 类繁多,如肽酶数据库m e r o p s 1 6 1 、蛋白质相互作用数据库d i p 1 7 】、配体门控离子 通道数据库l o l c d b 1 8 】、g 蛋白偶联受体突变数据库t g t l a p 19 1 、酶反应化学数据库 l i g a n d 【2 0 】等。从1 9 9 4 年开始,n u c l e i ca c i d sr e s e a r c h ) ) 在每年的第1 期都用来刊 登生物信息数据库方面的文章。而国内这方面的进展相对比较缓慢,较有成效的如北 京大学的水稻矮缩病毒基因组数据库r d v 【2 1 和蛋白质回环分类数据库l o o p s 、中科院 化工冶金研究所的海洋天然产物数据库口2 1 等2 3 1 【2 4 】。为了改变我国在这方面的滞后状 况,2 0 0 2 2 0 0 5 年度8 6 3 计划将建立具有国际水平的国家生物信息搜集、管理、分析 和服务基地,重点建立一批有特色、可整合的二级数据库作为生物和现代农业技术领 域内的重大主题之一。 1 ,2 2 神经分子生物学研究现状 神经活动是最复杂的生命现象之一,揭示其奥秘是对自然科学的重大挑战。神经 组织的基因表达( 估计有3 万种) 远远超过其他组织中的基因表达( 约2 万种) 数量, 华中科技大学硕士学位论文 高度分化的神经系统的基因表达产生的神经组织特有蛋白质的种类之多,在其他组织 也十分罕见1 2 5 1 。 近年来,神经生物学研究发展迅速,神经系统相关的实验生理、病理数据也越来 越多。这些信息多、而且零散地分布于各个数据库以及众多的文献中。三大核酸序列 数据库( e m b l 、d d b j 、g e n b a n k ) 中已收录有一部分生物的神经系统相关的d n a 和m r n a 序列信息;在大型蛋白质库( p 双、s w i s s p o r t 、p d b 等) 中已收录有部 分神经系统相关的蛋白质序列和三维结构信息。然而,目前国际上公共生物信息数据 库的数据量庞大且更新速度很快,其数据是直接从数据库中提出,并经过程序运算, 最终生成页面。所以国内从事神经科学研究的科学工作者往往要通过手动操作在网上 获取生物医学信息,加之对数据结构以及数据项含义的不熟悉,致使查询效率低。对 于已经开始将网络作为一种辅助实验研究的科研人员,一种操作简单、针对性强的数 据库可以将他们从w e b 的海洋中解脱出来,大大提高了信息检索的效率。 这一数据库的建立也是进一步开展神经信息学研究的基础”3 。我们可以看到这 样一个事实:分子克隆己清楚的表明,已获得序列信息的g 蛋白耦联受体家族( 包括 肾上腺素受体、视蛋白等) ,其序列的最显著的特点是含有7 段疏水性跨膜结构域, 每一段由2 0 2 8 个疏水氨基酸组成。令人感兴趣的是,这种模式是如此的一致,那 些转导机制还没有搞清楚的新受体仅凭其氨基酸序列就可以准确地归类到该家族1 。 另外,在人类超过4 0 0 0 种的遗传性疾病( i n h e r i t e dd i s e a s e ) 中,约有半数累积神 经系统。由于神经系统遗传性疾病具有家族性和终身性的特点,可以在任何年龄阶段 发病,其致畸、致愚和致残率很高,危害性极大。例如,先天愚型出生即异常,黑朦 性痴呆、婴儿球形脑白质营养不良在婴儿期发病,假肥大型肌营养不良在儿童期发病, 腓骨肌萎缩症起病于青年期,遗传性舞蹈病、遗传性共济失调多于中年期发病,中老 年期发病的如橄榄脑桥小脑萎缩,肝豆状核变性则在5 4 0 岁均可发病。深入研究神 经系统相关疾病,会得到大量有价值的信息,对这些信息加以整理和分析,将会给神 经生物学家的研究提供极大的便利四j 。 1 3 课题主要研究工作 本文在国内首次构建了神经系统相关生物信息二级数据库,并结合了软件工程的 理论方法,实现了一套较为完整的二级数据库构建方法。主要工作如下: 华中科技大学硕士学位论文 1 对研究背景和国内外研究概况进行了简单地介绍和分析; 2 基于w e b 信息自动获取技术实现序列数据下载,保存为x m l 格式的文档: 3 利用x m l 技术对x m l 文档进行解析并提交n - - 级数据库,同时将文档转换 成适合w 曲发布的h t m l 格式: 4 根据神经系统的特点和数据库的易用性,确定对神经系统的相关信息数据的整 体架构,并提供相应的分类信息; 5 以数据库搜索和维护维护为核心,设计和制作了二级数据库的发布网站; 6 对本文的研究进行总结,提出需要进一步研究的问题。 虽然本文对上述工作分章节介绍,但它们之间的关系非常密切( 参见图1 3 ) 。例 如数据库的结构设计需要结合w e b 获取的网站来源,而对x m l 文档的解析需要参考 二级数据库的基本表设计,等等。所以,本文在下一章探讨w 曲信息自动获取技术 的同时,对整个系统的构建过程也作了一个总体的介绍。 i 网站发布( 第5 章) l j 。l 复生妻! j 二,! 图1 3 论文主要内容及其组织结构图 6 华中科技大学硕士学位论文 2 神经系统相关序列信息的自动获取 一般而言,生物信息一级数据库的数据直接来源于原始的实验数据( 包括核酸和 蛋白质两类生物大分子的序列和结构信息) ,只经过简单地整理和注释。一级数据库 数据量大,更新速度快,数据通过i n t e r n e t 进行发布,一般还提供免费的数据库检索 服务。而专业二级数据库的构建很少来源于直接的实验数据,往往是结合某一研究领 域的实际需要,通过搜索已知数据库( 主要为一级数据库) 的数据信息,并对其进行 加工整理而成。二级数据库专一性强,数据质量高,在实验室的日常工作和生物信息 学的研究发展中具有不可替代的重要作用。同时也带来了一个问题:在二级数据库构 建过程中,如何从原始公共数据库中获取数据。 考虑到全文各部分工作之间的关系非常密切( 参见图1 3 ) ,本章在探讨数据获取 技术的同时,对整个系统构建过程也作了一个总体介绍,讨论了某些具有共性的问题。 2 1 问题的提出和分析 目前国内进行生物信息学研究的科员人员主要是通过手工操作在网上获取生物 信息资源。首先访问原始数据库的w e b 站点( 如h t t p :w w w n c b i n l m n i h g o v ) ,对数 据库中各种注释信息进行关键词匹配查找,将查询结果以文本文件形式逐条下载到本 地计算机,以便随后分析整理并导入二级数据库。由于二级数据库的构建基于大量原 始数据的分析筛选,加上网络硬件条件的限制,手工获取生物信息数据会浪费大量的 时间。一个可行的解决思路就是让计算机程序替代人进行数据的查询和下载。 根据原始数据库的条目变化更新二级数据库中的相应条目,手工方式的效率显然 更无法满足要求。例如,美国n c b i 的核酸序列数据库g e n b a n k 提供了一个条目捡索 的主要关键词序列编号,当序列被更新( 如更正某一基因片断的核苷酸序列) 时, 序列编号字段( 如a f 0 1 0 3 2 5 ) 不会改变,而版本号字段将会改变( 如a f 0 1 0 3 2 5 1 变 为a f 0 1 0 3 2 5 2 ) 。二级数据库中的序列条目可以通过比较版本号来判断是否需要更新。 随着实验测序精度的不断提高,原始数据库中已公布的数据变动较少,但具有不确定 性,更需要采用一种w e b 数据自动获取的方法来提高效率。 实际上,在人类使用浏览器访问i n t e m e t 的同时,还有一些特殊的网络用户也在 i n t e m e t 上工作着 3 。 ,这些用户就是i n t e m e t 程序。i n t e r n e t 程序有很多种( 图2 1 ) , 华中科技大学硕士学位论文 分别完成不同的特殊功能。例如著名的搜索引擎公司g o o g l e 就是利用s p i d e r ( 网络 蜘蛛) 程序来遍历w e b 站点,以创建并维持大型的网址数据库。而i n t u i t 的金融软件 q u i c k e n 则是运用a g g r e g a t o r ( 网络信息搜集器) 程序集中查看用户的多个金融和信 用帐户信息。 a g g r e g a t o r 程序 一种b o t 程序,能从很多 含相似内容的w e b 页面上 获取综合信息,劳将这些 数据以集中的方式提交给 用户。 s p i d e r 程序 一种专业化的b o t 程序, 用于查找大量的w e b 页 西。s 口i d e r 程亭事先不知道 将要查询的页面,程序通 过上一个页面的奁询结果 查找下一页面。 图2 1b o t 、s d i d e r 、a g g r e g a t o r 和a g e n t 程序 a g e n t ( 代理) 程序是另一类经常使用的h a t e m e t 程序,它通过主控用户进行一系 列的关键词的设定,扫描特定的信息源,查找出用户感兴趣的特定信息【3 1 1 。图2 2 显 示了查询公共一级数据库并下载相关数据的流程图,根据一级摩更新二级库的过程与 其类似。手工查询往往需要用户进行不断地选择判断并响应结果,a g e n t 程序则自动 完成这样的过程,它通过一系列预定的方式代替用户进行判断,在一级数据库网站上 穿梭并收集所需要的信息“。 通过a g e n t 程序下载数据特别需要注意避免对公共数据库网站的访问过于频繁, 因为这样会显著增加站点服务器的负荷,干扰了网站的正常操作,从而带来不必要的 负面影响。实际上,对序列信息的搜集没有必要达到对新闻信息( 每天访问1 次或几 次) 或股市信息( 每隔几秒就得访问1 次) 搜集那样的要求,在算法设计中,我们主 华中科技大学硕士学位论文 要通过设定合理的访问频度来解决这一问题。 自定关键词和需要搜索的所有一级数据库 + i 叫选取其中一个数据库 岔岁咂 否 得到查询结果及其链接 是 i 打开其中一个结果的w e b 页面 + i 以文本方式下载并保存 + 公否一 兰:一 是 豁 图2 2 下载一级数据库条目的业务流程图 大多数a g e n t 程序依赖于特定站点w e b 界面的细微之处,数据发布格式的更改或 其他信息的插入都可能导致其无法工作。值得庆幸的是,大多数公共生物信息一级数 据库都维护种或几种固定的数据格式,而且这些格式在几年内可能不会改变。例如, n c b i 对其维护的核酸序列数据库g e n b a n k 的数据发布格式进行了详细严格的规定: 每一序列条目由字段组成,有些字段又分为若干次级字段;每个字段由标识符起始, 华中科技大学硕士学位论文 后面为该字段的具体说明,见表1 ;条目的w e b 发布以标识符“l o c u s ”起始,以 双斜杠“,”作为结束标记;主标识符从第l 列开始,次标识符从第3 列开始,特性 表说明符从第5 列开始,等等( 参见网址邱:f t p n c b i n i h g o v g e n b a n k g b r e l t x t ) 。所 以,虽然o e n b a n k 的数据发布不是为计算机读取设计的,但已经有一些科研人员用整 套的计算机程序对其记录进行分析、转换和信息提取工作吲。 表21g e n b a n k 数据库条目的主要字段组成 标识符内容 序列名称、长度、分子类型、序列类 l o c u s 别、修改日期 d e f d 叮t i o n 简单定义 a c c e s s i o n 序列编号 v e r s i o n序列版本号 k e y w o r d s与序列相关的关键词 s o u r c e物种来源 o r g a n i s m物种学名、分类学位置 r e f e r e n c e参考文献编号 a u t h o r s参考文献作者 t r i 工e参考文献标题 j o u r n a l 参考文献发表的期刊名 m e d l i n e参考文献m e d l i n e 引文代码 c o 办4 e n t关于序列的注释信息 f e a t u r e s序列特性表( 子项) b a s ec o u n t核苷酸数目统计 o i u g i n序列 与传统的w e b 信息自动获驭技术不同,我们采用了x m l 作为统一的生物信息数 据的描述标准 蚓,将获取的w e b 信息以x m l 格式传输给其他应用模块,为其他的模 块提供数据。使用) m m 作为数据交换格式可以保证获取数据的完整性,使数据能够 被正确地解析。x m l 和数据库在一起工作时,它们结合的紧密程度是非常令人满意 华中科技大学硕士学位论文 的,而大多数应用模块正是利用了二者各自的优势。另外,采用x m l 和j a v a 相结合 的开发模式,能达到可移植数据与可移植代码的完美结合,使系统具有良好的通用性 d 5 1 ,我们将在第3 章详细讨论x m l 技术在序列信息数据处理中的应用。 2 2 算法的设计与实现 目前,我们采用n c b l 支持的核酸序列数据库和蛋白质序列数据库作为专业二级 数据库的数据来源。n c b i 是国际上主要的生命科学信息服务机构之一,每天都有大 量的来自有关实验室和测序机构发布的序列数据进入其数据库,并保持与其他数据库 ( 如e m b l 、d d b j 等) 的数据交换和更新,因而汇集了当前所有公开的核酸和蛋白 质序列。另外,n c b i 数据资源可以免费自由地使用( 以非营利的教育和科学研究为 前提) ,因而不存在用户验证的问题。 自 下 其 i n t e r n e t 本地计算机 批量 基銮- + 数据 管理 匝 图23构建神经系统相关生物信息二级数据库的系统结构图 整个系统的功能结构主要包括4 个部分( 图2 3 ) :由于w e b 信息获取过程中计 算量较大,我们首先将一级数据库中的核酸或蛋白质序列条目以x m l 文档的形式下 载并存放到本地计算机;然后将札文档映射为二级数据库中的表;通过o r a c l e 企 影 华中科技大学硕士学位论文 业管理器对数据库记录进行取舍、修改和注释;再次访问一级数据库中的序列条目, 通过与已获取的数据相比较,实现x m l 文档和数据库的自动更新。 另外,系统还提供了其他一些应用模块,这些模块根据各自的特点分别对x 2 v l l 文档或数据库中的数据进行相应操作。例如,在数据库中进行关键词的搜索往往比在 x m l 文档中搜索快得多,而搜索结果的显示则是直接在网页中嵌入对应的x m l 文档 或v 皿文档转换而成的h t m l 文档( 不必通过数据库生成) ,本文将在第5 章讨论 这些应用模块。 2 2 1 格式选择 前面已经举例说明了核酸序列数据库条目的主要字段组成,蛋白质序列条目略有 不同。例如,如果某蛋白质序列是由核酸序列直接翻译得到的,一般通过d b s o u r c e 字段列出该序列的数据库来源。框2 】显示了蛋白质序列条目( 编号为a a a 3 7 6 5 2 ) 的n c b i 缺省( d e f a u l t ) 发布格式。 除了缺省发布格式,n c b i 的核酸序列数据库和蛋白质序列数据库还提供了其他 几种显示格式,包括a s n 1 、s u m m a r y 、f a s t & 、t i n y s e qx m l 、g il i s t 、g e n p e p t 、 g b s e q x m l 、g r a p h i c s 、x m l 等,用户可通过n c b i 网页提供的表单进行格式选择。 与缺省发布格式相比,n c b i 提供的某些其他格式( 如a s n 1 、g b s e qx m l 、x m l 等) 往往较为复杂,并且不便于用户阅读,但它们具有更丰富的信息和更严格的格式 规范,更能代表n c b i 的数据模型。框2 2 显示了蛋白质序列条目a a a 3 7 6 5 2 对应的 g b s e q x m l 格式。通过几种格式之间的比较,g b s e q x m l 格式具有如下一些优点: 1 以该格式保存的文档能清楚详尽地显示出各个字段的内容及其层次关系,不仅 有利于对其人工查阅筛选,还有利于其他程序模块对其进一步解柝处理( 详见第3 章) ; 2 n c b i 网站上以该格式显示的w e b 页面中,除了条目本身,不包含多余信息和 h t m l 标记,能够使w e b 信息自动获取的过程中的运算量大大降低; 3 ,以该格式保存的文档大小适中( 例如蛋白质序列条目a a a 3 7 6 5 2 对应的缺省 格式文档文件大小为2 2 6 k b 、a s n i 格式为2 3 0 k b 、g b s e q 讧l 格式为4 5 5 k b 、 x m l 格式为9 5 6 k b ) ,从而减小了获取过程中中断的概率。 所以我们选用g b s e qx q v l l 作为w e b 信息自动获取的格式。 华中科技大学硕士学位论文 框2 1n c b i 蛋白质序列数据条目缺省发布格式的一个实例 l o c i j s d e f i n i t l 0 n a c c e s s i o n v e r s l 0 n d b s o u r c e a a a 3 7 6 5 24 4 9a a li n e a rr o d2 7 一a p r 一1 9 9 3 g a b a a l p h ar e c e p t o rd e l a - s u b u n i t a a a 3 7 6 5 2 a a a 3 7 6 5 2 1g l :1 9 3 4 0 2 l o c u s 删s g a b a a la c c e s s i o nm 6 0 5 8 7 1 1 0 c u s 删s g a b a a 2a c c e s s i o nm 6 0 5 8 8 1 l o c u sm u s g a b a a 3a c c e s s i o nm 6 0 5 8 9 1 l o c u s 删s g a b a a 4a c c e s s i o nm 6 0 5 9 l - l l o c u sm u s g a b a a 5a c c e s s i o nm 6 0 5 9 2 1 1 0 c u sm u s g a b a a 6a c c e s s i o nm 6 0 5 9 3 1 l o c u s 埘s g a b m 7a c c e s s i o nm 6 0 5 9 4 1 1 0 c u s 删s g a b m 8a c c e s s i o nm 6 0 5 9 5 1 1 0 c u sm u s g a b a a 9a c c e s s i o am 6 0 5 9 6 1 k e y w o r d s s o u r c em u sm u s c u l u s ( h o u s em o u s e ) o r g a n i s mm u sm u s c u l u s e u k a r y o t a :m e t a z o a :c h o r d a t a ;c r a n i a t a ;v e r t e b r a t a :e u t e l e o s t o m i : m a m m a l i a :e u t h e r i a :r o d e n t i a :s c i u r o g n a t h i :m u r i d a e m u r i n a e :m u s r e f e r e n c e1 ( r e s i d u e slt o4 4 9 ) a u t h o r s s o e r ,b ,p o u s t k a ,a ,s p u r r ,n k a n ds e e b u r g ,p h t i t l et h em u r i n e g a b a ar e c e p t o rd e l t a s u b u n i tg e m e :s t r u c t u r ea n d a s s i g n m e n tt oh u m a n c h r o m o s o m e1 j o u r n a l d n ac e l lb i 0 1 9 ( 8 ) ,5 6 1 - 5 6 8 ( 1 9 9 0 ) 肛d l i n e9 11 0 3 8 7 6 p u 鼬毋d2 1 7 6 7 8 8 c o h 呱n t m e t h o d :c o n c e p t u a lt r a n s l a t i o n f e a t u r e s l o c a t i o n o u a l i f i e r s s o u r c ei 4 4 9 p r o t e i n o r l g i n im d v l g w l l i p 6 1g a p v n v a l a l 1 2 1l p d t f i v n a k 1 8 1d l e s y g y s s e 2 4 1f q l r r n r g v y 3 0 1i p r a s a i k a l 3 6 1v l f s l s a a g v 4 2 1a d t i d i y a r a o r g a n i s m = ”m u sm u s c u l u s 4 d bx r e f = t a x o n :1 0 0 9 0 1 4 4 9 p r o d u c t = 4 g a b a a l p h ar e c e p t o rd e l t a s u b u n i t ” 1 4 4 9 c o d e d _ b y = ”j o i n ( m 6 0 5 8 7 1 : 1 6 8 ,m 6 0 5 8 8 i :1 6 、1 2 8 , m 6 0 5 8 9 1 :1 6 ,8 3 ,m 6 0 5 9 1 1 :1 6 ,2 3 6 。m 6 0 5 9 2 1 :1 6 、9 8 m 6 0 5 9 31 :1 6 1 5 3 ,m 6 0 5 9 4 1 :】6 ,】7 l ,m 6 0 5 9 5 1 :1 6 2 2 7 m 6 0 5 9 6 1 :1 6 3 0 6 ) ” 1 l l l c t q p h h e v a s i d h i s e s a w f h d v e v e d 1 v y 卵s e n q i i q s y m p s v l d v y f w i c y v f s q e l a ls r r q v f p a a f a a v n g e x a m n d i g d a n m e y t m t v f n k l i r l q p d g e q i h g l d r l q 】v d d i i s w v s f w v f a a l v e y a f g r v p g n l m g s 1 1 y w a a y t m y v g s n i e l s w l h q s w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论