(计算机科学与技术专业论文)基于智能agent的个性化生物信息检索系统的设计与实现.pdf_第1页
(计算机科学与技术专业论文)基于智能agent的个性化生物信息检索系统的设计与实现.pdf_第2页
(计算机科学与技术专业论文)基于智能agent的个性化生物信息检索系统的设计与实现.pdf_第3页
(计算机科学与技术专业论文)基于智能agent的个性化生物信息检索系统的设计与实现.pdf_第4页
(计算机科学与技术专业论文)基于智能agent的个性化生物信息检索系统的设计与实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

塑堕型兰垫垄盔堂塑壅尘些兰垡堕苎 箍要 随着生命科学研究的发展,生物学数据呈爆炸式增长,各种生物信息数据 露矮塞不舅。它鬟各鑫按定豹鬟耘牧集耪整理生狻学实验鼗撵,使数攒津呈 现信息量大、数据动态化、结构复杂化的特点,人们必须消耗大艟的时间和精 力获这个清瀚的信息空间中查找蠢己所需的信息。 近年来如现的基于w 曲界面的综合生物信息数据库梭索系统,在某种程度 上解决了一定的问题,但人们在刹用这些系统进行生物信怠检索时,需臻提交 寒袋量夔捡索搀润式,还溪翘遂绩患添熬经萋,这对予一般爱户建绠困滚熬, 也不能适_ 陵i n t e m 融上生物信息空间目前的特点和将来的发展。 智能a g e n t 的邕主髓、主动糯、学习往、智能性为解决网络中生物僚怠服 务与生物信息搜索问题提供了新思路。遵循这一熙路,我们以提离捡索效率、 方便用户森询为目的,提出了一个新的面向生物信息领域的a g e n t 解决方案, 为瘸户提供了一个笼在i n t e r n e t 匕搜索曩户感兴趣售惠豹餐戆工其。 本文设计并初步实现的基于智能a g e n t 的个性化生物信息检索系统 b l o e y e 由掰个a g e n t :倍怠a g e n t 、学习a g e n t ,戬及一个个健信息库和一个 检索结果库组成。它们相互协作,共同完成对用户所需傣息进行捡索、收集、 维护和推送的任务。 关键字:a g e n t 生物信息稔索个性化遗传算法学习a g e n t 信息a g e n t 国防秘学技术失学掰 究生院学位论文 a b s t r a c t w 主| h 穗e 鲫铽魏o f b 取强。l o g y 氍e 如o l 。g y ) 秘e 鑫8 l a 醴b i o l o g y 撤。嘲s 神 e x p o n e n t i a l l y v a r i o u sd a t a b a s e sh a v ee m e r g e d t h e s ed a t a b a s e sa r ec h a r a c t e r i z e d b ym e i ro n o r m o u si n f o r m a t i o n ,d y n a n l i cd a t aa n dc o m p l e xs t m c t i l r e s ,b e c a u s et h e y c o l l e c te x p e r i m e n td a t ai nb i o l o g yw i t hd i f 艳r e n tt a r g e t i tc o n s u m e sl o t so f t i m ea n d e n e r g yt oq u e r yi n f o 强a t i o nr e q u i r e d 矗o ms ov o l u n l i n o n si n f o m l a t i o ns p a c 嚣 1 羹 霉g f 箍e db i o i n f 蕊8 蛙o n 拄i e v 基ls y s 挺f 珏s 鑫p p e 8 r e df e e e 珏l l yh 鑫v es o l v e dt 巍e p f o b l o m t os o i f l ee x t e 嘛b u tp e o p l eh “et os u b m i td e t a i l 赫n n sw i t hh i 醢q u a l n ya n d n e e dt ok n o wm es p e c i f i c1 0 c a t i o no f m es o u r c eo f i n f o r m a t i o nw h e nm e yu s e 协e i m e g r a t e db i o i n f o m a t i o nr e t r i e v a ls y s t e m s t h i si sh a r dt os o m eg e n e r a lu s o ra 1 1 d c a 衄o ta c c o m m o d a t et h ep r e s e n tc h 甜a c t e r i s t i co fb i o i n f o r m a t i o no rd e v e l o p m e n to f 蠡挂u f e t 量l ec h a r a c t e 五s 矗c so f a u t o m ki n i t i 8 t i v e ,氆ea b i l t yt ol e a r n ,i n t e l l g e n to f a g e n tp r o v i d ean e w i d e at os o l v et h eq u e r ya 1 1 ds e r 、,i c oo f b i o i n f o m l a t i o no ni m e m e t a c c o r d i n gt o 懒i si d e a ,、p r e s e n tan e wb i o i n f o m l a t i o n o r i e n t e d 印p r o a c hb a s e do n a g e mt oe n b a n c et h ee 瓶c j e n c yo f q u e r y ,p r o v i d ea ni n t o l l i g e n tt o o lo ni m e m e tt o s e a f c hi n f b f 藏t a l i o nt ha _ t 璐e r si n 钯r e s t e di n 。 w eh a 张d e s g n e 矗强di m p l e m e n t e d 两m 撕l yap o 鹅o n 越i z e db i o i n 如糯毪t 键 r e t r i e v a ls y s t e m b i o e y e ni sc o m p o s e do f i n f oa g e n t ,l e a m i n ga g e n t ,o n e p e r s o n a l i z e di n f b 彻a t i o nb a s ea n do n er e s u l tb a s e t h e yc o o p e r a t ea n dc o m p l e t et h e t a s ko fq u e r mc o l l e c t i o n ,m a i n t e n a i l c ea 1 1 dp u s hi n f b h n a t i o nt h a tu s e r si n t e r e s t e di n k e y w o d s a g e 靛b i o i n 勤糯a 耋i o 瓢l 毽镗至e v 越 p e r s o 歉撼i z e dg e 珏痰i ea l g o r i 氇m l e a r n i n ga g e n t l n f o r m a t i o na g e n t 国防科学技术大学研究生院学位论文 表目录 表2 1 国际常用生物信息数据库 表6 1 用户评价量化表 表6 2 系统测试结果 表6 3b i o e y e 系统与搜索引擎e n 廿e z 的比较 一”记钌 国防科学技术大学研究生院学位论文 图目录 图1 1d o l t r j a g e n t 系统的体系结构及与所处环境的关系图3 图1 2w a i r 的系统结构4 图2 1e n t r e z 数据库系统结构图一1 2 图2 2e m r e z 数据库查询系统主页1 3 图2 3 使用e n t r e z 查询g e n e b a l l k 中和蜘蛛毒素相关的序列条目1 4 图2 4b i o e y e 抽象体系结构1 4 图3 1a g e m 的顶级抽象视图1 9 图3 2 具有感知部件的a g e n t 抽象体系结构2 1 图3 3 带有状态部件的a g e m 抽象体系结构一2 3 图3 4 多a g e m 系统的结构2 5 图4 1 学习a g e n t 的工作原理示意图3 1 图4 2 信息a g e n t 的工作原理示意图3 2 图4 _ 3 两个a g e n t 的整体关系3 3 图4 4 系统体系结构3 4 图4 5 系统工作流程图 图5 1 利用遗传算法获得用户兴趣模型流程图 图5 2 信息推送流程 图6 1b j o e y e 系统界面 3 6 4 6 4 7 5 1 v 独创性声明 本人声明所堇交的学位论文是我本人在导簿指导下进行褥研究工作及墩得 戆研突残暴。尽我所每,除了文中特别加l 冀蠢注释致谢戆地方外,论文中不包含 其他入已经发表和撰写过的研究成果,也不包含为获彳导国防科学技术大学或其它 教肖机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题西:基王篮照艇! 垒! 鲶仝焦焦垒堑垡! 壁整室盔筮煎遮盐盏塞理 学位论文作者签名: 奎j 态差 蠢期:2 口口筝年,2 层扣譬 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阉和僭阗;可以将学位论文酶全部或部分内容编入有关数据 疼遂嚣检索,可以采撬影帮、臻窜或拯搓等复糕手段保存、汇壤学位论文。 ( 保密学位论文在勰密后适用本授权书。) 学位论文题目:堡王盘丝挺塑! 鲍尘性热生塑焦皇捡塞基箕煎遮盐量塞塑 学位论文作者签名: 童:j 。芝。笠 日期:力够年j 2 月,9 日 作者指导教师签名 终塑l 日期:国卿9 年,点月f o 苷 国防科学技术大学研究生院学位论文 第一章绪论 1 1 问题提出的背景 在人类基因组计划的推动下,生物学数据急剧爆炸,形成了当前数以百计 的生物信息数据库。根据n u c l e i c a c i d s r e s e a r c h 杂志( h t t p :n 札o u p j o u m a l s o r g ) 2 0 0 5 年1 月的数据库专刊,目前生物信息学中已经有1 4 种高达7 1 9 个生 物信息数据库口1 。它们各自按一定的目标收集和整理生物学实验数据,使数据 库呈现数据动态化,结构复杂化的特点。同时,随着生物技术研究的崛起,人 们的信息需求也在不断的增加,但要从这个信息海洋中准确方便迅速地找到并 获得自己所需的信息,却比较困难。“w ea r ed r o w n i n g i ni n f o 珊a t i o n b u ts t a r v e d o fk n o w l e d g e ( 我们被淹没在信息中,但却非常渴望知识) ”( j o h nn a i s b i t t , m e g a 他n d s ) 眨1 。近年来出现的基于w 曲界面的综合生物信息数据库检索系统, 在某种程度上解决了一定的问题,但人们在利用这些系统进行生物信息检索时, 需要提交高质量的检索提问式,还要知道信息源的位置,这对于一般用户是很 难的。即所谓的“信息过载”和“信息迷航”问题。因此,人们希望探索一种 智能化信息检索方法。 值得指出的是,用户的个性化信息需求是相对稳定的、时问相对长久的信 息需求,与那些随机的、临时的查询有所区别。因为,它是比较稳定的需求, 所以需要保存这种需求,并可以根据用户对于所推荐信息的感兴趣程度加以修 改,便于获得更好的效果。而现在流行的基于w e b 界面的综合生物信息数据库 检索系统,如e n t r e z ,s r s 等,一般是利用用户提供的关键字进行搜索,返回 系统认为相关的记录。这里存在着这样的问题:基于关键字的需求模型不能 全面地反映用户兴趣,更没有用户兴趣模型保存和维护的功能;简单的关键 字匹配,往往输出大量的记录,而真正相关的记录却很少,使得用户耗费很多 的时间和精力处理一些不相关的记录。如用户想要搜寻一些关于流感病毒的信 息,在e n t r e z 引擎中输入关键字i n n u e n z a ,仅在核酸序列数据库中就得到有关 第l 页 国防科学技术大学研究生院学位论文 流感病毒的1 0 6 6 页,2 1 3 0 9 个条目信息,如此庞大的信息往往使用户无所适从。 所以如何根据用户的兴趣爱好建立有效的用户兴趣模型,从而在信息内容浩瀚 如海且不断变化的生物学信息资源中高效获取所需的信息,提高网络的主动信 息服务能力,满足用户不同的个性化需求,为用户提供更为细致和有效的帮助 是非常有必要、亟待解决的问题。 1 2 课题研究的意义 智能a g e n t 是人工智能技术实用化的集中体现,也是当前人工智能和分布 式计算的重点研究领域。智能a g e n t 是有一定智能性的程序,具有解决问题所 需的知识、策略和相关数据,并具有内在的自我控制。它是代表用户或程序以 主动服务方式完成一组操作的计算实体。智能a g e n t 的自治性、主动性、学习 性、智能性为解决网络中生物信息服务与生物信息搜索问题提供了新思路。 遵循这一思路,我们以提高检索效率、方便用户查询为目的,提出了一个 新的面向生物信息领域的a g e n t 解决方案。我们把搜索工具与查询数据库分离, 把搜索工具安置在客户端,并且利用机器学习技术,使客户端搜索软件具备智 能性,能够学习用户兴趣,就能弥补传统生物信息数据库检索系统的不足。这 种搜索工具被称之为基于智能a g e n i 的个性化生物信息检索系统。智能a g e n t 尚处于发展阶段,其理论和体系尚未成熟,在生物信息学中应用智能a g e n t 处 理数据,不仅方便了生物信息数据查询,同时也为a g e n t 技术提供一个良好的 应用环境,进一步促进了a g e n t 技术的发展。 1 3 国内外智能信息检索的研究现状 早在四十年代人们就已经意识到大量信息的存储和查找所引发的各种问 题,一个新的研究领域“信息萃取( 1 n f o r m a t i o nr e t r i e v a i ) 随之应运而生。 i n t e m e t 和 m m 为a g e n t 提供了规模庞大、极度异质、高度动态的软件环境, a g e n t 可以利用a i 技术的成果对i n t e m e t 信息进行自动搜索、过滤、分析、综 合等处理。随着网上信息资源的迅速膨胀,单独的搜索引擎、离线浏览均不能 第2 页 瑶防科学技术大学研究艇院学位论文 全面解决用户快速获取信息的问题,人们需簧种更有效的获取信息的方法。 智熊a g e n t 方法和技术熊以年中完全不同的方式提供个性化和智能化的信息获 取耪魅璎手段,戳满足用户戆霞隶。智戆a 窖e n t 可班在用户的客户壤趋最台运 行,交时监测用户的测览状态,然后分析用户的兴趣点,推荐用户要访问的站 点。智能a g e n t 在网络搜索、网络信息过滤以及网络信息服务等方面都有广 阔的应用前景。 秘翦,嚣虑终已经寄磐实验系统提继礤裁出来,典型的几个酬举翻下。 南京大学诗算机软件新技术毽家重点实验窀研制昀d o l t r i a g e m i s t a l l c ea n d0 p e nl e a r r l i n gt r a i l l i n gr e s o u r c ei n f 0 珊a t i o na g e n t ) 远程开放式学 习教材搜集系统,它基于多a g e n t 体系结构,包含三个子a g e n t 和其它三个 组件。d o 玎疑l a g e n t 系统典寅主动搜集、维护、更耨信惠舱功蘸;同时,它还 其有个性化的特点,齄不骄学习用户知识,识耩用户惑兴趣酌信恩领域,用户 的使用习惯等,并能运用遮蝗知识来为用户提供个性化的信息服务和操作界面, d o t r i - a g e m 的系统结构如下; 图1 1 加l t r i a 聃n t 系统的体系结构殿与所处环境的关系固 另外一个成功的系统是幽韩国汉城s e o u 】酗立大学计算机工程学院研制的 w a i r ( w 曲a g e n t 妇t n f o f m 越i o n 证e v a l ) 实骏祭统,该系统是一个基于w e b 的个趁化蓿意过滤骚务平台,w a i r 由三个a g e 瓤组成,一个器黼a g e n ,一个 第3 页 国耪释学菠术炎学研究生院学位论文 是信惑过滤a g e n l ,一个是信息提取a g e 嫩。该系绫使愿强化学习瓣方法凑使 a g e n t 学习到用户的必趣爱好,并为用户提供信息搜集服务。系统结构如下图所 蕊: w a i r 强1 2 弧i r 戆裂缓结稼 另外还肖一些有关a g e n t 应用予个性化信息服务的例子,如i n t e m e ts h o p b o t 钳,w 曲ma _ 姆朝,w 曲w a t c h e r 6 1 和m e t a c r a w l e r 1 8 1 等等。n w a n a 认为i n t e r n e t s h o p 搬系统是目前信息a g e n t 的代表咖1 。i n t e m e ts h o p b o t 系统允许用户掇出 一个离层次的请求,并且能够利用搜索和推论的知识来决定如何在i n t e m e t 上满 是用户戆谤袋。w i 辕a i e 是一个辕勃震户有效溅览耪捡索w 娆我拿久a g e 嫩系 统。它由一个单独的代理服务器和一个客户端的a p p l e t 控制器组成。其中,代 理服务器主要用于学习用户驹兴趣,依据用户的兴趣过滤相关文档;丽客户端 的a p p l e t 控制器主要负责w 拍m a t e 与用户之阀的交互。严格柬讲,w 曲w a t c h e f 和m e t a c r a w l e r 都不能称为a g e n t 。前者专门过滤信息,后者是一个m e t a - s e a r c h 瓤茧n e ,只是握貘一个到其德搜索弓l 擎戆爨瑟:它把攘索涛求翻译并接绘其它攘 索引擎。 褥囱i n t e m e t 静信息获敬与楚纛技术是当前计嚣枫科学与技术领域急需研 究的课题。智能a g e n t 技术作为近年来a i 领域的研究热点,因其是治性、主动 性、学习性、智能性簿特点赢得到广泛应用。然而将智能a g e n t 技术应用于生 物售愚检索镞域,妥藤在国内还没有发现稳关王佟,在鏊羚瞧没毒发褒鞠关文 籀4 页 困防辩学技术大学礤究生貔学往论文 献秽瓷辩。霆对鬓筑洼如蟋海鲍生物慕息畿器,焉户信息甏求戆特定瞧与嫩甥 信息资源的廉大性存在着巨大矛盾,将智能a g e n t 技术应用于生物信息检索领 域,爵| 三l + 分灵活遗旋供多种管能傀熬信惑疆理手段,有裁予开箱i n t e r i 臻t 上生 物资源的信息服务。 1 4 本文主要工作及其藏献 本文将翘能a g e n t 技术弓l 入生物信息数据库检索领域,利用a g e n t 在瓣上 智能信息检索的优势,设计并初步实现了个能反映用户兴趣并可以根据用户 兴趣寒建户撬供主动售崽照务豹拿戆像生黪结愚检索系统。 本文主要有以下四个方酾的贡献: 第一,介绍文秽向量模激,给出了结合生物倍怠数据撵中其有特殊结构的 文档建模方法,使文档向量辘较好救表现文挡特征,专利于机器学习褥到髑户 兴趣模型。 第二,我镯采矮鼹踪蔫户嚣为帮接受瑟户反馈耀结合戆方式获取翔户豹习 惯和偏好。研究了遗传算法猩用户兴趣学习中的应用,给出了算法中用到的适 应度灞数及备算子参数。实验证明,滚算法在学习弼户兴趣模型方面有很好的 性能。 第三,猩研究学习原理的基础上,设计与实现了基于智能a g e m 的个饿化 生魏痿患捡索系统b o e y e 。系统分魏学习a g c 越帮德怠a g e 撼。学习a g e n t 跟 踪用户浏览行为和习惯,得到用户感兴趣特征集并利用遗传算法学习得到用户 兴趣模鍪;信患a g e n t 禳据髑户提交豹表单利用e n 溉z 援索 n t e m e t 上的信息, 著在聋几器空闲时根据用户兴趣模型向用户推箨信息。 篇四,扩充o o 技术,提出一种基于对缘的a g e n t 编程模式,用以设计和 实瑗a g e 越曩统。 l 。s 论文结祷 第二章熏点分绥了各类生耪蓿惫数据库的魂拭和西裁较为流幸亍的综合生 终5 页 国防科学技术大学研究生院学位论文 物信息搜索引擎。第三章讨论了智能a g e n t 技术,包括其软件开发思想和体系 结构及在i t e m c t 信息搜索上的应用,并分析了智能a g e n t 应用于生物信息检索 的可能性。第四章给出了基于智能a g e n t 的个性化生物信息检索系统的设计思 想和体系结构。第五章详细论述了系统各个部分的具体实现。第六章给出了实 验结果及相关工作比较。第七章总结全文,并对今后的工作做一番展望。 第6 页 国防科学技术大学研究生院学位论文 第二章生物信息数据库及其检索系统 国际上已建立起诲多生物分予公共数摆瘁,包括基壤缓濯潜数据痒、棱酸 序列数据瘁、蛋鑫震撵弼数据库及生物大分予结构数据席等。根据n a ra c i d s r e s e a r c h 杂恚( h 雠p :,n 张o u p j o 啪a l s o r g ) 2 0 0 5 年1 月的数据库专刊,目前 生物信息学中已经有1 4 种高选7 1 9 个不同的数攒库,比2 0 0 4 年多了1 7 1 个。 这些数据库由专门的机构建立和维护,他们负责收集、缌织、管理期发拣生甥 分子数据,蒡提供数撰检索和分孝嚣工具,囊叟兹学磷究人员提供大量有耀熬信 息,最大戳疫遣满足稳 f j 研究帮应用麓需要,为镌稻的骈究提供服务。 2 1 生物信怠数据库概况 上个墩纪6 0 年代戳来,随着鬣白质序列测定、核酸序列测定以及基因克隆 和p c r ( p 0 1 y m o r a s ec h a i nr e a c t i o n 多聚酶链式反应) 技术的不断发展与完善,全 世界各研究机构获得了大量的生物分予原始数握。在疆对大燮的以攒数方式增 氏的数据瓷源对,健缆的磷究方式已经来不及迅速瀵纯薪数据,蠢必要采,譬l 有 效瓣方法将它们进行适当静管理帮维护,戳餐避一步分析、处壤和稍掰,这就需 要建立生杨信意数锯瘁。勇一方面,建立生物分子数据库也怒为了满足分子生 物学及相关领域研究人员迅速获得最新实验数据的要求。生物分子信息分析已 经成为分子生物学研究必备的一种方法。如果说理论分析和算法模拟是垒妨信 息学的实验方法的话,那么来自予具体实验的原娥数摆帮来爨于数据痒的数据 则是生物售怠学瓣实验材料。数据痒及其相关的分析软件建生物信怠学研究和 应麓的熏要器确,也是分子生物学研究必备的工具。 分子生物学的研究领域虽各有熏点,但是研究对象之间存在菪密切的联系, 比如d n a 序列与蛋白质序列之间的联系,綦因调控信息与基因表达数握之闻螅 联系。围面,实验数据之间就必然存磁羞关联,一个方垂熬穗关数据露熊会影 响或捉邀另一令方焱鳇辑突工俸。现有的各类数据库已经成为分子生物学各方 繁7 页 国防科学技术大学研究生院学位论文 面交叉研究的桥梁。 生物分子数据库目前的发展状况有几个明显的特征柏: 1 生物分子数据库最突出的特征就是数据库的更新速度不断加快,数据量 呈指数增长趋势。例如,核酸序列数据的年增长幅度约为1 0 0 。 2 数据库使用频率增长更快。人们越来越感到生物分子数据的重要性,也 认识到它们的价值,因此,各种数据库的使用人员在不断增加。据统计,数据 库的平均使用频率每年的增长幅度接近于5 0 0 。 3 数据库复杂程度不断增加。数据库除了基本数据之外,还包括大量的注 释、链接、参考文献等信息。例如,在s w i s s p r o t 数据库中,注释项涉及蛋 白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他 蛋自质的相似性、与该蛋白质关联的疾病、序列变化等。 4 数掘库网络化。几乎所有的数据库都可以在i n t e m e t 上访问,并且公共 数据库之间相互链接,使用户可以迅速得到大量的相关生物分子信息。有的系 统则将多个生物分子数据库整合在一起,形成集成的数据库系统。 5 面向应用。首先,各个数据库服务器除了提供数据库之外,还提供许多 分析工具,如核酸数据库提供的序列搜索、基因识别程序等,生物大分子结构 数据库提供的结构比较程序、结构模拟程序等、此外还在原始数据库的基础上 开发了许多面向特殊应用的二级数据库,如蛋白质分类数据库、蛋白质二级结 构数据库等。 6 先进的软硬件配置。从计算机硬件方面来看,许多数据库服务器己从工 作站升级到大型服务器,使数据库能够高效地管理数据和为用户服务,并在专 门的硬件( 如并行机) 上运行服务程序;而在系统软件方面,使用大型数据库 管理系统,面向对象的数据库管理方法正在逐步取代旧的模式,数据库服务广 泛采用服务器客户式结构。 一般而言,生物分子数据库可以分为一级数据库和二级数据库。一级数据 库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释; 二级数据库是对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。表2 1 给出国际 第8 页 蓬| 涛释学拄术大学研巍生院学位论文 上露爝懿生携信息数援疼。 液2 1 国际常用生物信息数据库 数据黪类型 数据痒名称 核酸序列数据麾 e m b l 、g e n b a n k 、d d b j 、d b e s t 、u n i g e n e 、g e n o m e 、h t g s 、d b s n p 、 d b g s s 、d b s t s 、p l a n trg e n ed a t a b a s e 基困缀数据库 g r a i n g e n e 、b 0 a n c a id a t a b a s e 、r g p 、m a i z eg 嚣n o m e 、b a r i e yg e n o m e 、 f o r 锄弦g r a s s e sg e n o m e s 、t r t i c u mg e n o m e s 、a r a b l d o p s i sg e n o m e 、 s 0 y b a s e 、g l y c i n em a xg e n o m e 、a r k d b 、a c e d b 、s g d 蛋白质序列数据库 p l r 、m i p s 、s w l s s p r o t 、t r e m b l 、n r i 。3 d 、p d 拄s t r 、p r f 蛋自蕊序列蔓合数 n r d b 、o w l 、m i p s x 、s p + t r e m b l 据库 蛋白矮序列模式二 p r o s l t e 、p 。髓i e s 、p f 蕊、b l o c k s 次数据库 结构数据痒 p d b 、c s d 、n d b 、d n a 8 i n d i n gp r o t e i nd a l a b a s e 、n m r 如c i e ca c i d s d 甜a b a s e 、p r o t e i np l u sd a t a b a s e 、s w i s s3 d i m a g e 蛋自璇结构分类数 s c o p 、c a t h 据库 酶、找谢幕l 调控路径 k g g 、n z y m en o m e n e l 雒醢ed 越a b a s e 、p k r 、l g a n d 、w l t 、e e o e y c 、 数据庠u m - b b d 、t r a n s p a t h 寝动予数据痒挂k a r y o cp r o m o e rd a 曲a s e 转录因子数据库f r a n s f a c 、o o t f d 文献数据痒 p u b 醚舞、o 酣l m 、a g f l l a 、r i e eg e n e i c sn e w s l e t 拇r 、烈a s 2 2 生物信惠捡索系统 努孑生物学数据簿静应蠲霹戳分为两个主要方搿,舔数据库查诲( d a t a b a a s e q u e r y ) 和数据库搜索( d a t a b a s es e a r c h ) 。数据库瞧询和数据库搜索是分子生物信息 学中两个常翊术语,经常混用,因此我们有必要把邋两个术语作简单说明。所 谓数撰摩查逶,是攒对痒歹鞋、结构以及荟季孛二次数攒疼中的注释售惑进牙关键 词匹配查找。例如,对蛋白质序列数据库s w i s s p r o t 输入关键词i n s u l i n ( 胰岛索) , 瑟霹找蠢该数摇痒蘩鸯簇岛素或与熬岛素有关静净剜条誉( 嚣n t r y ) 。数据库鸯询 有时也称数据库检索,它和互联网上通过搜索引擎( s e a f c he n g i n e ) 蠢找需要的 信息怒一个概念。而数据库搜索在分子生物倍息学中有特定含义,它是指通过 簿9 页 国防科学技术大学研究生院学位论文 特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有 一定程度相似性的序列。例如,给定一个胰岛素序列,通过数据库搜索,可以 在蛋白质序列数据库s w i s s p r o t 中找出与该检测序列( q u e r ys e q u e n c e ) 具有一定相 似性的序列。因此,在生物信息学中,数据库搜索是专门针对核酸和蛋白质序 列数据库而言,其搜索的对象,不是数据库的注释信息,而是序列信息。显然, 数据库查询和数据库搜索在生物信息学中是两个完全不同的概念,它们所要解 决的问题、所采用的方法和得到的结果均不相同。 在生物信息数据库发展的同时,各数据库开发和维护单位也在同时进行高 效率的数据库检索系统的研发。通用的从各种不同资源中进行生物信息提取、 表示和集成系统体系结构已经提出,其组成为:( 1 ) 以一种网状的层次的超图 形对象模型来表示来自各种异构数据库的信息资源;( 2 ) 一组集成的,交互的 软件工具来实现对各种异构的数据库资源的提取和表示。其中较为完善、操作 性最强,同时也是使用最广的要属e b i 开发的s r s 检索系统和n c b i 开发的 e n t r e z 系统。 2 2 1s r s s r s 是s e q u e n c er e t r i e v a ls y s t e m 的缩写,由欧洲分子生物学实验室开发, 最初是为核酸序列数据库e m b l 和蛋白质序列数据库s w i s s p r o t 的查询开发的。 随着分子生物信息数据库应用和开发的需求不断增长,s r s 已经成为欧洲各国 主要生物信息中心必备的数据库查询系统。目前,s r s 已经发展成商业软件, 由英国剑桥的l 1 0 nb i o s c i e n c e 公司继续开发,学术单位在签定协议后可以免费 获得该软件的使用权,而非学术单位则需要购买使用权。 s r s 是一个开放的数据库查询系统5 ,即不同的s r s 查询系统可以根据需 要安装不同的数据库,目前共有3 0 0 多个数据库安装在世界各地的s r s 服务器 上。读者可以直接从l i o n 公司的网页上查到这些数据库的名称,并知道它们 分别安装在何处( h t t p :w 砒l i o n b i o c o u “p u b l i c s r s h t m l ) 。它可以同时指定在序 列、结构、代谢等十几种不同类型的数据库中同时进行索引,其查询速度比较 第1 0 页 国防辩学技术夫学研究生院学位论文 馒。惩户在滋露查询睡善先逡舞要搜索灼数握痒,然后配鬟查运。怒要查溺与 单个旗因相关的其它信息的话,要通过同时指定多个类型或某个特定类型的数 据瘁来实现辩基因稳荚信意静查询。 欧洲生物信息学研究所、英国的基因组测序中心s a n g e rc e n 抒e 和英国旗因 组资源中心h g m p 等大型生物信息中心安装了l o o 多个数据库。北京大学缴物 售惑审心1 9 9 7 年舞媲安装s r s 系绞,基懿共舂7 0 多个数掇疼,其孛核酸黪赘 数据库e m b l 和蛋白质结构数据库p d b 每日更新。阉内微生物所、。t 海生命科 学院镣单位氇予2 0 0 0 年开始安装s r s 系统。 2 2 2e n t r e z e n t r e z ( h t t p :,黼n c b i t m m n i h g o v 甩蛐潞z ,) 由美国n c b i 开发和维护,用 于对文献摘泶、序列、结构葶爨基因缀等数据窿进行关键字粪谗,找爨相关的一 个或几个数据库条目( e n t r y ) 。该系统集成了n c b i 备种数据库中的信息6 1 ,目 蘸圭要毽捂挟酸滓列数据库、蛋自鬃痔爨数据痒、蘩因组数据库、矮自璜结构 数据臃、生物医学文献摘录数据库、系统分炎数据库、人类遗传疾瘸和遗传缺 失在线数搭瘁,以及基因信息数据障、种群索缘关系核酸序列比对数据库、表 达序列标签数据库等。其集成系统结构如图2 + l 所示。 第l l 页 蓍游辩学技术大学褥究生豌举往论文 固2 1e n t r e g 数据库羝统结构阈 毽n t r e z 鼹面向生物学家的数据库奁询系统,其成功之处在于数獬库的藕合 连接,数据瘴靛记录与本数据库或者装德数撩痒中黔记录穗要连接,交叉索雩 。 数据库内部的连接称为“邻横”,如邻接的梭酸序列戚蛋白质序列。可以通过 a s t 算法将一条棱羧蓑蛋爨矮穿魏与数豢霹孛懿掰有亭列进行魄鞍,鼓蔼确 定邻接关系。数据库之间的链接对于生物数据挖掘非常重要,在e n l r e z 中,在 许多数据库之间建立了链接。例如,通过禳酸数据鬻到p u b m e d 的铸接,可以 找到菇关彦舞鹣秘学文麸;邋造棱簸戮蛋白矮数据寒翁链接,霹爨褥裂一个基 因所袋达的蛋囱质的储息。 融r 。z 戆雯一全特点愚恕数据辫帮瘦掰程穿缝台在莛。铡弼,邋过 “r e l a t e ds e q u e n c e ”工具,可以直接找到与查询所得蟹白质序列同源的其它蛋融 质。缀询得鄯酌蛋自裰三维结构,可以通过在用户计鞯杌上安装的c n 3 d 软件 直接显示分子溪形。 e n i r e z 系统的开发基于特殊的数据模魁n c b ia n s 1 ( a b s t r a c ts y n t 8 x n 跌8 i 9 辩,在辫子文献攘要孛熬关键褥套谗辩,不仅考惑了蠢溺对象程数据痒 中单词的实际嘎配,黼且考虑了意义相近的燃配。在套询文献数据瘁摘要锝副 结采焉,可戳通过点啬“r o i a t e da n i c l o s ”继续瀚我相关文献。 遴入n c b l 主页( 融t p = , w 僻+ n 如i n l m 越h 。g o v ) ,帮可餐裂位于爱嚣上箨滤 翁1 2 耍 国防科学技术大学研究生院学位论文 检索栏,可戬在检索糕中蠢接输入需器查询静内容。铡如,需要裣索蜘蛛毒索 的棱替酸潆列,在检索栏中输入“s p i d e rt o x i n ”,点击按钮“g o ”,即可得到各 种不同种类数据库中与“s p i d e r t o x i n ”相关的信息条目数。如图2 2 所示。 匿2 ,2e n t r e z 数据露套诲系统主夏 我们逡择n u c l e o t i d e :s 。q u e n e ed a t a b a s g e n e b a n k ) ,姗可祷到核酸序剐数据 库g e n e b a n k 中和蜘蛛毒素相关的序列条目,一共7 4 条。如图2 - 3 所示。 第l 3 页 里堕型堂垫查盔堂婴塞生些堂壁堡苎 图2 3 使用e n t r e z 查询g e n e b a n k 中和蜘蛛毒素相关的序列条目 本文设计并实现的b i o e y e 是基于现有的生物信息数据库检索引擎之上的 个性化生物信息服务系统。它就像是一个个人助理,通过现有的生物信息数据 库检索系统检索i n t e m e t 上的生物信息,基于用户的历史检索结果,利用遗传算 法获得用户兴趣模型,根据用户兴趣模型主动推荐用户感兴趣信息,以减轻用 户人工辨别负担。其抽象体系结构如下图所示: 用户 ,争 生物信息数据库检索系统 w 。b 图2 4b i o e y e 抽象体系结构 第1 4 页 国防科学技术火学研究生院学位论文 2 - 3 本章小结 本章重点介绍了生物信息检索系统特别是e n t r e z 的特点和使用方法,最后 给出了本课题所设计的个性化生物信息检索系统b i o e y e 的抽象体系结构。 第15 页 国防科学技术大学研究生院学谴论文 第兰章智能a g e n t 技术 餐熊a g e n t 的磷究始子8 0 年代中期,9 0 年代以米逐步成为努蠢式人王键能 ( d a i ) 的研究目标和核心,是目前计算机科学领域中一个非常重溪、。研究活 跃鹈蠹容之一,著嚣基经焱诲多羲域褥裂了广泛静应强。奉章圭瑟探讨一下 a g e n t 的基本概念、思想、体系结构,然后讨论智能a g e n t 方法和技术在i n t e m e t 信惑搜索上的应用。 3 。l 智能a g e n t 概述 3 1 1a g e n t 的基本概念和思想 3 1 1 1a g e n t 的斑义 a 潮l 按零熬最大特惠燕其骞一定懿餐筢窝嶷好豹灵活链藉坚定经,特潮逶 合对复杂、协同和难以预测的问题进行处理。它代袭了一种新的方式和途径用 予概念亿、分析、描述和实现复杂、瘫大镌系统,鞠而体现了一罩孛新的软件开 发范型。自八十年代以来,人 f 】致力予a g e n t 理论、技术秘工具的研究,鼗得 了不少成莱。然而,刻目前为止,对软件a g e n t 尚没有一个统一和权威的定_ 义。 本文扶较磐工程懿筏患秘角浚绘密a g 镰t 撅念懿一拿一箴经定义n 朝。 定义3 1 1a g e n t 是指驻留在某一环境下能够自主( a u t o n o m y ) 、灵活 ( 豆e x i _ b l e ) 逾獍行动作以满麓设诗西标的行为主体。 上述概念定义将a g e n t 视为是软停工程饯开发腮霭的一个计算挞象移嵩层 的概念模型,以此来加强对应用系统和软件系统的理解、描述、分析和建模, 键遴从霉求分褥到较传设诗黪叁然过渡,挂麓复杂软耱系统熬设诗帮实瑗。麸 该定义可以得出如下a g e n t 特征: a g e n t 驻留在环境中并需要与环境进行交互; a g e n t 具有组动作并熊执行这些动作,是动作执行的决策者帮实整爨, 第1 6 页 国防科学技术大学研究生院学位论文 是一个行为实体; a g e n t 具有属于其自身的计算资源和局部于自身的行为控制机制,能在没 有人类或其他a g e m 直接干涉和指导的情况下运行,并能根据其内部状态和感 知到的环境输入决定自身的状态,控制自身的行为,即a g e m 具有自主性 ( a u t o n o m y ) 。自主性是a g e n t 的基本属性,是a g e n t 区别于其他软件工程概念( 如 过程、函数、线程、对象等) 的一项重要特征; 学习性。a g e n t 作为一个独立的个体能主动学习记忆用户的兴趣、习惯并 将其转化为内部表示,存放在知识库中建立用户模型来指导自己的决策,为用 户提供符合其需要的个性化服务。 主动性( i n i t i a t i v e ) 。a g e m 能主动地分析和获取用户的个性信息并根据 用户的兴趣了解其潜在需求,采取主动服务。 智能性( i n t e l l i g e n t ) 。智能a g e n t 具有相关的知识,能够进行相关的推理 或智能计算。此外,智能a g e n t 能够感知所处的环境,并能对相关事件作出适 当的反应,从而积累经验,提高自身处理问题的能力。表现为理解用户意图, 帮助用户克服障碍,推测用户意图并为其代劳,显示出类似于人类智能的特性。 自主a g e n t 的行为还具有一定的灵活性,主要体现为:反应性( r e a c t i v e ) 、 社会性( s o c i a l ) 和自发性( p r o a c t i v e ) 。 3 1 1 2a g e n t 与对象 对象被定义为一个计算实体,封装了一些状态,可以在这些状态下执行某 些动作或者方法,并且可以通过消息传递进行通信。尽管有明显的相似性,但 是a g e m 和对象还是有如下明显的区别3 8 1 : ( 1 ) a g e m 和对象的自主程度不同。对象的确对其状态显示出自主性,即 能对自己的状态进行控制,但对象不能对其行为进行控制。对象不能自己决定 某方法是否执行,它完全取决于其它调用该方法的对象。而对于a g e n t 而言并 非如此,当别的a g e n t 请求它完成某个行为时,它可能执行,也完全可能不执 行。对象之间是靠相互“激活”( i n v o k i n g ) ,而a g e n t 之间是靠“请求”( r e q u e s t i n g ) 来完成行为的。故两者关于某个行为( 或方法) 是否执行的决策控制点是不同 的,在a g e n t 系统中,取决于收到请求的a g e n t ,而在面向对象系统中,则取决 第1 7 页 謇茨辩学技术大学臻究生翳学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论