(计算机软件与理论专业论文)基于本体的语义检索模型及其应用研究.pdf_第1页
(计算机软件与理论专业论文)基于本体的语义检索模型及其应用研究.pdf_第2页
(计算机软件与理论专业论文)基于本体的语义检索模型及其应用研究.pdf_第3页
(计算机软件与理论专业论文)基于本体的语义检索模型及其应用研究.pdf_第4页
(计算机软件与理论专业论文)基于本体的语义检索模型及其应用研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 如何更快、更准确的向用户提供所感兴趣的资源是信息检索发展的方向之一。解决 这个闻题的基础在予如侮准确的获得用户的兴趣并把它表示出来,如何使信惠资源具有 应用程序可以理解的含义。 本体( o n t o l o g y ) 是共享概念的翳确形式纯耀范说臻,麓够以一种明确的、形式纯的 方式来表示领域知识,提高异构系统之间的互操作性,促进知识共享。基于本体的语义 检索技术可以有效地解决墨前信息检索存在豹诸多问题,将是支撵下一代置联髓的关键 技术。 本文首先简单介绍了信息检索现状、语义万维网的体系结构,其体介绍7 本体的概 念、描述语言,引入软件工程的方法,探索开发本体的方法。并对顶层本体进行了深入 分析和研究以指导领域本体构建。然盾提出了语义检索模型,设计检索算法,概念相关 度、查准率和查全率的计算方法。最后在领域专家的指导下,利用h o z o 创建信息技术 领域本体、目标本体和教案本体,把检索模型应瘸于网络学习资源服务系统中,通过j e n a 推理、相似度和相关度计算,实现隐含语义的检索,实现信息的语义融合,提高检索的 效率。 基于本体的网络学习资源服务系统,验证了本体在语义检索领域的作用及影响,在 本体表示概念显性和隐性关系的基础上进行精确查找,实现了对该领域资源的智栽化检 索,这是传统检索系统所不能达到的。该系统为迸一步研究本体在应用中实现领域知识 共享和重用打下良好的基础。 关键词:语义万维鼷,本体,形式化,语义检索 a b s t r a c t h o wt of a s t e ra n dm o r ea c c u r a t e l yo f f e ru s e r si n t e r e s t e di n f o r m a t i o nr e s o u r c e si so n ed i r e c t i o no ft h e d e v e l o p m e n to fi n f o r m a t i o nr e t r i e v a l t h ef o u n d a t i o no fw o r k i n go u tt h i sp r o b l e ml i e si nh o wt oa c c u r a t e l y a c q u i r et h ec u s t o m e r si n t e r e s t ,a n dm e a ni t , h o wt om a k et h ea p p l i c a t i o np r o c e d u r ec o m p r e h e n d i n gt h e m e a n i n go fi n f o r m a t i o nr e s o u r c e s t h eo n t o l o g yi sae x p l i c i tn o r me l u c i d a t i o no fs h a r i n gc o n c e p t i tc a nm e a nd o m a i nk n o w l e d g ew i t ha k i n do fe x p l i c i ta n df o r m a lw a y , e x a l te a c ho t h e ro p e r a b i l i t yo fd i f f e r e n c es y s t e m ,p r o m o t ek n o w l e d g e s h a r e o n t o l o g y - b a s e ds e m a n t i cr e t r i e v a lc a na v a i l a b l ys o l v ev a r i e t yp r o b l e mo fc u r r e n t l yi n f o r m a t i o n r e t r i e v a l ,i tw i l lb et h ek e yt e c h n i q u ew h i c hp r o pu pt h en e x tg e n e r a t i o ni n t e r n e t f i r s t ,t h i sa r t i c l es i m p l e l yi n t r o d u c e st h ep r e s e n tc o n d i t i o no fi n f o r m a t i o nr e t r i e v a l ,t h es y s t e m s t r u c t u r eo ft h es e m a n t i cw e b a n di tc o n c r e t ei n t r o d u c e st h ec o n c e p ta n dd e s c r i p t i o nl a n g u a g eo fo n t o l o g y i tm a k e su s eo ft h em e t h o do fs o f t w a r ee n g i n e e r i n ga n de x p l o r a t e st h em e t h o d so fd e v e l o p i n go n t o l o g y i t d e e p l ya n a l y s e sa n dr e s e a r c h e st h et o p - o n t o l o g yi no r d e rt oi n s t r u c tt h eb u i l d i n go fd o m a i no n t o l o g y a n d t h e ni tp u t sf o r w a r dt h em o d e lo fs e m a n t i cr e t r i e v a la n dd e s i g n e sr e t r i e v a la l g o r i t h m ,i tp u t sf o r w a r dt h e c o n c e p tr e l e v a n c e ,r e t r i e v a lp r e c i s i o na n dr e t r i e v a lr e c a l l f i n a l l y , u n d e rt h eg u i d a n c eo fe x p e r t si nt h i sf i e l d , w em a k eu s eo ft h eh o z ot oe s t a b l i s ht h ed o m a i n - o n t o l o g ya n dg o a l - o n t o l o g yo ft h ei n f o r m a t i o nt e c h n i q u e w ea p p l yr e t r i e v a lm o d e lt ot h es e r v i c es y s t e mo fn e t w o r ks t u d yr e s o u r c e s t h r o u g hj e n ar e a s o n i n g , s i m i l a r i t ya n dr e l e v a n tc a l c u l a t i o n ,i ta c h i e v e st h ee n q u i r i e so fi m p l i e ds e m a n t i ca n dt h es e m a n t i c i n t e g r a t i o no fi n f o r m a t i o n ,i m p r o v i n gt h ee f f i c i e n c yo f r e t r i e v a l t h en e t w o r ks t u d yr e s o u r c e ss e r v i c es y s t e mb a s e do no n t o l o g y ,p r o v e st h e e f f e c ta n di m p a c to f o n t o l o g yi nt h ef i e l do f s e m a n t i cr e t r i e v a l o nt h eb a s i so fo n t o l o g ys a y i n gt h eo v e r ta n dc o v e r tr e l a t i o n so f c o n c e p t ,i t sr e t r i e v a li sp r e c i s e i ti m p l e m e n t si n t e l l i g e n tr e t r i e v a li nt h ei td o m a i n ,w h i c hi st h et r a d i t i o n a l r e t r i e v a ls y s t e mc a l ln o ta c h i e v e f o rf u r t h e rs t u d y ,t h es y s t e ml a yag o o df o u n d a t i o nf o rr e u s ea n ds h a r i n g k n o w l e d g ei nt h ea p p l i c a t i o no f o n t o l o g y k e yw o r d s :s e m a n t i cw e b ,o n t o l o g y ,f o r m a l ,s e m a n t i cr e t r i e v a l 独创性声明和关于论文使用授权的说明 独创性声明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写的研究成果,也不包含为获得河南师范大学或其他教育机构的学位或证书 所使用过的材料。与我- n i 作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 虢族扯嗍2 衅 关于论文使用授权的说明 本人完全了解河南师范大学有关保留、使用学位论文的规定,即:有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河南师 范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 第一章绪论 第一章绪论帚一早瑁下匕 1 1 研究背景和现状分析 一个完整的信息检索必须研究信息的表示、存储、组织和访闯,即根据用户的检索 要求,从信息库中检索出与之相关的信息资料。信息检索已从手工建立关键字索引发展 到计算机自动索引的全文信息检索、自动信息文摘、自动信息分类,并朝着自然语言处 理的方向发展。未来的互联网作为人类的信息库、知识痒,应该支持用户以自然语言的 方式表达检索请求,并且具备理解语义和自动扩展、联想的能力,更能支持问答式、对 话式的智能捡索。 1 1 1 信息检索研究现状 目前藏在使用和研究的信息检索技术可以分为三类【l l :全文检索、数据检索和语义 检索( 知识检索) 。其中,全文检索是基于词语的机械匹配,把用户的检索请求以关键词 的形式按某种检索模型( 如布尔模型、经典向量模型f 2 】、经典概率模型【3 】、推理网络模型 f 4 】或子图匹配模型等) 和w e b 文档进行匹配,较好地保证了检索的查全率,但是查准率 不能令人满意;数据检索是基于一定格式和结构的对特定字段的检索,这是目前霞内主 要期刊论文数据库所采用的检索方法,但是这种方法要求人工基于特定的字段对信息资 源进行标识,检索效果取决于标识方法的优劣以及用户对标识字段的理解;语义检索则 是基于知识和语义的匹配,在提高检索的查准率和查全率方面都有很好的表现。 网络上还有一种信息检索技术:网站分类技术,利用专家对网站进行归纳和分类, 把网站进行树状归类,登录蠡勺网站至少属于一个类别,对每个站点都有篱略的描述,例 如雅虎。该技术为网络信息导航带来了极大的方便,但是缺陷除了成本较高之外,对网 站的描述也十分筠略。 从以上分析可以看出,当前信息检索的存在的问题主要有: ( 1 ) 忠实表达问题。用户很难通过几令关键词来忠实的表达检索需求,导致检索困 难和检索质量难尽人意。随着时间、地域或领域的改变,同一概念可以用不同的语言表 现形式来表达。例如:计算机和电脑,航天飞机与太空梭。在中文雅虎上使用航天飞机 是查不到含太空梭的网页的,虽然它们指的是同一种东西。 ( 2 ) 无法准确揭示信息的实质内容。用题名、文摘或全文中出现的关键词标识文献 基予本体酶语义检索模型及其应用研究 的内容,常常不能充分揭示源信息的实质内涵。例如,一篇文章关键词为:“o n t o l o g y , 自然语言理解,语义”,我们穰难看出文章的题露和具体内容,最多知道文章和本体有 关。 ( 3 ) 检索算法采用词影匹配霭非词义匹配。一义多词( 阕义词) 导致查全率难以保证, 而一词多义( 多义词) 则导致查准率也难以满足。 ( 4 ) 词汇孤岛闰题。概念并不是孤立存在的,总是与其它概念之闻存在各种各样的 联系而在传统信息检索中,这种概念之间的语义联系是很难描述的。 ( 5 ) 片面追求高的查全率导致了检索结果的数量过于庞大。 把信息检索从目前基于关键词层面提高到基于语义知识( 或概念) 层面,是解决问题 豹撮本和关键。 1 1 。2 语义检索研究现状 语义检索,也叫知识检索、概念检索,是一种基于知识和语义上的分析检索,是在 自然语言理解、计算语言学发展的基础上产生的,综合应爱了信息管理科学、人工智能、 认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合了知识处理 和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,高效存取所有媒体类 型的知识源( 文本、图像、视频、声音等) ,并能准确精选用户需要的结果。语义检索技 术将是支撑下一代互联网的关键技术。 目前国外基于本体的信息检索,著名项目包括( o n t o ) 2 a g e n t l l l ,o n t o b r o k e r l 5 1 和 s k c t 6 1 。这3 个项墨也分别代表了3 个方向:( o n t o ) 2 a g e n t 的目的是失了帮助焉户检索 到所需要的w w w 上已有的本体,主要采用了参照本体;o n t o b r o k e r 面向的是w w w 上的霹页资源,匿的是为用户检索到所需要的阙页;s k c 是一个正在进行的项圈,英目 标是解决信息系统语义异构的问题,实现异构的自治系统之间的互操作,希望通过在本 俸上建立一个代数系统,用这个代数系统来实现各本体之闻的互操作,从蔼实现异构系 统之间的互操作。 蠡前国内的语义检索技术有潜在语义检索和基于本体的语义检索。 ( 1 ) 潜在语义检索是一种基于统计概念的信息检索技术,假设文档是由某个或某些 词的出现与否及它们比现的频率决定的,文献的检索根据瘸户的查询条 睾和文档词条矩 阵实现l 。 ( 2 ) 基于本体的语义检索有诱种成熟方法,文献【8 提戳了一种语义检索的方法:匹 第一章绪论 配本体图,根据本体、关系、本体图的语义相关性,提出了能计算语义相关性的本体图 匹配的框架;在文献【4 】中,提出了另一种基于本体的语义检索方法,将传统的搜索技术 与传播激活技术相结合,给定本体及本体间相关性的权值。在给定初始的本体集和激活 权值下,由传播激活机制系统查询到相关的本体。 除此之外,蔡文涛等提出了一种用于概念信息检索的基于本体的地址析取方法;徐 振宁等提出基于本体论的智能信息检索系统体系;万捷等人提出基于内容的信息检索系 统,用文档分析器对检索文档进行过滤;武成岗等人也提出了基于本体和多智能主体的 信息检索服务器,利用本体协助智能主体对网络上的各类信息进行领域分类,由于仅提 供给用户所关注领域的资源索引,检准率较高。 如上所述,目前所见的语义检索系统在检索过程和模式上即引入了新的元素,又在 很大程度上类似于传统的检索系统。本文在研究本体知识获取和表示的基础上,构建了 更为完善的基于本体的语义检索模型,在检索请求、检索算法和检索结果的处理上都是 语义化的,并且在检索过程中还进行了语义扩充和推理。 1 2 问题提出及研究意义 1 2 1 问题提出 语义检索技术和方法特别是面向网络信息资源的语义检索是信息检索和人工智能 领域目前的研究重点和热点。其实现的关键在于解决自然语言处理、知识的表达与推理、 实用系统的构建和开发等方面的问题。传统信息检索困难的实质在于:只是对用户输入 的关键词和w e b 文档进行机械的匹配,而没有理解用户的检索意图。 所以很有必要去理解用户的检索意图,基于更全面的用户需求对信息资源进行处 理,得到更加合理的检索结果。本体具有良好的概念层次结构并且支持逻辑推理,因此 我们可以利用本体对用户检索请求进行扩展。以往对用户检索扩展的研究,大多是简单 的同义词扩展或单纯的上下位扩展【8 1 1 9 1 ,没有考虑扩展后各关键词的权值。文献 1 0 1 提出 了一种经本体扩展后所得关键词的权值计算和传递方法,但只是机械的基于本体的层次 结构而没有考虑各关键词在语料库中的实际重要程度。文献【1 1 】提出了一种t e r m s i m i l a r i t yt r e e 模型来对用户查询进行扩展,但其构建和生长都很复杂。 结合已有的语义检索技术的优势和不足,我们构建了基于本体的语义检索模型,基 于自然语言的输入限制检索请求、利用m m 最大匹配算法对检索请求进行分词处理,捡 基于零体酶语义捡索模型及萁应溺磷究 索过程中提出改进的布尔模型语义检索算法,利用i e n a 进行推理,对检索结果进行分析 落算和反馈,最磊将模型应用到瓣络学习资源服务系统中捡验修正。 l 。2 。2 研究意义 目前实用的信息检索系统,在提高信息检索效率的过程中,出现了一些亟待解决的 闯题,如信息的组织、知识的表示、枧器的理解与入机交互等。铮对这些问题,研究基 于本体的知识获取、组织和表示,建立从检索请求输入到检索结果语义化的语义检索模 型,建立具体的应用系统。意义不仅仅在于提高检索的质量,帮助用户获得最佳豹检索 效果,最重要的是为信息检索发展到语义检索的探索提供重要的实践,为提出更好更有 效的检索技术奠定基破和提供参考。 本文重点研究的是语义的检索,特点在于构建了完善的语义检索模型,在网络学习 资源服务系统中应用该模型,利露本体对概念以及概念之闻的关系进行全面、细致、精 确的描述,对用户需求进行语义扩展,利用本体所反映的领域知识更准确地分析出主题, 提供共享,检索过程建立在语义( 知识) 的层次上,是基予语义的理解和推理。 1 3 本文研究内容 基于本体的语义检索工作原理为:在领域专家的帮助下,建立领域本体,收集信息 源中的数据,并参照蠢建立的领域本体,把收集来的数据按规定的格式存储在元数据痒 中。对用户检索界面获取的检索请求,检索分析处理基于本体把检索请求转换成规定的 格式,在本体的知识组织关系帮助下款元数据库和资源描述库中匹配出符合条件的数据 集合,检索的结果经过定制处理后返回给用户。 研究的主要内容为: ( 1 ) 本体的理论研究及构建。 ( 2 ) 基于本体的知识表示方法。 ( 3 ) 构建基于本体的语义检索模型,设计语义化检索算法。 ( 4 ) 实现基于语义检索模型的自学习系统和备课系统。 4 第二章语义w e b 及其相关技术 第二章语义w e b 及其相关技术 2 1 语义w e b 介绍 万维网的缔造者t i m b e m e r s - l e e 在x m l2 0 0 0 会议上,提出了下一代因特网的概念: 语义w e b ,为解决缺乏元数据信息、h t m l 提供的链接缺乏语义、检索质量和效果不令 人满意等问题提供了新的技术思路m i 。语义月维网是对现有万维网的扩展,具有充分的、 完备的语义定义,能够在人与计算机之间建立语义上的理解与合作是基于本体和元数 据的语义和知识表达,其中本体是一种能在知识层提供知识共享和重用的工具。语义 w e b 体系结构如图2 - 1 所示 r 、r u 【。,一”鼍 【、al ! ! ! j ; 、;t a l o g i c1 : 卷l i 。n t o t 品忑:五习i 竺二j 一一+ 二:i ;。兽 o ,f x 帆+ h s + 舯l 蚶洒n ¥- 。 囊露霞蕊罄疆圆- 图2 - i 语义w e b 结构体系 第一层是整个浯义w e b 的基础,u n i c o d e 处理资源的编码,u r i 负责标识资源。第 二层用于表示数据的内容和结构,它使用x m l 进行文档结构化,使用x m l s c h e m a 定 义x m l 文档的结构约束,n s 是名字空间。第三层用于描述w e b 上的资源及其类型。 r d f 描述对象( 或者资源) 以及它们之间关系,它为数据模型提供了简单的语义,这些数 据模型能够用x m i 语法进行表达。r d fs c h e m a 用于描述r d f 资源的属性和类型的词 汇表,提供对这p b 属性和类型的普遍层次的语义。第四层是本体词汇袁,用于描述各种 资源之间的关系。第五、六、七层是在上述层的基础上进行的逻辑推理、证咀和信任操 作。 引入语义学的形式化表达体系和逻辑推理能力,万维网的性质将从根本上得到改 变,从一个仅仅是显示信息的结构改变为一个可以对信息进行解释、交换和处理的结构。 实现语义w e b 最大的问题是,立u 何使计算机能够理解数据的含义,并可能据此做出 定的推理。这就要求提供一种既能有效表达信息含义,又具有清晰的结构的数据表达方 式,以使计算机能够依据信息的内容进行判断。 基于本体的语义检索模型及其应用研究 2 2 本体 2 2 1 本体的定义 本体的概念最初起源于哲学领域,定义为“对世界上客观存在物的系统地描述,即 存在论 ,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。后来 在人工智能界、信息系统、知识系统等领域,许多人研究本体,并给出了不同的定义。 在这里我们列出本体的几种比较有代表性的定义: ( 1 ) 本体是对于“概念化的某一部分的明确的总结或表达【1 3 1 。 ( 2 ) 本体在不同的场合分别指“概念化”或“本体理论 【1 4 】。 ( 3 ) 本体是对于“概念化”的明确表达【15 1 。 ( 4 ) 本体是用于描述或表达某一领域知识的一组概念或术语。它可以用来组织知识 库较高层次的知识抽象,也可以用来描述特定领域的知测1 6 1 。 ( 5 ) 本体属于人工智能领域中的内容理论,研究特定领域知识的对象分类、对象属 性和对象间的关系,为领域知识的描述提供术语【1 刀。 1 9 9 8 年s t u d e r 赋予本体新的含义共享概念模型的明确的形式化规范说明1 1 8 1 , s t u d e r 的定义是目前最完善的定义,体现本体的四层含义: 概念模型:通过抽象出客观世界中一些现象的相关概念而得到的模型,其表示的含 义独立于具体的环境状态。 明确:所使用的概念及使用这些概念的约束都有明确的定义。 形式化:本体是计算机可读的。 。 共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所 针对的是团体而不是个体。 从以上定义可以看出:本体通过对于概念、术语及其相互关系的规范化描述,刻画 某一领域的基本知识体系和描述语言,其目标是获取、描述和表示相关领域的知识,提 供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模 式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义n 羽。 2 。2 2 本体的构建方法 目前的本体大多构建于具体的项目领域之上,构建的方法也是针对具体的项目提出 的。常见构建本体的理论方法如下:i d e f 5 方法、m i k eu s h o l d & m i c h e a lg r u n i n g e r 的骨 第二章。谖义w e b 及其楣关技术 架法( s k e l e t a lm e t h o d o l o g y ) 、m i c h e a lg r u n i n g e r & m a r k sf o x f f 勺企业建模法( t o v e ) 、 m a r i a n of e m a n d e z & g o m e z p e r e z 等人的m e t h 本体方法、a l e x a n d e rm a e d c h e 等提出 的循环获取法( c y c l i ca c q u i s i t i o np r o c e s s ) 。 从这些构建方法中,可以弄清楚本体开发过程和生命周期:计划、详细说明、获取 知识、概念化、形式化、集成、实现、评价、文档化、维护。依据本体工程的思想,我 们将本体的生命周期依次分为以下状态:详细说嘴、概念化、形式化、集成、实现和维 护,给出本体构建方法如下: a 明确要构造麴本体及构造本体的嚣的。 b 获取相关领域本体的概念和关系。 e 将收集到的概念区分为角色概念和基本概念,并确定角色概念翡角色扮演者及其 语境,对其中的概念给出非形式化的语义描述。 d 构建不同层次的本体,饲如应用系统中酶:顶层本体、领域本体移经务本体。构 建方法如下: 用h o z o - i - 其构建这些概念的基本概念层次结构,用形式优语言描述基本概念 层次结构中概念和关系的约束条件及概念和关系的形式化推理。形式化的公理 表达了本体上的约束条件,弗用于评估本体对闯题领域需求的满足程度; 进一步检查基本概念层次结构中的角色概念和角色概念层次结构中角色概念的 一致性,进行相关的修改,最终确定较为完善的本体。 e 在本体生命周期的每个阶段和阶段之间,利用某种参考框架对本体、软件环境、 文档进行技术判断。评价包括正确性和有效性。 2 2 3 本体的编辑工具 本体开发工具主要完成对本体的解析、创建、存储和重用等工作,目前已有一些重 要的、比较成功的本体开发环境,有:o l 己d 哆、p r o t 6 9 6 嗍、h o z o5 2 、o n t o l i n g u as e r v e r 淄、 w e b o n t o 嘲、e m e r p r i s et o o l s e t s 1 。下面对本文采用的本体开发工具h o z o 做一详细的介 绍和沈较分析。 h o z o 系统是日本大阪大学i s i r 研究所m i z o g u c h i 研究室开发的本体开发环境。它 主要由西部分组成:本体编辑器,本体工作室,本体服务器和本体管理器。使用h o z o , 用户可以定义和修改本体模型乜4 1 。 h o z o 中的本体编辑器可以溯览和修改本体毽括三个面板:导航葱板、定义面板和测 7 基于本体的语义检索模型及其应用研究 览面板。导航而板显示概念i s 咀层次洲览树。浏览面板显示一个本体,用户对本体的编 辑主要在此面扳上,有两个显示模式,一是通过结点和链棱来图彤化显示。另外一种模 式是通过用r d f ( s ) 编辑来显示本体。在浏览面板中显示的角色概念在定义面板中详细 地进行了定义。本体编辑器的界面如图2 - 5 所示 :;菇日- 肇j 墨釜点一竺。:二二l ! ? 三! 。照赫 禺, 舀! 警+ q 卤浏览面板 口! 二? p 崔毳耄罾 e 羹攀斟:1 二” 8 量导航面板 e :臣二一、i 嗣e ! ! 目 。一 目 定义面板 目8 名目圜8 图2 - 5h o z o 本体编辑界面 为了更加容易的建立一个合理的本体,本文采用了h o z o 系统,h o z o 系统区分了 角色概念和其他概念。 2 2 4 本体的分类 针对目前出现的各种各样的本体,可以按照本体研究的主题、形式化程度和层次进 行分类。我们最常用的分类方法是根据本体研究层次分类: ( 1 ) 顶层本体:描述晟普通的概念及概念之间的关系,如空间、时间、事件、行为 等,与具体的应用无关,其他种类的本体都是该类本体的特例。 ( 2 ) 领域本体:描述特定领域( 医药,汽车等) 中的概念及概念之间的关系。 ( 3 ) 任务本体:描述特定任务或行为中的概念及概念之间的关系。 ( 4 ) 应用本体:描述依赖于特定领域和任务的概念及概念之叫的关系。 本文涉及到的芒要是顶层本体、领域本体和应用本体。 第二章语义w e b 及葵柜关技术 2 3 顶层本体 构建本体,必须要对领域中的概念及其关系有清楚的理解,并对概念的特性加以描 述,首先就要区分顶层本体的种类,它直接影响到具体本体的构建及其可复用性。项层 本体是领域独立的,为不同领域的本体提供构建框架。顶层本体中的概念是基本的并具 有一般性,遐的是确保其在较广泛的领域中具有般性和可表达性,这些概念是元级的、 一般的、抽象的和哲学的概念,是关于时间、空间、固有性、实例化、同性、过程、 事佟、属性、关系等高度综合的、领域独立的、概念种类的详细说明或理论。 对顶层本体分析研究,要对实体分类,基本关系有深入地了解,同时还要了解顶层 本体的理论构建原则。g o l 保留集合理论作为顶层本体的一部分,是k i f 等类似语言 的真正引申,为分析顶层本体概念提供了很好的框架f 3 甜。本文中本体的构建采用g o l 顶层本体作为指导。以下论述顶层本体的基本概念。 ( 1 ) 实体分类 标准顶层本体也称为基本本体或道震本体,对预层本体研究首先要把现实世界实体 分类。把现实世界中的实体划分为:u r e l e m e n t 和s e t 。u r e l e m e n t 构成没有任何集合理论 结构的个体层,s e t 是在u r e l e m e n t 上的上舞的特殊累积层。u r e l e m e n t 划分菇个体 ( i n d i v i d u a l ) 和共同体( u n i v e r s a l ) 。个体属于具体实体领域,受限于空间和时间。共同体 是指定方瑟的不同个体相似性复合体的实铡化,可以把共同体作为特征模式,该特征通 过他们的实例来实现。由此,实体划分为三部分:个体、共同体和集合。在哲学上,共 弱体是个体的集合。如果u 是一个共圈体,它实例的集合戈 a :a :毽。 ( 2 ) 个体类型 个体分为:s u b s t a n c e 、m o m e n t 、s i t u o i d 、c h r o n o i d 和t o p o i d ,对应的谓词分别是: m o r n ( x ) 、s u b s t ( x ) 、c h r o n ( x ) 、t o p ( x ) 、s i t ( x ) ,每个都有个共同体与之对应。s u b s t ( x ) 当且仅当x 属于共同体范禹时,稔之为物质:c h r o n ( x ) 、t o p ( x ) 也是当且仅当x 属于共 同体的范围时,分别称为:时间、空间。 。 s u b s t a n c e 是个体,不需要别的实体就可以存在;s u b s t a n c e 是霹以划分的以某稳定的 方式而存在的;m o m e n t 是一个实体,依赖于另一个实体而存在。m o m e n t 包括动作和激 祷、害羞、握手、思考等,有些m o m e n t 是性质。铡翔颜色或温度。也有些是关系, 例如,接吻或会话;s i t u o i d 理解为连贯的整体。世界上每个连贯性的部分都有一个具 有一定空闻和时间的场所,假设每一个s i t u o i d 都占据一定的区域( 鋈q 傲一个t o p o i d ) 和时 9 基于本体的语义检索模型及其应用研究 间间隔( 叫做c h r o n o i d ) 。s i t u o i d 重视实体发生的路线和历史,s i t u a t i o n 是s i t u o i d 的特殊 类型:在一定时间内是s i t u o i d ,表示世界中一部分突发事件;c h r o n o i d 和t o p o i d 分别是 共同体时间和空间的实例。c h r o n o i d s 可能理解为延迟的时间,t o p o i d 作为空间区域有一 定的最小的拓扑结构。每种物质x s u b ( s ) 有确定的最大的时间的范围,用l i f e t i m e ( x ) 表 示,每一个m o m e m m 是具有l i f e t i m e ,有l i f e t i m e ( m ) 、 l i f e t i m e ( x ) 。如果n 是一个连接 物质 x l ,x k ) 的关系m o m e n t ,则l i f e t i m e ( n ) 、 l i f e t i m e ( x i ) ,i k o ( 3 ) 基本关系 把关系划分为两类:形式关系和物质关系。形式关系是所有物质范围实体的关系, 建立了原子领域间的联系和不同。物质关系特定于一个或多个物质领域,用更为详细的 方式描述了一个特定子领域的属性。本体的基本关系有: 一成员关系,表示为: p a r t o f 关系,表示为: 和 拥有关系( h o l d i n gr e l a t i o n ) ,表示为:h 固有关系( i n h e r e n c er e l a t i o n ) ,表示为:i 一相对三重部分关系( r e l a t i v i z e dt e r n a r yp a r t o f r e l a t i o n ) ,表示为: ( c 2 ,j ) ,如果c l 是i 上的配置,c 2 是 j 上的配置并且m ( i ,j ) 。i 上的一个过程是配置序列 ( c n ,i 。) l n k w ) ,在s i t u o i d 中,子区 间i 一 c ,l + l j n + 1 ) 和j 。i 。 一个顶层本体必须满足以下标准:必须包括至少三个本体的类别个体、共同体和集 合;一个关系系统以及基本关系包含的谓语。这些形成每个本体必要的核。它需要由进 一步基本的关系延伸,包括空间、时间、形状和拓扑关系,譬如界限和连接2 5 1 。在这罩 l o 第二章语义w e b 及其相关技术 只是分析和利用g o l 项层本体作为本文构建领域本体和任务本体的指导,当然也有其 他的顶层本体。例如:k i f 、r u s s e l l n o r v i g 的顶层本体1 2 6 j 、s o w a 的本体、l a d s e b 的顶层本体吲、s u o 的顶层本体 2 9 1 。 顶层本体是各领域本体的基础,它使完全相异的系统可以使用一个共同的知识库, 并且从项层本体可以衍生出领域本体。开发基础牢固的公理化的顶层本体是开发信 息系统本体的个重要步骤。顶层本体的研究对于设计新的领域本体、已有本体的重用 ,集成和领域本体的互操作,足以起到框架指导作用。 2 4 领域本体及其o w l 表示 领域本体包含着特定类型领域( 如电子、教学机械、医药) 等的相关知识,或者 是某个学科、某门课程中的相关知识。我们以g o l 顶层奉体作为指导和参考,在这个 本体之上建立领域本体,用o w l 表示、实现语义从而有利于人与机器以及机器之间 的交流。 w 3 c 于2 0 0 4 年2 月正式推出o w l ( 全称w e bo n t o l o g yl a n g u a g e ) ,旨在用于那些 需要由应用程序而不是由人类来处理文档中的信息的情形,b r 被用来明确表示词汇表中 术语的含义以及术语间的关系。在表达含义和语义方面,o w l 比x m l 、r d f 和r d f s 有更多的表达手段。在w 3 c 提出的本体语言栈中,o w l 处于犀上层,见下图: 图2 - 2 本体语言栈 o w l 对于客观世界的描述主要从概念和属性两个方面进行,与其相应的描述手段 是面向对象域的方式和面向数据类型域的方式。面向对象域的描述方式采用r d f s 和 o w l 自身的语法进行,用于描述概念间分类化、层次化的继承关系以及相互间的关联 关系;在进行面向数据类型域的描述时,o w l 支持x m ls c h e m a 的所有数据类型进行 概念属性的定义与表达。因此,o w l 通过对概念、概念属性及其相互问关系的描述, 螽善筐 基于本体的语义检索模型及其应用研究 构成概念的复杂关系网络。 o w l 中的概念由类来表示,它可以是名字( 如u r i ) 或表达式,而且提供大量的构 造子来建立表达式,o w l 强大的表达能力正是由它所支持的概念构造子、性质构造子, 以及各种公理所决定的。具体地说,o w l 通过s u b c l a s s o f , s u b p r o p e r t y o f 形成概念及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论