(计算机软件与理论专业论文)面向语义网的本体存储管理技术研究.pdf_第1页
(计算机软件与理论专业论文)面向语义网的本体存储管理技术研究.pdf_第2页
(计算机软件与理论专业论文)面向语义网的本体存储管理技术研究.pdf_第3页
(计算机软件与理论专业论文)面向语义网的本体存储管理技术研究.pdf_第4页
(计算机软件与理论专业论文)面向语义网的本体存储管理技术研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 本体( o n t o l o g y ) 是对一个特定领域中重要概念的共享的形式化的描述,由于具 有明确性和共享性,它可以作为领域内不同主体之间进行交流的语义基础;更进 一步的,o n t o l o g y 可以帮助机器理解文档表达的语义信息。语义网是o n t o l o g y 的 一个重要应用领域。互联网堪称人类最丰富的信息源,但是持续且快速的信息增 长使得维护和访问用户所需的网络信息变得越发困难。语义网是近年来提出的新 型网络的概念,旨在使机器自动完成基于语义的网络信息搜索。在语义网的框架 中,o n t o l o g y 用来描述网络资源的语义,从而使机器具有自动管理网络信息的能 力。 巨大的数据规模是语义网环境下o n t o l o g y 数据管理面临的一个突出问题,它 对本体的存储和管理等各个方面提出了更高的要求,需要构建一个独立于具体应 用、查询效率高、具有良好的通用性、互操作性的本体存储管理系统。而现有的 本体管理工具都不具备上述特征。通过对语义网中的本体特性的研究,总结现存 的各种存储模式的特征,本文设计出了网络本体语言( w e bo n t o l o g yl a n g u a g e , o w l ) 的数据库存储模式、大规模本体实例数据的推理方法,提出了相应的查询处 理方法,支持o n t o l o g y 专用查询语言s p a r q l ,在此基础上设计了一个新的本体 存储管理系统架构,开发出一个原型系统。并对设计的存储模式和推理算法进行 了实验分析,实验结果表明本文的方法能够很好地处理大规模o n t o l o g y 数据的存 储、推理和查询。 关键词:本体;存储;推理;查询 英文摘要 s e m a n t i cw e bo r i e n t e do n t o l o g ys t o r a g em a n a g e m e n tt e c h n o l o g y i 沁s e a r c h a b s t r a c t o n t o l o g yi sf o r m a ls p e c i f i c a t i o no fs h a r e dc o n c e p t u a l i z a t i o ni nc e r t a i nd o m a i n f o r i ti s e x p l i c i t a n ds h a r e d ,o n t o l o g yc a nb eu s e da st h es e m a n t i cf o u n d a t i o n o f c o m m u n i c a t i o nb e t w e e nd i f f e r e n ta g e n t s f u r t h e r m o r e ,o n t o l o g yc a nh e l pm a c h i n e s u n d e r s t a n dt h es e m a n t i c si nd o c u m e n t s s e m a n t i cw e bi sa ni m p o r t a n ta p p l i c a t i o n s c e n a r i oo fo n t o l o g y i n t e m e th a sa na b u n d a n c eo fi n f o r m a t i o n ,b u tc o n t i n u a la n df a s t d a t ai n c r e a s i n gm a k e si th a r dt om a i n t a i na n da c c e s sr e q u i r e dr e s o u r c e s s e m a n t i cw e b i san e w w e bc o n c e p tp r o p o s e dr e c e n t l y ,a i m e dt om a k em a c h i n e sd ow e bd a t as e a r c h a u t o m a t i c a l l y i nt h i sf r a m e w o r k ,o n t o l o g yi su s e dt od e s c r i b et h es e m a n t i c so fw e b r e s o u r c e s ,a n de n a b l em a c h i n e sd ow e bi n f o r m a t i o nm a n a g e m e n ta u t o m a t i c a l l y t h eh u g ev o l u m eo fd a t ai sas i g n i f i c a n tp r o b l e mo fo n t o l o g yd a t am a n a g e m e n ti n s e m a n t i cw e be n v i r o n m e n t ,w h i c ha s k sf o rs o m ei m p r o v e m e n t so no n t o l o g ys t o r a g e a n dm a n a g e m e n t a no n t o l o g ys t o r a g em a n a g e m e n ts y s t e ms h o u l db ec o n s t r u c t e d , w h i c hi si n d e p e n d e n to fs p e c i f i c a la p p l i c a t i o n s ,u n i v e r s a l ,u s a b l e ,a n dh a sh i g hq u e r y e f f i c i e n c y b a s e do nt h er e s e a r c ho nt h eo n t o l o g yi nt h es e m a n t i cw e ba n dt h ee x i s t i n g s t o r a g em o d e s ,t h ed bs t o r a g es c h e m ao fo w l ( w e bo n t o l o g yl a n g u a g e ) a n d i n f e r e n c em e t h o df o rl a r g es c a l eo n t o l o g yi n s t a n c ed a t aa r ed e s i g n e d ,a n dr e l e v a n t q u e r yp r o c e s s i n gm e t h o dt os u p p o r to n t o l o g yq u e r yi ns p a r q l i sp r o p o s e d b a s e do n a b o v em e t h o d ,an e wo n t o l o g ys t o r a g em a n a g e m e ms y s t e ms t r u c t u r ei sd e s i g n e d ,a n da p r o t o t y p es y s t e mi sd e v e l o p e d t h ed e t a i l e de x p e r i m e n ta n a l y s eo fd e s i g n i n gs t o r a g e s c h e m aa n di n f e r e n c ea r i t h m e t i cr e v e a l st h a tt h ep r o c e s s e so ft h es t o r a g e ,t h ei n f e r e n c e a n dt h eq u e r yo fl a r g es c a l eo n t o l o g yd a t aa r eb e t t e rp e r f o r m a n c e k e yw o r d s :o n t o l o g y :s t o r a g e ;i n f e r e n c e ;q u e r y 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文! :画囱适幺圆鲍奎签在缱笪堡堇盔婴究:。除论文中已经注 明引用的内容外,对论文的研究做出重要贡献的个人和集体,均己在文中以明确 方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或 未公开发表的成果。 本声明的法律责任由本人承担。 论文作者签名:钏狄 伽9 年 月v 咱 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位 论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或 扫描等复制手段保存和汇编学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于:保密口 不保密口( 请在以上方框内打“”) 论文作者签名: 参叹 导师签名: 日期:卿p 年歹月2 一己闩 面向语义网的本体存储管理技术研究 第1 章绪论 1 。1 选题背景 随着i n t e r n e t 的发展,w e b 成为了网络信息的主要平台,它是人们获取知识的主要 来源。但是,由于w e b 页面的无结构性、超链接的自由无序、以及w e b 内容的海量性、 多样性和动态变化,w e b 上搜索效果并不尽如人意,具体表现为: 1 浏览器和搜索引擎的智能太低,基本上还是采用关键字匹配的办法; 2 不能获取用户的个性化需求,不同用户使用相同关键字提交的查询,返回结果 大致一样: 3 不能理解概念,从而不能在搜索过程中语义关联。 从数据管理和使用的角度,我们认为互联网数据管理的主要矛盾在于以下方面: 1 数据管理的有序性要求与网上信息无序性的矛盾; 2 搜索引擎的查全查准要求与数据缺乏语义的矛盾; 3 知识获取的效率要求与海量数据的矛盾。 为了解决上述矛盾,人们试图通过对网络信息赋予计算机能够理解的内容来对当前 w e b 进行扩展,让计算机能够理解w e b 信息,同时能够与人进行协作,将无序数据转 变成有序知识。w e b 创始人t i mb e m e r s l e e 于1 9 9 8 年提出了s e m a n t i cw e b ( 语义w e b , 或语义网) 的构想,其定义为“语义网是当前w e b 的扩展,其中的信息被赋予良好的 ( w e l l - - d e f i n e d ) 含义,使计算机和人更好的协作l l 】,。 o n t o l o g y 概念起源于哲学领域,后来在人工智能界、信息系统、知识系统等领域, 越来越多的入研究o n t o l o g y ,并给出了许多不同的定义。在计算机领域,一个较为通用 的o n t o l o g y 定义是“对一个特定领域中重要概念的共享的形式化的描述”。由于具有明 确性和共享性 2 1 ,o n t o l o g y 可以作为领域内不同主体之间迸行交流的语义基础。更重要 的是,o n t o l o g y 可以帮助机器理解文档表达的语义信息。语义网【3 】是o n t o l o g y 的个重 要应用领域,作为表达文档语义的方法,它使得机器能够自动处理并集成网络上的可用 信息,从而提高人类使用和管理网络资源的能力。 第1 章绪论 语义网与传统w e b 的根本区别在于它直接面向的对象不是人类,而是计算机,发布 在语义网上的信息应该是机器可理解的,从而为人类提供更好的信息服务。其基本思想 是为w e b 上所有的资源,包括页面、数据和程序,引入清晰的语义和结构化的描述, 使得计算机可以理解w e b 上的资源,从而实现人机之间以及计算机之间基于语义的信 息交换,提供更加自动化和智能化的服务。 o n t o l o g y 位于从文档描述到知识推理转折的位置,因此本体的构建是实现语义网的 关键环节。本体作为一种能在语义和知识层次上描述信息系统的概念模型建模方法,通 过概念的严格定义和概念与概念之间的关系来确定概念的精确含义,并以这些概念为 “标准来统一地、形式化地描述w e b 上资源的含义,让本不能理解w e b 内容的机器 根据这些标准去“理解”和自动处理w e b 上的资源,从而使w e b 资源被共同认可以及 可共享。 由w 3 c ( t h ew o r l dw i d ew e bc o n s o r t i u m ,万维网联盟) 提出的r d f t 4 】和r d f s 5 】 目前已经成为描述( 网络) 资源语义的标准语言,现有的o n t o l o g y 模型都可以转化为r d f 表达。r d f 模型是带标记的有向图,每个顶点可能是抽象的资源类型,或具体的资源实 体;每条边代表一种属性,它可能表达资源的某项特征,或是资源间的关系。r d f 图可 以用三元组( s u b j e c t ,p r o p e r t y ,o b j e c t ) 的形式或x m l 语法【6 】表达成串行文件。 按照抽象程度不同,可将r d f 图分成三个层冽7 1 。如图1 1 所示:由顶向下,第一 层是r d f s 元模型层,包括r d f s 中定义的三个重要概念:资源( r d f s :r e s o u r c e ) 、类 ( r d f s :c l a s s ) 矛t l 属性( r d f p r o p e r t y ) ,其中资源是r d f 模型的核心概念,r d f 描述的一切对 象都称为资源;第二层是用户模式层,包括用户自定义的类、属性及它们之间的关系; 第三层,实例数据层,是使用第二层定义的类和属性对资源实体进行的描述。 基于r d f 的三层模型,w 3 c 提出了o w l 8 1 。o w l 在r d f s 元模型层增加了资源 描述元语,能够表达更丰富的语义。同时限定:用户模式层定义的类不能在实例数据层 作为资源实体出现,使得三层模型更加界限明晰、规范。本文下面讨论的o n t o l o g y 数据 均指用o w l 表达的o n t o l o g y 数据。注意:有的文献单将用户模式层的内容称为 o n t o l o g y ,而本文的o n t o l o g y 数据既包括用户模式层,也包括实例数据层的内容,请区 分。 面向语义网的本体存储管理技术研究 o n t o l o g y 数据不同于其它类型的数据,主要体现在两个方面: 1 数据模型不同。如前所述,o n t o l o g y 的数据模型是带标记的有向图,这与传统 的关系模型【9 1 及新近提出的x m l 模型【1 0 】都有实质的不同。 2 数据管理内容不同。o n t o l o g y 数据支持推理;对o n t o l o g y 数据的管理不但包括 对用户原始数据的管理,还要包括对推理得出的隐含数据的管理。这一点是其 它类型数据所不具有的。 基于以上两点可以看出,现有的数据管理方法和系统不能满足o n t o l o g y 数据的管理 需求。 图1 1r d f 的三层模型 f i g 1 1t h r e el a y e rm o d e lo f r d f 所以随着w e b 中本体的数量不断增多,规模逐渐扩大,支持大规模o n t o l o g y 存储, 推理,高效查询的本体存储管理系统将成为一个迫切的普遍的需求。 本文同时得到国家自然科学基金项目“智能化语义网服务中本体集成机理与应用模 式”( 编号:6 0 6 7 2 0 3 1 ) 和辽宁省自然科学基金项目“基于本体集成的语义网智能服务的 第1 章绪论 关键技术研究”( 编号:2 0 0 7 2 1 4 2 ) 的资助,论文工作同时也是这两个项目的组成部分。 1 2 国内外研究进展 本体存储管理系统需要支持本体的推理和本体的访问;不仅要考虑本体的安全性, 也要考虑访问的性能。随着本体应用的迅速扩大,对本体存储管理系统的需求也越来越 强烈。先后出现了如s e s a m e ,j e n a ,3 s t o r e 等很多本体存储管理系统。不同本体存储管 理系统的管理策略差异很大。因为虽然本体从定义来看是领域的知识体系,和具体应用 无关的,但是,这种脱离应用建设本体的做法由于本身固有的性质( 边界模糊性、进化 性、应用性) ,目前情况下是较难实施的,而作为一个本体存储管理的原型,我们应该 从目前已经有的本体出发。根据应用的需要,制定相应的管理策略。 基于语义网对于支撑软件的需求,很多科研机构和学校、公司在语义网和d a m l 、 r d f 的基础上开展了自己的研究工作,开发了许多工具和平台。 最早出现的是s i r p a c ( s i m p l er d fp a r s e r & c o m p i l e r ) ,它是一个由s t a n f o r d 大学 开发的r d f 的解释器,被广泛应用于许多语义网项目。其功能还比较简单,实际上只 是一个r d fa p i ,本体存储形式仍然是文件系统,不能充分发挥数据库的事务管理、 分布性以及便于查询的结构等特性。而随后出现的o p e n c y c 、s e s a m e 、k a o n 、j e n a 就 显得相对完善了,但是也都存在不足。 o p e n c y c 是一个基于常识的,具有最完整知识库的,世界上最大的逻辑推理引擎。 现在最新的版本0 7 b e t a ,已经可以支持l i n u x 、w i n d o w sn t 2 0 0 0 x p 等多种操作系统。 o p e n c y c 可以用于各种领域的智能推理软件,例如语音理解、数据库集成、快速开发本 体、邮件的优先级、邮件路由、邮件摘要、邮件标注等。即将推出的o p e n c y c l 0 将包 括6 0 0 0 条概念、6 0 0 0 0 条断言、c y c 推理引擎、c y c 基于知识的浏览器、c y c l 规范 ( c y cl a n g u a g e ,用于开发c y c 的语言) 、c y c l 到l i s p 以及c 语言的翻译器等等。采 用开放源代码的授权机制,可从s o u r c e f o r g e 下载。但是o p e n c y e 也存在不足,由于它 所支持的c y c l 并不是一种通用的标准语言,这就使得它与标准化的本体表示的兼容性 成为瓶颈。并且它使用c 语言开发,其代码的可重用性、可移植性和平台无关性就不 如用纯j a v a 语言的代码好。 面向语义网的本体存储管理技术研究 s e s a m e 是一个开放源代码的本体存储与查询系统,由a i d m i n i s t r a t o r 公司丌发。 它解决了以往的本体数据存储的问题,支持关系型数据库和面向对象的数据库,并且使 用t o u ) fq u e r yl a n g u a g e ) r q l 查询语言,可以在数据库中检索需要的本体。s e s a m e 虽 然解决了本体数据库的存储问题,但是它所实现的r q l 是对于整个本体数据进行的, 当本体数据量达到一定程度时,其查询效率就会成为整个系统的瓶颈。 k a o n ,即“t h ek a r l s r u h eo n t o l o g ya n ds e m a n t i cw e bi n f r a s t r u c t u r e ”是德国 k a r l s r u h e 大学的一个科研项目。致力于语义网提供所需的基础本体系统和相关工具。它 针对基于本体的上层商业应用的需求提供了一个开放的本体管理基础软件,为本体的存 储、创建、标识提供了一个全面的支撑平台。 h p 实验室的j e n a 是一个以r d fa p i 为核心,用于实现语义网的工具。j e n a 由 n e t w o r ka p i 、q u e r y 、r e a d e r s 、i n f e r e n c e 、w r i t e r s 、s t o r e s 几部分围绕r d fa p i 组成。 它为r d f 、r d f s 和o w l 提供了一个程序开发环境。j e n a 中包括了用于对r d f 文件和 模型进行处理的r d fa p i 和用于对r d f s 、o w l 文件( 基于x m l 语法) 进行解析的 解析器,它支持r d f 的创建、操作和查询等功能。而r d fa p i 也能够支持很多不同 的数据存储技术。插件式的接口设计能够自动适应各种由不同的语言编写的读写r d f 文件的软件的需要。推理层、查询功能以及网络a p i 建立在r d fa p i 之上,可以更 快速的处理关系数据库模型,并且修正了一些错误。 k a o n 和j e n a 可以说是目前功能和结构较完善的语义网的支撑软件,它们都支持 本体数据库的存取操作,支持r d f 标准,使用纯j a v a 语言开发,有着良好的结构和 性能。但美中不足的是,它们不支持基于本体信息的逻辑推理,只能查询当前数掘库以 有的信息。我们知道对于一种本体知识库来说,有些知识本身是隐含的,需要进行推理 才能得到,这只有在已有的本体知识库中运用基于知识的推理才能真的展示出本体知识 的丰富性,更好的发挥本体知识的作用。 第1 章绪论 表1 1 几种本体存储管理系统工具比较分析表 t a b 1 1c o m p a r a t i v ea n a l y s i st a b l ef o rs e v e r a lo n t o l o g ys t o r a g em a n a g e m e n ts y s t e mt o o l s 工具工具开发语言存储类型推理机制a p l 支持语言标准 s e s a m e j a v a对象关系关系数据库无 h t t p s o a pr d f ( p o s t g r e s o l m y s q l ,o r a c le ) k a o n j a v a ,p y t h o n基于主存持久储存( k a o n 无 j a v a r d f s e r v e r 文件,关系数据库) s i r p a c j a v a文件系统无j a v a r d f r d f s t o r e c ,p e r l基于主存持久存储( 文无p e r l r d f 件,b e r k e le y d b ,s d b i d ) e o r j a v a持久存储无h t t p ,j a v a r d f ( s o ld a t a b a s e ,如,m y s q l )s o l j d b c j e n a j a v a基于主存持久存储无j a v a r d f ( b e r k e l e y d b ,i n t e r b a s e ) i n k l i n g j a v a 基于主存持久存储无j a v a r d f ( 支持j d b c ,s o l ,p o s t g r e s s q l ) 本文对比了几种本体存储管理工具如表1 1 ,从表1 1 中可以看出,大部分系统都是 支持r d f 存储,不支持o w l 的存储,o w l 对本体的描述能力要强于r d f ,所以设计 存储o w l 本体的存储模式是本文的一个重点,从表1 1 中我们还看到,表中系统工具 都无推理机制,所以如何对本体推理也是本文研究的一个重点。 1 3 论文的主要工作 1 3 1 论文研究的主要内容 针对语义网对o n t o l o g y 数据的管理需求及现有工作的不足,本文提出了一种有效的 o n t o l o g y 存储和推理的方法,具有处理较大规模o n t o l o g y 数据的能力。具体来说主要 包括一下几个方面的内容: 面向语义网的本体存储管理技术研究 l 、首先对o n t o l o g y 和语义网的一系列相关理论知识进行综述。 2 、在阅读了大量的关于o n t o l o g y 及o n t o l o g y 管理的文献的基础上,深入研究了现 有o n t o l o g y 存储模式的不足,针对o w l 特性提出了新方法来存储本体。 3 、o w l l i t e 是o w l 的一个子语言,它包含了o w l 大部分的构造符,提供了较强的 语义表达能力,同时与o w l 的其它子语言相比,其推理具有较低的计算复杂度。o w l l i t e 的推理因为涉及大规模的实例数据,因此本文提出一种高效的推理方法来支持大规 模本体实例数据的推理,同时本文设计了推理维护系统( i n f e r e n c em a i n t e n a n c es y s t e m , i m s ) ,来维护实例数据的更新。 4 、设计一个本体存储管理系统的框架结构。 5 、给出有效的o n t o l o g y 查询处理方法,并提出可能的优化方案。 6 、最后结合实际应用数据,对系统存储模式查询时间和推理算法进行了对比实验 分析。 1 3 2 论文的章节安排 论文的章节安排如下: 第1 章为绪论。主要介绍了选题背景和意义,本体技术的发展现状。 第2 章主要介绍了语义网和o n t o l o g y 的基本理论。包括o n t o l o g y 的定义、功能、一 方法学、构成、描述语言,语义网的结构、本体在语义网中的地位。 第3 章介绍了o n t o l o g y 的存储方法,提出了本体存储管理系统的体系结构。 第4 章介绍了o n t o l o g y 现有的各种存储模式,在此基础上提出新的o w l 存储模式。 第5 章提出o n t o l o g y 存储管理中本体实例推理的问题,总结了大规模o w l l i t e 实 例数据推理的方法。采用s p a r q l 本体查询语言给出有效的o n t o l o g y 查询处理方法, 并提出可能的优化方案。 第6 章为系统原型实现并进行实验数据的分析。 第7 章总结了本文的研究工作,并给出了进一步的展望。 第2 章语义网和本体的理论研究 第2 章语义网和本体的理论研究 2 1 本体的定义 本体的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多德。原 是哲学研究中发展出来的一个概念,研究客观事物存在的本质和组成。在哲学上的定义 为“对世界上客观存在物的系统地描述,即存在论”,是客观存在的一个系统的解释 或说明,关心的是客观现实的抽象本质【1 1 】。这种定义的主要特点在于它是关于世界某个 方面的一个特定的分类体系,这个体系不依赖任何特定的语言【1 2 】。 最早将本体引入信息应用领域的是在人工智能界的研究人员,其中最早给出本体定 义的是n e c h e s 等人,他们将本体定义为,“给出构成相关领域词汇的基本术语和关系, 以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”【1 3 】。 在后来被提出的各种定义中,最著名并被引用得最为广泛的定义是由g r u b e r 提出 的,本体是概念化的明确的规范说明【1 4 】【1 5 】。 根据对以上定义的分析,我们可以看到本体的四层含义【1 6 】: 概念化( c o n c e p t u a l i z a t i o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,其表 示的含义独立于具体的环境状态 明确。陛( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义 形式化( f o r m a l ) 本体是计算机可读的 共享( s h a r e ) 本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的 是团体而不是个体。 本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域 内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相 互关系的明确定义【17 1 。 面向语义网的本体存储管理技术研究 2 2 本体的方法学 本体建设的方法学已经成为很多研究机构关心的问题,本节介绍的这些方法学诞生 在具体的本体建设项目之中,在相应的项目中得到实践。 2 2 1ld e f - 5 方法 i d e f 的概念是在7 0 年代提出的,在结构化分析方法的基础上发展起来的。本体描 述获取方法i d e f 5 ( o n t o l o g yd e s c r i p t i o nc a p t u r em e t h o d ) 提供了两种语言形式,即图表 语言和细化说明语言来获取某个领域的本体。 i d e f 一5 提出的本体建设方法包括以下五个步骤【1 8 】: ( 1 ) 组织和范围:确定本体建设项目的目标、观点和语境,并为组员分配角色。 ( 2 ) 数据收集:收集本体建设需要的原始数据。 ( 3 ) 数据分析:分析数据,为抽取本体做准备。 ( 4 ) 初始化的本体建立:从收集的数据当中建立一个初步的本体。 ( 5 ) 本体的精炼与确认:完成本体建设过程。 2 。2 ,2 骨架法( s k e i e t aim e t h o d o i o g y ) 在骨架法中提出建设本体的方法主要包括步骤【1 9 】: ( 1 ) 确定目的和范围。该阶段需要确定建立本体的目的和范围。 ( 2 ) 建设本体。这个阶段包括:本体的获取,本体编码和集成现有本体。 ( 3 ) 评价。他们没有提出自己的评价方法,只是认为这应该是整个方法论的一个环节。 ( 4 ) 文档化。这些文档应该包括本体中定义的主要概念、元本体等。某些编辑器可以自 动生成这些文档。目前很多知识库和本体缺少文档也是一种知识共享的障碍。 ( 5 ) 每阶段的指导方针。把设计本体的初始指导方针总结为以下设计标准:清楚、一致、 可扩展性、最小本体承诺、最小编码偏差。 2 2 3 企业建模法( t o m e ) m i c h e a lg r u n i n g e r & m a r k sf o x 的企业建模法( t o v e ) 口用于t o v e 项目中,该项 目是多伦多大学e i l 实验室( e n t e r p r i s ei n t e g r a t i o nl a b o r a t o r y ) 的一个项目,它的目标是建 立一套为商业和公共企业建模的集成本体,并且已经建成了相关本体。作为该项目的一 第2 章语义网和本体的理论研究 部分,他们设计了一套创建和评价本体的方法“e n t e r p r i s em o d e l l i n gm e t h o d o l o g y ”。t o v e 流程如图2 1 。 图2 1 本体设计和评估步骤 f i g 2 1p r o c u d u r ef o ro n t o l o g yd e s i g na n de v a l u a t i o n 2 2 4m e ih o n l o l o g y 本体的开发过程包括如下活动:计划( p l a j l ) 、详细说i j y j ( s p e c i f y ) 、获取知识( c 印t u r i n g k n o w l e d g e ) 、概念化( c o n c e p t u a l i z e ) 、形式化( f o 肌a l i z e ) 、集成( i n t e 哥a t e ) 、实现( i m p l e m e n t ) 、 评价( e v a l u a t e ) 、文档化( d o c u m e n t a t i o n ) 、g 往护( m a i n t a i n ) 。本体的生命周期依次分为以下 状态:详细说a y ( s p e c i f i c a t i o n ) 、概念化( c o n c e p t u a l i z a t i o n ) 、形式化( f o r m a l i z a t i o n ) 、集成 ( i n t e g r a t i o n ) 、实现( i m p l e m e n t a t i o n ) 和维护( m a i n t e n a n c e ) 。2 1 1 。 图2 2 中表现了这些活动和状态之间的关系。 状态 图2 2n e t h o n t o l o g y 本体开发过程的活动与状态 f i g 2 2s t a t e sa n da c t i v i t i e s 面向语义网的本体存储管理技术研究 2 2 5 循环获取过程( c y ci ca c q uisitio np r o c e s s ) 这种本体获取的方法论是一种环状的结构。 ( 1 ) 环形的起点是一个通用的核心本体的选择。 任何大型的通用本体( 像c y c 、d a h l g r e n 的本体) 、词汇语义网( 像w o r d n e t , g e r m a n e t ) 、或者领域相关的本体( 如t o v e ) 都可以作为这个过程的开始。选定基础 本体后,用户必须确定用于抽取领域相关实体的文本【2 2 1 。 ( 2 ) 从选择的文本中获取领域相关的概念,并建立概念之间的分类关系。 ( 3 ) 除去领域无关的概念,只留下和领域相关的。这时,建立起了目标本体的概念结构。 ( 4 ) 从基础本体中会继承一些关系,其他的关系需要通过学习的方法从文本中抽取。 ( 5 ) 对得到的领域相关的本体进行评价,还可以进一步的重复上述过程。 2 3 本体的构成和构造准则 对于本体的具体构造过程,可以用下面的公式形象地给出【2 3 】: 本体= 概念( c o n c e p t ) 十属性( p r o p e r t y ) 十公理( a x i o m ) + 取值( v a l u e ) 十名义 ( n o m i n a l ) 。 概念可分成“原始概念( p r i m i t i v ec o n c e p t s ) ”( 属性是必要条件,而非充要条件的情 况) 和“定义概念( d e f i n e dc o n c e p t s ) ( 属性是充分必要条件的情况) 两种。属性则是 对概念特征或性质的描述。例如:“人是哺乳动物”即是简单概念,“素数是只能被1 和自身整除的正整数 则是定义概念。 至于“公理 ,即是定义在“概念 和“属性”上的限定和规则。“取值”则是具 体的赋值,“名义”是无实例( i n s t a n c e s ) 的概念或者是用在概念定义中的实例。 目前已有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过程也是 各不相同的。由于没有一个标准的本体构造方法,不少研究人员出于指导人们构造本体的 目的,从实践出发,提出了不少有益于构造本体的标准,其中最有影响的是g r u b e r 于 1 9 9 5 年提出的5 条规则【1 5 】: 明确性和客观性:即本体应该用自然语言对所定义术语给出明确的、客观的语义定 义。 第2 章语义网和本体的理论研究 完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。 一致性:即由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。 最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其已有的内 容。 最小承诺:即对待建模对象给出尽可能少的约束。 当前对构造o n t o l o g y 的方法和方法的性能评估还没有一个统一的标准,因此,还是 一个需要进一步研究的方向。不过在构造特定领域o n t o l o g y 的过程中,有一点是得到大 家公认的,那就是需要该领域专家的参与。 2 4 本体的描述语言 2 4 1 本体描述语言的发展 近年来,为了适应w e b 的开放性,本体描述语言的发展历经了r d f 、r d f s 、o i l l 2 4 1 、 d a m l o n t l 2 5 1 、o i l + d a m l l 2 6 1 、o w l 。与传统的基于人工智能的本体描述语言相比, 这些语言的共同点都是基于x m l 的。虽然在实际中这些语言都体现了本体的基本结构, 但是它们在表达能力上仍然有许多差别。图2 3 给出了这些著名的基于x m l 的本体描 述语言的发展历程。 卜圈 i ,i ,bi ! ,! ,! ,2 0 0 iz 剪,: 图2 3 本体描述语言的发展 f i g 2 3d e v e l o p m e n to fo n t o l o g yd e s c r i p t i o nl a n g u a g e 由于x m l 只是定义了语法的标准,而无法表示清晰的语义,因此,w 3 c 提出了一 种资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) ,即r d f 。它除了可以表达w e b 资源 的元数据,例如w e b 页面的标题、作者、创建时间等,还可以表达任何可在w e b 上标 识的事物的信息,例如购物网站上某个产品的价格、功能等。r d f 使用了一种简单的三 面向语义网的本体存储管理技术研究 元组模型来表示w e b 上资源的属性的取值。每个三元组由主语( s u b j e c t ) 、谓语( p r e d i c a t e l 和宾语( o b j e c t ) - 一个元素构成。其中主语代表资源,即所有可以描述的对象。谓语指资 源的属性,包括资源的性质、特点、与其它资源的关系等,一个资源可以有多个属性。 宾语就是属性的值,每个属性值既可以是数字、字符串等,也可以是资源。r d f 本身并 没有规定语义,但是它为一个资源描述体系提供了一个能够描述其特定需求的语义结构 的能力。从这个意义上来讲,r d f 是一个开放的元数据框架。显然地,这种框架还需要 定义描述中使用的词汇,这就是r d f 的词汇描述语言,即r d fs c h e m a ( r d f s ) 。r d f s 定义了r d f 描述数据时使用的词汇,它引入了类( c l a s s ) 、属。l 生( p r o p e r t y ) 、类之间的包含 关系( s u b c l a s s o f ) 、属性之间的包含关系( s u b p r o p e r t y o f ) ,以及属性的定义域( d o m a i n ) 和 值域( r a n g e ) 等标准词汇。语法上,r d f s 与r d f 是完全一致的,即所有的r d f s 文档都 是合法的r d f 文档。语义上,r d f s 是r d f 的一个扩展,即它不仅保留了r d f 的全部 意义,而且对新增部分加入了自身的解释。 从某种意义上说,r d f ( s ) 本身就是一种简单的本体描述语言。但是它太简单,描述 能力比较弱,难以表达复杂的领域知识,因此需要对其进行扩展。例如o i l ,d a m l + o i l 和o w l 都是对r d f ( s ) 的扩展。从图2 3 可以看出,o w l 是在d a m l + o i l 的基础 上发展起来的。其目的是提供更多的原语以支持更加丰富的语义表达,并更好的支持推 理。 2 4 2o w l 简介 ( 1 ) o w l 的引入 w 3 c 总结了之前的d a m l + o i l 、r d f 和r d f s 等几种语言的开发经验,于2 0 0 4 年2 月正式推出o w l 。o w l 是语义网发展过程中的一个重要里程碑,它已经经过广泛 的讨论并得到比较一致的认可。o w l 是针对各方面需求设计而成的。它既保持了对 d a m l o n t o i l r d f s 的兼容性,又要保证了更强大的语义表达能力,还保证了描述 逻辑的可判定推理等。 o w l 本体的一个优点是能够构建对其做推理的工具。这些工具提供了不特定于某 个主题领域的通用支持,而如果要构建一个能对一个特定的工业界标准x m ls c h e m a 做 推理的系统,它往往是特定于一个领域的。构建一个可靠的和有用的推理系统不是一项 第2 章语义网和本体的理论研究 简单的工作。而创建一个本体则更为容易处理。我们的期望就是很多团体会着手本体创 建。他们会得益于基于o w l 语言的形式属性的第三方工具,这些工具提供了多种多样 的能力,而这些能力是大部分组织难以复制的。 t h eo n t o l o g yl a n g u a g es t a c k 图2 4o w l 语言栈 f i g 2 4o w ll a n g u a g es t a c k ( 2 ) o w l 子语言 针对不同的需求,o w l 有三个子语言:o w ll i t e 、o w ld l 、和o w lf u l l 。具体 分别描述如下: o w ll i t e :用于提供给那些只需要一个分类层次和简单约束的用户。 o w l d l :支持那些需要最强表达能力的推理系统的用户,且这个推理系统能够保 证计算的完全性( c o m p u t a t i o n a lc o m p l e t e n e s s ,即所有的结论都能够保证被计算出来) 和可判定性( d e c i d a b i l i t y ,即所有的计算都在有限的时间内完成) 。它包括了o w l 语 言的所有约束,但是可以被仅仅置于特定的约束下。 o w lf u l l :支持那些需要尽管没有可计算性保证,但有最强的表达能力和完

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论