(计算机软件与理论专业论文)基于语义的web再工程研究.pdf_第1页
(计算机软件与理论专业论文)基于语义的web再工程研究.pdf_第2页
(计算机软件与理论专业论文)基于语义的web再工程研究.pdf_第3页
(计算机软件与理论专业论文)基于语义的web再工程研究.pdf_第4页
(计算机软件与理论专业论文)基于语义的web再工程研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文摘要 摘要 随着信息技术的蓬勃发展,w e b 上的信息资源也呈指数级的飞速膨胀。然而在目前的 万维网中,绝大部分有效的信息都只能由人工来理解,用户越来越难从海量的数据中查找 自己需要的资源。万维网联盟( w 3 c ) 组织倡导的基于本体( o n t o l o g y ) 的语义网( s e m a n t i c w e b ) 是一种能理解人类语言的智能网络,可以使人与计算机之间的交流变得像人与人之 间交流一样轻松。所以在不远的将来,语义网能够在互联网中扮演越来越重要的角色。 本文首先简要地介绍了可扩展标记语言x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 、语义网 及w e b 再工程( r e e n g i n e e r i n g ) 相关的知识背景,分别针对x m l 与w e b 本体描述语言o w l ( w e b o n t o l o g yl a n g u a g e ) 在w e b 信息的表示层面进行研究;然后,在结合了一系列相关技术的 基础上,提出了一种能够将w e b 信息从当前普遍存在的数据密集型( d a t a - i n t e n s i v e ) 网 站中迁移至本体语义网的技术方案,并将该技术方案与其他研究者提出的方案做了比较, 分析了它们各自的优缺点及适用性;最后,设计并实现了适用于本文提出方案的配套工具 h t m 2 0 w 1 。 关键词:x m l ,o w l ,w e b 再工程 南京邮电大学硕= i :研究生学位论文摘要 a bs t r a c t w it ht h e v i g o r o u sd e v e l o p m e n t o fi n f o r m a ti o n t e c h n o l o g y , i n f o r m a t i o n r e s o u r c e so nt h ew e ba l s oe x p a n dw i t he x p o n e n t i a lg r o w t h h o w e v e r ,i nt h ec u r r e n t w o r l dw i d ew e bm o s te f f e c t i v ei n f o r m a t i o ni su n d e r s t o o do n l yb ym a n u a ls e a r c h w i t ht h eh e l po ft h et r a d i t i o n a ls e a r c he n g i n e s i ti sm o r ea n dm o r ed i f f i c u l t f o ru s e r st os e e kt h eu s e f u lr e s o u r c e si nm a s s i v ea m o u n to fd a t a t h eo n t o l o g y b a s e d s e m a n t i cw e br e c o m m e n d e db yw o r l dw i d ew e bc o n s o r t i u mi sa ni n t e l l i g e n tw e bt h a t c o u l du n d e r s t a n dh u m a nl a n g u a g e ,a n di tc a nm a k et h ei n t e r c o m m u n i o nb e t w e e n p e o p l ea n dc o m p u t e rb e c o m ea sr e l a x e da sc o m m u n i c a t i n gi n t e r p e r s o n a l l y b e f o r e l o n g ,t h es e m a n t i cw e bw i i ip l a yam o r ea n dm o r ei m p o r t a n tr o l ei nt h ew w w f i r s t ,t h isp a p e ri n t r o d u c e st h er e l a t e dk n o w l e d g eb a c k g r o u n ds u c ha s e x t e n s i b l em a r k u pl a n g u a g e ( x m l ) ,s e m a n t i cw e ba n dw e br e e n g i n e e r i n gb r i e f l y ,a n d d is c u s s e s ) ( m la n dt h ew e bo n t o l o g yl a n g u a g ei nt h ep r e s e n t a ti o nl a y e ro fw e b i n f o r m a t i o n t h e ni tp r o p o s e dab l u ep r i n tt h a tc a nm i g r a t et h ei n f o r m a t i o nf r o m t h ed a t a i n t e n s i v ew e bs i t e sc u r r e n t l yc o m m o n l ye x i s t i n gt ot h eo n t o l o g y b a s e d s e m a n t i cw e b ,a n dc o m p a r e dt h i ss o l u t i o nw i t ht h ee x i s t i n gs o l u t i o n s ,b ya n a l y z i n g t h e i re x c e l l e n c e s ,s h o r t c o m i n g sa n ds e r v i c e a b i l i t yr e s p e c t i v e l y f i n a l l y ,at o o l h t m l 2 0 w lw h i c hi s d e s i g n e dt os u p p o r tt h es c h e m ep r o p o s e di nt h i sp a p e ri s p r e s e n t e d k e y w o r d s :x m l ,o w l ,w e br e e n g i n e e r i n g 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:二盟日期:j 圳 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:搬导师签名:里逝日期:地 南京邮电犬学硕- j :o f 究生学位论文 第一章绪论 1 1 研究背景和研究意义 第一章绪论 当今的社会也是一个信息化的社会,在互联网不断高速发展的今天,越来越多的软件 应用系统从传统的c s 结构转向为b s 结构。用户可以不必另行安装客户端软件,而直接 的通过w e b 浏览器与目标系统实现交互。例如,我们只需要浏览器就可以网上购物、网上 订票、网站管理等。的确,w e b 已经对我们的日常生活产生了巨大的影响。人们对w e b 的 应用越来越多的同时,w e b 上的信息资源也呈指数级的飞速膨胀。然而,绝大部分有效的 信息都只能由人工来理解,计算机在理解这些信息所起的作用是相对有限的。如何能够利 用计算机来有效的帮助我们来理解日益膨胀的信息? 下一代的互联网一语义网给出了答 案。 语义网就是能够根据语义进行判断的网络。目前在万维网中,网页仅仅是一个单调的 内容显示,计算机只负责将一个网页链接到另一个网页,。网络不能按照用户的要求自动搜 寻和检索网页,直至找到所需要的内容。而语义网则是希望计算机能理解网页的内容,使 计算机成为智能的导航工具。简单地说,语义网是一种能理解人类语言的智能网络,它不 但能够理解人类的语言,而且还可以使人与计算机之间的交流变得像人与人之间交流一样 轻松。语义网就好比一个巨型的大脑,它由数据库智能化程度极高,协调能力非常强大的 各个部分组成,可以解决各种难题。在语义网上连接的每一部电脑,都能分享人类历史上 所有科学、商业和艺术等知识。它不但能够理解词语和概念,而且还能够理解它们之间的 逻辑关系。在语义网中,网络不仅能够连接各个文件,而且还能够识别文件里所传递的信 息,也就是说,它是一种聪明的网络,可以干人所从事的工作。例如:它可以让计算机辨 认和识别“h e a d ”这个单词的意思是“头脑 还是“领导 :在读者看新闻时,它能轻松 地分辨出哪句是标题、哪旬是导语。 语义网虽然是一种功能更加强大的网络,但实现起来却是一项复杂而浩大的工程。要 使语义网搜索更精确彻底,更容易判断信息的真假,从而达到实用的目标,首先需要制订 标准,该标准允许用户给网络内容添加元数据( 即解释详尽的标记) ,并能让用户精确地 指出他们正在寻找什么;然后,还需要找到一种方法,以确保不同的程序都能分享不同网 站的内容;最后,要求用户可以增加其他功能,如添加应用软件等。更主要的技术难题还 在于要让计算机可以进行过多的“思考 和“推断 。因此,要真正实现实用的语义网还 南京邮电大学硕士研究生学位论文 第一章绪论 有很多工作要做。 1 2 研究现状 本文研究的主题是面向语义网的w e b 再工程技术,为实现当前互联网上普遍存在的w e b 系统到下一代互联网一语义网的平稳过渡提供一条合理途径。根据本人收集的相关文献资 料显示,目前在国内在面向语义网w e b 再工程方面的研究还处于空白阶段,尚未发现有关 于此方面的研究。而在国外,从本世纪初就有相关的一些学术论文【9 】【1 2 【1 3 】【1 4 】 陆续发表在国外的著名期刊上,国外的学者们的研究工作的侧重点也不大相同( 详细内容 请参见本文第四章) ,这些论文在这一方面的研究已经作出了一定的贡献。当然,由于w e b 技术本身还处于飞速发展阶段,所以在这一领域仍然处于不成熟的领域,还有待进一步的 去探索与研究。 1 3 主要工作及成果 笔者分别针对x m l 与o w l 在w e b 信息的表示层面进行研究,在结合了一系列相关技术 的基础上,提出了一种能够将w e b 信息从当前普遍存在的数据密集型网站中迁移至语义网 的技术方案,为实现当前数据密集型网站向语义网过渡提供了技术上的支持。并且将该技 术方案与前人提出的方案做了比较,分析了它们各自的优缺点和适用性。最后在利用 j x m l 2 0 w l 、n e k o h t m l 、j t i d y 等开源软件进行二次开发,设计并实现了适用于自己提出方 案的工具h t m l 2 0 w l ,为实现基于语义的w e b 再工程的提供了工具上的支持。 1 4 论文组织结构 第一章为“绪论”,这一章主要阐述了关于本文主题的研究现状和研究意义,并对本 人在论文中的主要工作及成果做了简要的概括。 第二章为“x m l 与非结构化信息 ,主要介绍了在本文的研究中与x m l 相关的知识背景。 第三章为“基于本体的语义网相关理论”,主要介绍了x m l 在语义层面描述能力的不足 以及o w l 相关的知识背景。 第四章为“基于语义的w e b 再工程技术”,这一章介绍了再工程相关的知识和现有的技 术,并对本课题领域相关的研究作了详细的阐述。 第五章为“一种从h t m l 到o w l 的技术方案 ,这一章在方法层面上详细介绍了在这一 2 南京邮电大学硕士研究生学位论文第一章绪论 课题上由本人提出的技术方案,并且将该技术方案与前人提出的方案做了比较,分析了它 们各自的优缺点和适用性。 第六章为“方案支持工具的实现 ,主要介绍了支持本方案的工具的实现方法,并展示 工具的使用步骤。 第七章为“总结与展望”,主要提出了下一步的研究内容和方向,以及本文研究成果 的应用前景和意义。 南京邮电大学硕士研究生学位论文 第二章x m l 与非结构化信息 第二章x m l 与非结构化信息 非结构化信息的爆炸式增长导致可共享的资源越来越多,数据环境的差异越来越大, 人们对信息资源集成与有效管理的呼声越来越高。选用何种格式来统一表示非结构化信 息,使其更利于信息的集成将是本章讨论的重点。 2 1 非结构化信息的特征 非结构化信息的类型多样,通常无法抽象成单一的信息模型,并且还具有异构性、分 布性、增长性和变化性等显著特征: ( 1 ) 异构数据源。表现在各系统采用不同的软硬件平台、不同的数据模型以及不同的 数据库来表示和存储数据。 ( 2 ) 分布自治性。各系统都独立设计、实现并自治运行,具有各自完整的功能,相互 之间的关联很弱。具有相同语义内容的数据往往表现方式完全不同。 ( 3 ) 变化频繁、增长速度快。在各系统尤其是像w e b 站点这样的系统中,数据一直处 于变化之中,不仅数量增长快,而且数据类型、数据格式以及表现数据的方式也在不断变 化。 企业系统或w e b 站点往往倾向于使用各种不同的方式来表示和存储非结构化信息,而 用户则希望使用统一的、一致的方式来访问它们。如果数据提供方能用一种标准和开放的 结构来表示数据信息,那势必能在很大程度上解决信息共享及开放性的问题。另一方面, 各行业术语标准化也是制约共享的一个重要问题。由于各个领域的术语数量非常大,全球 标准化工作进展缓慢,标准化成为数据交换的一个障碍。因此,在目前的异构系统基础上, 采用一种大家都可以接受的语言作为通信的标准,显得十分必要。 1 9 9 8 年初,w 3 c ( 万维网联盟) 完成了x m l 的初步设计。1 9 9 9 年,w 3 c 在原有基础上制 定了一系列标准,完善了x m l 。x m l 开始显示了可以承担重任的特征。 2 2h t m l 的一些缺点 超文本标记语言h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 是用于创建网页和进行信息发布 的通用语言,它以纯文本形式存储,以标签定义文档的组织,提供跨平台的文档共享。总的 来说,h t m l 有如下特点:格式和语法比较简单,易懂易学;而且h t m l 所有的控制标记都是固 4 南京邮电大学硕士研究生学位论文 第二章x m l 与非结构化信息 定的,数目也有限,提供的功能与相关属性的设置也是固定的,容易记忆;规定比较灵活,如 控制标记中的英文标记大小写没有区别。另外,对控制标记中要有相对应的结束标记也没 有严格的要求。h t m l 的简洁性更适合低成本信息发布的需要;h t m l 作为w e b 中共同的信息 描述方式通用性较强,可以实现不同平台的文档共享; 创建也比较灵活,h t m l 文档是纯文 本文件,可利用各种各样的编辑工具进行创建。h t m l 的主要缺点是: ( 1 ) 表现过于简单。h t m l 文件将数据和数据的表现集中在一起,形式较为单调,尽管它 能表达脚本、表格等功能,但很难表达复杂的形式: ( 2 ) 链路容易断,链宿地址改变后,链源不能自动纠正; ( 3 ) 检索时所花的时间较长,检索到的内容针对性较差,返回的结果较多; ( 4 ) 扩展性差,h t m l 的标记集合是固定的,不允许用户自行定义他们自己的标识。由于 网络技术发展得非常快,不断有新的数据格式的文档上网,这就要求要有一种比较灵活的 标签机制才能满足网络信息不断发展的要求,但h t m l 不允许用户根据需要来创建新的标记, 更无法表示许多特殊行业的数据; ( 5 ) 缺少语义性,h t m l 是一种标记技术,不能很好地揭示信息内容的本质,计算机无法 知道各段文本的确切含义。h t m l 在设计上是用来展示内容和手工浏览网页的,不适合用作 网络信息资源的自动化组织管理。h t m l 是一种显示描述语言,通过标记来定义文档内容以 什么样的形式显现,它仅仅描述了w e b 浏览器应该如何在页面上布置文字、图形等,并不揭 示所标记信息的具体含义,h t m l 只是一种表现技术。 2 3x m l 的特点及语法规则 由于h t m l 是在w e b 技术发展的早期制定的,因此h t m l 许多功能受到一定的限制。x m l 是由万维网联盟设计,专门为w e b 应用服务的s g m l 的一个重要分支。 x m l 是一种元标记语言( m e t a - m a r k u pl a n g u a g e ) ,可提供描述结构化资料的格式。x m l 提供了一种独立于运行程序的方法来共享数据,它是用来自动描述信息的一种新的标准语 言。x m l 由若干规则组成,这些规则可用于创建标记语言,并能用一种被称作分析程序的 简明程序处理所有新创建的标记语言,正如h t m l 为计算机用户订阅i n t e r n e t 文档提供一 种显示方式一样,x m l 也创建了一种任何人都能读出和写入的世界语。x m l 能增加结构和 语义信息,可使计算机和服务器即时处理多种形式的信息。运用x m l 的扩展功能不仅能从 w e b 服务器下载大量的信息,还能大大减少网络业务量。x m l 中的标志( t a g ) 是没有预先定 义的,使用者必须预定义需要使用的标志,x m l 是能够进行自描述( s e l fd e s c r i b i n g ) 的语 南京邮电大学硕士研究生学位论文 第二章x m l 与非结构化信息 言。x m l 使用文档类型定义d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 来规范这些数据,可扩充样 式表语言x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ) 是种来描述这些文档如何显示的机制, 它是x m l 的样式表描述语言。x s l 包括两部分:个用来转换x m l 的方法;一个用来格式化 x m l 文档的方法。由于x m l 能够标记更多的信息,所以它就能使用户和轻松地找到他们需 要地信息。利用x m l ,w e b 设计人员不仅能创建文字和图形,而且还能构建文档类型定义 的多层次、相互依存的系统、数据树、源数据、超链接结构和样式表。 x m l 文档由称为实体的存储单元组成,实体可以包含解析数据或未析数据。解析数据 由字符组成,其中一些字符组成字符数据,另一些字符组成标记。标记中包含了对文档存 储格式和逻辑结构的描述。 主要特点如下: ( 1 ) 具有自描述性,高效并且可扩充:支持复用文档片断,使用者可以发明和使用自己 的标签,也可与他人共享,可延伸性大,在x m l 中,可以定义无限量的一组标注。x m l 提 供了一个标示结构化资料的架构。一个x m l 组件可以宣告与其相关的资料为零售价、营业 税、书名、数量或其他任何数据元素。随着世界范围内的许多机构逐渐采用x v l l 标准,将 会有更多的相关功能出现:一旦锁定资料,并可以使用任何方式通过网络传递,并在浏览 器中呈现,或者转交到其他应用程序做进一步的处理。x m l 提供了一个独立的运用程序的 方法来共享数据,使用d t d ,不同的组中的人就能够使用共同的d t d 来交换数据。应用程 序可以使用这个标准的d t d 来验证接受到的数据是否有效,也可以使用一个d t d 来验证自 己的数据。 ( 2 ) 简单性。x m l 整个规范简单明了,它由若干规则组成,这些规则可用于创建标记语 言,并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言。x m l 能创建一 种任何人都能读出和写入的世界语,这种创建世界语的功能叫做统一性功能。如x m l 创建 的标记总是成对出现,以及依靠称作统一代码( u n i c o d e ) 的新的编码标准。 ( 3 ) 分层结构:信息组织层次性,符合现实物理世界信息组织方式,逻辑性可读性好。 比如:一个商品可以有品名、商品代码和价格,价格义可以有基本价格、商品税和运输费 在占 寸o ( 4 ) 丰富的链接定义:对应于h t m l 单一的单向单通道链接,x m l 提供各种不同的链接, 如一对多、多对一和双向链接。 ( 5 ) 多样的样式表支持:x m l 把数据内容与他们的表现形式分开。这样既可以只关心数 据的逻辑结构,也可以通过样式表来格式化数据的表现。你甚至可以定义自己的个人样式 表来显示各种不同的x m l 数据。 6 南京邮电大学硕士研究生学位论文 第二章x m l 与非结构化信息 x m l 文档需遵守x m l 语法的一般规则如下: ( 1 ) x m l 文档包含个或多个元素,必须有且只有一个根元素,它不出现在其他任何元 素的走容中。 ( 2 ) 每个元素必须有起始和结束标记。 ( 3 ) 正确地格式化空元素。 ( 4 ) 开始标记和结束标记可以大写或小写,但它们必须配对。 ( 5 ) 元素必须正确地嵌套,如果起始标签在另一个元素的内容孛,则其结束标签也在 同一元素的内容中。 ( s ) 属性徨必须周弓l 号括起来。 2 4d t d 与x m ls c h e m a 一个x m l 文件遵守d t d 中定义的种种规定。d t d 描述了一个x m l 文档的语法和词汇表, 也就是定义了文档的整体结构以及语法。简而言之,d t d 规定了个语法分析器为了解释 一个“有效的 x m l 文件所需要知道的所有规则的细节。d t d 原来是为使用s g m l 开发的, 它可以是x m l 文档的一部分,但是它通常是一份单独的文档或一系列文档。x m l 本身并没 有一个通用的d t d ,想使用x m l 进行数据交换的行业或组织可以定义他们囱己的d t d 。 x m l 提供种称为文档类型声明的机制,用于定义对逻辑结构的约束,支持预定义存 储单元的使用。文档类型声明指定了文档使用的d t d 。文档类型声明出现在文档的序言部 分,处在x m l 声明之后和第一个元素之前。它可以包括d t d ,也可以标识d t d 所在文档的 u r l 。一个合法的x m l 文档必须符合文档类型声赐指定的约束条件。面且,它的基本元素 必须是在文档类型声明中指明的。 d t d 为废用程序、组织和兴趣组提供了共同遵循的方法,同时也以文档形式阐述了标 记标准并强制遵守此标准。d t d 有助予不同的人们和程序互相阅读文件,还为查看和编辑 软件必须支持的元素建立了标准。它建立了超爨d t d 声明旋菲法范围,这就使它有助子防 止软件商乘机利用和扩展开放协议以便将用户锁定在他们的专利软件上。 d t d 的功震很多:定义内容模式,限制范圈,属性的数据类型。但它也有着一些缺点, 如采用了非x m l 的语法规则,不支持多种多样的数据类型,扩展性较差,不支持名称空间 ( n a m e s p a c e ) 等等。 因此,w 3 c 又推出了x m ls c h e m a 规范。事实上s c h e m a 也是x m l 的种应用,它是将 d t d 重薪使用x m l 语言规范来定义。这从某种意义主讲正好体现了x m l 自描述性的优点。 7 南京邮电大学硕士研究生学位论文 第二章x m l 与非结构化信息 与d t d 相比,x m ls c h e m a 具有如下一些有点: ( 1 ) 一致性:s c h e m a 建立在x m l 之上,它的样子和一般的x m l 文件完全相同,使得x m l 达到了从内到外的完美统一。另一方面,因为s c h e m a 本身也是一种x m l ,可以被现有的 x m l 编辑制作工具所编辑、被x m l 语法分析器所解析、被x m l 应用系统所利用,既有投资 得到了最大程度的保护。 ( 2 ) 扩展性:s c h e m a 中引入了丰富的数据类型,它们包括:布尔型,数字,日期时间, u r l ,整数,十进制数,实数,时间段,等等。而且它还支持由这些简单的类型生成复杂的 类型,以及由用户定义的数据类型( 原型) 。 ( 3 ) 易用性:x m ls c h e m a 取代d t d 的另一个原因要归结于d o m 和s a x 。作为一种x m la p i , d o m 和s a x 只是对x m l 实例文档有效,对于d t d 则无能为力,不能期望通过d o m 或s a x 来 判定一个元索的属性类型或者某个元素的子元素允许出现的次数( 当然,这都是x m l 分析 器的本职工作) 。但是,一旦有了s c h e m a ,这个问题便不复存在,因为此时对于x m l 文档 结构的描述己变成为s c h e m a 这种“形式良好的”x m l 文档,可以方便地d o m 和s a x 去访问。 ( 4 ) 规范性:同d t d 一样,s c h e m a 也提供了一套完整的机制以约束x m l 文档中标记的 使用,但相比之下,后者基于x m l 更具有规范性。s c h e m a 利用元素的内容和属性来定义 x m l 文档的整体结构,如哪些元素可以出现在文档中、元素间的关系是什么、每个元素有 哪些内容和属性、以及元素出现的顺序和次数等等,一目了然。 ( 5 ) 支持名称空间。 ( 6 ) 互换性:每个人都可根据需要设计适合自己应用的s c h e m a ,并且可以同其他人交换 彼此的s c h e m a 。利用s c h e m a 能够书写x m l 文档,验证文档的合法性。另外,通过映射机 制,还可以将不同的s c h e m a 进行转换,以实现更高层次的数据交换。 2 5x s l t 与x p a t h 层叠样式单c s s ( c a s c a d i n gs t y l es h e e t s ) 是一种静态的样式描述格式,其本身不遵 从x m l 的语法规范。而x s l 不同,它是通过x m l 进行定义的,遵守x m l 的语法规则,是x m l 的一种具体应用。这也就是说,x s l 本身就是一个x m l 文档,系统可以使用同一个x m l 解 释器对x m l 文档及其相关的x s l 文档进行解释处理。x s l 由两大部分组成:第一部分描述 了如何将一个x m l 文档进行转换,转换为可浏览或可输出的格式;第二部分则定义了格式 对象。描述转换的这一部分协议日趋成熟,已从x s l 中分离出来,另取名为x s l t ( x s l t r a n s f o r m a t i o n s ) ,其正式推荐标准于1 9 9 9 年1 1 月1 6 日问世,现在一般所说的x s l 大 南京邮电大学硕士研究生学位论文 第二章x m l 与非结构化信息 都指的是x s l t 。 与x s l t 一同推出的还有其配套标准x p a t h ,这个标准用来描述如何识别、选择、匹配 x m l 文档中的各个构成元件,包括元素、属性、文字内容等。之所以要在x s l 中引入x p a t h 的概念,目的就是为了在匹配x m l 文档结构树时能够准确地找到某一个节点元素。可以把 x p a t h 比作文件管理路径:通过文件管理路径,可以按照一定的规则查找到所需要的文件; 同样,依据x p a t h 所制定的规则,也可以很方便地找到x m l 结构文档树中的任何一个节点, 显然这对x s l t 来说是一个最基本的功能。 如前所述,x s l t 主要的功能就是转换,它将一个没有形式表现的x m l 内容文档作为一 个源树,将其转换为一个有样式信息的结果树。在x s l t 文档中定义了与x m l 文档中各个 逻辑成分相匹配的模板,以及匹配转换方式。值得一提的是,尽管制定x s l t 规范的初衷 只是利用它来进行x m l 文档与可格式化对象之间的转换,但它的巨大潜力却表现在它可以 很好地描述x m l 文档向任何一个其它格式的文档作转换的方法。使用x s l 定义x m l 文档显 示方式的基本思想是:通过定义转换模板,将x m l 源文档转换为带样式信息的可浏览文档。 最终的可浏览文档可以是h t m l 格式、f o 格式、或者其它面向显示方式描述的x m l 格式。 9 南京邮i 乜人学硕i :研究生学位论义 第三章璀十奉体的语义嘲相关理论 第三章基于本体的语义网相关理论 衡量一种信息表示机制是否合理有效有以下三个重要指标: ( 1 ) 强大的表达能力。由于使用环境的多样性,数据模式必须有可以表达任何一种数 据的能力; ( 2 ) 对于语法互操作性的支持。语法的互操作性仅指数据的读取和表示。例如诸如分 析器或查询a p i 等软件部件应该在不同的应用中能够重用; ( 3 ) 对于语义互操作性的支持。语义的互操作性是指数据理解的问题。它与语法互操 作性的区别是:语法互操作指的是数据的分析,而语义互操作性指的是将未知数据映射为 己知数据。 x m l 为信息表示和信息交换提供了很好的中介手段和标准,只要适当定义其语法即可 描述任何非结构化信息,也就是说x m l 符合以上第一点要求。由于x m l 解析器可以分析任 何x m l 数据( 实际上x m l 解析器已经成为标准软件库中的一部分) ,因此也满足第二点要求。 但是,x m l 及其模式规范( d t d x m ls c h e m a ) 只提供固定的语法描述,并未考虑信息的语义 特点,因此缺乏对语义互操作的支持。本节将重点讨论利用x m l 表示信息以及访问x m l 文 档时可能出现的语义问题。 3 1x m l 表示信息的语义异构问题 x m l 的可定制标记及其相关模式规范( d t d x m ls c h e m a ) 可用来描述信息的语义属性, 然而,这些语义仅供人类理解,如果不作进一步说明是无法被机器处理的。比如,我们知 道某x m l 文档中的标记 是指作者,但机器却不能自动理解a u t h o r 的含义,因而 很可能将它视为字符串处理,无异于对待像 这样的标记;更要指出的是,x m l 允许文 档作者自由定义和使用标记,并任意运用其他语言元素,分配不同语义来描述他所涉及的 领域模型,但是由于x m l 没有制定这些描述的规则,而且可以有多种方式来表示语义相同 的对象,那么即使基于同样的领域,不同的x m l 作者也可能构造出很多种不同的d t d x m l s c h e m a ,制定各自的文档结构以及标记集合,从而会导致以下几个方面的语义异构问题: ( 1 ) 不同的x m l 文档使用各不相同的术语词汇来标记同一概念; ( 2 ) 同一术语词汇在不同的x m l 文档中表达不同的含义; ( 3 ) 各x m l 文档使用不同结构来表示相同或相似的信息,造成冗余。 如此一来,就丢失了从领域模型至u d t d x m ls c h e m a 的直接联系,而且无法轻松地再次 1 0 塑窒! ! ! ! ! 生叁兰堡! 翌! 塑竺兰丝笙苎笙三垦苎垒竺塑堕墨型塑叁型笙 构造它们,因此机器将很难从x m l 文档中捕捉到信息的语义。这种数据表达上的不唯一性 也意味着,相同的x m l 文档可以存在多种不同的解释,而相同的应用也可能对不同的x m l 作 出同样的解释。这种解释上的多对多关系,使得我们在交换x m l 文档之前,必须对其所使 用到的标记的名称、组织格式和含义进行约定,任何对该x m l 文档的单方面扩展都可能会 给数据交换过程带来更多的麻烦,甚至导致失败。然而,这种通过约定来实现信息共享的 方式只适用于两两之间的信息交换,却不能满足w e b 上多个用户或团体大范围的信息共享。 假设我们要集成n 个应用所产生的x m l 信息,即便是要集成部分的含义完全一致,但由于它 们来自不同的应用,各自的x m l 模式描述很可能存在着不同( 既包括标记命名的不同也包括 结构组织上的不一致) ,所以仍然需要进行大量的模式之间的转换。可见,即便有x m l 模式 规范的约束,x m l 表示信息的语义异构问题仍然广泛存在。为实现真正意义上的信息集成 和知识共享,必须保持语义一致,或者说进行“语义一致性保持”的映射,用存在歧义的 词语构成的领域知识模型是无法共享和被机器理解的。通过采用一个统一的全局的x m l 模 式来描述所有相关的x m l 信息是不现实的,因为即便是在一个企业内部,我们也很难建立 一个稳定的标准化的企业数据表示模式。 3 2x m l 文档查询结果的语义遗漏问题 x m l 的语义缺陷还存在于其查询过程中。目前常用的x m l 查询语言( 女h x m l o l 和x q l 等) 所提供的数据模型都是直接反映x m l 文档的结构( 语法) ,信息访问者只有清楚地知道了文 档的具体结构才能写出正确的查询语句( 采用路径表达式或模板等) ,而且这类x m l 查询语 言无法挖掘出文档中某些隐含信息,因此在一定程度上影响了查询结果的完整性。 例如,下面是一个有关某公司员工技能的x m l 文档。 p e t e r x m l j i m 南京邮也人学硕i :g d z 生学位论文第三章娃十本体的语义嗍相关理论 x m l h t m l j o h n x m l x m l t o m m a r y 用x m l - q l 语法在该文档中查找具备x m l 9 i 识的人员表达如下: w h e r e $ p x m l i n s o m e u r l “ c o n s t r u c t $ p 语句含义:查询p e r s o n 元素的子元素n a m e ,条件是p e r s o n 元素有一个内容为x m l 的 k n o w l e d g e 子元素,此例查询的结果仅返回p e t e r 和j i m 。 从该x m l 文档的s e m i n a r s 元素不难发现,研讨会主题是x m l ,根据推理,参加研讨会的 所有人员都应具备x m l 帐i 识,则t o m 和m a r y 也满足查询要求,因此,为了得到完整的查询 堕室! ! ! ! ! ! 垫叁兰堡! :堑塑生兰竺笙兰 笙三皇苎尘竺堕堕墨塑塑差些垒 结果还须补充这样一条查询语句: w h e r e x m l $ p i n ”s o m eu r l ” c o n s t r u c t $ p 此外,该x m l 文档还表明程序员j o h n 也掌握x m l 知识,但由于使用了 而不 是 来标记,因此以上语句仍然无法把j o h n 查询出来,因为没有概念模型的指导, 机器不可能知道p r o g r a m m e r 是p e r s o n 的子类。可见,由于x m l 查询语言所提供的数据模型 和文档结构联系过于紧密,为得到准确完备的查询结果,访问者必须明确x m l 文档的结构 及其标记的含义,并预见相关信息在文档中所有可能出现的位置才能给出查询请求。但x m l 的可扩展性决定了x m l 文档结构及标记集的灵活多变,这势必给访问者带来极大负担,特 别是在x m l 文档所表述的领域较为复杂时,几乎不可能像示例中那样简单补充一条语句就 能查询出隐含的信息。理想的方法是,信息访问者只需用其熟悉的概念术语提交查询请求, 查询引擎就能语义保持地返回完整的结果。 3 3 资源描述框架( r d f ) 的引入 为了解决x m l 不具备语义描述能力的问题,r d f 提出了一个简单的模型用来表示任意类 型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示w e b 上的资源,弧用来表示这些资源的属性。因此,这个数据模型可以方便的描述对缘( 或者 资源) 以及它们之间关系。r d f 的数据模型实质上是一种二元关系的表达,由于任何复杂的 关系都可以分解为多个简单的二元关系,因此r d f 的数据模型可以作为其他任何复杂关系 模型的基础模型。同时,r d f 也是一种元数据,即“关于数据的数据”( d a t aa b o u td a t a ) 。 它是关于对象数据的一种概括性、实质性的描述。近年来,随着因特网的发展和信息的丰 富,出现了多种元数据标准( 格式) 。如d c ( d u b l i nc o r e ) ,w f ( w a r w i c kf r a m e w o r k ) 。这些 元数据对网络资源进行描述、组织和整理,使之有序,方便利用。用户不必直接接触对象 数据源就可以决定取舍。规范化的元数据描述对网络信息的组织、挖掘、检索和利用十分 有益。鉴于各种元数据各自发展,优势无法综合利用,并且内容互有重复的状况,w k 成立 1 3 南京邮电大学硕出研究生学位论文 第三犟基于本体的语义网相关理论 t w 3 cr e s o u r c ed e s c r i p t i o nf r a m e w o r k 工终组,负责研究并提趱一个综合性的框架来 解决这个问题。因此,r d f 也可以看作是一个元数据的“容器”。这意味着:当你建立了一 个r d f 应用之艨,你就能够区分应用中具有语义信患的部分和只是语法需要并不含有语义 信息的部分。 3 4 本体,语义及语义w e b 的概念 3 4 1 本体( o n t o i o g y ) o n t o l o g y - - 词源于西方,在哲学中译为“存在论”或“本体论”,是关于知识( k n o w l e d g e ) 和知晓( k n o w i n g ) 的理论。组织知识的分类本质上是“o n t o l o g y ”的问题。在知识分类 中,o n t o l o g y 更多的是与t a x o n o m y ( 分类法) 、i n d e x ( 索弓| ) 、c l a s s i f i c a t i o n ( 分类) 等词汇具相通性,但无论在计算机软件设计、人工智能还是在对知识管理知识分类的研究 中,o n t o l o g y 具有更加实际、深入的应媚。我们在研究知识分类过程中,将o n t o l o g y 译为 “本体分类 ,即指由人们认识事物的本征值( 描述事物基本特征的最小单位) 形成的、 将事物分为不同类别的方法。o n t o l o g y 是知识分类的核心与基础,般来说其具有如下的 特点: ( 1 ) 允许定义和描述领域知识; ( 2 ) 在领域内交流,没有语义的模糊; ( 3 ) 能够重用领域知识; ( 4 ) 在用户和工具中分享农业信息的结构和含义; ( 5 ) 为建立其他特定的本体提供基础。 疑坦福大学的t o l l lg r u b e r 先生在知识共享的环境中将o n t o l o g y 定义为“概念化的规范 ( as p e c i f i c a t i o no fac o n c e p t u a li z a t i o n ) ,就是说,o n t o l o g y 是用来描述概念和概 念之阉存在的相互关系的,是作为概念定义体系的用法,与哲学中鳃理解不周。他绘出 o n t o l o g y 的定义是:在人工智能系统中,用于描绘标准知识的共享和重用,定义普通词汇、 描述领域知识的词汇规范( 包括等级、关系、功能和其他主题等) 被称为“o n t o l o g y ”。在 信息技术领域比较通用的定义是:本体模型是“个对有共识的、已经概念化的事物规范 的、明确的定义拇。露把现实世界中的某个领域抽象成一组概念( 如对象,属性,进程等) 及 概念之间的关系。因此本体所描述的信息具有了语义化的特点,基于本体的信息交换,也 就是实现本体之间的映射关系。所以,基于本体可以进行语义层次上的互操作性实现知识 1 4 南京邮电大学硕士研究生学位论文 第三章基于本体的语义网相关理论 熬共享和重用。 3 。4 。2 语义 要给出语义的精确解释很困难,尤其当这个概念被不同领域所引用的时候,它的含义 往往存在着一些差异。可以将语义简单地看作是数据( 符号) 所代表的概念的含义,| 以及这 些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示。对于计算机领域来说,语 义一般是指对于那些用来描述现实世界的计算机表示的解释,即用户用来联系计算机表示 和现实世界的途径。例如,在关系数据库中,学生数据存储在表中。这时,对于表中的每 一列数据所构成的集合,其所隐含的意思就是该歹| 数据所要表达的对应的概念,这个概念 往往体现为设计人员对该列数据对应的属性所给定的名称,如“姓名 、“性别 等。这 些属性之间的关系就相当于数据对应的概念之间所存在的关系,它们都是学生这个实体的 属性。数据库表中的属性和关系都可以看作数据的语义信息。当然,语义并不是这么简单, 它代表的关系可能更为复杂,甚至超过e - r 模型等数据库建模语言的表达范围。其实,语 义弗不是i t 领域的新概念,数据库长期以来己经在用语义来区分模式和数据,并作为数据 库建模、查询和事务管理技术的一部分,语义是保证数据管理系统达到可扩展性、离效性 和健壮性要求的一个关键元素。 3 4 3 语义w e b 今天的w e b 被称为第二代w e b :第一代开始于手写的h t m l 页面:第二代则e 1 机器生成页 面,并且通常都是动态h t m l 页面。这两代w e b 都壹接面向入工处理( 阅读、浏览、填写表单) 。 第三代w e b ,又称为“语义w e b ,其中所有信息都被加上明确的语义信息。由于语义信息 的加入,智能代理就能自动的对网络上的资源进行处理,其蜀标是实现机器自动处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论