(信号与信息处理专业论文)语义信息自动生成研究.pdf_第1页
(信号与信息处理专业论文)语义信息自动生成研究.pdf_第2页
(信号与信息处理专业论文)语义信息自动生成研究.pdf_第3页
(信号与信息处理专业论文)语义信息自动生成研究.pdf_第4页
(信号与信息处理专业论文)语义信息自动生成研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语义信息自动生成研究 摘要 互联网的出现为人们获取信息提供了极大的便捷,但随着信息的 海量增长,人们已经越来越难从网上找到自己想要的信息了,大量的 有用信息淹没在了无用信息之中。为了使网络服务更加的个性化与智 能化,万维网之父伯纳斯李( ,n mb e m e 稿l e e ) 提出了语义网的概念。 语义网以本体的方式表示信息,使机器能够理解网上的信息,从而为 实现更加智能化的信息服务提供了可能。 语义网的出现同时也提出了一道难题,那就是如何将互联网上现 有的海量信息以规范化的形式来表示? 如果纯粹靠人手工来完成的 话,那将是一项艰巨的费时费力的任务。本论文结合现有的信息抽取 技术和语义网技术,探索了一种将存在于网上的传统w e b 信息自动 地转化为语义信息,并以语义网要求的知识表示方法存储,以供语义 网使用的技术,并在一个旅游信息服务系统( 1 1 b jt r a v e i i n gi nb e i i i n g ) 中使用。 本论文首先分析了当前万维网的不足以及语义网出现的原因,针 对1 1 b j 系统的特点和需求,提出了语义信息自动生成算法和系统的 设计实现方案,并应用到t b j 系统的实现中。语义信息自动生成系 统由网上信息获取、语义信息生成和语义信息表示三个主要模块组 成。 在实现过程中采用了和网页结构相关的抽取以及和内容相关的 抽取两个抽取步骤,这样可以较好的利用网页的半结构化特点,同时 在和内容相关抽取中,提出了使用语义相似度量的方法。获得了较好 的抽取精度。 关键词:语义网信息抽取知识表示语义相似度量 t h es e m a n t i ci n f o r 伽o n a u t 0 蜘cg e n e r 气t i o n a p p e a r a n c eo ft h ei n t e m e th a sm a d eg l e a tc o n v e n i e n c cf o rp e o d l e b u tw i t hc h em a s s i v eg r o w t ho f m f o m a t i o n ,a1 0 to fu s e f i l l i n f o m l a t i o n h a sb e e ni n u n d a t e ds ot h a t6 1 1 d i n gt h ei i l f b 加a t i o nb e c o m e sm o r ea n d m o r ed i f ! f i c u l t t bm a k et h ei n t e m c ts e i c em o r ei n d i v i d u a t i o na n d i n t e l l i 2 e n t ,n mb e m e r s - l e e ,白t h e ro ft h ew b r l dw i d ew 曲,p r o p o s e st h e c o n o e p to fs e m a n t i cw e b i ns e m a n t i cw e b ,i n f o 咖a t i o ni sr e p r e s e n t e db y 0 n t o l o g vs ot h a tt h em a c h i i l ec a nu n d e r s t a n dt h ew 色bi i l f o m a t i o n : t h e r c b vi ti sp o s s i b l et or e a j i z em o 佗i n t e l l i g e n ti n f o 册a t i o ns e r v i c e t h ed r o p o s i t i o no fs e m a n t i cw e bh 勰a l s ob r o u g h tap r o b l e mt h a t h o w t or e p r e s e n tt h ep r e s e n tm a s s i v ei i l f o 咖a t i o ni i las t m c t u r e df o r m ? i fa l l t h ew o r l 【h a st 0b ed o n eb yh a n d ,i tw i l lc o s tp l e n t vo ft i m ea n de n e r g v c o m b i n i n gw i t he x i s t i i l gi n f 0 珊a t i o ne x t r a c t i o n柚ds e m a n t i cw 曲 t e c h n o l o g v ;t h i sp a p e re x p l o r ean e wt e c l l i l o l o g yf b rs e m a n t i cw e ba n d a p p l yi tt oat r a v e l i n f o 册a t i o ns e r v i c es y s t e m ( t b jt r a v e l i n gi nb e i j i n g ) t h i st e c h n o l o g yi s叫t o m a i i c a l l yt r a n s f o r m i n gt h et r a d i t i o n a lw e b i n f b 咖a t i o nt os e m a n t i ci n f o 衄a t i o na n ds t o r et h es e m a n t i ci l l f b 册a t i o n i nt h es e m a n t i cw e br e q u i r e ds t m c t i l r c df o m i nt b i sp a p e r ,t h ea u t h o r 柚a l y z e st h ei n s u f f i c i e n c yo ft h ep r c s e n tw e b a n dt h er e 笛o nw h vt h em a n t i cw e ba d p e a r s a c c o r d i n gt ot h e c h a m c t e r i s t i c 锄dr e q u i r e m e n io ft b j ,t h ea r t i c l ep r o p o s e dt h ea l 卫o r i t h m a n d山es v s t e ma r c h i t e c t i l r eo ft h es e m a n t i ci n f b n i l a t i o na u t o m a t i c g e n e r a t i o n ,柚da p p l i e di tt om et b js v s t e m t h es e m a n t i ci n f o 咖a t i o n a u t o m a t i cg e n e r a t i o ns v s t e mi sm a i n l yc o m p o s e do ft h r e em o d u l e 。o n l i n e i n f 0 哪a t i o na c q u i s i t i o n ,s e m a n t i ci n f o 加a t i o ng e n e r a t i o n 卸ds e m a n t i c i n f o 咖a t i o nr e p r e s e n t a t i o n i nt h ec o n t e n tr e l a t e de x t m c t i o n ,t h e 卸t h o r 口r o p o s c sam e t h o du s i n 2 t h es e m a n t i cs i m i l a r i ty t l i ) l ,oe x t r a c t i o na p p r o a c h e s 盯ea d o p t e di nt h e p m c e s st om a k eg o o du s eo ft h es e m i s t m c t i l r e dc h a m c t e r i s t i c s ,o n ei s w e bd o c i l m e n ts t m c t u r cr e l a t e d ,加dt h eo t h e ri sc o n t e n tr e l a t e d w h i c h b r i n g sg o o dp r e c i s i o n k e yw o r d s :s c m a n t i cw e bi n f o n l l a t i o ne x t r a c t i o n l 【i l o w l e d g e r e p f e s e n t a t i o n s e m a n t i cs i i n i l a r i t ym e a s u r e m e n t 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:盔f盗日期:兰竺z 垒! 至 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 本学位论文不属于保密范围,适用本授权书。 本人签名:查l 墅日期:丝:2 :生:至 导师签名:当日j l 车l 日期:;型霉。华l 北京邮电人学硕i :学位论文 语义信息自动生成研究 第一章概述 w w w ( w b r l dw j d ew 曲) 是目前使用最广泛一种获取信息的方式。可以说是 支撑信息社会的重要技术之一。据估计,全球互联网用户已超过1 0 亿,网页数 已超过1 5 0 亿。无论从用户数还是所包含的信息量来看,w 曲都已经成了目前最 重要的信息传播方式。w 曲为人们提供各种各样的信息服务。w 曲中以分布式 的方式存储于全球的互联网中,并以超链接的方式构成那个了一个相互联系的信 息服务系统。 海量的w e b 信息跟人们带来了获取信息方式的革命性变化的同时,也给人们 带来了新的烦恼。由于w 曲本身缺乏有效信息的检索等机制,人们在海量信息 中查找特定信息的工作变得越来越繁重。为了解决这个问题,研究机构和业界的 公司在过去的十年里投入了大量的时间和资源,研究w 曲的信息检索技术。这 些技术大致可以认为是基于关键词的检索技术,同时需要大量的系统开销和系统 实现成本。同时,基于关键词的检索及技术所取得的效果,却并不令人满意。 这样的基于关键词的检索技术,首先要将所有的网页下载到本地,再经过分 词技术,并对待检索网页和查询需求进行统计分析,最后返回检索结果。这样一 个过程,需要强大的计算能力和存储能力的支持。目前,世界主流的检索系统都 使用了非常巨大的计算机系统。如g o o 百e 所使用的分布式计算机系统,包含了 成千上万台主机。同时这种基于关键词的技术路线,很难为人们提供有效的检索 服务,在服务个性化,智能化,信息推荐方面也存在一些困难。 造成这些困难的原因有很多。但是笔者认为主要还是由于传统w c b 信息表示 方法造成的。 1 1 当前w e b 的不足 当前w 曲最大的不足是,绝大多的w 曲信息只适合人类用户阅读。即使是 使用数据库中信息由机器自动生成的网页也不例外。在生成的网页中数据库的结 构信息已经不复存在。用户在使用w c b 时,往往需要查找和自己兴趣相关的信 息。如前所述,目前的w 曲信息量非常巨大,用户想在短时间内准确的查找到 相关的信息,已经越来越难了。 北京邮【u 人学硕l :学位论文 语义信息自动生成研究 企图使用机器帮助人来完成这部分工作的研究已经在广泛开展了。搜索引擎 是目前最成熟和成功的技术。目前的搜索引擎是基于关键词技术的。因为网页只 是为人类阅读而设计,所以这种机器的方法当然不能获得很好的结果。 当前技术主要有以下问题: 1 信息的召回率和准确率难以兼顾。这是因为基于关键词的技术对网页信 息分析不完备造成了。基于关键词的技术知识只能分析网页的语法信息, 而对语义和语用信息则难以处理。对这种只适合人类用户阅读得网页信 息进行语义和语用分析是非常困难的。 2 需要用户有较高的使用技巧1 2 1 。正是有了上述的不足,这需要用户在选择 关键词时有较好的技巧,才能获得相对较好的搜索结果。而这是我们系 统设计者所不希望的。 3 返回结果只是单独网页,不能对信息进行整合。如果我们需要的信息分 散在不同网页中,则只能分别搜索不同的关键词,然后用户在不同的网 页中分别阅读自己感兴趣的内容。 可见,目前网页所存在不足,都是因为网页的语义与语用信息【1 l 不能很好的 被机器处理或理解所造成的。 1 2解决当前w e b 问题的两种思路 解决上述问题,有两种思路。 1 不改变现在网页的形式,而是加强计算机对现有w 曲信息的理解与处理。 这就是发展更为复杂的计算语言学方法,让计算机能很好的理解和处理 这种为人类用户建立的网页。但是这种方法目前还有很多困难。 2 另一种方法是,使用一种适合机器理解与处理的网页来替代现在的网页 形式。这样就可以比较容易地在这种网页上应用各种智能技术。这就是 目前正在研究的语义网技术。而对适合机器理解和处理数据的一般要求 是结构化的知识表示。 1 3本论文解决的问题 在传统网页向语义网所要求的网页的转化过程中,必然存在两种网页共存的 情况。特别是网上的大量信息可能是以传统网页的形式存在于网络上。如何将传 统适合人阅读的网页转换成适合机器阅读的网页,就成了一个重要的课题。这就 是本论文希望解决的语义信息自动生成问题。 2 北京邮电人学硕i :学位论文 语义信息自动生成研究 完成这个任务主要需要解决两个问题。一是网页获取后,语义知识的提取问 题。关键词这样的语法层次的信息处理显然是不够的。在计算机信息处理过程中, 语义信息可以简单的理解为概念和概念的关系集合【“。要获得这种概念的关系就 需要更高级的信息处理技术,如信息抽取技术。获得网页中信息的概念关系就是 需要解决的第一个问题。 第二个问题是语义信息的表示问题。语义信息怎么在计算机中进行表示,使 得表示的方法比较简单可行,而且能够方便智能信息服务的推理处理。这方面学 术界已经有了大量的研究,在传统的知识表示方法的基础上提出了一些新的知识 表示方法。如后面将提到的x m l r d f 以及各种本体语言等 1 4 现有的信息抽取技术分析 要解决第一个问题是解决语义信息自动生成问题的关键,这就需要信息抽取 技术对网页信息进行处理。目前各类信息服务网站提供了大量的信息资源,但是 互联网用户却很难享受到有效的信息服务,因为用户不可能天天都去访问所有这 些网站。这样就形成了一种很尴尬的情况,一方面用户迫切需要某些信息资料, 另一方面提供有关资料的网站却少有人访问。用户需要从多个信息数据源( 通常 为各网站中的有关信息网页) 中同时获得所需要的信息,并能将它们有效地整合 在一起。目前的信息服务还无法有效地整合多个信息服务站点的相关内容。因为 互联网的信息发布与浏览均是基于h t 札语法而编写的w e b 网页来进行的,而 w e b 网页的内容描述是针对互联网用户浏览而进行的相关格式定义设计,并没 有为计算机本身阅读和理解这些网页内容提供任何特殊的说明与注释。因此为了 从w e b 网页中抽取所需要的信息内容( 文本信息块) ,研究人员开始把目光转向 w e b 信息的机器抽取工作。 据统计“1 ,目前8 0 的网页属于隐藏网页( 此类网页是由后台数据库生成) , 而搜索引擎无法从此类网页中获取数据。对于这类网页,必须使用新信息抽取技 术。信息抽取i e ( 1 n f o n i l a t i o ne x t r a c t i o n ) 州1 是一种文本处理技术,其目 的是根据预定义好的模板,从自然语言文本中抽取出特定的信息。信息抽取系统 不仅能帮助人们方便地找到所需信息,而且信息的内容经过合理的分析和组织 后,人们可以有效地获取感兴趣的信息,并可在此基础上进一步进行数据挖掘、 文本生成等后续信息处理。对于w e b 信息抽取可以理解为针对同一类型的若干样 本网页,找出它们的源数据集的嵌套结构,并将源数据集从网页中抽取出来。即 通过对原文档信息内容和结构的分析,抽取出有意义的事实,生成结构化的有价 值的信息。w e b 信息抽取流程如图卜l 。 北京邮i u 人学颂i :学位论文语义信息自动生成研究 ( 抽取知识) 1 、 臣三 _ ( 壶 堕一 图卜1w e b 信息抽取流程 w e b 信息的抽取工作由w r a p p e r 吲”( 包装器) 来完成。包装器是一种软件构 件,负责将隐含在h t m l 文档中的信息提取出来,并且转换成能够被进一步处理 的以某种数据结构存储的数据( 例如】0 札数据、关系数据库) 。它由信息抽取所需 的信息识别与结构影射知识和应用这些抽取知识的处理程序组成。 信息抽取的方法主要可以分为以下两类:一类是基于层次结构的信息抽取归 纳方法,如w h i r l 、a r i a d n e 、c i t e s e e r 等,基于层次结构的w r a p p e r 归纳方法。 尽管页面的类型、结构、版面各异,但对于某个网站来说,页面的组织结构一般 具有一些特定的规律,如内容经常是以层次结构的方式来组织的,页面中的项目 以及项目之间的关系具有明确的模式。另一类是基于概念模型的多记录信息抽取 方法,即对特定w 数据源研制相应的w r a p p e r 。通过记录识别获得记录相对应 的信息块格式,利用w r a p p e r 进行有效的记录抽取。 根据信息抽取原理的不同,w e b 信息抽取的方法有: ( 1 ) 基于归纳学习的信息抽取 该方法由美国华盛顿大学的n k u s h m e r i c k n ”于1 9 9 6 年提出,通过对若干个 待抽取实例网页进行结构特征学习,归纳出抽取规则,然后使用抽取规则自动分 析待抽取信息在网页中的结构特征并实现信息抽取。该方法是目前信息抽取中常 用的一种方法,其模型如图卜2 所示 鞠目 q e 口 标i 己 l el 图l 一2 基于归纳学习的信息抽取模型 1 9 9 7 年l m a r l i n “3 1 等人提出了一种新的归纳学习形式模式匹配。通过大 量学习实例,归纳学习出待抽取信息的语法结构模式,由这些模式从新网页中 抽取出匹配的信息。 包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习 方式的归纳算法,生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语 义项上下文的描述,即根据语义项的左右边界来定位语义项。该类信息抽取方式 和基于自然语言理解方式的信息抽取技术最大的不同在于仅仅是用语义项的上 下文来定位信息,并没有使用语言的语法约束。采用这种原理的典型系统有 4 北京邮i u 人学颂l :学位论文语义信息自动生成研究 s t a l k e r ,s o f t m e a l y ,w i e n 。下面根据s t a l k e r 系统详细分析这类信息抽取技术。 s t a l k e r 系统根据用户事先标记的样本页面和用户嵌入式分类树( e m b e d d e d c a t a l o gt r e e ) 形式提供的页面结构信息,应用逐步覆盖算法( s e q u e n t i a l c o v e r i n ga l g o r i t h m ) ,逐步归纳生成基于定界符的精确的抽取规则,实现层次 的信息抽取。嵌入式分类树( e c t ) 在该系统中是一个重要的概念,它是用户根 据页面结构定义的嵌套模式。该树形结构一方面描述了页面的逻辑机构,另一方 面提供了模式信息和语义信息( 树中节点的名称) ,嵌入式分类树中有3 种类型 的节点:根节点( 表示整个文档) 、内部非叶节点( 称为l i s t 节点,表示多个 同类对象的列表) ,叶节点( 表示对象的语义项) 。系统为每个叶节点生成普通的 取规则,即用来定位语义项:为l i s t 节点生成普通抽取规则和迭代规则,其中 普通抽取规则用来定位多个对象组成的信息块,然后应用迭代规则实现单个对象 的定位。该系统之所以成为层次的信息抽取是因为抽取是根据嵌入式分类树的层 次进行的,并且某一节点的抽取规则是对其父节点的抽耿结果执行的。该系统中 语义的附加模式的定义是在用户定义嵌入式分类树阶段完成的,属于先模式方 式。信息定位的实质是使用左右边界识别出各语义项,然后再将各语义项组装成 一个对象。而该系统在一定程度上是按结构抽取和按文本抽取的结合。根据嵌入 式分类树先获得高层节点对应的大的文本块,然后再应用低层节点对应的抽取规 则,逐步获得想要的信息。该系统是在上次的结果中使用左右边界实现信息的定 位,并不是在整个文档中,所以抽取规则的形式相对简单,而且抽取的准确率相 对高一些。另外由于使用嵌入式分类树描述模式,所以可以抽取复杂的对象。但 是规则中的定界符不仅仅是由h t m l 标记组成,而且还有某类网页经常出现的关键 词组成。所以该类信息抽取不但对页面机构有所依赖,而且对网页的内容也有所 依赖,要想获得精确的抽取规则必须进行大量的样本训练。 ( 2 ) 基于o n t o l o g y 的信息抽取 该方法主要是利用对数据本身的描述信息实现抽取,对网页结构依赖较少。 采用该方法的典型系统有b r i g h 锄y o n gu n i v e r s i t y 开发的b y u m l 。 ( 3 ) 基于h m m 的信息抽取 由l m 0 0 r n “”等人于2 0 0 0 年提出的卜盱删( h i d d e n r k o vm o d e l ,隐马尔可夫模 型) 是最近几年应用最广泛的抽取知识表达模型。它是一种随机的有限状态自动 机,由于删岍亨成熟的学习算法和孥实的统计基础,所以在信息抽取中是一种成 功的模型。 ( 4 ) 基于自然语言处理的信息抽取 这类信息抽取主要适用于源文档包含大量文本的情况( 特别是针对合乎文法 文章) ,在一定程度上借鉴了自然语言处理技术,利用子句结构、短语和子句的 5 北京邮【u 人学硕i :学位论文 语义信息自动生成研究 关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典型系 统有r a p i e r ,s r v ,1 】h i s k 。对自由文本,系统首先根据分割符将源文档分割成多 个实例( 每个实例是一个语义相关的文本快) 。在交互式的环境下,系统每一次 呈现给用户一组实例。用户在可视化环境下根据系统提供的实例标记出感兴趣的 信息并定义模式。系统使用语法分析器和语义类( 如人名、机构名) 分析器,分 析出用户标记信息的语法成分和对应的语义类,生成基于语法标记和语义类标记 的抽取规则,实现信息抽取。 可以看到这样的方法并不适合针对网页信息的抽取。网页是半结构化的文 档,使用这种方法不能很好的利用网页半结构化提供的结构信息,同时,网页也 不具备很好的文法特征。 ( 5 ) 基于网页结构的信息抽取 该类信息抽取的技术特点是,根据w e b 页面的结构定位信息。在信息抽取之 前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生规则,将 信息抽取转化为对语法树的操作实现信息抽取。采用该类信息抽取技术的典型系 统有l i x t 0 ,x w r a r ,r o a dr u n n e r 和w 4 f 等。下面对具有代表性的x w r a p 系统进行 分析。x w r a p 系统通过交互式的方式,由用户在样本页中指定抽取区域的起始位 置,系统确定整个抽取区域,并确定抽取区域的类型,然后通过可视化方式,由 用户在样本页中指定语义项( 如表头) 及与之对应的实例,系统自动产生抽取规 则实现信息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成x m l 文档。该系统采用用户在网页中指定语义项的方式附加语义信息,即将网页的部 分内容作为语义项,对于不同的区域类型( 如t a b l e ,l i s t 等) 采用不同抽取规 则提高系统的灵活性和效率。但是该系统只适合对含有明显区域结构( 如t a b l e , l i s t 等) 的网页进行信息抽取,不支持对普通网页的抽取,模式表达的能力也非 常有限,在学习阶段用户参与太多。 这样的方法只是利用了网页的结构化信息,缺乏对语言本身所提供信息的利 用,所以这个方法单独使用难以达到较好的效果。本论文使用这个方法作为抽取 的第一个步,而第二步骤是利用语义进行抽取。这两种方法结合使用,可以获得 更好的抽取结果。 1 5基于语义度量的信息抽取技术 知识度量,即知识的定量度量,目的是建立知识数量的测度方法。它是知识 处理的一项基本内容,也是知识获取过程中一种重要的技术。随着本体技术的不 断成熟,对本体结构中的内容处理和知识的定量度量开始受到重视。由于词汇层 6 北京邮| i 三人学硕i :学位论文语义信息自动生成研究 面、语法层面、语义层面的知识相互作用形成了自然语言知识处理的基础,而本 体携带了丰富的文本语义信息,因此对本体知识的语义度量就变得十分重要。 在前面提到的本论文所使用的抽取过程的两个步骤中,提出了使用语义度量 的方法。语义度量是指对不同的概念节点( 术语) 予以比较,找出概念之间的语义 差异,并以相关系数的形式反映出烈17 l 。由于语义度量可以提高文本分类的准 确率,与传统的关键词匹配方法相比可以提高信息抽取和检索的效率,因此语义 度量应用的领域十分广泛,在信息抽取、信息检索、文本分类、文本聚类、词句 消歧和基于实例的机器翻译等方面都起着巨大的作用。它可以分为两类:相似度 度量及相关度度量。相关度是比相似度更广泛的概念,本论文只讨论相似度的度 量。 目前已有相似度计算主要分为三类:基于统计的技术、基于本体的技术和混 合型技术。 利用统计技术计算词语间语义相似度是一种非监督的机器学习方法。这种基 于语料库的方法比较客观,但比较依赖于训练所用的语料库,受数据稀疏和数据 噪声的干扰较大。近年来,一些大规模、可计算的本体,如w b r d n c t ,m i n d n e t 等的开发和利用,为进行大规模真实文本的语义分析和理解提供了有利的支持, 并利用w b r d n e t 作为本体进行了词语问语义相似度计算的研究,这种方法简单 有效,但得到的结果受人的主观意识影响较大。利用混合技术计算词汇问语义相 似度的思想就是将统计技术和基于本体的技术结合起来,发挥两种算法各自的优 势进行词汇间的语义相似度的计算。针对统计方法会出现数据缺乏,影响近义词 或同义词的识别效率这一典型问题,利用本体知识对统计方法的稀疏数据进行扩 充,从而完善识别效果。 7 北京邮l 乜人学硕l :学位论文语义信息自动生成研究 第二章语义网与t b j 系统 1 l j 系统得到国家高技术研究发展计划( 8 6 3 计划) 资助项目面向奥运的多 语种人机对话智能平台与智能移动终端系统( 2 0 0 2 a a l l 7 0 1 0 0 7 ) 的支持。本论 文完成的内容是t 脚的重要组成部分。 2 1 语义网提出的背景 w 、 n v 起源于啊mb c m e 睁k 于1 9 8 9 年3 月在c e r n ( e u r o p e 加l a b o r a t o r y d r p a n j d ep h y s i 岱,欧洲粒子物理实验室) 写的一个关于信息管理的项目建议书。该 建议书提出了分布式超文本系统的设想,希望能将c e i 己有的几个信息服务 器一体化,并提供一个简单的用户界面来存取各种形式的信息。1 9 9 0 年w c b 浏 览器和w 曲服务器技术相继在c e r n 实现,b e m e 巧k e 和他的合作伙伴成功引 入了构成w c b 体系结构的基本元素:w 曲服务器、w c b 浏览器、浏览器与服务 器之间的通信协议 r 兀甲、w 曲文档的语占h t m l 以及用来标识w c b 上资源的 u r l 。1 9 9 3 年,美国伊利诺斯大学国家超级计算应用中心n c s a 的m a r cr c e s e 及其合作者发布了称为m o s a j c 的浏览器,这是第一个较健壮的易用的浏览器, 具有完善的图形用户界面。从此,w 曲迅速成长为全球范围内的信息宝库。1 9 9 4 年,w 3 c 联盟在啊mb e m e 陪l c e 的领导下成立,该组织通过制定技术规范与提 供参考软件来发展w c b 的技术标准并促进w c b 产品之白j 的互操作性。 w 曲产生之后的十余年问,网络技术飞速发展从应用模式的角度来看,w 曲 应用基本上经历了两个阶段:浏览( 包括静态、动态页面) 阶段和超浏览阶段。基 于浏览模式最初是静态页面阶段,w c b 提供的信息主要以w 曲页面形式提供给 人,例如新闻网站、文件、b b s 等;其后,浏览模式发展到了动态页面阶段, w 曲为用户提供了与网站交互的功能,即通过通用网关接口( c g i ) 或a s 只j s p 技 术从后台的数据库中动态生成页面返回给用户。2 0 0 0 年以后,w 曲开始进入超 浏览阶段。这一阶段体现出来的核心思想是资源共享与协作。资源包括网络上的 硬件、软件、数据、信息等多个层次上的资源,协作则是采用智能代理等技术对 网络上提供的服务进行动态组装。超浏览阶段的代表性研究热点包括:w e b 服务、 智能a g e n l 、语义网( s e m a n t i cw e b l 等。 应用模式的转变表明w e b 的初始设计已经无法满足应用不断增长的实际需 求。w c b 的初始设计具有一定的局限性,它主要针对人类浏览信息而不是针对自 8 北京邮电人学硕j 。学位论文语义信息自动生j j 置研究 动化应用来处理信息,因此难以实现对海量信息的准确检索以及对异构信息的集 成和协作。 由于w e b 的初试设计不是面向机器理解的,所以仅仅依靠一种统一的w c b 语言从语法上实现信息的交换和共享是不够的。比如两个都采用x m l 作为信息 交换格式的应用系统,怎么能够保证它们表述的是同一个意思,标记语言中元素 的关系,是超类与子类的关系还是组成关系,计算机能否加以区分,这就需要一 种机制,使得计算机不但能读数据,还能够理解和区分数据的语义,实现w 曲 信息语义层次的互操作。 为了实现面向机器理解的w c b ,啊mb e m e 幅k e 于2 0 0 1 年正式提出了语义万 维网概念。语义网是当前w 曲的扩展,扩展之后,w 曲上的信息具备良好定义 的含义,可以帮助人类和计算机更好地协同工作。语义网的思想就是利用元数据 语言对w e b 信息资源的内容进行语义上的描述,从而使计算机能够利用这些语 义信息对资源的内容进行理解和处理,在此基础上实现更高层的、基于知识的智 能应用。 要在语义层次实现信息的互操作,需要对信息的含义有一个共同一致的理 解。语义网采用了本体论( o n t o l o g y ) 的思想,本体是对应用领域概念化显试的解 释说明,为某领域提供了一个共享通用的理解,从而无论是人还是应用系统之间 都能够有效地进行语义上的理解和通讯。 2 2建立语义网的基本思路 提出语义网的一些基本想法在前面已有涉及,这里再集中论述。语义网的基 本思路是首先使用了结构化的知识表示方法。其次,语义网是一个开放的信息系 统,各种信息分散在整个网络中,要求网络能协同工作,这就要求有一个统一的 标准。再次要考虑到表示方法的简洁性,使建立这些结构化信息的工作尽量简单 可行。这就要在考虑到表示方法的机器处理方便的基础上,同时考虑到这种表示 方法对人类用户也能比较方便的阅读。 语义网系统在结构化知识表示的基础上,定义了对这些知识的有效使用问 题,即上层的推理,证明等问题。语义网中,各种资源被结构化的知识表示赋予 了各种明确的语义信息,使得a g e n t 可以分辨和识别这些语义信息,并对其自动 进行解释、交换和处理。语义网正是通过这样的思路,构建了一个能够全网协同 工作的智能化的信息服务系统。 9 北京邮i u 人学顿l :学位论文吾义信息自动生成研究 2 3语义网的结构 w w w 从诞生起,就是一种开放式的信息服务系统。信息可以分布在不同的 服务器上,甚至不同的网络类型中,通过相应的协议互相引用,构成一个整合的 信息资源。当w w w 发展到语义网阶段,仍然保持了这样的技术特点。服务器 或者网站之自j 的互交互性,就需要有一个统一的标准来保证。在传统的w w w 时代是靠h 1 1 1 p 协议来保证的。而到了语义网时代,语义网所完成的功能,远比 传统的网页复杂,所以这样的一个统一协议,也变的更为复杂。w 3 c 就定义了 一个语义网层次结构的一系列推荐标准来完成这个工作1 2 1 l 【2 2 1 1 2 3 2 4 2 5 】l 捌。语义网 的基本结构如图2 1 所示: 图2 一l 语义网的结构 ( 1 ) u r l s 和u n i c o d e w 曲环境下的信息中大多都是对w c b 上资源的描述,因此,首先应该考虑 采用什么方式来标识这些资源。语义网采用统一资源标识符叫n i f o 哪r e s o u r c c i d e n t 墒e 体,u r d 来标识资源及其属性,u r i 是一个b t c 加c t 标准,它泛指所有以 字符串标识的网络资源,包含了u r l 和u r n 。另外语义网采用u n j c o d e 作为字 符的编码方案,这样就统一了信息的编码格式。这一层是整个语义网的基础,解 决了w 曲上资源定位和字符编码统一标准格式的问题。 ( 2 ) x m l ,n 锄es p a c c ,x m ls c h e m a 在u r i 和u n i c o d e 之上,是x m l 及相关的技术层,用于表示数据的内容和 结构。x m l 允许用户根据需要自定义一些“有意义的”标签,对信息的内容进 行标记,并使用文档类型定义( d o c i i m e n tt y p ed e f m i t i o n ,d ,i d ) 或x m ls c h e m a 来约束标签的结构。因为x m l 标签可以由用户根据自己的需要来定制,这样可 能造成标签同名的情况,为了避免命名冲突,w 3 c 采用了命名空间n a i i i e s p a c e 1 0 北京邮i u 人学硕i :学位论文语义信息自动生成研究 机制。x m l 可以使软件开发人员和内容创作者在网页上组织信息,其目的不仅 在于满足不断增长的网络应用需求,同时还希望借此能够确保在通过网络进行交 互合作时,具有良好的可靠性和互操作性。与m m l 一样,x m l 也源自s g m l , 它保留了s g m l 的一部分功能,但降低了复杂性。尽管如此,x m l 却有着m m l 语言所欠缺的伸缩性与灵活性,x m l 不再像m m l 一样有着一成不变的格式。 x m l 实际上是一种定义语言,即使用者可以使用白定义的标记来描述文件中的 任何数据元素,从而突破了h t m l 固定标记集合的约束,使文件的内容更丰富、 更复杂并组成一个完整的信息体系。x m l 语言可以让信息提供者根据需要自行 定义标记及属性名,也可以包含描述法,从而使x m l 文件的结构可以任意程度 复杂。 x m l 主要有三个要素:s c h 铀a ( 模式) 、x s u e x l e n s i b l es t y l e s h e e th g u a g e , 可扩展样式语言) 和x l u e x t c n s m i ei j i l kl 加g i l a g e ,可扩展链接语言) 。s c h e m a 规定了x m l 文件的逻辑结构,定义了x m l 文件中的元素、元素的属性以及元 素和元素属性之间的关系,它可以帮助x m l 的分析程序校验x m l 文件标记的 合法性;x s l 是用于规定x m l 文档样式的语言,它能在客户端使w 曲浏览器 改变文档的表示法,从而不再需要与服务器进行交互通信;x u ,将进一步扩展 目前w c b 上已有的简单链接。良好的数据存储格式、可扩展性、高度结构化、 便于网络传输是x m l 主要的四大特点。通常,一个完整的x m l 文档由文档的 内容及其相应的咧d 0 蜘m e n tt y p cd e f i n i t j o n ) 组成,以满足x 1 订l 应用的结构 性和有效性要求。随着x m l 词汇表越来越多,d t d 的开发遇到一些障碍,x m l s ( x m ls c h e m a ) 是在d t d 基础上发展起来的w 3 c 标准,用于定义对x m l 文档 在语法和结构方面的约束。同啪相比,用x m l s 定义的x m l 模式有以下优 点: x m l s 模式本身就是x m l 文档,而d 1 巾不是。 x m l s 提供了丰富的数据类型集,可以用来定义元素标记的数值,而 x m l 文档本身及啪并不支持数据类型和数值的定义与使用。 比起u r d ,x m l s 为标记嵌套的定义提供了更加丰富的方法。 x m l s 可以使用x m l n s ( x m l 名字空间) 机制,把x m l 模式定义同异构的 x m l 模式词汇组合在一起。x m l s 为文档框架结构提供了约束元素内容和属性 取值的方法。 ( 3 ) r d f ,r d fs c h 咖a 在x m l 层之上是资源描述框架( r e u r c cd e 刚p t i o nf f 锄e w o 啦r d f ) 和 r d fs c h e m a ,用于描述资源及其类型。r d f 是一个用于表达w 曲资源的语言, 可用于表达关于任何可在w 曲上被标识的事物的信息,它提供了一种用于表达 北京邮f u 人学硕l 二学位论文语义信息自动生成研究 信息、并使其能在应用程序间交换而不丧失语义的通用框架。r d fs c h e m a 规范 用r d f 进一步定义了建模原语,提供了r d f 模型中使用的一个基本类型系统。 r d f 是用来描述资源及其之问关系的语言规范。它不仅是描述数据的框架, 而且是表示数据的框架。r d f 的基本数据模型是一个三元组,其基本对象类型 有:资源( r e s o u r c c ) 、属性( p r o p c n i e s ) 和陈述( s t a t e m e n t s ) 又称声明。 每一个资源都具有属性,每一个资源通过唯一资源标识符u r j 来标识。它的 属性由属性类型来标识,每个属性类型都有对应的属性值。属性类型表示出这些 属性值与资源之间的关系。在r d f 中,属性值要么是一些被公认的具有源于属 性的事物,要么是其它的资源,而这些资源本身又拥有自身的属性,所有指向同 一资源的陈述的集合称为该资源的一个描述。 资源 由砌) f 表示式描述的所有东西都可称为资源。资源既可以是整个w e b 页面, 也可以是一个w 曲页面的一部分,比如一个文档内的特定h t m l 和x m l 元素, 还可以是多个页面的集合,比如整个w 曲站点。资源还可以是不能通过w 曲直 接访问的对象,比如一本印刷的书。资源通常由u r i 标识符来命名。任何事物 都可具有u r lu r l 的扩展允许了任何可以想象的实体的引入。 属性 属性用于描述一个资源的特定方面,例如:特征、属性和关系。每个属性具有 特定的含义,定义其允许值、可描述的资源类型、与其它属性的关系等。 声明 一个特定的资源加上该资源一个命名的属性及属性的值就构成了一个r d f 声明。声明的这三个独立部分分别称为主体、谓词和客体。声明的客体( 即属性 值1 可以是另一个资源或文字,也就是说,由u r j 指定的资源或者一个特定的字 符串以及另一个由x m l 定义的简单数据类型。 r d f s 用来定义描述r d f 资源的i m f 模式,并可定义特定应用的r d f 词汇。 r d f 模式的类型系统类似于面向对象编程语言的类型系统,类以一种层次结构 方式进行组织,r d f s 的属性r d f s u b a 勰f 表示了类之间的这种子类结构关系。 资源可能是一个或多个类的实例,通过r d f t ”e 属性说明。 与传统的面向对象的方法不同的是,r d f 的方法是以属性为中心,任何人关 于现有的资源都可以很容易地说明他们想说的任何东西,这也正是w c b 结构化 原则的一个方面。r d f 模式根据应用资源的类定义属性,属性的类约束关系用 r d f s :d o m a j n ( 领域) 和r d f s :瑚g e ( 范围) 约束描述,而面向对象系统根据类的实例可 能具有的属性定义类。 ( 4 ) o n i o i o g y 北京邮i 乜人学硕f :学位论文语义信息自动生成研究 处于r d 腿d f s 之上的是本体层,本体层可以看作是对r d f 限d f s 层的扩 展,用于描述各种资源之间的联系。知识本体逐渐引起人们重视的原因在于知识 本体能够在人们和应用系统之问以及应用系统与应用系统之间达成对术语含义 的共享和共同理解,而对同一概念的语义共享和共同理解恰恰是构建语义网的关 键。 o n t o l o g y 最早是一个哲学的范畴,指客观存在的一个系统的解释和说明。后 来随着人工智能的发展,被人工智能界赋予了新的定义。比较有代表性的定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论