（计算机应用技术专业论文）基于rdf的搜索引擎的研究与实践.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：64 大小：2MB 积分：0 举报 版权申诉

已阅读5页，还剩59页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

安徽理t 大学硕士论文摘要随着互联网的的迅猛发展，数以十亿计的网页不可能仅仅依靠人工管理。然焉，基于河滟豹网页却仅仪是为了入与入之阙豹交流，是机器可读豹 ( m a c h i n e r e a d a b l e ) ，不是机器可理解的( m a c h i n e u n d e r s t a n d a b l e ) 。为了以一种更加有效的方式来管理、利用网络上的各种信息与资源，w 3 c 提出了语义互联网( s e m a n t i cw e b ) 的设想：建设一个枧器可理解的的网终，让程序来管理整个网络。而r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ，资源描述框架) 就楚建设语义互联网的基础。本篇论文由三个主要部分组成：第一部分详细介绍了x m l l 0 语法规范、r d f m o d e la n ds y n t a xs p e c i f i c a t i o n 和r d fv o c a b u l a r yd e s c r i p t i o nl a n g u a g e l 。o ：r 卯s c h e m 8 。对r d f 模型，r d f 的x 地编码语法和r 卧s c h e 臻a 扩鼹机青l 做了深入讨论，并描述了r d f 在语义检索，p 2 p 和内容分类等方面的典型应用；第二部分参考传统搜索引擎的基础上提出了一个新型的基于r d f 的搜索弓i 擎的架构，并深入讨论了搜索引擎各个部分的设计与算法；第三邦分详细介绍了搜索引擎的i n f oa g e n t 、d bm a n a g e r 、s e r v e r 等部分的详细设计与算法。关键词：语义互联网，x m l ，r d f ，搜索引擎安徽理工大学顽i 二论文a b s t 弛c t a b s t r a c t w “hl h es w i f ta n dv i o 王e n td e v e i o p m e mo fi n t c 玎l e t ，1 ti si m p o s s i b l et om a n a g et h e 税l l i o n so fw e bp a g e sb yh a n d y e l ，磕ep a g eb a s e do nh t m l s j u s t 蚤孵i n t e f c o u f s e a m o n gp e o p l e ，j tc a nb er e a db ym a c h i n eb n te a n tb e 鞋n 霹e f s t o o db ym a 曲i i l e 妁r m a n a g i n ga n du s i n ga l ls o n so fi l l f o 皿a t i o na n dr c s o u r c eo nw e b ，w 3 cp r o p o s eap l a n o fs e m 鑫n t i cw c b ：b u i l d i n ga nb l e m e tw h i c hp a g e sc a i lb e 鼬d e f s t o o db ym a c h i n e ， l 嗽i n gp f o g f a mm a 珏a g e 攮eh t e 糠e t 豇l er d f ( r e s o h f c ed e s c r i p t i o nf f a m e w o f k ) i s t h eb a s eo fb u i l d i n gs e m a n t i cw e b 拍i sp a p e fi sc o m p o s e db ym r e em a i l lp a r t s ：h lf i r s tp a r tw ei n t r o d u c ci nd e t a i l x m l1 os y n t a ) 【s p c c i f i c a t i 0 1 l ，r d fm o d c la n ds y n l 般s p e c i f i c a t i o na n dr d f v o e a b u l 醒yd e s c f i p 圭i o nh n g i i a g e 量o ：r d fs 融啪硅。强er d f 薹n o d e l ，l h er d f 粼哇l c o d e 嫠a m m a f 勰dr d f 氇es 商e m 鑫e x l e n s i o nm e 穗黼j s 趣a f em a d e 也e 氇o m 毽g h d i s c u s s i o n ，a f t e f t h a ti st h ed e s c f i p t i o na b o u tt h ea p p l i c a t i o n 巍e l do fr d f ：s e m a n t i c s e a f c h i n 舀a g e n l ，c o n t e n lc a t a l o g u ee t c 。l i lt h es e c o n dp a n ，w ep u tf 0 触a f dan e w n s t r u c l i o fs e a r c he n 醛n cb a s e do nt h er e f c r e n c co fl f a d i l i o n a ls e a r c he n g i n e ，a n d m a k et h et h o m u g | ld i s c u s s i o no ft h ed e s i g na n da l g o r i t h mo fi t se a e hp a r 重t h et h i r d p a r tw ei n t f o d u c e di nd e a i lt h ep a r t i a ld e t a 主l e dd e s i g n sa n dt h ea l g o f i l h mo fs e a r c 血 e n g i n e s u c ha si n f oa g c n t ，d bm a n a g e r s e r v e r k e y w o r d s ：s e m a n t i cw e b ，谭l ，r d f ，s e a r c he n g i n e l i 独创性声明本人声明所呈交昀学位论文是本人在导师指导下送行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得上徽冀三太堂或其镶教育机构的学位或证书丽使用过的材车率。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：触犯签字醒期圳，年月，日学位论文版权使用授权书本学位论文作者完全了解塞皴堡三太堂有保留、使埔学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属于安徽理工大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阕。本人授权塞擞堡墨太堂可以将学位论文酌全部或部分内容编入有关数据库进彳亍检索，可以采用影昏、缩帮或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适j 稻本授权书) 。豫时本人保证，毕业后结合学位论文研究课题再撰写的文章一德注明作者单位为安徽理王大学。学位论文作者签名：糊雩护导帮签名：溺擎泼叔签字日期州年嘲毋日签字艮期：徘z 月影日安徽理t 大学硕士论文第一章前言 1 1 论文背景第一章前言随着这些年互联网规模的扩大，信息爆炸的问题也随之产生了，海量的信息使得人们无从着手。最主要的原因是网上的信息大部分包含在那些无结构化的h t m l 网页中，这些网页的结构非常简单并且在表示方法上非常松散，方便了网站的创建者，很使褥在榉e b 上自动精确套我定位变褥很匿难。为姥，裙e 提出了) 【m l ( 一种结构化豹标注语言) 和剐ls c h e 姻( 一些x 她的基本标识的定义) 来结构化网上的信息资源，方便了信息的交换和查找，并定义了另一种辅助语言x s l 来显示) ( m l ，使得同样的信息在网上的显示可以多样化。间时，这也说明了现在的互联网已经把信息的表示和信息本身在概念和实际应用上区分帮来了。出予x 盹仅仅含有结构傣息，磊缺少对事物语义信息豹接述，对i n t r n e t 的搜索查找仍然没有很大的帮助。为此，弹3 c 提出了语义互联网( s e m a n t i cw e b ) 的概念。 1 2 语义互联网( s e 髓n t i c r e b ) 现有的互联网( w o r l dw i d ew e b ) 主要用于人之间的交互，绝大多数的内容是用来给人看的。计算机能够识别网页的结构，但并不理解网页的语义，因此很难对互联网进行自劝化处理。以搜索引擎为例：鹾前大多数的搜索弓l 擎都是对网页中的文本进行簿单廷配，其结栗缀难让人满意。捌如想查个人，只知道他姓c o o k ，他所在的公司在你的客户名单中，他的儿子和你是校友。如果你输入关键字“c 。o k ”，那么计算机不知道你是要找厨师，还是烹调方法，或者是某个人名、地名、公司名。于是搜索引擎将返回一大堆不檑关的结果。问题在于计算机不知道“c o o k ”的语义。如栗潮曩包含计算机能理解的晤义，那么裁能实现型准确的搜索。尽管上述搜索传患不住阉一个网页中，但语义使掰计算机程序能将这贱网页中的有用信息整合在一起，从而实现更准确的自曲化搜索。这幅美好的图景就是t b e r n e r s l e e 提出的浯义互联阏( s e m a n t i cw e b ) 。安擞理王大学瑚土论立第一章前言他本人正是互联网的发明者，互联网论坛w 3 c 的创始人。 s w 给出了“语义互联网”的定义：“语义互联网”是个梦想，期望曼联喇上的数据通过另一种不同于现在的方式描述和链接，使这些数据不仅能被计算枫显示出来，也麓被计算机跨越不同的应用程序所自动处理、综合、重用。从广义上讲，网页中的语义能使计算机完成大量目前无法做到的垂动化处理工作，软件代理通过网页中的语义可以为用户完成很复杂的任务。例如软件代理从医生的网页上可阻读懂就诊的时间，然后通过与用户的空闲时间比较后为用户安排预约时间。也就是说，我们需要将当前“机器可阕读”( m c h i 一f e a d 曲1 e ) 的w e b 进化为“机器可理髂”( l a c h i n e u n d o r s t a n d a b l c ) 的s e m n t i cw e b 。所谓“机器可理解”。是指机器能对定义明确的数据执行定义明确的操作，以解决定义明确的问题。 s e m a n t i cw 曲豹发展可能对经济、政治、军事和人民生活带来根本性的影响。而它的建立将是一个艰巨菇富有挑战的过程，它涉及规范的制定和修改、对穗页加上语义标注、存储语义模型、访闷语义模型的应用程序接口等多方面的基础构架。美国和欧洲的高等院校( 如s t a n f o r d 大学、m i t 大学、m a n c h e s t e r 大学等) 、政府机构( 如美国国防部、欧共体) 、公司( 如i b m 、m i c r o s o f t 、h p 、n o k i a 等) 为s e m a n t i ew e b 的产生和发展丑经作了大量的推动工作，涌境了d a 札、o n t o w e b 、 o | 1 一t o k n o w l e d g e 、w 曲k b 、p r o t 6 9 6 等大糖涉及s e m a n t i cw e b 中各个领域豹项目。我国国内院校、研究院对这方而也有不少研究项目，如用于知识锗理和电子商务方砸基下本体的信息交换的o n t o w e b 项目。用于开发基于内容驱动的知识管理工具的o n t r j k n o w l e d g e 项目，还有许多其它的0 n t o s e e k 、p r o t 6 酷等项目。 1 。3 本课题研究的圭要内容移意义一般的公共搜索引擎只能奄到h t m l 格式，主要的原因是搜索引擎的自动排痔软件s p i d e r s 蜘蛛程净，只能接受这种格式的网页。这意味着，在企业内部的局域网上，任何没有使用舰札格式的传味将无法鼓外部的控索；l 擎查到。这就是为仆么像p p t 、w 。r d 、p d f 、屯于邮件译文件，以及e r p 、c r m 等应用软件的数据库的信息会长期的“沉没”在信。n 的晦底中。如何解决这些难题己成为现在搜索，j 1 警探索的方向。一个好的控素引擎不再仅凭借数据库大小、更新频率、检索连”j 、对多语言的支持这儿个基本特性安徽理工大学硕十论文第一章前言来衡量，随着数据库容量的不断膨胀，如何从庞大的资料库中精确地找到正确的资料，被公认为是下一代搜索技术的竞争要点。比如在某搜索引擎中查询“旅游”这个词，返回的信息超过一百万条，假定一个人3 秒钟查看一个网页，就算只查看其中1 0 的网页，一刻不停地看下去也需要十多个小时。好在搜索引擎技术发展迅速，诸如智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。智能搜索可以通过对搜索内容相关性的自动学习，来提高搜索结果的准确度。不过，现在还没有一种可行的方式真正实现智能化，很难将所需信息一定显示在前两三页的搜索结果之中。基于目前的这种情况，本文在参考了传统的搜索引擎的基础上，提出了一个新型的基于r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ，资源描述框架) 的搜索引擎的架构，针对各个部分的不同情况提出了特定的解决方案并进行研究实践。本论文的研究重点： 1 分析r d f ) c m l 技术的特点，对r d f x m l 应用作概略的分类和介绍； 2 提出一个新型的基于r d f x m l 的搜索引擎的架构，并针对该搜索引擎的各个部分的不同情况提出了特定的解决方案并进行研究实践。本课题的研究意义： 1 希望本课题的研究与实践经验能为r d f 的现有标准( r d f m s 和r d fs c h e m a ) 提供反馈意见，提供r d f 系统实现的经验； 2 能对提出r d f 相关的提案提供帮助，特别是a p i 和q u e r y 的提案； 3 更远的目标，希望本课题的研究能对语义互联网的发展起推动作用。 1 4 本文的组织结构本篇论文由三个主要部分组成：第一部分介绍了有关) 【m l 和r d f 的基本概念和相关应用：第二部分参考传统搜索引擎的基础上提出了一个新型的基于r d f 的搜索引擎的架构，并讨论了搜索引擎各个部分的设计与算法；第三部分详细描述了r d f 引擎的各部分实现细节。具体如下：第一章引。；。主要介绍了沦文的研究背景、目标和结构等。第二章x 川和r d f 的相关概念。主要介绍x 儿和r d f 的相关概念和基础规范体系结构，并钊对重要的几个规范展开介绍。兰型塑坐堡主熊兰釜= 兰萱室第三章搜索引擎的设计。在参考传统搜索引擎的基础上提出一个新的纂于r d f 的搜索弓| 擎架梅，并讨论了搜索引擎各个部分豹设计与算法。第四章搜索引擎的设计实践。详细描述了该r d f 引擎的各部分实现细节。第五章总结与展望总结了本文的主要工作，并探讨了可进一步完善的方面。参考文献致谢 4 安徽理工大学领士论文筻= 章) 渤l 和r d f 的概念与规范第二章x m l 和r d f 的概念与规范 2 1x 礼的起源与目的 2 。1 。lx 批技术 x m l ( 可扩展标记语言，e x t e n s i b l em a r k u pl a n g u a g e ) 是w o r l dw i d ew e b c o n s o r t i u m ( w 3 c ) 开发豹一个标记语言设诗标准。它是标准运用标记语言 ( s t a n d a r dg e n e r i cm 8 r k u pl a n g u a g e ，s g m l ) 的一个子集。x m 摸供了一种标记内容的方式，可以添加关于数据用途的信息。信息使用x m l 存储之后，称为解析器的应用程序就能够可靠地提取相荧信息，并根据不同的需要处理。 2 。1 2x 地妁起源在2 0 世纪的6 0 年代左右，人们对自动化文本处理提出了比排版和印刷更多的要求。在i b m ，需要建立一个法律文件系统，用来存储、查找、管理和发布文件。负责此项工作的研究人员( c h a r l e sg o l d f a r b ，e dm o s h e r 和r a yl o r i e ) 发现，不同的系统之间无法交换文件，因为这些系统使用不同的命令语言，个系统躲文件无法被另一个系统识别。他们把问题归结到文件格式上。研究人员对新系统的文件格式也就是后来的g m l ( s g m l ) 达成三点认识o ：一、公其( c o m m o n ) 文件格式：新系统应浚使用公共的文件格式( c o m o n f 订e f o r a t ) ：二、定制文件类型：公共的文件格式能针对特定的文件类型进行定制；三、基于规则：文件本身必须符合一定的规则。 1 9 6 9 年，e d o s h e r 、r a yl o r i e 和m m 的c h a r l e sfg o l d f a r b 发明r 符合上述标准的语言第一代标记语言g m l ( 1 m n e r a l i z e dm a r k u pl 。a n g u a g e ，通用标记语言) 。此后，这个语言一寞在发矮。矧1 9 8 6 年，国际标准化组织i s o 把础l 确立为国际标准( i s o8 8 7 9 ) ，取名为标准姐用标记语言( s g m l ，sc d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ) ，s g 们；札的基础匕增加了不少内容，这时的安徽理工大学硕上论文第二章x m l 和r d f 的概念与规范 s g 磷l 已经楣当庞大、复杂和强大了。一魑相关的标准陆续出台，最重要豹有： y t i m e ( 超媒体基于时间的结构语言，h y p e r m e d i a t i m e 咱a s e ds 打u c t u r i n g l a n g u a g e ) ，它是关于超链接豹标准：d s s s l ( 文档样式语义和规范语言，d o c u m e h t s t y l es 鲫a n t i c sa n ds p e c i f i c a t i o nl a n g u a g e ) ，它是关于样式表的标准。s g m l 不仪是官方标准，也是大型、复杂文件交换系统的事实上的标准，已被广泛应用于从编程语言设计到飞机维护的各个不同领域。 w 研是欧洲粒子物理研究所c e r n 的物理学家t i mb e r n e r s l e e 建立的一个超文本( h y p e r t e x t ) 系统。c e r n 组织分布在欧洲多个国家的科学家进行合馋硪究。他们所从事的大多数实验都很复杂，分布在不同地方的研究人员需要经常收集时刻变化豹报告、蓝图、绘制露、照片和其它文献，箨摊的研制正是出予这个需求。 1 9 8 9 年3 月，物理学家t i mb e r n e r s l e e 建议用超链接的文本文档实现c e r n 研究人员中豹信息共享。超文本的想法是由v a n n e v a rb u s b 在1 9 4 5 年第一个提出来的，而“超文本”( h y p e r t e x t ) 这个词是t e dn e l s o n 在1 9 6 5 年刨造的。简单地说超文本( h y p e r t e x t ) 就跫链接到其它相关文档的文档。而用来表示指向其它文档的链接的文本称为超链接( h y p e r l i n k ) 。从1 9 6 5 年开始，就奔大量蘸趣文本系统出现。每实。t ，同那些最好的研究僚的和商、韭性的超文本系统相比，w w 宵的超链接符号是相当篱陋的：不过翮是目前世界上最流毒亍的超文本信息系统。 w w w 的第一个原型( 基于文本的) 在1 9 9 0 年开始运行。1 9 9 3 年2 月，第一个图形界面髓o s a i c 发布，从此槲1 | | 广为流行，逐速改变了i n t e r n e t 的面貌。在这以前， i n t e r n e t 在学术界、政府和工她磺究人员之间已经j # 常流行，丙此后，大豢非学术界的新用户登上i n t e r n e t ，w w w 成为i n t e r n e t 上使角最多的服务。雌m l ( h y p e r t e x tm a r k u pl a n g u a g e ，趣文本标记语言) 是w w w 系统中编霹w e b 页硒的语言，它是w e b 的仓4 始人根据s g m l 标准开发的个超文本语言，继承了s g m l 的些重要特性：除了少数例外情形。大多数 i t 骑l 的元素类型是通用的、撼述性的，所以， l t m l 文档既可以在字符莽鳝上显示，也可班在图形赛蕊l 显示，甚至可以用扬声器读地来； h t m l 标记沿用了s g m l 的简单的标记形式( 标记指令用普通字符表示，放入尖括号) ，所瞄凡乎可以在任德文本编辑器或者文字处理器上编辑 t 鹾l 文档，这些文档泡几乎和现有的任何一个计算机系统兼容。但是，在s g 魁的二个革命性的特性中， j t m l 只傲刊：使用公共的文件格式：缕余龋点郝没有做到：安徽理夏大学硬+ 论文第二章x m l 和r 1 ) f 的概念耳浅范 h t m l 没有可扩展性：h t m l 只给出现成的标记，不能定制文档类型： h t m l 没有严格的定义：在h t m l 出现以后的相当长的时期内，没有正式的d t d 。箍着w e b 的发展，这两个缺陷使第一个特性也受到了威胁。因为不可能有种文档类型能满足所有需求，所皴 l t 飘实际上进行的是完全鑫出不受控制的扩浸， h t m l 应用程序遵循的政策是：把不能解释的内容忽略掉。这种做法一方馘使h t 和h t m l 软件得以在短时间内发展得如此多姿多彩，富于表现力：另一方面，h t m l 的通用性和互操作性受到威胁，因为：用户不习惯用数据抽象来表达数据，丽习惯于沿用约定俗成的格式来区分数攥翦类型，例如用璃标表零裔标、脚注标号、数学豹指数等，蠲斜体表示书名、强调、外文片断等。浏览器厂商为争取市场份额，对h t m l 进行单方面的扩允，并且扩充的部分大多是排版指令( 格式标记) 而不是数据抽象。为了解决这个问题，1 9 9 6 年1 】| f 3 c 缀织了一个以j o nb o s a k 为首静s g 札专家小组，开始x m l 的开发，专家小组对s g 札传了出色的简纯，删除了s g 挑的岗级特性，保留了s g m l 的核心部分，整理成为x m l 。对于x m l 的描述文件( 由t i mb r a y 和c m s p e r b e r g 州c q u e e n 撰写) 只有2 6 页，而当初s g m l 的描述却长达5 0 0 页。尽管篇幅只是s g 札的1 2 0 ，但s g m l 中的精华都被保留了下来。1 9 9 8 年2 月，w 3 c 批准了x 眠的 1 o 版本。 2 1 3x m l 的设计目标 x m l 的设计目标如下“3 ： 1 x 髋应该可以壹接鹰于阂特皤( i n t e r n e t ) ， 2 x m l 应该支持大量不同的应朋。 3 x m l 应该与s g m l 兼容。 4 处理x m l 文件的程序应该容易编写。 5 x 瞻中的可选项癍无条件地保持最少，理想状况下应该为o 个。 6 。x 乳文件应该是入可以直接阅读的应该是条理清楚的。 7 ) ( m 乙的设计皮快速完成。 8 x m l 的设计应该是形式化的，简洁的。 9 ) ( m l 文件应易于创建。 l o x 娃标记的简洁牲是最后考虑l 孽 _ = = 栎安徽理王天学硕圭论文第二章x m l 和殳b f 的概念与残范正如许多倾向于标准的规范一样，x m l 已经被一种正式的表示法e x t e n d e d b a c k u s n a u rf o r m ( 扩展的b n f 范式，e b n f ) 以正式、简洁的凡是定义出来，它符合第八条设计目标。其他的设计目标也已经被x m l1 o 的许多特色和它对现存豹i n t e r n e t 标准的“标准化”( 必需的) 弓| 用所满足。接下来我们将深入的看看这些设计目标。 1 可扩充性： s g m l 是一种具有很高可扩展性的开放的标记语言，x m l 也一样。我们可以在文档中加入自己的标记，从而可以在文本中包含一些结构纯的数据。黼l 提供了一些綦本的语法，但是没鸯定义确切的标记，标记集可以由任何人根据是穗的嗣的进行扩充。 2 语法和袭现形式的分离 x m l 规范不仅描述了x m l 数据的格式和语法，而且为处理x 札数据指定了个两层的用户体系结构。第一层是捌l 处理程序( 也被称为x 托解析器) 。解柝器保证假定的x 勰l 数据格式是正觏的( 有正确的结构和语法) ，并戆检查用户的数据结构的合法性。解折器必须遵循x m l 规范，并把x m l 数据的内容和结构以规定的方式送到第二层( x m l 应用层) 。 3 国际化虽然w 聊已经是一种嚣际现象，僮x 溉在非欧洲语言和国际佬方面设计豹更周到。驯l 基于多个i s o 标准，包括在i s o i e c1 0 6 4 6 字符集标准( 它现在与更广为人知的u n i c o d e 标准一致) 中定义的通用字符集( u n i v e r s a l c h a r a c t e rs e t ，u c s ) 。如同x m l 的其他方面样，取名方面也摆脱了原来以英语为中心的a s c i i 字辱的限制丽允许使瑁大多数的世界语。这一设计目标可以扩展到不仅仅是用来表示不同语言的文本。x m l 元数据也可以用本地语言来描述。x m l 样式是真正的i n t e r n e t 国际化的基础，全世界的人都可以使用自己的语言来发挥x m l 的作用。 4 x 池和i n t e r n e t 协作 x 辩l 綦于一季孛箍单的文本格式。虽然这意味羞u n i e o d t 、文本，雨不仪仅是简单的a s c i i 史本，但是它可以被转化为u t f 一8 和a s c l l 编码以便运用最古老的i n t e r n e t 连接和硬件( 电报) 进行可靠的传输。这也排除了一些需要考虑的关于在不同的计算机硬件和操作系统之间进行二进制数据格式的结实的事项。在可能的情况下，x m l 也会饺硐现在的i n t e r n e t 协议、软件和规范经数掇安徽理工大学硕士论文第二章x m l 和r d f 的概念与规范的加工和传输更容易。这些规范从基本的语法，如统一资源标识符( u r i ) 到编码数字目录，如i s o 国家编码，范围很广。掾 l 阮样，x 乳经常使舔鞴轷的超文本传输协议( i y p e r t e x t 罩r a n s f e r p r o t o c o l ，h t 仰) 进行传递。这就意味蔚x 她可以很容易的越过企业的防火壤，利 j 现存的w e b 服务器软件进行处理。虽然x m l 不能赢接取代h 丁m l ，将来的h t m l 的版本将会用x m l 语法来表达，就像x h 孺l 样。通过把表示数据静负挺更多豹从藏务器转交给测览器或其他应羽程序，x 虬馒加强的w e b 体系结构缉以适用。炳l 提供了一种谣法，它可以用于任何数据、数据的描述性元数据，甚至是用于在服务器和客户之间传递x m l 数据的消息协议。另项好处是在数据搜索方面的改进运用显式标记的x 眦数据可以轻松、可靠选找到价格信息，掰不像在一队用珏罩鹾l 标记围起来驰文本中试淘寻找一个价目那么困难。阉样的标记也用于大大提高网站和用户之间、合作的网站之间和或软件应用程序之间的数据交换。x 眦会创造一个更加强大的w e b ，也可以使大多数计算机应用变得更加强大。 5 删艮是简化的s g 】i l l 矾乙的一个主要设计酲标就是易用性，所以x 她的设计小组就能够把s g 弧作为一个现成的工作起点，而专注于s ( 猢l 的简化。由予s g m l 有许多选择性特征，这就使它变得很复杂，因此很难编写一个通用的s g m l 解析器，而编写x m l 解析器就简单的多了。) 【m l 也倾向于使开发者能使用简单的、易于得到的工具进行读； n 写。这项设计约定可以使早期的删l 用户使用s l 。工具。但是，这也意味着对 x m l 数据、声明和语法存在一些必要的、离奇的约束以保持s g m l 的兼容性。这就使x m l 成为s g m l 的子集。将来在某些方面，x 札和s 铡l 可能会有一些分歧，但是在朱来的许多年，基于s g 弧的瑚乙1 o 语法报霹能会成为栋准。 2 2 煳l 规范体系结构 2 2 1 ) ( m l 的核心 x 弧的核心，它的关键缀成部分和扩展是。 9 安彀碟工大学艇士论文第二章x m l 癣ir d f 豹概念与规箍 x m l1 o 语法，包括文档类型定义( d o c u m e n tt y p ed e f i n i t i o n ，d t d ) 。 ) ( m l 的命名空间。划1 。模式( 或者一个替代的或补充的验证工具：x d r 、s o x 、r e l a x 、t r 矾还有s c h e m a t r o n ) 。这些摹本的规范定义了x m l1 o 语法并提供了一个标准的验证语法( d t d ) 。逸些扩展支持多种共享的词汇表( 名称空阐) 和更加严格和强大的验证( x 地模式等) 。他们与删l 解析器( 它在x 札1 。0r e c 中定义) 共同组成了删l 处理的第一层。没有应用的的技术是无用的，所阻许多重簧的x m l 应用程序( 第二层) 正在成为基于糊l 。的系统的一部分。这些相关韵规范提供了在x m l 应用程序中通常需要的一些关键特征：描述x 挑数据结构：x 札信息集合( x 眠i n f o s e t ) 和x 札旃径语言( x p a t h ) 。导航和链接：x m l 链按( x l i n k ) 。x 虬指针语言( x p o i n t e r ) 。x 虬包含 ( m n c l u d e ) 。x 札片段交换( x f i ) 和x m l 查询语言( x q u e r y ) 。转换和表示：x s l t 和x s l 一f o ( x 魁f o r m a t t i n g0 b j e c t ，x m l 格式化对象) 。 2 2 2x 骶lo 浯法基本的瑚l 语法是在一个# 3 c 的推荐标准，明傲可扩展标记语言( x m l ) l ，0 ( 第二版) 中描述的。最近的修订版( 2 0 0 0 一1 0 6 ) 是一个严格的更新文档，包括了许多说明和小的代码改动。它对最初在x 弧1 0 推荐橼准( 1 9 9 8 0 2 一l o ) 中描述的x m l 没前根本性的改变。 1 自描述数据界定一份心i 文档的不同组成部分的标记可以经过解释两提供一些关于文档内容的语义信蠹l l 。共享的x 札词汇表中的描述性元素标记和属性名的使用可以使软件从x 枷，i 髑中提取结构化的支据。 2 现有标准的使用 x m l 是建立r 有i n t c r n e t 和其他的国际标准之上的。我们i 三经提到过 s o 和u i l i c o d e 与舍、的x 字符的协同使笄】。许多其他的i s o 标准也是x m j 的一部分，包括一些采的代码数字和世界语。许多r f c 形式的i n t e r n e t 工程任务组( i n t e r n e tie c r i n g 下a s kf 。r c e ， i e t f ) 规范也可以用采定义x m l ，的特定组成部分，掘u r iu r l u 刖引用手| 国家或浯言代码。安徽理工大学硬士论文第二章x m l 和r d f 的概念与规范基础x m l1 o 的扩展，如x m l 模式，使用的液化司现在的技术标猴。例如， x m l 数据类型可以用i e e e 浮点数或者i s 0 的日期时间代码的样式来定义。x m l 是一张有各种不同的标准织成的w e b ，这些标准涉及的范围从符号编码到资源索弓l ，再到各种协议，煳l 是此w e b 上的一条新线。 3 。格式正援豹x m l 所有符合基本x m l1 o 语法规范的数据对象( 文档) 都叫做格式j e 规的的 ) ( m l 数据。 4 有效的龇任何x 瓢数据对象，如栗它楚格式正撬的，符合定豹迸一步的蠢效性约束，并且与拦述文档内容( d t d ) 的语法相匹配，那么它就可以被视为有效的 x m l 文件。 5 解析器除了指定x l 乙语法，轷3 c 还对x m i 。低瑶客户体系结构( 糊l 解析器) 的行为 ( 箍不是具体实现) 进行了摧述。有掰穗聪拆器：无验证的解析器仅仅保证一个数据对象是格式正规的x m l 。验证的解析器使用d t d ( 或其他类型的模式) 来保证一个格式正规的数据对象的形式和内容的有效性。有一些解析器能弼时适用于这殛乖争类黧，它们带有一个配霰开关来决定是否对文档进行有效性验证。 2 2 3 描述和验证对于许多应用来说，简单的格式正规的x m 乙数据是不够的我们必须保证数据是有效的，不管是使用x m l1 od t d 还是使用扩充功能如x m ls c h e n l a 柬进行有效性验证。 1 f d 虽然d t d 不使用勰l 语法，但是它们是构成x m l1 o 标准的不可缺少的一部分。任何进行有效性验证的解析器都可以使用d t d 来对x m l 数据进行验叶 d t d 也可以为x m l 实体提供定义，它们是经过解析器扩展的文本宏的形式。 2 模式我们已经感爨到d 知作为一种验涯模式有一些是限性。w 3 c 已经剖造mr 另外一种模式叫做x 帆s c h 。m a 。和d t d 不同，这种新的形式使用x 扎1 o 【i - - ，安徽理工大学硕士论文第二章x m l 和戳) f 的概念与规范所以可以使用一般的x m l 工具进行编辑和处理。瑚l 语法中的x m ls c h e m a 表达形式比d t d 中的相应部分要详细一些。然而，芷是因为它熨详细，我锯才能凭诧得到对数据攘述的更大的控制。毙翔对一些常罔数据类型的使用和对一个元素结构的更精确的规定，如对子元素的出现次数的规定。一个“混合”内容元素在x m ls c h e m a 中也可能比在d t d 中被更精确地指定。 3 x 轧中的数据类登琢l 应用能成功约一个关键是有效豹联l 词汇表。它是在应用程窿中期到的元素、它们的属性，还有x m l 数据结构的规范。一个有效的) ( m l 词汇表对一个) ( m l 应用程序的成功至关重要，正如一个好的模式对一个传统的数据库应用程序的熏要性一样。个有效的数据模型也能使瑚l 数据在各种不同的平台和应爨程序之闻进褥交换。 2 2 4 捌l 命名空间由予x 兆标准越来越丰富，命名空闫也变得越来越重要。x m l 命名空闺提供了以髓总复合命名语法，它扩展了x 虬1 o 对名字的定义，以保证为共享的词汇表产生唯一的名字。 2 2 。5x 跹信惠集合 x m l 信息集( x m li n f o s e t ) 是洋与其他规范共同使用的规范。它是描述一些术语，这些术语把x m l 数据的不同组成部分作为一个对象模型，而不是简单的作为一个带有标记的文本序列来进行描述。这允许其侄的规范能够精确的定义它们与蕊l 文档豹特定部分豹关系或对这些部分可能产生的影响。簿一个格式正规和有命名空间意识的x 忆文档都可以有一个i n f o s e t 。这个i n f o s ec 可以在描述一个数据传递和链接的精确规范时使用。 2 2 6 定位和链接x 札 1 x p a t h x p a t h 用于描述如何识捌、选择、匹配、m l 文件中的各个构成元件，包括 1 2 安徽理工大学磺士论文第二章x m l 和r d f 的概念与靛范元素、属性、文字内容等。该标准最初是从x s l 标准中分离出来的，但由于其定义的是x m l 中一种常用的功能，为了) ( m l 标准本身的一致性，该标准不再仅仅为x s l 标准服务，当需要进行x 帆文档内部元素定位时都采用它所规定的方法。其中p o i n t e r 就充分地利用了其内容，并在它基础上进行扩展。 2 x p o i n t e r x m l 指针语言( x m lp o i n t e rl a n g u a g e ，x p o i n t e r ) 慕于x p a t h 表达式，因此是另一种与x m l 相关的非x m l 语法的语言。x p o i n t e r 也用于对x m l 数据对象的特定内部结构述行编址。x p o i n t e r 逶过以下途径扩展x p a t h ：提供在x 觊数据总任意的点和范围豹相对位置的编址。 x m l 数据内部的字符串匹配。它在u r i 引用中被作为分段标识符的可能性。用x p o i n t e r 再的位黄可良用做链接目标，或者用在其他对x m l 成用稷序有壤的方嚣偿是它没有提供资源检索稻链接遍历豹功能。 3 x l i n k 】( m l 链接语吉( x m ll i n k i n gl a n g u a g e ，x l i n k ) 定义了一些特殊的元素，它们可以在x 眦数据中使用，以刨建资源之间的链接这些资源可能是其他的x 醵l 数据、相关的元数据，蒜至是非x 胍数据( 如图象) 。辩x l i n k 功能豹一个强有力的 b 充是它可以不用改变文档的内容搂述丽指向不嗣的x m l 文档的链接。 x l i n k 不仅指定了链接的数据结构，它也定义了一个简单的链接行为模型，它可以被商级应用层扩展。 4 x i n c l u d e x i n c l u d e 用于规定文档中包含物的处理模型与语法规则，包括如何合并这些包含物的信息，如何使用类似x m l 的语法进行合并控制等。x i n c l u d e 是对外部实体的补充。对d t d 和外部实体的处理是在对x 札数据进行语法分析时发生的，但是 x i n e l u d e 使用了一种完全不同的方法，它是基于数据鲍 n f o s e t 。 5 x f i x f i ( x m lf r a g m e n ti n t e r c h 、g e ，x l l 文档片段交换) 是用于对x m l 数据段进行描述和传递的方法，它使我们侄查看和编辑x m 乙文件时不用发送整个数据对象，也不稍使用显式定义的外部实体。 6 u e r y x q u e r y 其目的是为从w e b 中实的或虚拟的文档中提取数据，提供种灵活安徽理工大学礤士论文第二章x m l 和r l 弹的概念与规藏的查询机制。它为x m l 文档提供了一个数据模型、一组基于这个模型的查询操作以及在这些操作綦础上的查询语言。 2 。2 。7 转换x 髓 1 层叠样式袭 c s s 被设计来使数据作为弼页表示，还肖许多多媒体方面的扩展功能( 很像耵鞑l ) 。e s s l 和e s s 2 都先于最初的x 腿l 。or e c 出现，左翼可扩展梯武表语言楚对可扩展标记的一个有用的幸充。 2 x s l 转换 x s l 的一个子集钾做x s l t ( 用于转换的x s l ) 。x s l t 般和x s l 表示祥式起使用来组织x 赫l 数据，它能灵活执行任侮数据转换，数据折取和分类任务，耐不用求助于应恁程序的任何代码。脚零代码可以嵌入到x s k 样式表中来进步提高对动态数据的处理能力。 3 x s l 格式化对象一个x 札词汇表，明做x s l 一( x s lf o r 啪t t i n go b j e c t ，x s l 格式亿对象) ，它的鹭标是将x 蜒l 数据精礁照示和打印表示豹。x s 乙_ f o 像 t m 乙一样描述了详细的格式化规范，但它的格式模型更加复杂。x s l _ f 0 也支持真正的国际化文本没，包括从右到左和从上到下的文本，还有附加的特征如旁注和脚注。 2 2 8x 趾豹优点及其应用 ) ( m l 的优秀特性主要体现在。3 ：普适性：x m l 是一种制定标记语言的语言，由用户定义面向特定应用的文档类型。胰物理结构上讲，蕊l 没有现成的标记，由用户鑫己制定露粕特定应用的标记积及其使用规则；从逻辑结构上讲，x 娩没有预定义的元素类型，由用户定义元素的类型和元素之间可以出现的关系。文档类型可以隐含在文档的处理逻辑里，也可以明确地写出来。x m l 提供了显式定义文档类型的机制d t d 和s c h e m a 。根据x 札

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于rdf的搜索引擎的研究与实践.pdf

文档简介

温馨提示

最新文档

评论