个性化元搜索引擎的研究与设计.doc_第1页
个性化元搜索引擎的研究与设计.doc_第2页
个性化元搜索引擎的研究与设计.doc_第3页
个性化元搜索引擎的研究与设计.doc_第4页
个性化元搜索引擎的研究与设计.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

I目录目录.I1引言.11.1课题背景.11.2研究的目的和意义.11.3国内外现状.21.3.1搜索引擎.21.3.2元搜索引擎.21.3.3元搜索引擎的分类.21.3.4元搜索引擎的性能评价指标体系.31.3.5元搜索引擎的国内外相关研究工作.41.4主要研究内容.41.5论文结构.52相关技术.62.1引言.62.2常见元搜索引擎的原理及体系结构.62.3元搜索引擎的检索结果合成技术.62.3.1去重.72.3.2排序.72.3.3结果排序中的主要算法.72.3.4结果排序中存在的问题.72.4元搜索引擎的检索接口技术.82.4.1统一的检索界面.82.4.2查询表达式转换技术.82.4.3成员搜索引擎的调度策略.8个性化元搜索引擎的研究与设计11引言1.1课题背景随着Internet以及相关技术的发展和成熟,人们已经进入了信息量极大丰富的时代。自从1991的Internet诞生以来1,它已经发展成为拥有约上亿用户和几千万个站点、十几亿个网页的巨大分布式信息空间,而且这数字仍以每四个月以第六个月翻一番的速度迅猛增长。由InternetDomainSurvey统计,从1996年到2001年,Internet上的主机数量从两千万增长到一亿四千万。Internet作为一个信息平台在人们的生活和工作中发挥越来越重要的作用,人们越来越多地通过Internet获取信息。然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题。Internet上的信息过于庞杂,而且具有不稳定和变动快的特点,没有也不可能有一个权威机构能对这些信息进行全面的整理和归类,因此,往往用户面对五花八门、扑面而来的各种信息显得无所适从,不知道如何去获取自己需要的内容。如何在浩瀚如海的信息空间里,快速查找并获取所需的信息己成为信息时代最根本的问题之一。网络搜索引擎在网络信息资源检索中起到了重要的作用,它可以帮助用户从数以亿计的网络信息库中找到自己所需要的信息。搜索引擎是Internet上的一种在线服务方式,是一种用于帮助用户查询网络信息的检索工具。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,然后为用户提供检索服务,从而起到了信息导航的目的。1.2研究的目的和意义因特网上的信息浩如烟海,优劣混杂,缺乏统一的组织和管理,给人们有效地查询和利用信息带来了很大的不便,搜索引擎就是为了开发和利用这些网络信息资源而产生的网络信息查询工具,它己经成为因特网中最重要的部分,是目前网络用户获取网上丰富信息资源的一个重要途径,但传统的独立搜索引擎存在着信息资源覆盖率低、检索效率较低等问题。因为任何一个独立的搜索引擎都无法穷尽所有的Web信息资源,而且对于同一个查询请求,不同的搜索引擎因其工作机制不同,得到的结果中重复率也较低。因此在很多情况下人们为了获得更高的查全率,需要同时使用具有不同数据搜索范围的搜索引擎,这就增长加了检索的不便,元搜索引擎就是在这种情况下诞生并发展起来的。现在己经出现了一大批元搜索引擎,其中以英文元搜索引擎较多,发展较好,而中文搜索引擎发展缓慢。目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。另外很多主流的搜索引擎提供的服务没有考虑每个个体用户的需求,没有考虑用户的差异。本文就是要在研究现有元搜索引擎存在的局限性的基础上,设计出一个结构较合理,功能较优越,同时能够融合很多相关领域技术,体现个性查询的元搜索引擎结构模型,为查询效率更高个性化元搜索引擎的研究与设计2的检索工具的早日实现做出贡献。1.3国内外现状1.3.1搜索引擎搜索引擎是指能够自动地对WWW资源进行分析处理,并通过查询为用户返回匹配资源的系统。它一般是Internet上的一个网站,它的主要任务是将互连网资源存储于可供查询的大型数据库中。当用户输入关键字查询时,搜索引擎依据此关键子在索引数据库中查找相关信息,若索引数据库中有这方面的信息,则将信息反馈给用户;若没有则调用搜索方法进行搜索,并在一定时间界限内向用户反馈信息。1.3.2元搜索引擎元搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给各个调用的搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格式返回给用户。一般元搜索引擎技术主要有三部分构成4:查询请求机制、检索接口代理机制、检索结果处理机制。查询请求机制:实现用户的个性化检索设置的要求、成员搜索引擎的调度方案、检索时间的限制、返回结果量的限制;检索接口代理机制:实现将用户的个性化查询请求转化为可被成员搜索引擎识别的固定格式;检索结果处理机制:实现把调用的成员搜索引擎检索到的结果去重、合并、排序和按一定的格式返回给用户。1.3.3元搜索引擎的分类元搜索引擎是一种基于搜索引擎的搜索引擎,又称为多元搜索引擎或集合式搜索引擎。它可以把多个搜索引擎集合在一起,提供一个统一的检索界面,将查询表达式同时提交给多个搜索引擎,并行检索多个数据库,再对返回的结果进行去重、排序等二次加工后向用户输出搜索结果。元搜索引擎根据不同的标准可以划分为不同的类型5。根据检索机制可以划分为集中罗列式元搜索引擎和统一入口式元搜索引擎,以下对这两种类型的元搜索引擎作详细介绍。集中罗列式元搜索引擎集中罗列式元搜索引擎按照一定的形式将所有的独立搜索引擎集中呈现在页面上,并提供了一个公共的检索入口,但实际上用户一次只进入一个独立搜索引擎。这个性化元搜索引擎的研究与设计3种类型元搜索引擎的结果反馈页面多直接引用原始搜索引擎的结果页面。从表面上看,这类元搜索引擎与独立搜索引擎具有更多的相似点,它们的特点是:一次检索一个搜索引擎。检索结果直接调用原始独立搜索引擎的结果页面。只支持原始独立搜索引擎支持的检索语法统一入口式元搜索引擎统一入口式元搜索引擎为收录的独立搜索引擎建立了一个公共查询入口,用户发出检索请求后,提问表达式被分别提交给多个独立搜索引擎,最终反馈的结果是多个独立搜索引擎查询结果的融合。根据结果显示的不同,这类元搜索引擎又可以分为直接调用原始页面型、混合综合型和分散综合型。直接调用原始页面型元搜索引擎,检索结果直接来自原始搜索引擎站点的结果页面。混合综合型元搜索引擎,将各个独立搜索引擎中查找的结果进行融合,结果显示以记录为单位,记录描述包括该记录被检出的来源。分散综合型元搜索引擎,这种类型与混合综合型元搜索引擎在结果显示上有所不同,它以独立搜索引擎为单位进行结果显示,在同一个独立搜索引擎得到的结果被集中列在该搜索引擎之下。1.3.4元搜索引擎的性能评价指标体系作为一种搜索引擎,元搜索引擎也有搜索引擎的一些基本指标,如查全率、查准率、召回率、响应速度、响应时间、用户负担等。但是元搜索引擎个体差异很大,很难进行精确的评价。元搜索引擎性能评价指标体系主要包含四个部分6:独立搜索引擎的调度策略有些元搜索引擎固定地调用几个独立搜索引擎,用户不能修改。有些元搜索引擎的高级特性中让用户选择调用哪些搜索引擎。这两种策略都有不足之处,前一种将跟不上搜索引擎的发展潮流。后一种,对于不熟悉搜索引擎的用户来说可能选择不到适合自己需要的搜索引擎。一些学者提出了通过遗传算法实现独立搜索引擎的自动调度方法。这种算法如能融入到元搜索引擎系统中,必会大大提高系统的查准率。是否提供足够的检索选项包括是否提供高级检索服务,是否可以限定最长检索时间,是否可以设置每个搜索引擎返回的结果数量,是否可以设置每页显示的结果数目,是否可以设置标题大小和摘要大小等。检索选项越多,用户使用的时候就越灵活。这也是衡量一个元搜索引擎性能的一个标准。但是由于元搜索引擎的检索特性向它所调用的独立搜索引擎检索特性的转换所具有的复杂性,许多元搜索引擎不提供复杂的检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论