第三章+检索原理和搜索引擎.ppt_第1页
第三章+检索原理和搜索引擎.ppt_第2页
第三章+检索原理和搜索引擎.ppt_第3页
第三章+检索原理和搜索引擎.ppt_第4页
第三章+检索原理和搜索引擎.ppt_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章:检索原则和搜索引擎,本章内容,网络信息检索第三章,第三章,第一节:关键词匹配原则,第一节。从“图灵实验”开始,众所周知,在计算机发展史上有一个重要的人物叫图灵,他在20世纪50年代曾提出一个假设性实验,认为计算机可以具有人类的思维能力,这就是“图灵实验”。他还预言,在20世纪末,具有人工智能的计算机将会出现。但是到目前为止,没有一台计算机能通过图灵实验。网络信息检索第3、5、2章,计算机检索的奥秘:关键词匹配,既然计算机是如此“无能”,以至于它们甚至没有三岁孩子的智力,为什么人们在网上寻找信息时总是帮助他们?计算机检索的秘密是什么?最初,计算机检索的秘密在于它可以将你输入的关键词与存储

2、在其后台数据库中的关键词进行比较。如果它能匹配,它会认为这个信息是你需要的,并立即输出给你。第3、6、3章,什么是信息检索?第3章,第7节,广义的信息检索:它是指按照一定的方式组织和存储信息,并根据用户的需要找出相关信息的过程。狭义的信息检索:匹配过程,即用户使用检索语言描述自己的信息需求,并在一定的信息资源系统中进行描述匹配的过程。网络信息检索第3,8章,存储,搜索,原始文献,处理,数据库,询问,搜索,输出,“爱因斯坦论文”,“爱因斯坦”,“论文”,“爱因斯坦”,4,信息检索原理,网络信息检索搜索工具匹配,搜索结果,信息源,用户,信息需求,搜索问题,数据库,5,信息检索语言,一种特殊的人工语

3、言,用于描述文档信息的内部和外部特征以及文档信息存储和检索过程中的搜索问题。它是文学信息和搜索者之间的桥梁。网络信息检索第3、10章,检索语言的类型,描述文档信息外部特征的语言,描述文档信息内容特征的语言,标题,负责人,序号,出版项目,分类,主题方法,标题词汇单位词汇描述关键字方法,检索语言的类型,6,信息检索的类型,网络信息检索第3、12章,通过信息存储和检索的方式进行的人工检索(基于计算机的人工检索,也称为现代信息检索,是指使用计算机和网络来处理和查找文档信息的检索方法。根据检索内容,数据检索:检索对象是各种数据、公式或图表,检索结果是一定的相关数据。事实检索:检索对象是各种已有事实的相关

4、材料,检索结果是事实结论。文献检索:检索对象是原始文献,检索结果是相关原始文献的线索。第3、13、7章,计算机检索系统的主要类型。检索系统是一个具有存储和检索功能的信息服务系统,由一定的检索设备(计算机)、处理并存储在相应载体上的信息集和其他设备组成。在线搜索,离线搜索,光盘搜索,互联网/网络搜索,网络信息检索第3,14,1章。概念检索。检索标识符是一个特定的检索词或短语,每个检索词表达一个概念。在特定检索中,检索词与检索工具或检索系统中的文档特征标识符进行比较。如果它们相同,那么该记录就是一个热门文档。,8。信息检索技术。布尔逻辑运算符匹配检索,布尔逻辑匹配运算:它使用布尔代数中的逻辑与、逻

5、辑或、逻辑非运算符将检索查询转换成逻辑表达式,并限制检索词必须存在或不能出现在记录中的条件。任何满足布尔逻辑所规定的条件的文档都是命中文档。布尔逻辑运算符,1。逻辑或2。逻辑与3。逻辑非1。逻辑或(and),由符号或或表示,其逻辑表达式为:A或B或A B,这意味着每个搜索记录都包含搜索项A或B,或者同时包含搜索项A和B。逻辑and,由符号“and”或“*”表示,其逻辑表达式为:A * B或A和B,这意味着在进行算命之前,搜索记录中的文档必须同时包含搜索项A和B。3。逻辑“非”,符号为“非”或“-”,其逻辑表达式为:甲非乙或A-B,这意味着只有当搜索记录中包含搜索词甲,但不能包含搜索词乙时,才能

6、找到算命中的文档,3。截取检索:它主要使用检索词的词干或不完整形式进行检索。?通常用作切字字符“:”和“#”。1.后置词:用于在前面搜索一致的派生词。例如信息?这意味着检索系统中包含信息、信息技术和信息检索的文献记录都是热门文献。2.前言剪切:用于检索后面一致的派生词。例如:经济数据库中关于经济、工业经济、农业经济等方面的文献都是热门文献。3.限制条款:添加一个或多个(最多四个)?在搜索词后,清空,并添加“?”。电脑?可以发现:计算机、计算机、计算和关键词检索在不同的计算机检索系统中有不同的规定,所以使用时请注意。为了缩小搜索范围,可以使用字段代码来限制搜索词出现的字段,从而提高搜索速度和命中

7、率。例如:ti中的rice(即仅在标题字段中搜索文献)de中的rice(仅搜索关键词)ab中的rice(仅在摘要中搜索)au=Smith,J.C .(作者是Smith,J.C .的文章)py=1998(仅1998年的文章)la=Chinese(仅中文文献),4。字段限制检索,5。位置运算符,带:在同一字段中设置两个要检索的单词或短语,但不限制位置的顺序。相近:设定要检索的两个单词或短语在同一语句中更接近“with”。此外,当使用“近”运算符时,可以在运算符后添加一个数字,以进一步限制两个单词之间的接近度。例如,“near3”设置要搜索的两个单词或短语在同一个句子中,并且相距不超过三个单词。6.

8、检索技巧和方法。检索策略计算机检索实际上是计算机将用户输入的检索策略与存储在系统中的文献特征标识和逻辑组合关系进行比较和匹配,并输出完全匹配的文献的过程。检索策略是科学使用检索词和逻辑运算符来正确构建逻辑提问方式的原则和方法。其核心内容在于检索策略和检索步骤的构建。制定检索策略的步骤如下:a、明确检索问题的要求,确定被检索文献主题的范围、类型、体裁和时间。b .选择相关数据库,确定待检数据库中的检索方式,以制定适合所选数据库的检索策略。c、对检索问题d进行概念分析,制定检索逻辑公式e,搜索数据库文档,查看相关文档,分析检索结果。如果需要,反馈并修改问题表,重复第5步,直到你满意为止。一,扩大搜

9、索范围,扩大*的概念。*扩大范围。*添加同义词、同义词、相关单词和缩写。*使用“或”、“?”* s扩展。*删除连字符可以扩大搜索范围。*在另一个数据库或另一张光盘中继续搜索。b,缩小搜索范围的方法,*核心概念的局限性。*核心期刊的局限性。*语言限制。*使用布尔逻辑运算符“and”或“not”来匹配搜索词。*使用位置运算符“near”和字段运算符“in”来提高精度。*使用“索引”和同义词库选择准确的搜索术语以缩小搜索范围;2.搜索技巧和方法;9.“关键词原则”是信息检索的基本原则。第三章,28、四个文档,三个中文网站系列,两种类型的搜索引擎,关键词原则,第二节搜索引擎原则和WWW信息资源:网页文

10、件传输协议信息资源:远程计算机上的文件夹博客信息资源:博客,播客等信息资源Telenet信息资源:直接呼叫远程主机BBS,新闻组信息资源:相当于论坛信息P2P信息资源:私人计算机上的信息资源数据库和收费网站:如三个图书馆和三个大厅,网络信息检索第三章,第三十章,第二章。搜索引擎的发展历史,网络信息检索的第3、31章,网络信息检索的第3、32章,搜索引擎的起源阿奇,所有搜索引擎的鼻祖,是由蒙特利尔麦吉尔大学的三名学生于1990年发明的。艾伦恩塔格和其他人想出了开发一个可以通过文件名找到文件的系统的想法,于是阿奇就出现了。阿奇是第一个在互联网上自动索引匿名文件传输协议网站文件的程序,但它不是一个真

11、正的搜索引擎。阿奇是一个可搜索的文件传输协议文件名列表。用户必须输入准确的文件名进行搜索,然后阿奇会告诉用户哪个文件传输协议地址可以下载文件。1993年,内华达系统计算服务大学开发了一个Gopher (gopher FAQ)搜索工具Veronica(Veronica FAQ),因为阿奇非常受欢迎并受到它的启发。Jughead是后来的另一个Gopher搜索工具。目前该工具主要用于大型外文图书馆的信息检索。网络信息检索第3,34章,第二代搜索:目录搜索雅虎!1994年4月,斯坦福大学的两位博士生,华裔美国人杨致远和大卫费罗共同创建了雅虎。随着访问量和收录链接数量的增加,雅虎目录开始支持简单的数据库

12、搜索。因为雅虎!的数据是手动输入的,所以它不能真正归类为搜索引擎,事实上它只是一个可搜索的目录。雅虎!搜索效率明显提高,因为。雅虎!在20世纪90年代几乎成为互联网的代名词。网络信息检索第3章第35节元搜索引擎是1995年出现的一种新的搜索引擎。用户只需提交一次搜索请求,元搜索引擎负责转换和处理,然后提交给多个预选的独立搜索引擎,从每个独立搜索引擎返回的所有查询结果在返回给用户之前都经过收集和处理。第一个元搜索引擎是来自华盛顿大学的研究生埃里克塞尔伯格和来自柳文欢埃齐奥尼的Metacrawler。元搜索引擎在概念上是好的,但是搜索效果一直不理想,所以没有一个元搜索引擎有过强势地位。网络信息检索

13、第3、36章,第三代搜索:网络搜索,网络信息检索第3、37章,所有这些都属于自动网络搜索引擎,其中一些还具有智能分析或FTP、P2P搜索功能。5.搜索引擎的工作原理,网络信息检索第3章,第38节,搜索引擎并不真正搜索互联网,而是实际搜索预先安排好的网络索引数据库。搜索引擎至少由三部分组成:爬虫(即搜索程序如机器人和蜘蛛)、索引生成器(即网页索引数据库)、查询检索器(即用户搜索界面)、网络信息检索第3、39章,搜索引擎的工作原理类似超市、网络信息检索第3、40章、索引生成器(网页数据库)、爬虫(蜘蛛)、查询检索器(搜索引擎)。使用蜘蛛系统程序,该程序可以自动从互联网上收集网页,自动访问互联网,沿

14、着任何网页中的所有网址爬至其他网页,重复该过程,并收集所有已爬行的网页。第3章,第41节,网络信息检索,第1步:从互联网上抓取网页,第2步:建立索引数据库,通过分析索引系统程序对收集到的网页进行分析,提取相关的网页信息(包括网页所在的网址、编码类型、网页内容中包含的关键词、关键词的位置、生成时间、大小、与其他网页的链接关系等)。),并根据某个相关算法执行大量复杂计算。获得每个网页对于网页内容和超链接中的每个关键词的相关性(或重要性),然后利用相关信息建立网页索引数据库。在网络信息检索第3章第42节中,搜索引擎蜘蛛通常会定期重新访问所有网页(每个搜索引擎的周期不同,可能是几天、几周或几个月,对于

15、不同重要性的网页可能有不同的更新频率),更新网页索引数据库以反映网页内容的更新,添加新的网页信息,删除死链接,并根据网页内容和链接关系的变化对它们进行重新排序。这样,网页的具体内容和变化就会反映在用户查询的结果中。网络信息检索第3、43章,第3步:检索界面的建立。在用户输入关键词进行搜索之后,搜索系统程序从网页索引数据库中找到与关键词匹配的所有相关网页。因为已经计算了该关键字的所有相关网页的相关性,所以只需要根据现成的相关性值进行排序,并且相关性越高,排名越高。最后,页面生成系统组织搜索结果的链接地址和页面的内容摘要,并将其返回给用户。在网络信息检索的第3、44章中,每个搜索引擎都必须为用户提

16、供一个良好的信息查询界面,一般包括两种信息查询方式:分类目录和关键词。网络信息检索第3,45章,网络信息检索第3,46章,网络信息检索第3,47章,第3节两类搜索引擎和网络搜索引擎,两类搜索引擎的代表,网络信息检索第3,49章,百度,谷歌,雅虎,迅雷,天网迷宫等。第一类搜索引擎:以谷歌和百度为代表的网络搜索引擎。谷歌搜索引擎诞生于斯坦福大学的一个学生宿舍,它迅速传播到全世界的信息搜索者。谷歌目前被认为是万维网上最大的搜索引擎,它提供易于使用的免费服务,使用户能够访问包含80多亿个网站的索引。“谷歌”来自数学名词“谷歌”,意思是1后跟100个零。谷歌国际。用这个术语来反映公司在互联网上整合大量信息的雄心勃勃的目标。地址:hk/,第3章,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论