信息检索技术PPT课件

上传人：闯*** IP属地：广东上传时间：2020-04-24 格式：PPT 页数：47 大小：812KB 积分：25 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020 4 24 1 2020 4 24 1 信息检索技术 2020 4 24 2 Outline 信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语 2 2020 4 24 3 信息检索综述信息检索 InformationRetrieval 是指将信息按一定的方式组织和储存起来并根据用户的查询字串从表示信息非结构化数据特别是非结构化的文本数据中找到与查询字串相关信息的过程由于计算机信息检索具有速度快效率高数据内容新信息容量大等特点已成为人们在日常工作和生活中获取信息的主要手段之一 3 2020 4 24 4 信息检索中的术语在当前信息检索的研究中非结构化的数据记录通常特指自然语言文本数据记录又称 document 将大量非结构化的数据记录按照一定的方式组织和存储起来而构成的数据记录的集合称为信息检索中的数据全集 collection 4 2020 4 24 5 信息检索中的术语给定一个数据全集信息检索过程可以描述为根据用户特定的信息需求 informationneed 在数据全集中获取所有和仅有的与用户信息需求相关的文档并将这些文档按照相关性 relevance 的大小由大到小地排列 rank 用户特定的信息需求由查询 query 来表达换句话说查询是反映用户信息需求的字符串这个字符串可以是关键字序列也可以是一个布尔表达式或者直接用自然语言表达的问句 5 2020 4 24 6 信息检索系统 6 2020 4 24 7 信息检索系统 1 用户接口模块 2 用户查询文本操作模块停用词 3 文档文本操作模块文档文本操作对文档数据库中的文档进行过滤停用词词干抽取等处理并转换为机器内部的文档表示格式供索引构建模块处理 7 2020 4 24 8 信息检索系统 4 用户查询处理模块 5 索引构建模块 6 数据库管理模块 7 搜索模块 8 相关度排序模块 8 2020 4 24 9 信息检索系统整个信息检索系统可以分为检索子系统和信息存储管理子系统两大部分 9 信息检索系统的终极目标是使满足系统用户的信息需求的开销 overhead 达到最小所谓开销是指从用户向系统输入了一个查询开始到他读到了包含他的信息需求的文档为止的全部时间 2020 4 24 10 信息检索系统的评价一个系统在实际应用中的时间和空间消耗是衡量一个系统优劣的重要指标相关性介绍两个最常用的基于相关性的系统评价指标分别是精确度 precision 和召回率 recall 10 2020 4 24 11 信息检索系统的评价 11 2020 4 24 12 信息检索系统的评价人们经常使用精确度召回率曲线 precision recallcurve 来定量分析一个信息检索系统的改进情况或者比较几个信息检索系统的优劣 12 2020 4 24 13 信息检索系统的评价例如设有一特定查询q 在数据全集中所有与该查询相关的文档为信息检索结果按相关度由大到小顺序是标志与q相关的文档 13 2020 4 24 14 信息检索中的系统的评价精确度召回率曲线分析 14 2020 4 24 15 信息检索系统中的评价许多用户对信息检索系统精确度要求较高他们希望尽快查到相关的文档而不把时间浪费在无关的文档上另外一些用户则认为召回率更加重要他们认为相关文档占检索返回的文档比例越高系统效果则越好 VanRijsbergen于1979年提出了E effectiveness 量度将精确度和召回率结合起来并赋以不同的权重成为一个统一的系统有效性的量度 15 2020 4 24 16 信息检索简史信息检索技术起源1950年美国学者CalvinN Mooers首创了信息检索这一术语 1958年美国学者Luhn提出了统计信息检索的基本理论和方法 1960年 Marson和Kuhns提出了信息检索的概率模型 1965年美国康奈尔大学的GerardSalton教授及其学生创立了信息检索向量空间模型 16 2020 4 24 17 信息检索简史 1968年 Rocchio和Salton共同提出了查询扩展的方法 1972年 Lockheed公司推出了DIALOG系统成为世界首例商用在线信息查询服务系统 80年代沉寂时期90年代爆炸期 17 2020 4 24 18 Outline 信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语 18 2020 4 24 19 信息检索的统计模型应用于信息检索领域的技术与方法可以粗略地划分为两大类基于统计的方法和基于语义的方法基于统计的方法主要根据用户查询与数据全集中的数据的统计量度计算相关性基于语义的方法则对用户查询和数据全集中的数据进行一定程度的语法语义分析换句话说这类方法是在对用户查询和数据全集内容理解的基础上进行两者的相关性计算 19 2020 4 24 20 信息检索的统计模型一个信息检索模型IRM是一个三元组D是文档的集合 Q是用户需求的集合 R D Q RR是集合D与Q的笛卡尔乘积到实数集R的一个映射对每个用户查询q Q 每个文档d D 映射R将 qd 映射为一个实数称为用户查询q与文档d的相关度 20 2020 4 24 21 基于统计的信息检索模型包括布尔模型扩展布尔模型向量空间模型概率模型等等在这类模型中文档被表示为关键词 keyword 的集合这一表示方式又称为文档的平面结构 flatstructure 关键词又称为索引词 indexterm 是指除停用词之外的代表文档内容的词大多数是名词例如如果停用词中包括 all and could had he of on than that the to with their 基于统计的信息检索模型 21 2020 4 24 22 基于统计的信息检索模型则文档 22 2020 4 24 23 基于统计的信息检索模型 23 2020 4 24 24 布尔模型在布尔模型中文档中索引词的权重只有0和1两种取值分别表示文档中包含该索引词和不包含该索引词用户查询是由标准逻辑操作符AND OR NOT将索引词连接起来构成布尔表达式下面介绍用户查询与文档的相关度计算的方法 24 2020 4 24 25 布尔模型 25 2020 4 24 26 布尔模型布尔模型的优缺点 26 2020 4 24 27 概率模型在概率模型中文档和用户查询也被表示为索引词集合的形式与其他的信息检索模型不同的是概率模型通常采用索引词在文档中的统计分布等参量计算任意文档d与给定用户查询q相关的概率P q d 本报告重点介绍一类典型的信息检索概率模型贝叶斯推理网络模型该推理网络模型提供了将不同来源的证据结合起来以确定给定文档满足用户查询或者信息需求的概率的一种自然的方法 27 2020 4 24 28 概率模型贝叶斯网络是一个描述随机变量之间因果关系的有向无环图在一个贝叶斯网络中节点表示随机变量一条从父节点Y到子节点X的边表示两个随机变量的依赖关系在贝叶斯网络中的任一节点X都附加了一系列条件概率 28 该条件概率表示该节点与其父节点依赖关系的强度在贝叶斯网络中一个节点仅条件依赖于它的父节点 2020 4 24 29 概率模型索引词节点文档节点用户查询边有2种类型贝叶斯网络的3个层次 29 2020 4 24 30 概率模型可见 30 2020 4 24 31 概率模型 31 2020 4 24 32 概率模型剩下的问题是如何计算这些概率对于可有如下一些计算方法均匀分布法正规化法对于有如下一些计算方法二值法权重法 32 2020 4 24 33 Outline 信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语 33 2020 4 24 34 信息检索中自然语言处理方法所谓信息检索中的自然语言处理方法是指通过对文档中的自然语言文本进行语法语义分析以提高信息检索的精确度或者召回率的方法的统称与基于统计的信息检索方法相比较而言这类方法以对文档文本的语言结构分析和语义分析为特色将信息处理的层次深入到了文档中文本的内容而非仅仅依据文本中索引词的统计信息由于信息检索对实时性有较高的要求不可能对网络文档进行全面完备的语法语义分析因此这些自然语言处理方法通常只能停留在浅层 shallow 处理的层次上 34 2020 4 24 35 信息检索中自然语言处理方法自然语言处理技术按照语言处理对象的语言单位不同可以划分为音韵 phonological 词形 morphological 词法 lexical 语法 syntactic 语义 semantic 语篇 discourse 语用 pragmatic 等不同的技术层次 35 2020 4 24 36 信息检索中自然语言处理方法人们利用信息检索系统查询信息时存在着这样的现象同一语义可以有多种不同的表达方式举例说明而不同用户使用相同的词汇进行查询的可能性又微乎其微为解决这一实际问题信息检索的研究者们引入了语义相关的概念计算词汇间的语义相似度 semanticsimilarity 并据此对用户的查询词汇进行语义相似词汇的扩展或者改进用户查询与文档相似度的计算方法语义相似度定义 36 2020 4 24 37 信息检索中的自然语言处理方法词汇间语义相关度的计算方法大体上可以分成两类基于统计的方法将词汇的上下文信息的概率分布作为词汇间语义相关度计算的参照这类方法建立在两个词汇具有某种程度的语义相关当且仅当它们出现在相同的上下文中这一假设的基础上基于语义词典的方法基于按照概念间结构层次关系组织的语义辞典的方法这种方法建立在两个词汇具有一定的语义相关性当且仅当它们在概念间的结构层次网络图中存在一条通路主要是上下位关系这一假设的基础上 37 2020 4 24 38 Outline 信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语 38 2020 4 24 39 搜索引擎 39 2020 4 24 40 搜索引擎位于弗吉尼亚州的美国专利局总部档案库的一角存放着几页看似毫不起眼的纸张但如果拿出去拍卖的话这几页纸将价值连城因为其上记载着的或将是全球最值钱的技术专利之一正是它催生并且支撑起了一个市值近600亿美金位列全球市值第三的互联网公司百度 40 2020 4 24 41 搜索引擎李彦宏专利美国专利商标局网站截图 41 2020 4 24 42 李彦宏和他的超链分析人们今天使用的搜索其实已经非常智能搜索结果按相关性排列有序甚至可以根据用户历史记录进行个性化定制但在九十年代中期还没有真正意义上的搜索引擎搜索结果冗杂如何识别网站质量防止作弊成为了一个难以突破的技术瓶颈 1996年正式提出超链分析概念并发表了相关文章 1997年2月申请了专利超链分析技术 Hypertextdocumentretrievalsystemandmethod 专利号5 920 859 超链分析技术的发明一改互联网搜索杂乱无章信息冗余的局面使搜索效果大幅提升 42 2020 4 24 43 佩奇和布林或受李彦宏启发 1997年2月李彦宏提交了超链分析的专利申请 1998年4月李彦宏赴澳大利亚演讲搜索前瞻技术其中听众席上就有佩奇和布林 1998年10月Google上线同年申请了PageRank的专利但由于PageRank与李彦宏之前申请的超链分析专利具有相似性美国专利商标局2001年9月才获准了PageRank专利申请 43 2020 4 24 44 搜索引擎根据曝光的李彦宏论文超链分析 ESP 技术的本质是一种投票机制一个链接可以看作一个网页对另一个网页的投票票数决定排序除了基本的投票机制该技术还具有两方面特征将链接文字作为重要信息加以利用使搜索引擎更准确地理解目标网页的内容从而有效地提高了搜索结果的相关性根据投票者自身的权威性推荐方式等属性调整投票权重从而有效地提高了搜索结果的权威性 44 2020 4 24 45 搜索引擎在1997至2000年间李彦宏对自己的超链理论也通过论文著作逐步解析和完善先后在IEEE刊物上发表并不断在互联网搜索领域研究新的解决方案随后李彦宏的新技术发明又申请了数项专利 1999年底李彦宏回到祖国创建中国人自己的搜索引擎公司百度如今百度成长为全球最大的中文搜索引擎及最大的中文网站超链分析功不可没 45 2020 4 24 46 结束语信息检索综合应用了自然语言处理与数据库等领域的知识它

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

信息检索技术PPT课件

文档简介

温馨提示

最新文档

评论