种问答式检索系统布尔查询生成方法.ppt_第1页
种问答式检索系统布尔查询生成方法.ppt_第2页
种问答式检索系统布尔查询生成方法.ppt_第3页
种问答式检索系统布尔查询生成方法.ppt_第4页
种问答式检索系统布尔查询生成方法.ppt_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种问答式检索系统布尔查询生成方法,何靖 北京大学网络与分布式实验室 2006.07,大纲,背景介绍 信息检索(IR)和问答系统(QA) 问答系统的模块 查询生成方法研究 调整式查询生成方法 初始化查询 查询调整 实验设置和结果 小结和展望,背景介绍IR v.s. QA,信息检索 关键词查询文档集合 信息需求关键词查询? 文档集合所需信息? 问答系统 自然语言描述的信息需求 精确的答案,背景介绍-问答系统模块,问题分析 指代消解,问题分类,问题目标 文档/段落检索 文档检索模型 查询生成 检索排序 答案抽取 精细实体识别 通过关系抽取 模式匹配,背景介绍问答系统中查询生成,传统方法 方法:问句出现词去停用词直接检索 问题: 查询过紧或过松 导致查全率或查准率的大幅下降 基于模式重写对查询扩展 方法:训练匹配模式,进行查询扩展 问题: 需要大量问题答案对数据,数据稀疏问题,调整式查询生成概要,目标 提高检索效果:查准率和覆盖率 提高检索效率:少的查询次数 基本形式 合取范式 基本过程 初始化查询 查询调整,调整式查询生成-初始化查询,命名实体和专有名词(BASELINE) BASELINE + 普通名词 BASELINE + 普通动词 BASELINE + 普通修饰成分,调整式查询生成- 查询调整(1),设置合法区间 检索获得文档数的范围:既不太多,也不太少 查询过紧 检索获得文档数低于合法区间范围,放松查询 查询过松 检索获得文档数高于合法区间范围,收紧查询,调整式查询生成查询调整(2),放松查询策略 添加扩展查询词扩展形式 形态扩展 语义扩展 拆分词组 删除关键词 收紧查询策略 增加关键词 取消扩展形式,调整式查询生成算法,0. 初始化查询,转入a a 若查询获得文档数在合法区间内,转入d。否则,若返回结果太多,转入b;太少,则转入c。 b 如果没有关键词可以添加,转入d。否则添加idf最大的关键词(以及它的扩展,不添加不在任何文档中出现的关键词),如果返回结果太多,继续添加,否则删除刚才添加的关键词,加入idf次大关键词,一直到重复这样的添加删除到进入合法区间或者没有关键词可添加,转入d。 c 如果有命名实体,则拆分命名实体。转入a。若没有命名实体,且没有关键词可以删除,则转入d。否则删除idf最小的关键词。删除后如果结果依然过少,继续删除,否则补回刚刚删除的关键词,删除idf次小的关键词,一直重复这样的删除补回一直到进入合法区间或者没有关键词可以删除。 d 用产生的查询进行检索,获得结果。,实验设置,文档集:AQUAINT 容量:3.1G 文档数:1,033,461 问题集: TREC2004/2005 QA TRACK Question TestSet,实验指标,实验结果初始化查询,实验结果调整查询,总结和展望,总结: 模拟用户查询构造过程调整查询 检索效率:2.5次调整 大幅

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论