【毕业学位论文】(Word原稿)基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究_第1页
【毕业学位论文】(Word原稿)基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究_第2页
【毕业学位论文】(Word原稿)基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究_第3页
【毕业学位论文】(Word原稿)基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究_第4页
【毕业学位论文】(Word原稿)基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

On in of 2010 版 权 声 明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人并复制、抄录、拍照、或以任何方式传播。否则,引起有碍作者著作权益之问题,将可能承担法律责任。 基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 I 摘要 : 命名实体是现实社会中一个具体的事物,而在 网页文本中有大量的有关命名实体的内容。这些内容 中 有 些 是描述实体的静态属性信息,例如实体的属性,实体之间的关系。描述实体静态信息的文本一般为较短 的 包含实体的单个句子,而且其信息内容不会随时间产生明显变化。而另一些包含实体的文本内容描述的是实体的动态信息,主 要是描述实体参与到新闻事件中,并且在新闻事件中的行为。包含 后一种 实体信息的内容较之前一种内容要更长,一般包含若干句子构成一段内容相对统一的文本子段,而 且 其内容信息也会随时间变化而发生明显变化。本文希望通过 采用 对网页文本中包含实体的上下文进行分析挖掘 这一 基本方法,分别解决利用实体共现文本发现实体间关系的问题和以实体为核心的事件发现 与追踪 的问题。 概括而言, 本文在这两个研究问题上的主要贡献包括: (一) 实体关系在网页文本中的一种重要体现形式,是处于特定关系的实体对共同出现在一段描述这种 关系的文本中。这里我们定义这段描述特定实体关系的文本为 否提取足够数量与较高质量的 已有的 使用命名实体上下文来发现命名实体之间关系的工作,一般 是 直接使用 包含 命名实体对的句子作为表示关系对的特征。这种做法存在两个明显的问题 :其一, 在海量网页文本中包含命名实体共现的句子除了描述实体间关系 的还可能是描述两个实体同时参与到一个事件这样的动态特征。 其二, 由于描述实体关系的句子长度 比 传统文本分类语料的长度要小很多,即 使描述相同类型实体关系的文本也可能在词汇特征上有很大差异。本文 中的实验也验证 了直接使用网页文本中实体上下文作为实体关系对特征 会 对实体关系发现带来的负面影响 。 基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 此,我们 提出了描述实体关系的实体上下文的筛选与扩充这两个 新的 研究问题。 在此基础上, 本文 提 出了一种有效的方法来解决 上述 两个问题。该方法首先利用对 习得到描述实体关系的语言 模型 ,利用贝叶斯 公式计算实体共现 句子 包含实体关系信息的概率并依此对共现句子 进行筛选;其次 , 该方法利用搜索引擎作为媒介,通过将描述实体关系的实体共现文本作为查询投送到搜索引擎,得到在互联网中其他描述同一实体关系对的文本作为描述该实体对的文本的扩充 ,通过迭代执行实体对上下文的筛选与扩充,最终得到表示每个实体对的文本特征。 (二) 基于图扩散的实体关系 类型 标注方法 通过 上述工作 , 我们将每个实体关系对表示为该实体对在网页中的 体关系实例,下一步的工作是对这些 在本文的工作中,我们使用 办的 测中提供的命名实体关系分类 体系,这一体系包括三大类实体间关系:人物 物 物 及 11 个具体关系子类。 为了确定每个实体关系对的关系类型, 前期研究者所使用的实体关系类型标注方法 主要是 以 一定数量的 、有标注类别的、 描述各类实体关系文本作为训练集,通过传统的 有监督学习 方法 , 例如 , 将待标注 类型的 实体对的共现文本 分类 到特定的实体关系类别,并依此来标注实体对的关系类型。 由于 我们要处理的网页文本的特点是数据量巨大,语言规范性不强, 因此 在网页文本数据上 人工 标注 、或者自动获取 一个足够数量与 较高 质量的 描述各类实体关系的训练集 都 是一 项困难 的工作。 因此 , 我们提出了一种 新的 利用图扩散的实体关系标注方法,所需的人工干预只是对每种关系类别标注少数几个实体对。 该 方法以共现的实体对作为顶点,以实体对上下文之间的相似度来建立边,构建一个无向加权图 ,并利用 边上的权重将少数几个已标注类别顶点的类别信息,通过半监督 学习 的迭代扩散 方 法将 少数已标注结点的 类别信息在整个图中进行传播,在传播到达平衡的时候获得图中顶点即 所有 实体对的关系类型信息。通过 实验, 该方法 在标注数据量很少的情况基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 效果 要 明显 好于 已有研究中使用 的有监督学习的方法, 实验 结果也表明 利用 这种方法所得的 实体 关系 类型 结果并不依赖于前期标注的实体对 的集合与数量 。 (三) 基于多维网页文档特征的新闻网页表示模型 事件是一个可观察、非平凡的现象,一个事件包含 的元素可以是 事件 发生 时间、 事件发生地点, 事件经过和参与事件的实体等重要信息 。 事件在网页中的反映是新闻网页 , 新闻网页较之传统的新闻媒体( 如 报纸 、广播 等)只包含正文特征 ,新闻网页 具有更多 有利于新闻事件发现的 特征信息,例如网页的 页的时间、网页 中 出现的命名实体等。本文的实验 结果 显示这些特征与其所在网页叙述的新闻事件都有很强的相关 性,同时这些特征也可以帮助判断两篇新闻网页是否描述同一新闻事件。 因此 ,是否能够提出一种有效的新闻网页标识模型已经是基于新闻网页的事件发现研究中的一个重要、热点研究问题。 前期研究者的工作 已经使用了上述中的一些 新闻网页中特有的 特征信息,例如网页的时间、网页正文中的命名实体等。但 需要指出的是, 这些工作只是 以向量空间模型( 基础, 利用 新闻网页中的 这些特征为网页正文表示模型进行 修改 。 本文提出一种 新的 基于网页 中 多维特征的新闻网页表示模型,在此模型中可以 任意 添加 上述 与新闻事件相关 的各种网页特征信息,各种维度信息 在模型中的表示形式与相互关系是 独立 的 。同时 , 为了准确测量在此模型下不同新闻网页之间的相似度,我们提出一种使用了 支持向量机( 网页各维度特征的相似度综合的方法。在此方法下,不同网页特征对新闻网页相似度的影响力度可以自动的通过训练学习得到,而不 同于已有 工作中人工设定各种特征对网页相似度的贡献比例。 通过使用来自实际 文两组不同新闻网页作为数据,我们在实验中使用了新闻网页的时间、正文中出现的命名实体、网页文本正文、网 页中相关新闻链接和网页中的读者评论等特征信息来表示一篇新闻网页。实验结果表明,在利用网页中多维特征的网页表示模型下新闻事件发现的效果要明显好于传统上只使用网页正文特征的方法。 基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 四)以 命名实体 为核心 的正文 分段模型 在新闻网页中与新闻事件内容相关的各类特征中,文档的正文特征仍然是最重要的部分。如何对文档正文进行有效的建模将对新闻事件发现的效果有很大影响。新闻文档的叙述方式是围绕参与到事件中的命名实体为核心进行叙述的,文档中命名实体的上下文为描述该实体的属性或者该实体在事件中的行为。因此在本文中我们 对新闻文档正 文 提出并验证了两个假设: 1. 新闻文档正文中,命名实体上下文包含的有关新闻事件的信息要高于正文其它部分所包含的信息。 2. 新闻文档正文中,不同的实体上下文分别描述事件的不同侧面的信息,例如描述事件背景、事件进展和对事件的评论等。报道相同事件新闻文档中叙述相同类型的实体上下文具有更高的文本相似度。 根据这两个假设,对新闻网页文本的建模可以划分为两个子问题:以命名实体为核心的正文分段问题和文本子段的分类与排序问题。 对 第一个 子 问题,本文分别提出了基于句间相似度的分段方法、基于子段间互信息的分段方法和基于文档子段对齐 等三种 正文 分段方法。对 第二个子问题 ,本文根据子段 在正文中的位置,其中包含的 实体、实体类型和子段内容 对子段进行分类,并且 通过子段间相似度引入了两个文本子段重要性指标:子段的一般性得分和子段的新颖性得分来评价一个子段的重要性。 事件发现的实验结果也显示对正文采用以实体为核心的分段模型表示的方法要优于使用传统的单一正文特征向量的方法。 关键字 :网页内容挖掘,实体关系发现,事件发现与追踪 基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 V is of in is of of On of is to as is as a a of On of is to in is It a In I to of in as In of in (1) of is in by of in We as of a of is of in to is to as is of It be of in is of 于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 VI is of be in of in I a of I to is to of of It a to of a to be is to by of to By we to a (2) y is by of is to In is It as To I do as a be so we a it a as a of to 于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 be to In on (3) is an it as so of in is as in RL of of in to So to as no to of SM to is by is to If do a a In a is It in of in a is VM to of In (4) 于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 of a is In I 1. be a of in of by of 2. as or in to of is to in to a of is by is on in I to is to by To of I A be in in By in a be in a 基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 录 1. 前言 . 1 2. 基于实体上下文的实体关系发现与标注 . 6 实体关系发现问题提出 . 6 实体关系发现的相关研究 . 7 实体关系发现中的基本研究问题 . 15 体关系实例提取 . 16 体关系实例的筛选与扩充 . 18 实体关系类别标注 . 26 图结构的构建 . 28 图结构的筛选 . 29 初始标注结点的选择 . 29 迭代的类别信息扩散 . 32 实验结果及分析 . 34 体关系实例提取的比较实验 . 34 实体关系类型标注的比较实验 . 35 本章小结 . 40 3. 基于实体上下文的新闻文档表示模型 . 42 事件发现问题简介 . 42 事件发现的相关 研究 . 44 新闻文档表示模型相关研究 . 53 基于网页多维特征的新闻文档表示模型 . 56 新闻网页时间特征的提 取 . 58 以实体为核心的正文分段方法 . 60 文本子段的分类与重要性排序 . 68 基于在线 文 本向量构建 . 69 新闻文档相似度比较及新闻文档事件分类 . 73 实验及结果分析 . 76 实验数据 . 76 验证性实验 . 77 对比系统介绍 . 79 评测标准 . 80 实验结果及分析 . 81 表格 文新闻数据上不同事件发现方法效果比较 . 81 本章小结 . 90 4. 总结与展望 . 92 本文工作总结 . 92 未来工作展望 . 97 5. 参考文献 . 99 基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 1 1. 前言 随着计算机的广泛应用与互联网的高速发展 , 网络信息不断爆炸式地增长,尤其是互联网这一新媒体的出现,我们已经由信息贫乏进入到一个信息极度丰富的时代。信息的过量增长带来一定负面影响:面对大规模的信息 , 用户难以找到自己真正的需求。如何利用一些自动化的方法帮助人们在海量信息源中迅速找到真正需要的信息,现有的搜索引擎已经不能满足用户的要求。面对时时刻刻不断涌现的新信息,任何人都无法做到“眼观六路、耳听八方”。在这个时候,人 们更加迫切需要自然语言处理技术的强力支持,以应对日益严重的信息爆炸问题。 举例来说,现实生活中“丁磊”这个名字很常见,我们在新闻报道中通过其服务的机构以及职务来检索,会发现网易公司有“丁磊”,而上海通用汽车公司也有一个“丁磊”,并且网易公司的“丁磊”的任职包括:董事会主席、总裁、总经理、 事等。除了了解“丁磊”的个人情况外,发现他与“人物”、“机构”、“事件”等其他命名实体的关系,对命名实体间关系进行分析后,还可以进行“机构名 + 职务”、“机构 + 人名”等组合搜索,获取检索机构和特定职务的历任信 息等。能够极大地提高情报分析、猎头行业的工作效率,因此具有很高的应用前景和商业价值。基于实体对 分析挖掘已成为 息抽取( 是在这种背景下产生与发展起来。 信息抽取系统的主要功能是从文本中抽取出特定的事实信息( 1。比如从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从 病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中供用户查询以及进一步分析利用。 近十年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,涉及到深层次的语言理解、篇章分析与推理、多语言文本处理、 实基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 2 体识别等自然语言研究领域。通过系统化、大规模的定量研究和评测推动了自然语言处理研究的发展,促进了自然语言处理研究与应用的紧密结合。近年来,信息抽取的处理对象逐步扩展到了语音、图像、视频等其他媒体类型的数据。可以说,信息抽取已 成为当前自然语言处理和相关领域的研究热点。信息抽取技术在搜索引擎、网络信息过滤和信息安全、自动问答系统、机器翻译、文本挖掘、企业智能信息系统等许多应用领域发挥着至关重要的作用 23。 在信息抽取领域中,命名实体( 文本中基本的信息元素,是正确理解文本的基础 3。狭义地讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、组织名、公司名、地名等。广义地讲,命名实体还可以包含时间、数量表达式等。至于命名实体的确切含 义,只能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、电话号、舰船编号、会议名称等作为命名实体。 命名实体间关系( 看作两个实体在一段时间或空间范围内的某种联系 4。在信息抽取研究中,关系的发现对事件的侦测与描述起着关键的作用。基于此原因,命名实体之间语义关系的抽取是信息抽取领域的一项重要的基础性研究。 网络信息挖掘中的另一个重要问题是事件的发现与分析,以新闻文档流为处理对象,将语言形式的信息流分割为不同的新闻报道( 监控对新话题的报道,并将 涉及某个话题的报道组织起来以某种方式呈现给用户。它的研究目标是要实现按话题查找、组织和利用来自多种新闻媒体的多语言信息。由于网络新闻文档中对事件的报道大都是围绕着事件内有关的命名实体展开的,因此基于命名实体的事件发现与分析是当前研究对这个问题的解决思路之一。 如今,教育自动化、公司人事管理等很多专业领域对高质量的命名实体语义关系抽取技术都有着非常迫切的需求,这一技术在这些专业领域有着巨大的发展前景和应用价值。因此,作为未来高层次、高效率的专业领域信息处理技术的基基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 3 础,面向专业领域的信息抽取技术具有重大现实研究 价值,而对作为信息抽取核心任务之一的实体关系抽取方面的研究也就具有非常高的重要性和必要性。 需要指出的是,当前虽然有一些有监督或半监督的语义关系抽取方法可以移植到专业领域,但是这些方法的抽取规则、关系种子、训练语料库都要重新构造,会耗费大量的时间和人力;同时,目前效率较高的无指导的命名实体语义关系抽取方法只适用于一般领域,在特定的专业领域中难以满足用户的需求。因此,寻求一种在专业领域中高效的命名实体语义关系抽取方案具有重大意义。 在具体讨论利用网页文本中出现的命名实体及其上下文进行文本挖掘的工作之前,我们首 先来看几个命名实体出现在网页中,及命名实体上下文的例子: 网页文本段 1: 北京大学 作为国内前茅的文理医工综合性大学,在培养高素质创新型人才、取得突破性科研进展,以及为国民经济发展和社会进步提供智力支持等方面都发挥着极其重要的作用。 网页文本段 1中出现的命名实体是“ 北京大学 ”,并且这段文本描述的“ 北京大学 ”这个命名实体的一个属性。 网页文本段 2: 2008 年 11月 14日,今天, 北京大学 举行仪式, 61岁的中国科学院院士、著名化学家 周其凤 就任北大校长。 网页文本段 2中出现了两个命名实体,分别是机构类命名实体“ 北京 大学 ”和人物类命名实体“ 周其凤 ”,而网页文本段 2是这两个命名实体共现的上下文,其内容反映了这两个命名实体之间一个特定的实体间关系,即人物 于关系”。 网页文本段 3: 3 月 11日,原 北大 校长 许智宏 院士回答有关 季羡林 字画事件的提问时否认了有关媒体报道的“ 北大 软禁 季羡林 13年”的说法。他还表示,在他担任北大校长的九年时间里,每年都去看望季羡林。 基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 4 网页文本段 3中出现了三个命名实体:机构类命名实体“ 北大 ”、人物类命名实体“ 许智宏 ”和人物类命名实体“ 季羡林 ”。这些实体共同出现在同一个文档的文本中的原因 ,既不是像第一段文本那样是描述其中某个特定命名实体的属性信息;也不是像第二段文本中是描述了这些命名实体间存在这一定的实体间关系;而是因为这三个实体都与一个特定的事件相关,这段文本所描述的正是这样一个事件。 通过上面的例子,我们可以分析出命名实体在网页中出现的形式有以下三种: 1. 对单个命名实体性质、属性的描述。 2. 多个命名实体在一个句子中共现,反映的是实体间关系。 3. 一个或多个实体作为事件的参与者出现在文本段中,反映的是新闻事件内容。 通过对这些实体在网页中出现的上下文的分析,我们能够回答下面几个 重要的问题: 1. 这些命名实体是什么?对应的研究问题是:“命名实体发现”和“命名实体属性发现”。 2. 这些命名实体间有哪些关系?对应的研究问题是“命名实体关系的发现与分析”。 3. 为什么网页会报道这些命名实体?对应的研究问题是基于命名实体的事件发现。 基于以上对网页中命名实体出现情况的分析,本文中将会利用对命名实体在网页文本中出现的上下文作为基本研究对象,对实体关系发现和新闻事件发现两个基本问题进行深入讨论。本文正文部分各章内容安排如下:第二章将实体关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论