文本信息抽取算法研究_第1页
文本信息抽取算法研究_第2页
文本信息抽取算法研究_第3页
文本信息抽取算法研究_第4页
文本信息抽取算法研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 文本信息抽取算法研究 (黑龙江工商学院 黑龙江 哈尔 滨 150025) 中国论文网 /8/view-12937846.htm 随着商品在线评论数量的骤然增 加,消费者要想找出商品评论中的有用 信息需要消耗大量精力.因此对这些散落 在 Html 网页中无结构的信息进行提取、 分析,不仅能够帮助消费者从海量的文 本中快速获得有效的信息,节省人力成 本,也可以帮助企业改进产品、提高质 量,从而为电子商务产品推荐提供一种 新的营销模式.为有效的抽取互联网上的 信息,网络文本信息非结构化数据抽取 技术、网络文本信息采集技术和细粒度 数据挖掘技术应用而生.信息抽取技术是 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 通过对网页进行处理,从半结构化或者 非结构化的 Web 页面中抽取出用户感 兴趣的信息和内容,并将其转化成清晰 的结构形式. 信息采集技术是指通过分析网页 Html 代码,获取网页内的超链接信息, 并使用广度优先遍历算法、深度优先遍 历算法、增量存储算法等实现自动连续 的分析链接、抓取文件、处理和保存数 据的过程.细粒度挖掘技术深入到产品特 征层面,能够提取到评价信息中涉及的 评价对象、评价词以及对应的评价倾向 等意见要素,从而为一些实际应用提供 必要的细节信息.而目前根据抽取技术和 依据理论的不同,主要有 RAPIERE 、WHISKt 和 SRV 基于自然语言的信 息抽取,STAI KER,SOFTMEAI Y 和 WINE 基于包装归纳的信息抽取, WebQLE 基于 Web 查询的信息抽取, 基于文档结构模型和网页模板的 DOM 信息抽取。 面对海量数据,抽取技术的性能 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 是一个十分重要的评价指标,而通过网 页结构分析并使用语言和格式规则进行 标签筛选的技术却很少.HtmlParser 是不 依赖于库文件的轻量级解析器,通过语 言与格式规则进行标签筛选,过滤目标 数据,在保持系统抽取效率的基础上保 证抽取算法的准确性.本文首先介绍了 URI 采集以及文本抽取的过程,其次给 出了 URL 采集和文本抽取算法的关键 步骤,再次通过举例实现了 URL 采集 和文本抽取算法,表明了基于语言和格 式规则的 HtmlParser 标签解析技术的性 能和优势.采用 HtmlParser 解析网页, 得到 URL 采集库,对库中 URL 所指向 的页面进行标签解析从而实现文本提取 的关键部分. 1 URL 信息采集算法 信息采集过程的算法设计思想是: 首先由一个初始 URL 对队列进行初始 化,然后从队列中取出一个元素,获取 此元素所指向的 Web 页面,对页面进 行网页源代码解析,得到目标标签中的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 URL,将其入队,然后重复上面的过程, 不断执行入队一出队一解析一获得 URL 的循环操作,直到根据采集策略停止算 法,具体过程 算法 1:URL 采集算法 输入:初始 URL 输出:URL 采集库 1)首先判断参数 URL 是否为 Null; 2)如果为 Null,程序退出;否 则,根据 URL 得 到 Html 页面; 3)利用页面解析器 HtmlParser 解析网页; 4)分析 Html 源代码中具体 URL 信息所在节 点 标签; 5)利用标签的 href 属性,过滤 得到下一 页的网页 URL 地址; 6)将步骤 5 中的 URL 地址值传 到步骤 1,重复 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 1)6)的步骤; 7)最后遍历得到所有的目标 URL 地址,建成 URL 采集库. 2 网页文本内容抽取算法 京东网(www.jd.corn)是国内最 受欢迎的电子产品商务网站之一,以京 东网站上用户评论数量最多的某数码相 机的评论数据为例,介绍基于 HtmlParser 的网页评论文本提取方法, 信息抽取具体过程如算法 2 所示. 算法 2:Web 文本信息抽取算法 输入:产品评论的 URL 地址 输出:提取产品的评论文本 1)算法人口接受产品评论的 URL 地址; 2)判断 URL 参数是否满足 Web 文本信息提 取算法; 3)若不满足程序退出; 4)若满足,分析网页 Html 源代 码中评论文 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 本所在的目标节点 class 为 comment-content 的 div 标签; 5)利用 HtmlParser 的 Tag Filter 过滤,将抽取 的 comment-content 的文本用 node list 容器逐个遍 历,提取出网页中的评论文本; 6)将提取出的评论文本通过 2.3 节的文本内 容去噪算法进行数据清洗; 7)将清洗去噪后的文本信息, 存人到评论文本 数据库. 3 网页文本内容去噪 W 页去噪包括两部分:页面标 签去噪和页面内容去噪.由于 Web 页面 包含很多美化页面的 Css、用于页面渲 染的 JavaScript 脚本以及为突出某一主 题思想的 Flash 动画,这些噪音内容给 网页信息提取造成了很大的障碍,因此 标签去噪显得尤为重要.而 Web 网页提 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 取出的内容由于浏览器解析,或者内容 本身的原因,有些是与提取主题无关的 内容,所以为了减少数据库存储负担, 要对 Web 网页进行内容去噪.标签去噪, 在上文中的网页文本内容爬去的时候通 过过滤标签已经做到,本节着重讨论对 网页文本内容去噪,关键技术用到 sun 在 jdk1.4 中加入了 java.util.regex 包的正 则表达式.定义一个用来匹配噪音字符串 的模式 PatternPattern,然后一个 Mathcer 实例在这个给定的 Pattern 模式 的控制下进行字符串匹配工作,从而实 现文本去噪,具体过程如算法 3 所示. 算法 3:文本内容去噪算法 输入:提取出的产品评论文本 输出:去噪后的产品评论文本 1)算法人口接受产品评论文本; 2)判断评论文本是否满足去噪 算法的条件, (commentStr ! =nul1) l! (”.equals(commentStr ) ) ; -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 tr= m.replaceAll(” ) ; 7)最后输出去噪后的新文本. 网络评论的迅速增加,提高了文 本抽取的难度,但能轻量解析海量数据 的方法却很少.本文以 HtmlParser 为理 论基础,通过对网页结构分析使用语言 和格式规则进行标签筛选,在保持系统 性能的基础上保证了抽取算法的准确率 和回召率.本文首先通过有向图形式关联 的 Web 网页数据结构,提出并实现了 URL 采集算法,然后针对网页评论文本 的 Html 结构,提出了网页文本提取算 法,并采用模式匹配对提取出的网页文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论