文本信息抽取算法研究

上传人：月*** IP属地：贵州上传时间：2018-11-13 格式：DOC 页数：9 大小：48.50KB 积分：12 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 文本信息抽取算法研究（黑龙江工商学院黑龙江哈尔滨 150025）中国论文网 /8/view-12937846.htm 随着商品在线评论数量的骤然增加，消费者要想找出商品评论中的有用信息需要消耗大量精力.因此对这些散落在 Html 网页中无结构的信息进行提取、分析，不仅能够帮助消费者从海量的文本中快速获得有效的信息，节省人力成本，也可以帮助企业改进产品、提高质量，从而为电子商务产品推荐提供一种新的营销模式.为有效的抽取互联网上的信息，网络文本信息非结构化数据抽取技术、网络文本信息采集技术和细粒度数据挖掘技术应用而生.信息抽取技术是 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 通过对网页进行处理，从半结构化或者非结构化的 Web 页面中抽取出用户感兴趣的信息和内容，并将其转化成清晰的结构形式. 信息采集技术是指通过分析网页 Html 代码，获取网页内的超链接信息，并使用广度优先遍历算法、深度优先遍历算法、增量存储算法等实现自动连续的分析链接、抓取文件、处理和保存数据的过程.细粒度挖掘技术深入到产品特征层面，能够提取到评价信息中涉及的评价对象、评价词以及对应的评价倾向等意见要素，从而为一些实际应用提供必要的细节信息.而目前根据抽取技术和依据理论的不同，主要有 RAPIERE 、WHISKt 和 SRV 基于自然语言的信息抽取，STAI KER，SOFTMEAI Y 和 WINE 基于包装归纳的信息抽取， WebQLE 基于 Web 查询的信息抽取，基于文档结构模型和网页模板的 DOM 信息抽取。面对海量数据，抽取技术的性能 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 是一个十分重要的评价指标，而通过网页结构分析并使用语言和格式规则进行标签筛选的技术却很少.HtmlParser 是不依赖于库文件的轻量级解析器，通过语言与格式规则进行标签筛选，过滤目标数据，在保持系统抽取效率的基础上保证抽取算法的准确性.本文首先介绍了 URI 采集以及文本抽取的过程，其次给出了 URL 采集和文本抽取算法的关键步骤，再次通过举例实现了 URL 采集和文本抽取算法，表明了基于语言和格式规则的 HtmlParser 标签解析技术的性能和优势.采用 HtmlParser 解析网页，得到 URL 采集库，对库中 URL 所指向的页面进行标签解析从而实现文本提取的关键部分. 1 URL 信息采集算法信息采集过程的算法设计思想是：首先由一个初始 URL 对队列进行初始化，然后从队列中取出一个元素，获取此元素所指向的 Web 页面，对页面进行网页源代码解析，得到目标标签中的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 URL，将其入队，然后重复上面的过程，不断执行入队一出队一解析一获得 URL 的循环操作，直到根据采集策略停止算法，具体过程算法 1：URL 采集算法输入：初始 URL 输出：URL 采集库 1）首先判断参数 URL 是否为 Null； 2）如果为 Null，程序退出；否则，根据 URL 得到 Html 页面； 3）利用页面解析器 HtmlParser 解析网页； 4）分析 Html 源代码中具体 URL 信息所在节点标签； 5）利用标签的 href 属性，过滤得到下一页的网页 URL 地址； 6）将步骤 5 中的 URL 地址值传到步骤 1，重复 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 1）6）的步骤； 7）最后遍历得到所有的目标 URL 地址，建成 URL 采集库. 2 网页文本内容抽取算法京东网（www.jd.corn）是国内最受欢迎的电子产品商务网站之一，以京东网站上用户评论数量最多的某数码相机的评论数据为例，介绍基于 HtmlParser 的网页评论文本提取方法，信息抽取具体过程如算法 2 所示. 算法 2：Web 文本信息抽取算法输入：产品评论的 URL 地址输出：提取产品的评论文本 1）算法人口接受产品评论的 URL 地址； 2）判断 URL 参数是否满足 Web 文本信息提取算法； 3）若不满足程序退出； 4）若满足，分析网页 Html 源代码中评论文 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 本所在的目标节点 class 为 comment-content 的 div 标签； 5）利用 HtmlParser 的 Tag Filter 过滤，将抽取的 comment-content 的文本用 node list 容器逐个遍历，提取出网页中的评论文本； 6）将提取出的评论文本通过 2.3 节的文本内容去噪算法进行数据清洗； 7）将清洗去噪后的文本信息，存人到评论文本数据库. 3 网页文本内容去噪 W 页去噪包括两部分：页面标签去噪和页面内容去噪.由于 Web 页面包含很多美化页面的 Css、用于页面渲染的 JavaScript 脚本以及为突出某一主题思想的 Flash 动画，这些噪音内容给网页信息提取造成了很大的障碍，因此标签去噪显得尤为重要.而 Web 网页提 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 取出的内容由于浏览器解析，或者内容本身的原因，有些是与提取主题无关的内容，所以为了减少数据库存储负担，要对 Web 网页进行内容去噪.标签去噪，在上文中的网页文本内容爬去的时候通过过滤标签已经做到，本节着重讨论对网页文本内容去噪，关键技术用到 sun 在 jdk1.4 中加入了 java.util.regex 包的正则表达式.定义一个用来匹配噪音字符串的模式 PatternPattern，然后一个 Mathcer 实例在这个给定的 Pattern 模式的控制下进行字符串匹配工作，从而实现文本去噪，具体过程如算法 3 所示. 算法 3：文本内容去噪算法输入：提取出的产品评论文本输出：去噪后的产品评论文本 1）算法人口接受产品评论文本； 2）判断评论文本是否满足去噪算法的条件，（commentStr ！ =nul1） l！（”.equals（commentStr ））； -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 tr= m.replaceAll（” ）； 7）最后输出去噪后的新文本. 网络评论的迅速增加，提高了文本抽取的难度，但能轻量解析海量数据的方法却很少.本文以 HtmlParser 为理论基础，通过对网页结构分析使用语言和格式规则进行标签筛选，在保持系统性能的基础上保证了抽取算法的准确率和回召率.本文首先通过有向图形式关联的 Web 网页数据结构，提出并实现了 URL 采集算法，然后针对网页评论文本的 Html 结构，提出了网页文本提取算法，并采用模式匹配对提取出的网页文

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

文本信息抽取算法研究

文档简介

温馨提示

最新文档

评论

相关文档