(计算机应用技术专业论文)基于事件本体的自动文摘研究.pdf_第1页
(计算机应用技术专业论文)基于事件本体的自动文摘研究.pdf_第2页
(计算机应用技术专业论文)基于事件本体的自动文摘研究.pdf_第3页
(计算机应用技术专业论文)基于事件本体的自动文摘研究.pdf_第4页
(计算机应用技术专业论文)基于事件本体的自动文摘研究.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j 嬲嘲必 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:叠耋日期:型! :兰! 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 。 ( 保密的论文在解密后应遵守此规定) 期:盘! 皇! 笙 上海大学工学硕士学位论文 基于事件本体的自动文摘研究 姓名:孙荣 导师:刘宗田 学科专业:计算机应用技术 上海大学计算机工程与科学学院 2 0 10 年0 1 月 上海大学硕十学位论文 ad i s s e r t a t i o ns u b m i t t e dt os h a n g h a iu n i v e r s i t yf o rt h e d e g r e eo fm a s t e ri ne n g i n e e r r e s e a r c ho nt e x ts u m m a r i z a t i o n b a s e do ne v e n t o n t o l o g y m d c a n d i d a t e :s u nr o n g s u p e r v i s o r :l i uz o n g t i a n m a j o r :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y s c h o o lo fc o m p u t e r e n g i n e e r i n ga n ds c i e n c e , s h a n g h a iu n i v e r s i t y j a n u a r y , 2 0 1 0 i v 上海大学硕士学位论文 摘要 信息时代的到来不仅提供了海量的数据供我们研究和使用,同时也对我们 快速、有效获取信息能力提出了一大挑战。文章摘要则在一定程度上缓解了人 们的这一难题。文章摘要能以简洁准确全面的语言反映某一文档或多个文档的 主要内容。因此,人们可以通过阅读文章摘要来了解文章的重要而全面的信息, 然后根据用户的兴趣来决定是否阅读该文章。随着科学技术的发展,计算机技 术应用到了文章摘要领域,使得生成文摘的效率大大的提高,也出现了许多自 动文摘的技术和方法。 本文提出的基于事件本体的自动文摘是事件信息抽取技术、本体技术与自 动摘要技术相结合的一种自然语言处理方法,其任务是通过计算机技术自动从 文档中抽取出事件句,采用不同的技术组织这些信息,最终生成人们可以理解 的文章摘要。在研究基于事件本体的自动文摘的过程中,本文进行了如下的一 些有益探索: ( 1 )事件本体的构建。通过对事件本体的概念和事件六元组定义的理 解,本文用本体构建工具p r o t 6 9 6 构建了事件本体。 ( 2 )利用事件本体中事件角色对事件句中的动词含义进行辨析和对 事件句进行分类。 ( 3 )综合考虑事件句的位置、时间和依赖关系生成自动文摘。 我们以哈尔滨工业大学信息检索研究室单文档标注语料为数据进行了实 验,其结果表明:本文提出的基于事件本体的自动文摘方法能够对新闻报道、 记叙文等单文档生成更加有效的文章摘要。 关键词:事件;事件本体;事件角色;事件合并;自动文摘 v 上海人学硕十学位论文 a b s t r a c t a l a r g ea m o u n to fd a t ai sp r o v i d e dt oo u rr e s e a r c ha n du s ew i t ht h ea d v e n to f i n f o r m a t i o na g e i th e n c eb r i n g sam a j o rc h a l l e n g et oe f f i c i e n ti n f o r m a t i o na c c e s s i n g a na r t i c l es u m m a r yc a ne x p r e s st h em a i nc o n t e n to fad o c u m e n to rm u l t i p l e d o c u m e n t sb yu s i n gc o n c i s e ,a c c u r a t ea n dc o m p r e h e n s i v es e n t e n c e s t h e r e f o r e ,w e c a na c q u i r et h ei m p o r t a n ta n dc o m p r e h e n s i v ei n f o r m a t i o nt h r o u g hr e a d i n ga na r t i c l e s u m m a r y a c c o r d i n gt ot h eu s e si n t e r e s t w ec a nd e c i d et or e a dt h ea r t i c l eo rn o t 渐国t h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , t h ec o m p u t e rt e c h n o l o g yi sa p p l i e d t ot h ef i e l do fs u m m a r i z a t i o n ,w h i c hi m p r o v e st h ee 衔c i e n c yo f g e n e r a t i n gs u m m a r y o fa r t i c l e s a tt h es a m et i m e t h e r eh a v eb e e nal o to fa u t o m a t i cs u m m a r i z a t i o n t e c h n o l o g i e sa n dm e t h o d s a u t o m a t i cs u m m a r i z a t i o nb a s e do ne v e n to n t o l o g yi san a t u r a ll a n g u a g e p r o c e s s i n gm e t h o d w h i c hc o m b i n e se v e n ti n f o r m a t i o ne x t r a c t i o n t e c h n o l o g y , o n t o l o g yt e c h n o l o g ya n da u t o m a t i cs u m m a r i z a t i o nt e c h n o l o g y 功eg o a lo ft h e a u t o m a t i cs u m m a r i z a t i o nb a s e do ne v e n to n t o l o g yi st oe x t r a c tt h ee v e n ts e n t e n c e f r o mad o c u m e n tw i t hc o m p u t e rt e c h n o l o g ya n do r g a n i z et h ei n f o r m a t i o nw i t h d i f f e r e n ti n f o r m a t i o nt e c h n o l o g yt og e n e r a t ea nu n d e r s t a n d a b l ea r t i c l es u m m a r y b y t h er e s e a r c ho nt h et e c h n i q u e so fa u t o m a t i cs u m m a r i z a t i o nb a s e do ne v e n to n t o l o g y , w em a k es o m eu s e f u lw o r ka n dt h e ya r ea sf o l l o w s : ( 1 ) t h ec o n s t r u c t i o no ft h ee v e n to n t o l o g y p r o t 6 酌,t h et o o lf o ro n t o l o g y c o n s t r u c t i o n i sa p p l i e dt ob u i l dt h ee v e n to n t o l o g yw h i c hi sb a s e do nt h e d e f i t i o no f6 t u p l ee v e n tf a c t o r s ( 2 ) t h ev e r bo fe v e n ts e n t e n c ei sa n a l y z e d ,a n dt h ee v e n ts e n t e n c ei s c l a s s i f i e da n dm e r g e du s i n ge v e n tr o l e ( 3 ) t h es u m m a r yi sa u t o m a t i c a l l yg e n e r a t e db yc o m p r e h e n s i v ec o n s i d e r a t i o n o fp o s i t i o n ,t i m ea n dd e p e n d e n c yr e l a t i o n s h i po fe v e n ts e n t e n c e s t h eh a r b i ni n s t i t u t eo ft e c h n o l o g yi n f o i t n a t i o nr e t r i e v a l l a b o r a t o r yo f s i n g l e d o c u m e n ta n n o t a t i o nc o r p u si su s e dt oe x p e r i m e n t t h er e s u l t so fe x p e r i m e n t s s h o wt h a tt h ea u t o m a t i cs u m m a r i z a t i o nm e t h o db a s e do ne v e n to n t o l o g yc a n g e n e r a t em o r ee f f e c t i v es u m m a r y k e y w o r d s :e v e n t ;e v e n to n t o l o g y ;e v e n tr o l e ;e v e n tm e r g e ;a u t o m a t i c s u m m a f i z a t i o n :海火学硕上学位论文 目录 摘要v a b s t r a c t 第一章绪论1 1 1 课题背景l 1 2 相关研究2 1 3 研究目的和意义4 1 4 本文组织结构5 第二章自动文摘技术综述6 2 1 自动文摘原理6 2 2 自动文摘方法分类7 2 2 1 自动摘录方法7 2 2 2 基于结构的方法1 0 2 2 3 信息抽取方法1 1 2 2 4 基于理解的方法1 1 2 3 自动文摘的测评13 2 3 1 自动文摘内部测评1 3 2 3 2 自动文摘外部测评一1 4 2 4 本章小结15 第三章事件本体及其构建1 6 3 1 本体介绍1 6 3 1 1 本体概念及分类1 6 3 1 2 本体描述语言1 7 3 1 3 本体构建2 1 3 2 事件本体2 4 3 2 1 事件及事件类的定义2 5 3 2 2 事件本体的定义一2 6 上海人学硕十学位论文 3 2 3 事件本体的构建2 7 3 3 本章小结3 3 第四章基于事件本体的自动摘要的实现3 4 4 1 事件信息抽取3 4 4 1 1 事件角色识别3 6 4 1 2 事件角色识别实验与分析3 8 4 1 3 事件句抽取及分类4 0 4 1 4 事件句抽取及分类实验与分析4 2 4 1 5 事件时间信息识别4 4 4 1 6 事件时间信息识别实验与分析4 8 4 2 主题事件句的识别与事件句排序4 9 4 2 1 主题事件句识别4 9 4 2 2 事件句排序一5 2 4 3 自动摘要生成5 3 4 4 自动摘要实验与分析5 4 4 5 本章小结一5 5 第五章试验设计与试验分析5 6 5 1 实验开发环境5 6 5 2 实验关键模块实现5 6 5 2 1 分词模块的实现5 7 5 2 2 事件信息抽取模块实现5 8 5 2 3 主题事件句识别与事件句排序模块实现6 0 5 2 4 生成摘要模块实现6 l 5 3 实验分析6 3 5 3 1 自动文摘评价方法及指标6 3 5 3 2 试验结果及分析6 4 5 4 本章小结6 9 第六章总结与展望7 0 v i i i 上海火学硕士学位论文 6 1 论文1 :作总结一7 0 6 2 存在问题及下一步工作7 0 参考文献7 2 作者在攻读硕士学位期间公开发表的论文7 6 作者在攻读硕士学位期间所作的项目7 7 致 射。7 8 上海人学硕十学位论文 1 1 课题背景 第一章绪论 根据2 0 0 8 年7 月中国互联网络信息中心发布的第2 2 次中国互联网络发 展状况统计报告【1 显示:截至2 0 0 8 年6 月底,中国网民数量达到2 5 3 亿, 网民规模跃居世界第一位。中国网站数量为1 9 1 9 万个,年增长率为4 6 3 。网 络新闻、搜索引擎、博客个人空间、论坛b b s 位列网民经常使用的十大网络 应用之列。从这些统计数据可以看出网络业已成为人们获取信息的重要途径。 伴随着信息时代的到来,人类在享受其所带来的便捷和高效的同时,正越来越 受到冗余信息的困扰。首先,随着i n t e r n e t 网络规模的不断扩大,信息资源不断 膨胀,如何在信息的海洋中找到领域相关的有价值的信息变得尤为重要。其次, 信息资源内容十分丰富,包括文本、图像、音视频、数据库等不同领域、不同 学科、不同语言的各种资源。在w e b 逐渐成为人类知识积累载体的同时,其上 充斥着各种广告、非法链接等冗余信息,对用户浏览网页以及快速获取网页内 容造成了很大的困难。此外,随着智能手机( s m a r tp h o n e ) 、p d a ( p e r s o n a ld i g i t a l a s s i s t a n t ) 的不断普及,如何将正常的网页在这些显示屏受限的设备上正常显示。 目前热点文档检索和文档摘要是解决这些问题的两种重要技术手段。文档检索 就像一个过滤器,从候选文档集中挑选出相关文档的集合,而文档摘要则从纷 杂的信息文档中,把重要的信息提取出来供人们选择和阅读。在早期人们采用 人工的阅读文章、分析文章,然后撰写文章摘要的方式来生成文章摘要。在处 理大规模的文章时,这种人工摘要的方法就表现出效率低、主观性强、评价尺 度难把握等缺点。因此利用计算机技术生成文章摘要的技术就应运而生了。自 动摘要是利用计算机技术,以原始文档作为输入,从中将重要的信息抽取出来, 然后将这些重要的信息重新组合形成比较通顺的摘要提供给用户。这加快了信 息筛选的速度,帮助人们了解文章概况或确定是否应该阅读原文。这也减少了 人们查找信息的时间,将人们从枯燥乏味的信息查找中解脱出来,而专注于信 息的应用。因此,如何有效地对文章信息做摘要是一个值得研究的课题。 卜海火学硕:学位论文 1 2 相关研究 自动文摘这个概念从诞生到如今已经走过4 0 多个年头,期问经过国内外大 量学者和研究人员的艰苦努力取得了大量的研究成果。1 9 5 2 年,美国i b m 公 司的l u h n 开始了自动文摘的研究。1 9 5 8 年,他首次发表了关于自动摘要方面 的文献 2 】,奠定了基于统计方法的自动文摘的基础,从此揭丌了利用计算机技 术进行自动文摘研究的序幕。近十几年来,自动文摘技术越来越受到重视。1 9 9 3 年,w a d e m 首次召开了以自动文摘为主题的国际研讨会;1 9 9 5 年,国际期刊 i n f o r m a t i o np r o c e s s i n g & m a n a g e m e n t 专门出版了一期关于自动文摘方面的专 刊。这些都标志着自动文摘对我们的生产和生活产生了比较大的影响,人们也 逐渐认识到了自动文摘的价值和重要性。 自动文摘在研究历程上大体上可分为两个阶段:第一阶段是从5 0 年代术到 7 0 年代初的基于统计的机械式自动文摘时期;第二阶段是从7 0 年代初到现在 的基于语义的理解式自动文摘时期。 对于机械式自动文摘的主要思想是以l u h n 和b a x e n d a l e 为代表。l u h n 2 】 把词汇分成两大类:通用词和内容词。通用词又称为功能词,通常包括连接词、 代词、介词、冠词、助动词,以及某些形容词和副词,除此以外的所有词为内 容词。功能词重要性被指定为0 ,词频统计只对内容词进行,并把同根的内容 词加以合并,词频超过某一事先设定的阈值v 的内容词被认定是可以代表文章 主题的有效词。b a x e n d a l e 3 采用删除功能词、从论题句中选择内容词、从正文 的介词短语中选词等三种方法在文章中选词和词串,通过提高特殊位置句子的 权值来筛选文摘句。另外e d m u n d s o n 4 等人还提出了基于指示词、关键词、标 题和位置生成文摘的方法。大体而言,机械式自动文摘系统是利用文章的形式 特征束提取摘要,这些形式特征如词频、关键词、词的位置、词控制表和指示 性的句子等。其技术特点是采用匹配技术,包括精确模式匹配、不完全模式匹 配、变量模式匹配和弹性模式匹配。这种基于词的匹配技术的统计文摘方法虽 然处理范围不受领域限制,但仍具有一定的局限性,如不能很好地处理词的同 义和歧义问题,对词合成短语后的意义变化也不能很好地把握,在进行文摘处 2 上海人学硕十学位论文 理时并没有考虑上下文等局限性。就目前而言,机械式自动文摘系统有:在l u h n 的研究基础之上,i b m 公司研制了文摘自动生成程序a c s i - - m a t i c 系统; b r a n d o w 5 等人实现的a n e s 系统,采用相对词频作为词的权值来分析文献, 并生成文摘;俄亥俄州立大学的r u s h 等人开发的a d a m ( a u t o m a t i cd o c u m e n t a b s t r a c t i n gm e t h o d ) 系统,利用从文献中删除句子的方法进行文摘生成。新加坡 南洋大学研制的图书馆新闻删节系统( l i b r a r yn e w s p a p e rc u t t i n gs y s t e m ) ,提供 了题名法、位置法、关键词法和指示性短语法四种自动摘录方法供用户选择。 上海交通大学王永成教授1 9 9 7 年采用位置法、指示短语法、关键词法和标题法 等多种方法研制了o a 中文文献自动摘要系统。 对于理解式自动文摘的主要思想是以s c h a n k 、r a u 、t a i t 和钟义信为代表。 7 0 年代末8 0 年代初,美国的耶鲁大学的s c h a n k 应用脚本分析简单的故事,在 此基础上对故事进行总结。1 9 7 9 年,耶鲁大学的d e j o n g 研制了f r u m p 系统, 用于快速阅览英文新闻资料。该系统由预言器和验证器两部分组成,预言器是 根据剧本梗概预测当前情形下可能出现的一组事件,验证器用于证实被预测的 事件并给出实际信息。f r u m p 的应用范围受内部存储的剧本梗概的限制,如 果文章中没有该系统所期望的内容则无法生成任何摘要。8 0 年代末,r a u 等人 提出了利用框架理论生成自动文摘的方法并研制了概念信息缩写、组织和检索 系统s c i s o r ( s y s t e mf o rc o n c e p t u a li n f o r m a t i o ns u m m a r i z a t i o n ,o r g a n i z a t i o na n d r e t r i e v a l ) ,它处理的对象是“公司合并”的新闻报道。t a i t 的s c r a b l e 系统对 f r u m p 系统进行了改进,它要求输入的资料在处理前先转换成概念从属 ( c o n c e p t u a ld e p e n d e n c y ,c d ) 结构,在此基础上分析和确定被预测的信息与 未预测的信息之间的关系,并将这两部分信息合理地组织成一篇完整连贯的文 摘。然而由于c d 结构过于复杂,所以该系统实现起来比较困难。北京邮电大 学的钟义信教授倡导用“全信息”理论指导自动文摘的研制丌发。在他带领下, 先后实现了面向计算机病毒方面的g l a n c e 系统,面向新闻报道的n e w s 系统, 以及面向神经网络学习领域的l a d i e s 系统。 在实际应用方面,世界著名的软件公司m i c r o s o f t 公司最早实现了自动文摘 系统的商业应用,在其办公软件o f f i c e 9 7 及后续版本中加入了自动文摘的功能, 3 上海人学硕士学位论文 虽然效果不是很令人满意,但总算在自动文摘系统的应用推广方面做出了贡献。 俄罗斯的m e d i a l i n g u a 公司开发了俄文和英文的自动文摘系统l i b r e t t o , 并把它放到国际互联网上,进行销售和演示。程序界面十分友好,能和o f f i c e 办公软件集成,文摘效果和m i c r o s o f t 公司的差不多。 我国对中文自动文摘的研究起步较晚。随着计算机在我国的普及,以及网 络时代对信息处理的需求,中文自动文摘的研究在2 0 世纪9 0 年代才如火如荼 的发展起来。取得一定科研成果的单位主要有哈尔滨工业大学、上海交通大学、 上海复旦大学、北京邮电大学、山西大学等。哈尔滨工业大学的王开铸教授等 人于1 9 9 2 年研制了基于理解的自动文摘实验系统m a t a s ,9 4 年研制出自动摘 录性的非受限领域的自动文摘系统h i t - 8 6 3 ,9 7 年提出了基于信息抽取和文本 生成的自动文摘系统。复旦大学吴立德教授等人研制的中文文本摘要系统 f d a s c t ,以统计分析为主,采用最大似然估计法对每个句子内各个词进行了 词性标引,对标引语料库进行了研究。北京邮电大学研制的非受限领域复合式 自动摘要系统,该系统根据词频统计、自由词标引的结果计算句子的重要性, 然后运用依存关系树和语义框架法进行文摘候选句子的加工。上海交通大学的 王永成教授较早地领导研究中文文献自动文摘系统,并于1 9 8 8 年开发出了“汉 语文献自动编制文摘试验系统( s j t u c a a ) ,对随机地从情报学报1 9 8 3 年 第一期上抽出的几十篇论文自动编制文摘,大部分文摘句达到比较满意的效果。 随后,又开发出了“中文文献自动摘要系统c a s e s ”和“o a 中文文献自动摘 要系统”。该系统采用了仿人算法,实际上也集成了位置法、指示短语法、标题 法、关键词法等多种方法,是一个实用的系统。 近年来国内在中文自动文摘方面的研究也取得一些进展。例如:华中师范 大学叶星火等人提出了基于特征信息提取的中文自动文摘方法;北京理工大学 蒋效宇等人开展了基于用户查询的中文自动文摘研究;华东师范大学王麒等做 了基于领域本体的w e b 文档自动摘要关键技术研究与实现等。 1 3 研究目的和意义 本研究旨在找到一种利用事件本体对文章进行摘要的新方法。本研究在上 4 上海人学硕十学位论文 海大学刘宗田等人 6 提出的事件及事件本体的基础上开展自动文摘方法研究。 基于事件本体的自动文摘研究是利用事件本体抽取事件的技术和自动文摘 技术结合的产物,主要是从文章中抽取出事件句,再根据层次聚类理论对这些 事件句进行合并,最后以某种方式组织这些事件句生成能被人类理解的文章摘 要。 以往对事件的研究更关注是事件的静态关系或者是二元角色关系的事件, 这不能很好的表示事件的动态关系及事件角色多元的属性。事件本体通过本体 对事件的静态属性和动态关系的描述,更全面和准确的定义了事件的属性和关 系。这也为我们利用事件本体抽取文本中的事件句奠定了良好的基础。文本中 人们往往通过一个个事件来表述一个个意思,这也为我们通过事件句对文章做 摘要提供了依据。目前国内利用事件本体对文章进行自动摘要的研究还处在起 步阶段,因此基于事件本体的自动文摘研究是一项比较有意义的工作。 1 4 本文组织结构 第一章绪论。本章介绍了本文的课题研究背景,阐述了本课题的研究目的 以及意义,然后说明了全文架构。 第二章自动文摘技术综述。本章具体介绍了目前自动文摘使用的理论和方 法。 第三章事件本体及其构建。本章论述了本体、事件本体及其事件本体构建。 第四章基于事件本体的自动文摘实现。本章论述了文本中事件句的提取, 主题事件句的识别和事件句的排序,最终生成文章摘要的过程。 第五章实验设计与实验分析。本章论述了基于事件本体的自动摘要方法的 实验实现和对实验结果进行了分析。 第六章总结与展望。对全文进行总结并介绍了课题今后进一步的改进和发 展方向。 :海大学硕士学位论文 第二章自动文摘技术综述 2 1 自动文摘原理 计算机自动文摘是通过计算机技术自动提取文本中的中心思想,其实质是 利用计算机技术对文本进行提炼和约简生成一篇简短的且表达中心思想的可以 被人理解的摘要。利用计算机生成自动文摘的一般过程如图2 1 所示。 图2 1 生成自动文摘的一般过程 根据图2 1 ,我们可以看出一个自动文摘生成的步骤大致如下: ( 1 ) 结构分析。对输入的原始文档进行结构分析,获得原始文档的一些 基本结构特征信息如关键词、位置信息、标题等信息,并把文章结 构的这些信息表示成计算机能够理解的形式。 ( 2 ) 意义分析。对文章的篇章意义进行分析,获得文章中主题词,主题 思想等信息,并表示成计算机能够理解的形式。 ( 3 ) 关键句提取。根据意义分析模块中确定的主题思想对文章中旬子进 行选择,选中的句子被称为关键句。 ( 4 ) 生成摘要。根据人为设定的摘要压缩比率,对关键句提取步骤中提 取的关键句进行再选择,最终生成一篇符合要求的自动文摘。 上述步骤可以通过以下的形式化描述表示。 假设任意文本d ,结构分析模块对应功能函数s u ,意义分析模块对应功能 函数m u ,关键句提取模块对应功能函数k s ,生成摘要模块对应功能函数s g 。 首先通过功能函数s u ,将原始文档转换为机内表示s r ,即 s r = s u ( d ) 将s r 经过功能函数m u ,得到机内意义表示m r ,即 m r = m u ( s r ) 再将m r 经过功能函数k s 得到关键句的基本集合a s ,即 6 上海人学硕十学位论文 a s = k s ( m r ) 最后经过功能函数s g ,生成自动文摘c ,即 c = s g ( a s ) 2 2 自动文摘方法分类 文摘是概括介绍一篇文章内容的方法,是准确反映文章中心思想的简短的 语言描述。l u h n 在1 9 5 8 年提出了自动文摘的概念,他认为:“机器( 计算机) 利用词语出现的频率和分布等统计信息计算词语及句子的相对重要程度,提取 并输出重要度最高的句子,从而获得自动摘要。到目前为止,国内外学者 和研究人员对自动文摘的理论和方法进行了大量的研究,取得了很多成果和进 展。目f j i 主要有四种方法对文章进行自动摘要,分别是自动摘录方法、基于结 构的方法、信息抽取方法和基于理解的方法。 2 2 1 自动摘录方法 自动摘录( a u t o m a t i ce x t r a c t i o n ) 方法认为词是组成句子的线性序列,句 子又是组成文本的线性序列。在这些句子中,有些句子更能表达文章的主题思 想,而有些句子则偏离主题思想较远。其主要思想是按照行文顺序把离主题思 想较近( 即句子重要度较高) 的若干个句子抽取出来,形成摘要。该方法主要 分4 步进行:( 1 ) 计算词的权值;( 2 ) 计算句子的权值;( 3 ) 对原文中的所有 句子按权值高低降序排列,权值高于某个阈值的若干句子被确定为文摘句;( 4 ) 将所有文摘句按照它们在原文中的出现顺序输出。在这4 个步骤中核心是计算 词的权值和计算句子的权值。这两种形式的权值计算主要依据词频、标题、位 置、句法结构和指示性短语等6 种形式特征。 ( 1 ) 词频( f r e q u e n c y ) 。自动摘录方法认为词频是计算句子重要度的必备 要素。研究表明对句子重要度贡献最大的是那些中频词。根据我们的 统计,在5 9 8 篇从网络上采取的新闻文章中,词频最高的是“的,了, 得”等这些不代表具体含义的虚词。这些虚词在5 9 8 篇文章中,覆盖 率是很高的。特别是“的”字覆盖率是1 0 0 ,频数也很高,例如在 7 l :海人学硕士学位论文 一篇财经的评论文章中,全篇文章共1 2 3 句话,其中“的字出现 了6 1 次,这要远远高于其它表示具体含义的实词。然后这个字无实 际意义,一般作为偏正结构的判断,如英文中的“o f ,。这类不表示 具体含义,在句子中只起修饰或标志作用的虚词,应该省略。在研究 中,我们用有效词来计算词的权值。所谓有效词是那些表示具体含义 的实词,根据统计的情况分析,这些一般是中频词。 ( 2 ) 标题( t i t l e ) 。标题是文章或段落内容高度概括性的浓缩信息,它概 括了文章或段落的中心思想。所以,标题中的有效词与文章中其它 部分提取出来的有效词更能表明文章的主要含义。因此对句子计算 权值时,凡是在标题中出现的有效词都会增加相应的权值。 ( 3 ) 位置( l o c a t i o n ) 。b a x e n d a l e 在文献 3 】中指出:段落首句是论题的概 率是8 5 ,而在段落术句表达论题的概率只有7 。但是这样的情况 多数存在于英文文章和部分体裁的中文文章中( 如科技论文、议论 文等体裁) ,对于散文、诗歌等不拘于形式的文体,位置的形式特征 效果不太理想。 ( 4 ) 句法结构( s y n t a c t i cs t r u c t u r e ) 。句法结构在自动摘录的方法中,也 作为句子是否成为摘要句的形式特征。在文章中,一般表达主题思 想的都是陈述句。如疑问句一般作为引出相应的答案,句子的含义 偏重于回答句,这旱的回答句也一般都是陈述句。如感叹句是作者 或文中人物感情的抒发,这些句子不适合进入文摘句。 ( 5 ) 线索词( c u e ) 。在文献 8 1 0 】中,e d m u n d s o n 提出了线索词的概念。 它把表示褒义的词赋予正值,把表示贬义的词赋予负值,无效词赋 予零值。应用线索词的概念计算句子权值时,按照句子中各线索词 的权值求和。在用线索词进行文摘句选择时,又有两种不同的方式。 e d m u n d s o n 提出的方法是在已知的句子集合中通过选择的方法选取 符合要求的文摘句。而r u s h 等人提出了排除句子的方式得到文摘句, 也即从已知句子集合中,排除掉符合排除句子的标准,并开发了 a d a m ( a u t o m a t i cd o c u m e n ta b s t r a c t i n gm e t h o d ) 系统。 上海人学硕十学位论文 ( 6 ) 指示性短语( i n d i c a t i v ep h r a s e ) 。1 9 7 7 年,p a i c e 提出了根据“指示 性短语 在文章中选择文摘句,生成文摘。 这6 种文本的形式特征计算句子权重的方法本质上都是按照统计学的原理 对句子重要度进行计算,是基于文本中的词和句的统计和句子在文本空间上的 分布位置来生成文摘的。目前自动摘录方法在一些自动文摘系统中得到了应用, 但是也存在以下的一些缺点: ( 1 ) 主题思想覆盖不完整。在单主题的文章中,自动摘录的方法对一些 语义与中心思想很近的句子,由于词形、句子位置等关系而没有选 择为文摘句,这就造成了信息覆盖不完整的现象。而在多主题的文 章中,生成的摘要有时只有文章中重点论述的内容,而其它内容却 被忽略了,造成信息覆盖不完整的现象更加明显。 ( 2 ) 句子不简练。用自动摘录方法生成的文摘句,有时在摘要句中出现 极其近似的两个句子,这样就造成句子的冗余。其原因主要是摘取 了分布在文章空间中不同位置的句子,而自动摘要方法对这些句子 进行计算权值时,结果值是比较接近的,因此被选择成了文摘句。 针对这样的情况,r u s h 等人在研制的a c s i m a t i c 系统中运用了消除 冗余的方法,即对选取的文摘句进行冗余检查,如果两个句子的相 似度超过o 2 5 ,则删除其中的一句话。 ( 3 ) 句子衔接不流畅。由于自动摘录方法选取出的句子,没有考虑句子 与句子问的衔接问题,有时造成句子不流畅的问题。这种句子衔接 不流畅的问题主要存在于两个层面: ( i ) 语境层面。这个层面产生的问题是语境断裂。一篇规范的文章, 行文顺序和句子的组织都建立在语境连贯的基础上。而自动摘 录方法在选取句子时没有考虑这方面的问题,因此有时生成的 摘要,句子间显得不连贯和突兀。 ( i i ) 句子层面。这个层面产生的问题是句意模糊。,如果文章有省略 和指代的现象,而生成的文摘句中,却又没有选取那些说明省 略和指代的语句,这就造成了旬意的模糊。 9 上海大学硕上学位论文 2 2 2 基于结构的方法 基于结构的方法主要是依据篇章结构的分布形态,文章中各结构之间的复 杂关系以及各部分在文章中承担的功能来生成文章摘要。其主要任务是通过对 篇章结构的分析,找出文章的核心部分。目前主要有3 种基于篇章结构分析的 方法。 ( 1 ) 关联网络方法。s a l t o n 等人在文献i 1 1 一1 3 】中提出用特征向量来表示一 个段落,然后求各段间的相似度。如果这个相似度超过某个设定的 阈值,则认为两个段落间存在语义关系。s a l t o n 认为如果一个段与很 多段都存在语义关系,则把该段看作是中心段。把这些中心段提取 出来形成摘要。 ( 2 ) 修辞结构方法。在文献 1 4 ,1 5 中,k e n j io n o 等人提出基于修辞结构 的自动文摘,他们通过连接词推导出修辞结构树,修剪修辞结构树, 得到文摘的选择句,但是此时的文摘句还不连贯,然后根据这些文 摘句的修辞关系生成自动文摘。 ( 3 ) 语用功能方法。j i r ij a n o s 1 6 ,1 7 】提出了功能句子观( f u n c t i o n a l s e n t e n c ep e r s p e c t i v e ,f s p ) 理论,该理论通过分析文本的主干( t e x t p r o p e r ) 和枝叶( m e t a t e x t ) 来生成自动文摘。j i r ij a n o 零认为主干部 分是抽取文摘句的基础,枝叶部分则可以忽略。而在文献 1 5 中, m a e d a 认为句子按功能可分为:背景( b ) 、主题( t ) 、方法( m ) 、 ;, , 结果( r ) 、例子( e ) 、应用( a ) 、比较( c ) 和讨论( d ) 。其中结 果、主题、方法和讨论是主干,应该作为文摘句的选择源,而例子、 应用、比较和背景是枝叶,则排除。 基于结构的自动文摘方法虽然取得很多的进步,但是也存在文章范围只能 限定在特定范围之内( 现主要是针对科技文献) ,文摘的算法不通用的不足,很 难扩展到非受限的自动文摘领域。 l o 上海人学硕十学位论文 2 2 3 信息抽取方法 信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 方法对文本进行有限深度的分析,以文 摘框架作为自动文摘的模板,其生成自动文摘的原理是从文本中抽取与框架中 槽信息对应的内容填入空槽中,生成自动文摘。因此信息抽取方法生成自动文 摘可分为两个阶段:选择阶段和生成阶段。在选择阶段主要解决槽中所需信息 与选择出的信息的匹配度问题。生成阶段主要解决填充好的框架模板如何转换 成自动文摘的问题。在文献 1 8 d p ,p a i c e 针对“小麦试验这个具体领域应用 信息抽取方法生成摘要取得了一定的效果。在文献 1 9 】中,北京邮电大学的杨 晓兰等人应用信息抽取法实现了对计算机病毒领域文章的自动文摘。 2 2 4 基于理解的方法 基于理解的方法是以自然语言技术为基础,运用语言学并结合领域知识进 行判断和推理,得到文摘的意义表示,最后生成自动摘要。其步骤大致分为4 个步骤: ( 1 ) 语法分析; ( 2 ) 语义分析; ( 3 ) 语用分析和信息提取; ( 4 ) 文本生成。 目前基于理解的自动文摘方法主要有脚本、概念从属结构、框架、一阶谓 词4 中表示方法。 ( 1 ) 脚本 7 0 年代末8 0 年代初,耶鲁大学的s c h a n k 利用脚本对简单的故事 进行分析,在此基础上对故事进行总结,并开发了s a m ( s c r i p t a p p l i e rm e c h a n i s m ) 系统。19 7 9 年d e j o n g 开发了f r u m p ( f a s t r e a d i n gu n d e r s t a n d i n ga n dm e m o r yp r o g r a m ) 系统,该系统通过预言 器预测当l f 情形下可能出现的一个或一组事件,然后用验证器去验 证这些被预测的事件,并给出实际信息。 上海人学硕十学位论文 ( 2 ) 概念从属结构 美国的j i t a i t 对f r u m p 系统进行了改进开发了s c r a b l e 系统,该 系统要求把输入的资料事先转化成c d ( c o n c e p m a ld e p e n d e n c y s t n j c t u r e ) 结构,然后在分析和确定被预测信息与未预测信息之间的 关系,在根据这两部分信息生成文章摘要。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论