(计算机软件与理论专业论文)一种基于本体的半自动化信息提取方案.pdf_第1页
(计算机软件与理论专业论文)一种基于本体的半自动化信息提取方案.pdf_第2页
(计算机软件与理论专业论文)一种基于本体的半自动化信息提取方案.pdf_第3页
(计算机软件与理论专业论文)一种基于本体的半自动化信息提取方案.pdf_第4页
(计算机软件与理论专业论文)一种基于本体的半自动化信息提取方案.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

种基于率体的半自动化信息提取方案 摘要 信息提取( i n f o r m a t i o ne x t r a c t i o n ) 是指从一段文本中抽取指定的一类信息( 例 如事件、人物、地点、时间) 、并将其形成结构化或者半结构化的数据,以一种 带有语义的面向知识的形式表达,直接满足了用户的需求。它不是告诉一个用户 应该去哪里查找信息,而是从数据源直接提取了满足用户需求的信息。在当前信 息爆炸性增长的时代,信息提取的技术对于政府、科研机构、企业团体乃至个人 都具有不言而喻的重要性。 本体( o n t 0 1 0 9 y ) 一词源于哲学,用于描述事物的本质。我们这里的本体是共 享概念模型的明确的形式化规范说明。本体的目标是捕获相关领域的知识,提供 对该领域知识的共同理解,确定该领域内共同认可的词汇,从不同层次的形式化 模式给出这些词汇( 术语) 和词汇间相互关系的定义,通过概念之间的关系描述概 念的语义。因此,本体在消除歧义、提供背景知识等方面发挥着重要的作用。目 前对于本体应用的研究方兴未艾。 本文提出一种基于本体的半自动化信息提取方案。具体而言,就是把语言本 体和领域本体引入信息提取的系统的各个相关阶段,使语言本体在自然语言的浅 层分析中发挥重要作用,使领域相关的本体在特定信息的发现,提取和组织等功 能上发挥重要作用,从而使整个信息提取系统能够更加全面、完整的提取特定信 息,并且在最后信息的表达上更加趋向便于共享和管理的知识层面。本文给出了 这种方案的具体流程设计,以及各个模块的实现算法,把本体的背景知识应用到 了相关模块做到了最后的分析结果和本体中的概念直接相关。 最后本文给出了一个基于本体的半自动化信息提取系统的原型实现,并对后 续工作做了展望。 关键字:信息提取本体知识管理自然语言处理 一种批十本体的半自动化信息提取方案 a b s t r a c t i n f o r m a t i o ne x t r a c t i o n ( i e ) d e n o t e se x t r a c t i n gt h es p e c i f i ck i n do fi n f o r m a t i o n ( e g e v e n t ,p e o p l e ,p l a c e ,t i m e ) f r o mt e x tf i l e s ,f o r m u l a t i n gt h e mi n t o s t r u c t u r e do r s e m i s t r u c t u r e dd a t a ,r e p r e s e n t i n gt h e mi nas e m a n t i cf o r m ,a n di nt u r n ,d i r e c t l y m e e t i n gt h er e q u i r e m e n t so fe n d u s e r s i e d o e sn o tt e l lau s e rw h e r et of i n dt h e d e s i r e di n f o r m a t i o n ,b u te x t r a c t st h ei n f o r m a t i o nd i r e c t l yf r o md a t as o u r c e s i nt h ee r a o fi n f o r m a t i o ne x p l o s i o n ,i ei si m p o r t a n tt og o v e r n m e n t ,r e s e a r c hg r o u p s ,c o r p o r a t e a n de v e ni n d i v i d u a l s d e r i v e df r o mp h i l o s o p h y , o n t o l o g yi so r i g i n a l l yu s e dt od e s c r i b et h ee s s e n c eo f t h i n g s o n t o l o g y h e r em e a n saf o r m a l e x p l i c i ts p e c i f i c a t i o n o fas h a r e d c o n c e p t u a l i z a t i o n i t sg o a li st oc a p t u r et h ed o m a i n - s p e c i f i ck n o w l e d g e ,t op r o v i d ea s h a r e du n d e r s t a n d i n go ft h i sk n o w l e d g e ,t od e f i n et h ec o m m o n a c c e p t e dt e r m si na d o m a i n ,t oc l a r i r yt h er e l a t i o n s h i pb e t w e e nt h e s et e r m sf o r md i f f e r e n tl e v e l s ,a n dt o d e s c r i b et h es e m a n t i c o fc o n c e p t s b ys p e c i f y i n g t h e r e l a t i o n s h i p b e t w e e nt h e s e c o n c e p t s t h e r e f o r e ,o n t o l o g yp l a y s ac r u c i a lr o l ei n e l i m i n a t i n ga m b i g u i t ya n d o f f e r i n gb a c k g r o u n dk n o w l e d g e r e s e a r c h o nt h ea p p l i c a t i o no f o n t o l o g y i sc u r r e n t l y i nt h ea s c e n d a n t i nt h i sp a p e r , w ep u tf o r w a r das e m i - a u t o m a t e di n f o r m a t i o ne x t r a c t i o nm e t h o d b a s e do no n t o l o g y i nd e t a i l ,b o t hl a n g u a g eo n t o l o g ya n dd o m a i n - s p e c i f i co n t o l o g y a r ei n t r o d u c e dt od i f f e r e n tp h a s eo fi n f o r m a t i o ne x t r a c t i o n l a n g u a g eo n t o l o g yi st o f a c i l i t a t et h e “s h a l l o w p a r s i n g ”i nn l p , a n dd o m a i n s p e c i f i co n t o l o g y a i m sa t i d e n t i 母i n g ,e x t r a c t i n g a n do r g a n i z i n gi n f o r m a t i o n w eh o p et h a t ,b y a d d i n gt w o o n t o l o g i e s ,t h ei n f o r m a t i o ns y s t e m sc a ne x t r a c tm o r ec o m p l e t ei n f o r m a t i o na n dc a n r e p r e s e n tt h ee x t r a c t e di n f o r m a t i o ni nam o r ek n o w l e d g e - o r i e n t e dm o d e l w ew o r k o u tt h ed e t a i l e dd e s i g no ft h ep r o c e s sa n dt h ea l g o r i t h m so ft h er e l e v a n tm o d u l e s ,w i t h o n t o l o g i e s a s b a c k g r o u n dk n o w l e d g e t h ea n a l y s i sr e s u l to fd o c u m e n ti st i g h t l y b o u n dt oc o n c e p t si no n t o l o g y i nt h i sp a p e r , w ea l s o b r i e f l y i n t r o d u c et h ep r o t o t y p eo ft h i s o n t o l o g y - b a s e d s e m i a u t o m a t e di n f o r m a t i o ne x t r a c t i o ns y s t e m ,a n dd i s c u s st h es u c c e s s i v ew o r k k e y w o r d :i n f o r m a t i o n e x t r a c t i o n o n t o l o g yk n o w l e d g em a n a g e m e n t n a t u r a ll a n g u a g e p r o c e s s i n gf n l p ) 4 种捧十奉体的半自动化竹息挺墩方案 1 1 背景介绍 1 1 1 问题的提出 第一章绪论 目前,随着i n t e m e t 网和光盘等大容量存储技术的迅速发展,人们已从信息 缺乏到信息过多,乃至淹没于大量信息之中。尽管与多媒体信息相比,文本信息 显得比较平凡,但它无疑仍是人们用于记载信息和进行通信的很重要的媒体。同 时,它也是人们最熟悉研究得最多和最成熟的媒体。因此,如何从大量文本信 息中迅速有效地找到所需的信息就是既十分重要,又最有可能首先取得突破并获 得实际应用的一个领域。 在日益信息化和网络化的当代社会中,如何找到所需要的信息并把有用的信 息归类、过滤或提取出来,一直是一个比较紧迫的实际问题 1 】。近年来,有关 数字图书馆领域的一些研究工作也是围绕如何帮助用户发现信息这一数字图书 馆核心服务( 之一) 2 来进行的。随着越来越多的信息和知识的载体电子化、 数字化,数字图书馆中所存放的基于文本文档的信息表现形式将会呈现爆炸性增 长的趋势。新西兰大学的数字图书馆项目g r e e n s t o n e 早在九十年代后期就注意 到了这一现象,并且提出和实现了根据一些特定的词和短语来关联相应文本文档 的方法。这虽然帮助了用户定位相应的文档,但并没有把用户从通篇浏览多篇文 档来过滤或提取特定信息的繁重劳动中解脱出来。用户仍然需要面对复杂的,非 结构化的文本文档的集合,而不是简单的,面向特定信息的结构化或者半结构化 数据集合。 同样的问题在生物信息学研究领域表现得更为突出。生物信息学的迅速发 展,不断产生了大量的科技文献,覆盖了生物信息学研究的方方面面,单单 m e d l i n e 一个期干0 的数据库,就有来自7 0 多个国家的超过4 ,6 0 0 种刊物,文献 总数更是超过了l ,1 0 0 万篇。一方面,信息资源的极大丰富,激发了人们整合研 究对象的各类相关信息,解决生物学综合性问题的研究热情。另一方面,尽管出 现了大量有关生物信息学的科技文献,但是,( 1 ) 其中有价值的特定的信息仍然 散布在非结构化的自由文本中,而不是用户和计算机可以直接利用的结构化或者 半结构化的数据集合 3 :( 2 ) 这些科技文献来自不同的研究个人和团体,因而 对相同的事物和信息有着不同的描述概念和方法,造成了对信息理解的不一致。 因此,以自然语言形式存在的数字化信息的迅猛增长,加强了人们对信息提 一种基于= 牟= 体的半自动化信息提取方案 取技术的依赖,尤其是自动或半自动的信息提取方案更是有着现实的需求。 1 1 2 信息提取的背景介绍 2 0 世纪8 0 年代后期,美国政府提出了一个专门的文本处理研究计划( 即 t i s p t e r 计划,其内容包括信息提取、文档检索、文献摘要等) ,以期提高政府部 门的信息处理速度和质量。其中一个重要的目标是研究和实现文本信息的自动查 找、收集汇总和存储,以期把人们从大量、低效的文本阅读劳动中解放出来。这 是对信息提取概念的首次真正意义上的实践。 1 在愈演愈烈的信息化浪潮的推动下,许多科研机构都十分重视信息提取技术 的研究和应用,把它列为与信息检索、文档归类和摘要、语音识别等并重的语言 工程项目。美国多所大学、公司和研究机构都对此展开了有计划的、长期系统的 研究与应用工作,并且有专门的机构组织各种评测活动对当前的研究进展进行 评估,例如著名的m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) ,以及它的一个下属 会议m e t ( m u l t i l i n g u a le n t i t yt a s k ) 等。 当前,由m u c 定义的概念、模型和技术规范在国际上对整个信息提取领域 起着主导的作用。它是美国政府支持的一个专门致力于真实新闻文本理解的例 会,至今已举行7 届。除像一般的学术会议一样交流论文外,它还负责组织对来 自世界各地不同单位的消息理解系统进行系列化的评测活动。其主要的评测项目 是从新闻报道中提取特定的信息,填入某种数据库中。评测语料大都出自各大通 讯社发布的新闻。对每一条消息,由专业人员人工给出标准答案,然后将参测系 统的输出结果与标准答案比较,按一定的评价指标给出所有系统的评测结果其 中最主要的指标是准确率、查全率等。 根据m u c 的测评体系,抽取的信息般可以分为这样几个方面:命名实体 ( e n t i t y ) 抽取、与模板有关的内容( a t t r i b u t e ) 信息抽取、各个实体之间关系( f a c t ) 的抽取和预置事件( e v e n t ) l 拘信息抽取。f 4 命名实体的抽取。它包括组织机构、人名、地名的抽取对问、日期、钱 币和百分数的抽取、专有名词的抽取、隐含指代名词和集合名词的抽取。 模板内容信息的抽取。用户预先设置模板,自动抽取用户关心的详细内容, 反映时间、地点、人物和发生的事件。 实体关系信息的抽取。比如某些疾病的因果关系。 预置事件信息的抽取。比如公司宣布破产、合并的消息、原因等等。 在第6 次和第7 次m u c 会议上,还增加了中文系统的评测项目。台湾大学 的个系统( c h e ne ta l9 9 ) 参加了m u c 7 ,测试了中文命名实体( 人名、地名、 时间、事件等名词性短语) 的识别,取得了与英文命名实体识别系统相近的性能。 一种基于= 牟= 体的半自动化信息提取方案 当然,这只是对中文信息捉墩作了比较初步的工作,并不能真丁f 进行中文信息提 取。遵照m u c 规范的完整的中文信息提取系统目前尚未见报道。 1 1 3 信息提取与信息检索 作为目前互联网上的信息获取研究的两个主要方向,信息检索和信息抽取既 有区别,又有联系,不能简单的混为一谈,或者截然对立起来。 所谓信息检索就是用户提出一个查询,通常以关键字的形式输入,计算机通过 关键字匹配,返回可能有关的文档 5 】。用户自己查看文档,获耿所需要的信息。这 类信息检索,不限任何领域,可以快速地返回相关的文档,然而信息检索的正确率 比较低用户需要花大量时间自己查找。信息抽取是为了进一步减轻人工劳动,让 计算机帮你去查找你所需要的特定内容。这就要求计算机具有一定的智能,通过 文本分析、语段分析等过程抽取出用户所需要的内容。信息抽取通常局限于某一 领域或某一范围。衡量信息抽取和信息检索系统的指标有两个: 查准率( p r e c i s i o n ) 表示在系统得到的全部答案中,正确的答案所占的比 值。 查全率( r e c a l l ) 指在所有答案中( 包括系统得到的和系统不应该忽略 的) ,正确答案所占的比值。 查准率描述系统检索或抽取的信息中,有用的是多少。查全率表示应该得到 的信息中,已查出了多少。通过这两个指标来衡量信息抽取和信息检索系统的优 劣。在真实的大规模信息检索中,还有另外一个衡量的标准就是时空性能,评价方法的 效率。 信息检索技术目前主要采用关键字匹配法。文档的内容表示为某些特征项的 集合,查询的要求也用项来表达,检索的目的是查找哪些文档可能符合查询的要 求。首先对查询进行预处理:项扩展、增加同义词或者根据用户前一次查询返回 的信息等,其目的是提高对查询要求的精确表示。然后对文档和其它信息源进行 索引,按照单词对全文做索引 6 】6 ,如果对词做索引,则需要对文档进行分词、 词性标注、词组抽取等处理。最后比较查询和文档的类似性以决定哪些文档是与 查询相关的。在信息检索所采用的模型中,具有较强的理论基础和能处理多种文 档格式的有以下三种 7 :布尔检索,概率模型和向量空间模型。目前信息检索的 正确率不是很高,需要人工自己进行判断。它的根本原因是文档内容和查询的表 示都是一种不精确性表示【8 ,文档特征项的选择是根据项在文档中出现的频率 和它的分布,项之间的类似性是取决于它们在文档中的分布情况。另一方面自然 语言的同义性和多义性也造成了检索的正确率不高,因为词和意义的关系是多对 多的关系,即很多词可以用来表达同一含义。而一个词可以有多种含义。计算机 一种基于奉体的半自动化信息提取方案 如果没有语义知识和背景知识,就很难做出正确判断。简而言之,信息检索的过 程可以由图1 一i 来表示。 驿p 囝张撇触 黼谭囝一白揪 图1 1 信息检索过程 f i g u r e l 一1i n f o r m a t i o n r e t r i e v a lp r o c e d u r e 信息提取的大规模研究是8 0 年代后期开始的。它的主要目标是让计算机不 但找到相关的文档,而且还要找到相关的内容。如前所述,抽取的信息一般可以 分为这样几个方面:命名实体的抽取、与模板有关的内容信息抽取、各个实体之 间关系的抽取和预置事件的信息提取。 信息提取系统的实现一般有两种方法 9 】: 知识工程方法。由专家对语料库进行分析、调整从而人工制定规则、 模板。比如对命名实体( 人、公司、地方、单位的名称) 的识别采用有限 状态自动机来实现 1 0 。 自动训l 练方法。给出标注的例子文档集,通过机器学习来推导模板 和模板的自动填充规则 “ ,也可以应用统计学的方法来抽取,比如中 文人名的抽取 1 2 1 。 信息提取系统是一项复杂得系统工程,需要以大量的语言知识、背景知识为依据, 对文本信息的人脑处理过程进行模拟。所涉及的主要技术包括以下两个方面: 自然语言处理技术。词汇和语法分析,句子和段落识别、篇章结构分 析、指同求解( c o r e f e r e n c er e s o l u t i o n ,也成为互指分析) 等。 人工智能技术。模板创建,建立域知识库等。言工程技术。语料库标 注、语料库统计等。信息抽取系统的一般过程由图1 - 2 来描述。,可以采 用基于规则的方法。 1 2 信息抽取过程 f i g u r ei 一2i n f o r m a t i o ne x t r a c t i o np r o c e d u r e 一种基十奉件的半自动化信息挺取方案 通过对上面信息检索和信息抽取技术的讨论,可以看到,信息检索不局限于 领域,实用性和通用性较好,用户只需输入简单的关键字,就可以查找到有关的 文档。信息抽取可以准确地抽取出用户所需要的具体信息,而不只是有关的文档, 按照自然语言的语法,首先对输入文档进行词法、语法分析,再根据面向某领 域的模板,将有关分析结果填入模板内。信息抽取是在自然语言处理的基础上, 理解信息和抽取信息。 1 2 研究内容 作者所参加“植物抗盐碱与抗旱基因的整合信息技术平台及应用”研究项目, 其目的之是通过处理大量的关于植物抗盐碱与抗旱基因的文献,最终形成一卜 高质量的生物信息数据源,为生物学家提供高质量的服务。在这个过程中,所面 临的一个重要课题就是如何把大量的关于植物抗盐碱与抗旱基因的科技文献,转 化为结构化,便于查询和共享的信息,这也是现在生物学家和生物信息专家比较 痛疼的问题,目前采取人工阅读,手工输入的方法,很显然这不是一个高效的做 法,尤其是面对大规模文献的时候。 对于上述生物信息等一大批现实问题本文抽象出信息技术的问题是对于文 本信息的半自动化提取。为了尝试解决这类问题,本文的研究工作主要是提出一 种半自动化的信息提取的方案,将自然语言描述的文本信息转变为计算机可以理 解的( m a c h i n er e a d a b l e ) 的信息。因此,作者探讨了与信息提取相关的一些基础 问题,例如上面提到的自然语言处理的一些方法,以及对当前信息提取的方法的 分析;并且注意到本体论日益广泛的应用和优点,作者把本体的概念引入信息提 取的方案,充分利用本体作为领域背景知识和概念体系的作用,来协助信息提取。 本文还述及了在网络化的社会中信息知识的共享和管理。 1 3 本文的主要研究成果 仔细研究整个信息提取的过程,找们不难发现有两类背景知识( b a c k g r o u n d k n o w l e d g e ) 对信息的提取起着重要的作用:一类是语言本身的些知识,或者称 为语言本身的约定,习惯和规则,这是对文本进行分析的基础,进而也是信息提 取的基础;另一类就是和信息提取系统所处理的特定领域的有关,这一批主题相 关的文档必然在概念以及概念之间的关系上存在很多的共性特点,充分挖掘这些 共性的领域特点将有助于信息提取。本文中,我们把前一类知识称为语言本体知 识,把后面一类称为领域相关本体。其实,上述的知识工程方法就是在一定程度 上利用了领域相关本体,即利用了人的经验常识,但是没有上升到本体的高度, 一种e 十小体的牛t l 动化f 卉心摊墩方案 从而也就丧失了本体带来的另外一些优点。 考虑到以上因素,本文提出一种基于本体的半自动化信息提取方案。具体而 言,就是把语言本体和领域本体引入信息提取的系统的各个相关阶段,使语言本 体和领域相关的本体在相关的技术阶段发挥重要作用,从而使整个信息提取系统 能够更加全面、完整的提取特定信息,并且在最后信息的表达上更加趋向便于共 享和管理的知识层面。 本文详细设计了信息提取过程中本体构建,自然语言浅分析过程中的词性和 词形分析,标注体系,以及明明实体识别,信息提取的模板构造和识别等模块, 并给出了具体的实现算法。并在g a t e 框架下给出了原型系统的实现,对结果作 了细致的分析。 1 4 本文结构 本文共分为六个章节。 第一章。即本章,介绍了问题提出的背景知识和本文的研究范围,以及本文 提出的解决方法。 第二章对一些相关工作做了简单的介绍。其中2 1 节介绍了自然语言处理的 一项研究工作;2 2 介绍一项基于本体的研究工作:2 3 介绍了知识管理的相关研 究内容;2 4 节对本章进行了小结。 本文第三章对信息提取所涉及的基本技术以及本体的基本理论作了详尽的 介绍和分析,是整个方案的技术根基。3 1 节介绍了信息提取系统的若干基础问 题:3 2 节信息提取的过程当中设计的自然语言处理问题:3 3 节介绍了本体的结 构和几种表现形式,以及构建本体的基本步骤:3 4 节对本章进行了小结。 第四章介绍了基于本体的半自动化信息提取方案( o b s a i e ) 。4 1 介绍了方案 的目标;4 2 介绍了方案的流程设计:4 3 给出了方案的体系结构;4 4 介绍了方 案中的本体的组织;4 5 介绍了相关算法和数据结构:4 6 节对本章进行了小结。 接下来的第五章说明了方案的原型系统实现,5 1 小节介绍了本体的构建: 5 2 介绍了两个自然语言的处理模块:5 3 介绍了原型系统的组成和界面:5 4 对 系统进行了试验结果分析;5 5 对本章作了小结。 第六章对本文作了总结,并介绍了下一步的工作展望。 种基于奉体的半自动化信息提取方案 第二章相关工作 信息提取的研究一直都是受人们对发现确切信息的需求所驱动,从而和信息 提取系统所要处理的信息蕴藏形式有着密切的联系。在互联网大规模的普及之 前,信息提取的研究工作几乎全部集中在自由文本( f r e et e x t ) 的形式;而在互联 网上的信息爆炸性的增长以后,一部分的研究兴趣开始转移到了网上数据的提取 f w e bd a t ae x t r a c t i o n ) 。在这个过程当中,不同研究领域的人们也开始介入,带来 了很多新的方法和思路。尤其是本体研究和知识信息管理( k n o w l e d g e _ ,i n f o r m a t i o nm a a a g e m e n t ) 在近些年的兴起,人们开始把本体的概念引入信息提取 的领域,同时把信息提取系统看作整个知识管理的一部分,从而形成一个知识获 取,知识表现和知识共享的有机体。 本章从三个现存的系统入手,来具体探讨一些相关工作的研究。 2 1c r y s l i a l c r y s t a l 系统是美国马萨诸塞州大学为m u c 6 会议开发的一个试验系统。 该系统的主要工作是结合自然语言处理和机器学习的工作生成些提取规则,用 于在某个具体领域内,从文本文档中提取事先定义的概念【1 b 】。其中的具体领域 就是当年m u c 6 所规定的,是从华尔街日报中找出的有关公司管理层人事变更 的新闻事件。有待提取的信息则是人事变更的当事人,职位,以及所在公司机构 等。 2 1 1 提取规则 c r y s t a l 系统中把提取规则称之为“概念定义”,部分原因是因为m u c 一6 所要求提取的信息都是一些概念实体。本节中,我们把“提取规则”和“概念定 义”当作相同的概念。这些“概念定义”并不直接作用在源文本上,输入的文本 首先应该经过一个“分析器”,把每个句子转化为一个c r y s t a l 实体。c r y s t a l 实体其实就是句子经过句子成分的划分,变成了诸如s u b j e c t ,v e r b ,o b j e c t 等等的 短语。这样一来,所谓的“概念定义”也就是在这些语法成分上加上一些限制, 来判定哪些句子是符合规则的,哪些是不符合规则的。这些限制如表2 1 所示。 一种基于本休的半自动化信息提取方案 限制项子项或取值 t e l t l 2 sh e a dt e r m s m o d i f i e rt e r m s c l a s s e sh e a dc l a s s e s m o d i f i e rc l a s s e s r o o tn a m o d e ( a 伍r m a t i v e n e g a t i v e ) ( a c t i v e p a s s i v e ) 表2 - 1 语法成分上的限制项 t a b l e2 - 1c o n s t r a i n t so n s y n t a c t i cc o n s t i t u e n t s 表2 。1 中的限制项还可以组合应用。下图给出一个带有语义标注的英文句子 的示例。 i n p u ts e n 叮,o e : h e - u c e d gj 础h a r p e r a _ c z o m p a n tf o u n d e rw h o ” n s m e dc h a | n m a n c r y s t _ ll n a t a n o e : s u b j : t 盯r n gh e a 剐i ) : m o d e :耐f i r n m t l v e v e r b = k m 硪s u c c e i e d 6 r o o t :s u c c e e d m o d e8 商v e = n t w r r 心a o b j : t e r m s :j a c u a r p e r c o m m a ac o m 嗍yf o u n d e r c i a 目: , m o d e :9 f l ;r m a t | v e r e l - o b j : t 盯m g :w h ow a sn a m e dc h a 限m a n p e r i o d c l a s 日e s : 。 c w p 。旧协o f i k e m o d e :o f l i r m a 6 w 图2 - 1 语法分析和语义标注 f i g u r e2 - 1s y n t a c t i ca n a l y s i sa n d s e m a n t i c t a g g i n g 对于上面图2 - 1 中的句子,一个可能的“概念定义”如图2 2 所示 一种基于奉体的半自动化信息提取方案 c o n c e p tt y p e :s u c c e s s i o ne v e n t c o n s t r a ;n l :s : o b j : c l a s s e si n c l u d e : e x t r a c t :p e r s o n j n r e i - o b j : 1 旮m 5i n d u d e :w h on a m e d c l a s s e si n c l u d e : e x t r a c t :p d t l o n 2 1 2 训练算法 图2 - 2 关于句子的“概念定义” f i g u r e2 - 2c o n c e p t d e f i n i t i o nf o ras e n t e n c e c r y s t a l 系统的做法是通过一个训练集来让系统学会一些提取信息的模 板。对于训练集中的每个句子,在最初的时候都对应一个“概念定义”,然后通 过如下的“覆盖算法”来合并( c o m b i n a t i o n ) 和泛化( g e n e r a l i z a t i o n ) 这些规则,最 终生成适用于这个领域的“概念定义”集合。 算法: 1 ) 对任意句子s 训练集存在潜在规则t e m p 2 ) 最终的规则集合r u l e s = n u l l f o r ( 找一个未被r u l e s 的t e m p ) l o o p :t e m p = 与t e m p 最相似的“概念定义” i f ( t e m p _ n u l l ) e x i tl o o p ; 把t e m p 和t e m p 合并为u : 在训练集上测试u ; i f ( 错误率 = 阈值) e x i t l o o p ; t e m p 3 u : g o t o l o o p ; 把t e m p 加入规则集r u l e s 。 综上所述,c r y s t a l 系统立足自然语言处理和机器学习的结合,实现了一 套自动信息提取的原型,是一个很好的思路。但是由于1 ) 目前对于句子的语法分 析结果还未达到实际运用的水平;2 ) 在上述“覆盖算法”中,对如何确定“概念 定义”之间的相似性( b e 离) 以及如何给出“错误率”的闽值,都没有很好的解决 【1 8 ,7 】。所以,c r y s t a l 系统仍需进一步完善。 另外,c r y s t a l 系统为了对句子进行分析和标注,除了需要一般的语法信 息以外,还要根据相应的领域给出一套领域相关的概念关系,但这样的一套语义 一种基于本伴的半白动化信息提取方案 关系在这里仅仅作为一套符号系统来实现,既没有形式化的表达,又缺乏和外界 进行信息交换的机制。 2 2o n t o b r o k e r w w w 发展至今,己经成为资源最丰富的数据源。大量的信息分布其中,缺 乏一种有效的查询回答的能力以及自动推理的能力 1 9 ,2 0 ,2 l ,2 2 。尤其是前面一 种能力的欠缺,使得如何从w e b 网页( h t m l 页面) 上进行信息提取称为非常流行 的研究课题。人们提出元数据( m e t a d a t a ) 平d 领域相关本体来解决这个问题。 o n t o b r o k e r 系统就是利用本体在w w w 上进行提取,推理,并且生成关于w w w 的元数据,从而来提取信息。这里的元数据用w 3 c 提出的资源描述框架 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 2 7 来描述。 2 2 1 目标和体系结构 o n t o b r o k e r 系统要处理的信息源是w e b 页面,其目标是要从中提取有关一个 特定领域的知识,事实或者信息,方便人们从巨大的w w w 中获取有价值的数 据。整个系统的体系结构如图2 3 所示: q 岫碍l 誉m 舭 f 脚n 恒i i 。n 耋l 】* 辨 圃甸 i m 眦缸洒l b 岵u a 鐾;。 图2 - 3o n t o b r o k e r 系统体系结构 f i g u r e2 - 3t h e a r c h i t e c t u r eo fo n t o b r o k e r 从图2 3 中,我们可以看出,整个系统围绕f a c t s 这样一个领域相关的知识 库为中心,它的前端提供了两个服务:一个为用户查询服务的,通过推理引擎的 作用,直接反馈给用户以相应的知识:另一个提供对知识库的r d f 描述,以计 固 墨 甲 种鼎于率体昀芈自动化信息提取方案 算枧可以联孵的方式实现不同系统之阈的信息共享。它的后端楚一个信息的收集 嚣( o n t o c r a w l e r ) ,它负爨从两个类爨瀚w e b 页嚣中投集信惠:一黉是其有穗戳瞧 的、结构化的页面,可以利用w r a p p e r 技术来实现:另一类是形式自由,不鼠有 相似性的贝面,这类页筒应该是事先标注好了的( 标注的形式下一个小节探讨) 。 最层,我钠骞一令特定领域鳃本俸为蘧蓊帮磊璇鬣供鹜最霰谈。 2 2 2o n t o 标签 主瑟我们疆至l ,o n t o b r o k e r 系绞中的信意羧繁器要疆取豹一耱页西是不凝有 相似性的w e b 页。系统对这样的网页提出了这样的一个要求和假设:人们在发 布这些页筒的时候,手工对它们进行丁除h t m l 语法以外的然标注。我们把这 些据注瘊馊惩敬标签豫必o n t o 瘸瞧( o n t oa t t r i b u t e ) 。它键在h t m l 文佟中存稳, 并且指出它所标注的那部分内容的谮义信息。 例如,我们在一个网页中这样写: i 匝三习匡型匝堕习i 图2 - 5s e s a m e 的体系结构 f i g u r e2 - 5s e s a m e s a r c h i t e c t u r e 图2 5 给出了s e s a m e 的体系结构。它是一个基于w e b 的架构,为客户端提 供了h t t p 协议和s o a p 协议的访问接i = 1 。尤其值得一提的是构建在r e p o s i t o r y 之上的r e p o s i t o r y a b s t r a c t i o nl a y e r ,可以有多个这样的层叠加而成,从而实现了 上层功能模块( a d m i n ,q u e r y , e x p o a ) 对底层访问的透明性。 此外,e x p o r t 模块可以把r e p o s i t o r y 中的数据以r d f 的格式输出,使得所有 能够处理r d f 的应用程序之间可以方便的交换数据。 一种基于奉体的半白动化信息提取方案 2 4 本章小节 本章通过对三个系统的介绍,探讨了信息提取的基本形式和方法,并且介绍 了以信息提取为基础的知识管理的系统架构。其中,c r y s t a l 是对非结构化文 本的信息提取的有益参考;o n t o b r o k e r 则针对w w w 上信息的提取作了尝试; o n t o k n o w l e d g e 则在包括本体应用,文本信息提取,知识表现和查询等在内的 诸多领域进行了探讨。 一种鲢于率体的半自动化信息提取力案 第三章信息提取和本体的基本理论 信息提取系统作为信息处理系统的一种,是一项复杂的系统工程。有关它的 研究是与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化 技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支,需 要以大量的语言知识、背景知识为依据,对语言信息的人脑处理过程进行模拟 1 3 。“信息”是指能通过视觉、听觉等器官或仪器获取,并有一定交际功能的 东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息 进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输 7 。 我们在这一章主要探讨和语言文字信息的提耿相关的一些理论基础,包括信 息提取的典型流程,自然语言处理和本体理论三个方面,下面分别介绍。 3 1 信息提取 信息提取的过程可以分为顺序的多个步骤,虽然每个信息提取系统在功能表 现、提取手段等方面各有不同,但在基本的流程设计和模块功能方面都遵循基本 一致的架构 9 】,比如词法( l e x i c a l ) 、词形( m o r p h o l o g i c a l ) 拘处理,专有名词的识 别,语法( s y n t a c t i c a l ) 成分的识别,互指分析,以及最终和领域相关的概念和关 系的识别等等功能,是一般的信息提取通常要考虑的步骤。图3 - 1 给出了一个大 致的信息提取系统的框架。 由于语言本身的复杂性,以及特定的系统有特定的要求,在设计每个具体的 信息系统的时候,可能对图3 - 1 中的模块有所增减。影响我们设计的主要因素有: 文本的语言:比如一些语言文字需要分词切词( 中文、同文等) ,而英语 就不需要。本文中考虑英文文本信息。 文本的特性:文本是否事先分过类,是否是一组主题相关的文档:文章 是否特别长:这样的情况可能要做文档分类和信息检索,在信息提取之 前来锁定目标文档。 文本的类型:正式文档,还是非正式文档;由于非正式文档中可能含有 不规则的大小写,以及拼写错误等,需要特殊处理。 信息提取的任务:正如我们前问在介绍m u c 的时候提到,不同的提取 种基于本体的半白动化信息提取方案 任务需要不同的对待。例如概念关系的提取就相对复杂。 本小节将对图3 - 1 中的典型模块一一作介绍,最后比较信息提取和自然语言 理解之问的异同。 l符号分析 l( t o k e n i z a t i o n ) 1 i词法分析 l ( l 。x i 。8 lp r o c e s s i n g ) , 语法分析 ( s y n t a c t i c a l a n a l y s is ) , l 。脚。黜凼, i 图3 - 1 信息提取的技术架构 f i g u r e 3 - it e c h n i c a la r c h i t e c t u r eo f i n f o r m a t i o ne x t r a c t i o n 3 1 1 模块介绍 由于我们考虑的文献以英文存在,这里不再介绍分词的处理阶段,直接就到 了句子的划分。这是一部相对容易的工作,只需要给定一个断旬的符号集合,在 遍历文本的时候就可以轻松做到。下面的工作主要是研究一个句子内部的处理过 程。 对一个成功分离的句子,我们首先要做的是对其中的每一个词作词陆( p a r t o f s p e e c h ) 标注。历史上曾经先后出现过两个方法迥异的英语词性标注系统 7 : t a g g i t 系统拥有3 0 0 0 条上下文相关规则,而c l a w s 系统完全采用概率统计 方法。两个系统各自完成了1 0 0 万词次的英语语料库的自动词性标注任务。评测 结果表明,采用概率统计方法的c l a w s 系统的标注精度达到9 6 ,比t a g g i t 2 0 一一一一一 一种捧于奉作的半自动化信息提取方巢 系统提高了近2 0 个百分点。经过改进的c l a w s 系统日后承担了英国国家语料 库b n c - - 4 l 条英语词的词性标注任务。有关具体的算法,文章在第四章方案设 计中详细给出。 词法分析的另外一个重要组成部分就是一些命名实体( n a m e de n t i t i e s ) f t l 专 有名词的识别。这些名词( 词组) 往往是文本信息提取的重点内容,例如公司, 人名,地名,产品等等。它们一般具有如下特点: 类别构成特别大,比如公司名字,全世界有几十万家公司; 一些新的实体不断产生: 这些实体的命名没有约定的法则; 对于这些命名实体的识别,目前有两种流行的方法:一是基于规则的,另外 一个是基于隐马尔可夫模型( h m m ,h i d d e nm a r k o vm o d e l ) 的方法【3 1 】。隐马 尔可夫模型是由马尔可夫过程扩充而来的一种随机模型,它的基本理论是由数学 家b a u m 及其同事在6 0 年代末到7 0 年代初建立起来的,7 0 年代的中后期应用 于语音处理。应用于文本处理则是8 0 年代后期以来的事。 基于规则的识别方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论