(模式识别与智能系统专业论文)汉蒙统计机器翻译中的形态学方法研究.pdf_第1页
(模式识别与智能系统专业论文)汉蒙统计机器翻译中的形态学方法研究.pdf_第2页
(模式识别与智能系统专业论文)汉蒙统计机器翻译中的形态学方法研究.pdf_第3页
(模式识别与智能系统专业论文)汉蒙统计机器翻译中的形态学方法研究.pdf_第4页
(模式识别与智能系统专业论文)汉蒙统计机器翻译中的形态学方法研究.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 基于短语的统计机器翻译是机器翻译研究的一个热点。当前汉英等语言间 的统计机器翻译研究条件不仅双语平行语料库规模充足,而且相关语言的词法、 句法分析等方面的基础性研究也十分成熟,这就为其研究提供了一个良好的平 厶 口。 但是,以上条件对于汉蒙统计机器翻译还很匮乏。这方面研究的困难主要 有两点:第一,蒙古语信息化建设相对于汉语来说比较滞后,不仅平行语料库 建设规模较小,而且词法及句法分析方面的基础性研究还正在跟进,这很大程 度限制了汉蒙统计机器翻译的发展;第二,由于蒙古语属于黏着语,形态变化 极为丰富,与作为孤立语的汉语形式相差甚远,因此汉蒙统计机器翻译存在的 问题较多,尤其表现在译文词形错误及语序混乱这两个方面。 本文以汉蒙统计机器翻译为研究对象。针对蒙古语形态变化丰富这一特点, 将形态因子引入到汉蒙统计机器翻译中,通过因子化模型充分利用了蒙古语的 形态信息;针对汉蒙平行语料库规模较小这一问题,将基于词典的词对齐方法 产生的词对齐点融合到i b m 词对齐模型中,并利用蒙古语的词干形态知识提高 基于词典方法的汉蒙词对齐质量,再利用融合后的词对齐点训练短语翻译模型, 进而用于基于短语的汉蒙统计机器翻译,最终提高译文质量。 在统计机器翻译中,翻译模型是唯一不可取代的模型,其重要性不言而喻。 针对训练过程造成的短语翻译模型中短语翻译对冗余问题,本文设计并实现了 一种通用的基于统计方法的短语翻译模型过滤器,这种过滤器可以根据不同的 统计方法对翻译模型进行降噪,在有效降低短语翻译模型规模的同时对统计机 器翻译译文的质量影响甚微。 关于本研究所提的每部分都有相关对比实验,通过这些对比实验来验证本 文所提方法的有效性,同时也探讨了一些方法继续深入研究的可能性。 关键词:统计机器翻译;因子化模型;词对齐融合;翻译模型过滤 a b s t r a c t a b s t r a c t p h r a s e 。b a s e ds t a t i s t i c a lm a c h i n et r a n s l a t i o ni sah o t s p o ti nm a c h i n et r a n s l a t i o n r e s e a r c h c u r r e n t l y ,s u c ha st h ec o n d i t i o n so f t h ec h i n e s e e n g l i s hs t a t i s t i c a lm a c h i n e t r a n s l a t i o na r en o to n l yt h es i z eo ft h eb i l i n g u a lp a r a l l e lc o r p o r ai sa d e q u a t e ,b u ta l s o t h em o r p h o l o g i c a la n a l y s i sa n ds y n t a c t i ca n a l y s i so ft h eb a s i cr e s e a r c hi sa l s ov e r y m a t u r e s ot h a tt h e s ec o n d i t i o n sp r o v i d ea g o o dp l a t f o r mf o rt h e i rr e s e a r c h h o w e v e r , t h ea b o v ec o n d i t i o n sf o rc h i n e s e m o n g o l i a ns t a t i s t i c a lm a c h i n e t r a n s l a t i o na r es t i l ls c a r c e t h e r ea r et w om a j o rd i f f i c u l t i e si nt h i sa r e a :f i r s t l y ,t h e m o n g o l i a ni n f o r m a t i o nc o n s t r u c t i o ni sb a c k w a r dr e l a t i v et oc h i n e s e ,n o to n l yt h e s i z eo ft h ep a r a l l e l c o r p o r ai ss m a l l e r ,b u ta l s ot h em o r p h o l o g i c a la n a l y s i sa n d s y n t a c t i ca n a l y s i s o ft h eb a s i cr e s e a r c hi sa l s oaf o l l o w - u p ,t h i sl i m i t st h e d e v e l o p m e n to ft h ec h i n e s e - m o n g o l i a ns t a t i s t i c a lm a c h i n et r a n s l a t i o n ;s e c o n d l y , m o n g o l i a nb e l o n g s t o a g g l u t i n a t i v el a n g u a g e ,w h i c hh a se x t r e m e l y r i c h m o r p h o l o g i c a lc h a n g e s ,a n di ti sv e r yd i f f e r e n tf r o mt h ec h i n e s et h a ti st h ei s o l a t i n g l a n g u a g e s ot h e r ea r em a n yp r o b l e m si nc h i n e s e m o n g o l i a ns t a t i s t i c a lm a c h i n e t r a n s l a t i o n i np a r t i c u l a r ,t h ee r r o ro fw o r ds l 疵a c ef o r m sa n dt h ec o n f u s i o no fw o r d o r d e r si nt h eo u t p u ts e n t e n c e sa r eo u t s t a n d i n g i nt h i s t h e s i s ,t h er e s e a r c ho b j e c t i s c h i n e s e m o n g o l i a ns t a t i s t i c h lm a c h i n e t r a n s l a t i o n a c c o r d i n gt ot h ef e a t u r eo ft h em o n g o l i a nw h i c hh a sr i c hm o r p h o l o g i c a l c h a n g e s ,t h em o r p h o l o g i c a lf a c t o r s a r ei n t r o d u c e di n t ot h ec h i n e s e - m o n g o l i a n s t a t i s t i c a lm a c h i n et r a n s l a t i o na n dt h em o n g o l i a nm o r p h o l o g i c a li n f o r m a t i o na r ef u l l u s e dt h r o u g hf a c t o r e d m o d e l s ;a c c o r d i n gt o t h ep r o b l e mt h a tt h es i z eo f c h i n e s e m o n g o l i a np a r a l l e lc o r p u si sv e r ys m a l l e r , t h ew o r da l i g n m e n tp o i n t sb a s e d o nt h ed i c t i o n a r ym e t h o da r em e r g e di n t ot h ei b mw o r da l i g n m e n tm o d e l ,a n d m o r p h o l o g i c a lk n o w l e d g eo ft h es t e ma r eu s e dt oi m p r o v et h ew o r da l i g n m e n t q u a l i t yb a s e do nt h ed i c t i o n a r ym e t h o d t h e nt h em e r g e dw o r da l i g n m e n tp o i n t sa r e u s e dt ot r a i nt h ep h r a s et r a n s l a t i o nm o d e lf o rt h ep h r a s e b a s e dc h i n e s e m o n g o l i a n s t a t i s t i c a lm a c h i n et r a n s l a t i o na n df i n a l l yt h eq u a l i t yo f t h et r a n s l a t i o ni si m p r o v e d i ns t a t i s t i c a lm a c h i n et r a n s l a t i o n ,t h et r a n s l a t i o nm o d e li st h eo n l yi r r e p l a c e a b l e m o d e l ,a n di t si m p o r t a n c ei ss e l f - e v i d e n t a c c o r d i n gt ot h er e d u n d a n c yp r o b l e mo f t h et r a n s l a t i o np h r a s ep a i r sw h i c hg e n e r a t ei nt h et r a i n i n gp r o c e s so ft h ep h r a s e t r a n s l a t i o nm o d e l ,t h i st h e s i sd e s i g n sa n di m p l e m e n t sag e n e r a lp h r a s et r a n s l a t i o n a b s t r a c t m o d e lf i l t e rb a s e do ns t a t i s t i c a lm e t h o d s t h ef i l t e rc a l lr e d u c et h em o d e ln o i s e s b a s e do nd i f f e r e n ts t a t i s t i c a lm e t h o d sa n dt h es i z eo ft h ep h r a s et r a n s l a t i o nm o d e l i s e f f e c t i v e l yr e d u c e d ,a tt h es a m et i m ei th a sl i t t l ei m p a c to nt h eq u a l i t yo ft h e t r a n s l a t i o n sf o rt h es t a t i s t i c a lm a c h i n et r a n s l a t i o n e v e r yr e s e a r c hp a r tm e n t i o n e dh a ss o m er e l a t e de x p e r i m e n t s ,w h i c ha r eu s e dt o v a l i d a t et h ee f f e c t i v e n e s so ft h ep r o p o s e dm e t h o d si nt 1 1 i st h e s i s a tt h es a m et i m e w ea l s od i s c u s st h ep o s s i b i l i t yo fs o m em e t h o d st oc o n t i n u ei n d e p t hs t u d y k e yw o r d s :s t a t i s t i c a lm a c h i n et r a n s l a t i o n ;f a c t o r e dm o d e l ;w o r da l i g n m e n t m e r g e n c e ;t r a n s l a t i o nm o d e lf i l t e r 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。 作者签名: 婵醐:迹牲斟 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 作者签名: 签字日期: r t f f c 密( 年) 攘莽 弘岫 导师签名: 签字日期:叟i ;主! ! ! l 第一章绪论 第1 章绪论 1 1 自然语言处理概述 采用计算机技术来研究和处理自然语言是2 0 世纪4 0 年代末期和5 0 年代才 开始的,6 0 余年来,这项研究取得了长足的进展,成为了当代语言学中一门重 要的新兴学科自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,简称n l p ) 。自然 语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题 的- - f 学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框 架来实现这样的语言模型,提出相应的方法不断地加以完善,根据模型设计各种 实用系统,并探讨这些实用系统的评测技术( 冯志伟,2 0 0 5 ) 。 自然语言处理是计算机科学、语言学、心理学、认知科学和数学等多学科交 叉而成长起来的一门边缘学科,常常又被称为计算语言学( c o m p u t a t i o n a l l i n g u i s t i c s ) 。由于自然语言处理的研究和处理对象是人类自然形成的极其复杂的 语言现象,所以极具艰巨性,事实上,自4 0 年代产生以来,这门学科经历了十 分曲折的发展历程。 自然语言处理有两种基本的研究方法:理性主义( r a t i o n a l i s m ) 研究方法和经 验主义( e m p i r i c i s m ) 研究方法( 翁富良,1 9 9 8 ) 。 理性主义研究方法认为,人的很大一部分语言知识是与生俱来的,由遗传决 定。由于c h o m s k y 的内在语言官能理论被广泛地接受,理性主义研究方法从2 0 世纪6 0 年代到8 0 年代中期主宰了自然语言处理以及语言学和心理学的研究。在 实际的自然语言处理中,理性主义的观点表现为通过人工编写知识库和推理系统 来创建一个自然语言处理系统,即通常将自然语言用一套符号系统来表达和分 析。由于用于自然语言处理的符号系统通常表现为规则的方式,因此理性主义研 究方法在自然语言处理中又常常称为基于规则的方法限u l e b a s e dm e t h o d ) 。 经验主义研究方法与理性主义研究方法正好相反,它认为人的知识只是通过 感官输入,经过一些简单的联想( a s s o c i a t i o n ) 和通用化( g e n e r a l i z a t i o n ) 操作而得到 的。人并非与生具有一套有关语言的规则和处理方法。在实际的自然语言处理中, 经验主义的研究方法通常表现为从大量的实际语言数据中获取语言的知识。由于 大量的语言数据常常以语料库( c o r p u s ) 的形式存在,因此经验主义研究方法在自 然语言处理中又常常称为基于语料库的方法( c o r p u s b a s e dm e t h o d ) 。经验主义的 研究方法从2 0 世纪2 0 年代到5 0 年代主宰了语言学、心理学以及自然语言处理 的研究,并在8 0 年代中期以后重新受到了重视。 理性主义研究方法与经验主义研究方法的主要区别在于以下几点: 第一章绪论 第一,理性主义主要研究人的语言知识结构,实际的语言数据只提供了这 种知识结构的间接证据。而经验主义将实际的语言数据作为直接研 究的对象。 第二,理性主义通过一系列语言原则来描述语言,满足这些原则的语句才 是合法的。而在经验主义中,语言事件被赋予了概率,并无合法不 合法之说,只有常见不常见之分, 第三,理性主义是通过研究特殊的语言现象来得到关于人的语言能力的认 识,而这些语言现象在实际的应用中并不一定很常见。经验主义则 偏重于语言语料中实际应用的语言现象的表述。 理性主义方法和经验主义方法各有优缺点,表现在自然语言处理中,可以简 单地概括为:理性主义方法表达直观、深刻,易理解,概括性好,但一致性和健 壮性差;经验主义方法反映客观,一致性和健壮性好,但表达肤浅,不易理解, 并且需要大量的语言数据。 由于理性主义方法和经验主义方法可以互相取长补短,所以将理性主义和经 验主义相结合成了当前自然语言处理中的一种研究趋势,具体表现为,许多研究 开始着重于从大规模语料库中抽取语言知识的规律,然后利用这些规律来指导自 然语言处理的过程( 邓丹,2 0 0 4 ) 。 自然语言处理的层次从低级到高级可以划分为七个( 朱巧明,2 0 0 5 ) : 语音层次 词形层次 词汇层次 句法层次 语义层次- 语用层次 语境层次 随着计算机技术的发展,目前的计算机软硬件技术已经为自然语言处理提供 了良好的计算平台。互联网的广泛应用,网上信息的大量涌现,对自然语言处理 技术提出了更多需求和挑战,同时也为自然语言处理技术的研究提供了丰富的资 源。 除了早期就开始的机器翻译( m a c h i n et r a n s l a t i o n ) 和信息检索( i n f o r m a t i o n r e t r i e v a l ) 等应用研究进一步得到发展之外,自然语言处理目前在信息抽取 ( i n f o r m a t i o ne x t r a c t i o n ) 、问答系统( q u e s t i o na n s w e r i n gs y s t e m ) 、自动文摘 ( t e x ts u m m a r i z a t i o n ) 、术语的自动抽取和标引( t e r me x t r a c t i o na n da u t o m a t i c i n d e x i n g ) 、文本数据挖掘( t e x td a t am i n i n g ) 、自然语言接1 5 1 ( n a t u r a ll a n g u a g e 2 第一章绪论 i n t e r a c t i o n ) ,计算机辅助语言教学( c o m p m e r a s s i s t e dl a n g u a g el e a r n i n g ) 等新 兴的应用领域研究中都有了长足的进展,并且在语音合成( s p e e c hs y n t h e s i s ) 、 语音识别( s p e e c hr e c o g n i t i o n ) 、文字识别( c h a r a c t e rr e c o g n i t i o n ) 、拼写检查 ( s p e l l i n gc h e c k ) 、语法检查( g r a m m a rc h e c k ) 这些应用领域进行了商品化的 开发。自然语言处理又恢复了它应有的勃勃生机。 1 2 机器翻译简介 机器翻译( 简称m t ) 是利用计算机把一种自然语言转变成另一种自然语言 的过程,属于自然语言处理和计算语言学的范畴。简单来说,机器翻译是透过将 一个自然语言的字词取代成另一个语言的字词,用以完成这一过程的软件叫做机 器翻译系统。机器翻译可划分为基于规则的和基于语料库的两大类:前者由词典 和规则库构成知识源:后者由经过划分并具有标注的语料库构成知识源,既不需 要词典也不需要规则,以统计规律为主。 机器翻译的研究是建立在语言学、数学和计算机科学这3 门学科的基础之上 的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家 提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设 备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效 果的好坏,也完全取决于这3 个方面的共同努力。 机器翻译的研究与现代数字计算机的历史几乎同样古老。1 9 4 6 年美国宾夕 法尼亚大学的j p e c k e r t 和j w m a u c h l y 设计并制造出了世界上第一台电子计 算机e n i a c ,电子计算机惊人的运算速度,启示着人们考虑传统翻译技术的革 新问题。为了探索如何用计算机来改进翻译技术,1 9 5 2 年在美国的m i t 召开了 第一次机器翻译会议,1 9 5 4 年美国乔治敦大学在国际商用机器公司( i b m 公司) 的协助下,用i b m 7 0 1 计算机,进行了世界上第一次机器翻译试验,把几个简 单的俄语句子翻译成英语,拉开了人类历史上使用计算机来处理自然语言的序 幕。接着,苏联、英国、日本和中国相继进行了机器翻译试验,机器翻译研究出 现热潮( 冯志伟,2 0 0 9 ) 。虽然1 9 6 6 年a l p a c 报告( a l p a c 是a u t o m a t i cl a n g u a g e p r o c e s s i n ga d v i s o r yc o m m i t t e e 语言自动处理咨询委员会的缩写,这个机构是美 国科学院1 9 6 4 年4 月成立的) 发表后,机器翻译的研究进入了一个低谷时期。 但是,随着互联网越来越广泛的使用,语言障碍更成为限制信息化程度提高的主 要因素之一。在这种环境下,机器翻译又一次成为众多学者的研究热点,并由于 其巨大的市场潜力而受到越来越多的关注。 2 0 世纪9 0 年代以前,机器翻译的主流方法一直是基于规则的方法,也称为 传统的机器翻译方法。基于规则的机器翻译瓜u l e b a s e dm a c h i n et r a n s l a t i o n ) 技术 3 第一章绪论 比较成熟,也是目前商业应用最广的方法。基于规则的机器翻译系统的基本过程 是:通过对语言现象的综合和认识,不断总结其规律,形成自己的语法语义规则 体系,包括单语的分析规则和双语转换规则。系统利用这些规则来分析输入的语 言,形成一种内部表示。建造一个实用的基于规则的机器翻译系统,往往需要建 立各类知识库,描述源语言和目标语言的词法、句法以及语义知识,甚至还需描 述和语言知识无关的世界知识。然而,这些知识库的描述和建立是极其困难的: 首先,知识库必须由许多专家创建和维护;此外,随着知识库的规模不断扩大, 如何保证新引入的知识不与旧知识相互矛盾也成为难题。因此,知识获取成为传 统的机器翻译方法的瓶颈。 2 0 世纪8 0 年代中后期,一些研究人员提出基于语料库的机器翻译方法。与 传统方法不同的是,基于语料库的方法不对语言进行深层次分析,而是大规模收 集互为译文的双语语料并基于这些语料进行翻译。基于语料库的方法有两个分 枝:基于实例的机器翻译方法和基于统计的机器翻译方法,前者认为可以通过在 双语语料库中查找最为相似的翻译实例的方法来获得语言的翻译;后者主张对翻 译过程建立数学模型,利用双语语料库估计模型参数,进而根据模型及经过估计 的参数执行翻译( 强静,2 0 0 8 ) 。 基于实例的机器翻译( e x a m p l e b a s e dm a c h i n et r a n s l a t i o n ) l 拘基本思想是由日 本著名机器翻译专家长尾真( 1 9 8 4 ) 提出的。该方法实际上是模拟了人类翻译的 过程:人类不通过做深层语言学分析翻译句子,而是首先正确分解输入句子,分 解成短语碎片,接着,把这些短语碎片译成其他语言短语,最后把这些短语合并 成长句。每个短语碎片采用类比的原则进行翻译。它的优点有:容易产生高质量 的译文,一旦输入能和实例精确匹配,译文的质量是基于规则的方法所不能比的; 可以避免深层次语言学分析;系统维护容易,系统中知识以翻译实例和语义词典 等形式存在,可以很容易的利用增加实例和词汇的方式扩充系统。但是这种方法 覆盖率低,实用的系统需要的语料库规模极大。 基于统计的机器翻译方法( s t a t i s t i c a l b a s e dm a c h i n et r a n s l a t i o n ) 最早是由 i b m 的p b r o w ne ta l ( 1 9 9 0 ) 提出的。他们受到语音识别研究的启发,应用了类 似的方法。以大规模双语语料库为基础,其翻译模型、语言模型参数的准确性直 接依赖于语料的多少,翻译质量主要取决于概率模型的好坏和语料库的覆盖能 力。基于统计的方法不需要大量知识的依赖,直接依靠统计结果进行歧义消解处 理和译文的选择,避开了语言理解的诸多难题。统计机器翻译方法由于其自身许 多优点,越来越受到人们的重视,是当前机器翻译乃至自然语言处理领域的研究 热点。从近几年国际机器翻译评测的成绩来看,统计机器翻译系统的翻译水平已 经明显超过基于规则和基于实例的机器翻译系统,成为机器翻译的主流技术。 4 第一章绪论 1 3 汉蒙机器翻译的问题与思考 全国约有6 0 0 万左右的蒙古族人口,有八省区都在使用蒙古语。随着汉蒙民 族之间信息交流的快速发展,有大量的双语之间的翻译需求,因此研究汉蒙机器 翻译具有重要的意义。 在蒙古语的机器翻译研究方面研究者们做了很多有意义的探索,目前如内蒙 古大学蒙古学学院和中科院计算所合作的采用基于实例方法实现的汉蒙机器翻 译系统( 侯宏旭等,2 0 0 7 ) ,中科院合肥智能所智能农业实验室与内蒙古大学蒙 古学学院合作开发的基于短语的汉蒙统计机器翻译系统p a n g u 也投入实际应用 ( 罗毅,2 0 0 7 ) 。 但是,与如火如荼的汉英机器翻译等研究工作相比,汉蒙机器翻译目前所面 临的困难极大。以下我们针对比较有代表性的汉蒙统计机器翻译,总结了急需解 决的三个问题。 第一、汉蒙统计机器翻译急需大规模语料库的支持: 统计机器翻译是语料库驱动的机器翻译研究方法,因此,语料库规模与统计 机器翻译的研究息息相关。 m m 在提出统计机器翻译方法的时候,拥有百万句对级别的h a n s a r d 语料库, 但由于当时计算机性能有限,实际用于训练翻译模型的双语平行语料库超过1 1 万法英句对,用于训练n g r a m 语言模型单语语料库规模约5 7 万条英语句子。当 前,完全免费开放的欧洲议会平行语料库所提供的每一个语言对间的语料库都已 达到百万句对级别。由美国国家标准和技术研究所组织的每年一届的n i s t 机器 翻译评测,参评单位所用到汉英语料库已是百万,千万句对级别。更有甚者, g o o g l e 提供给语言数据联盟( l i n g u i s t i cd a t ac o n s o r t i u m ,简称l d c ) 供研究者 使用的n g r a m 语言模型的规模约包含1 万亿个单词,规模以t 记。这些语言间 的语料库规模对于统计研究者来说是充分的,因此他们可以将研究的重点关注在 方法论上。 而与之相比,目前可采用的汉蒙语料库资源还极为有限。内蒙古大学蒙古学 学院经过近5 年的努力,建立了约8 万旬对的汉蒙平行语料库,包括日常用语语 料、小说语料、政府文献语料和混合语料四种类型( 雪艳,2 0 0 9 ) 。表1 1 是其 汉蒙平行语料库的具体统计数据。 内蒙古大学所建立的汉蒙平行语料库是目前汉民( 汉语少数民族语言) 平 行语料库中规模最大的,但与以上所述的汉英及欧洲语言间的语料库规模相比, 可谓小巫见大巫。事实上,作为内蒙古大学蒙古学学院的合作单位,我们目前用 于统计机器翻译的汉蒙平行语料库仅为3 万8 千句对,这样的规模对于汉蒙统计 机器翻译的研究影响很大,结合我们近三年的研究经验,可以总结为如下三点: 5 第一幸绪论 1 、语料库规模较小,以其为基础训练的翻译模型和语言模型所面临的数据稀释 问题非常严重;2 、语料库规模较小,所覆盖的领域词汇有限,翻译过程中会遇 到更多的未登录词问题,尤其是领域以外未登录词更是常见;3 、语料库规模较 小,研究方法对于语料库中所存在的错误问题更加敏感,使得一些研究尝试很难 达到理论上的效果。因此,我们迫切需要更大规模的汉蒙平行语料库以及更好的 共享平台和共享机制。 表1 1 汉蒙平行语料库的类型和规模 语料类型 规模( 汉蒙句对数) 混合语料 3 ,5 1 4 日常用语 4 3 ,2 6 8 小说语料 3 l ,3 4 9 政府文献语料4 ,6 7 1 共计 8 2 ,8 0 2 第二、汉蒙统计机器翻译中引入形态分析方法的必要性: 早在i b m 研究者提出统计机器翻译方法的时候,其实验里对法语单词( 如 v a ,v a i s ,v o n 0 和英语单词( 如t a l l ,t a l l e r , t a l l e s 0 都独立作为一个单词处理,但是他 们敏锐的指出了分析这些词之间的联系对于统计机器翻译很有必要,这应该是统 计机器翻译中最早考虑引入形态学方法的思考。经过二十余年的发展,尤其针对 德语、捷克语、土耳其语及芬兰语等形态变化丰富的欧洲语言的统计机器翻译, 学者们提出了很多融合词汇形态学知识的机器翻译方法。 这些研究方法对于汉蒙统计机器翻译研究的启示又是什么? 汉语和蒙古语的差异极大,汉语属于孤立语,构词主要通过语素的合成来实 现,在构形方面被认为“基本上没有形态变化”,从句子的基本语序看,属于主谓 宾( s v o ) 型语言。而蒙古语属于黏着语,形态变化非常丰富且复杂,在构词和构 形上与汉语有很大的不同。蒙古语以在词干之后附加构词词缀为派生新词的主要 手段,以在词干之后附加构形词缀为构形的主要手段,一个词干之后可以层层缀 接不同的构形词缀构成不同的词形,从句子的基本语序看,属于主宾i 胃( s o v ) 型 语言( 杨攀等,2 0 0 9 ) 。 汉蒙语言间的这种差异造成了汉蒙统计机器翻译译文在词形变化方面产生 的错误比较明显和突出,即在某一个上下文中会出现不恰当的词形。例如,在不 考虑蒙古语构形词缀信息的情况下,统计机器翻译结果中会出现如下错误: b i ( 我) m a r g a s i ( 明天) b e i n g d u ( 北京) 0 c i b a ( 去了) 。 0 c i b a ( 去了) 这个动词是由词干0 c i ( 去) 和陈述式过去时构形词缀b a 构成的,发生这类词形变化的动词,只能出现在表示过去时的上下文中,而这显 6 第一章绪论 然与该句中出现的表示将来的时间词m a r g a s i ( 明天) 是冲突的。 总结来看,词形变化引起的错误主要集中表现在以下两点: ( 1 ) 蒙古语动词( 除了一些没有词形变化的特殊动词,如a l a ga ,b v i ) 在句子环境中都会发生词形变化,以表现式、态、体等的信息,而统计机器翻译 结果并不总能正确表现蒙古语动词的形态变化。 ( 2 ) 蒙古语译文中体词变形的错误,如格附加成分的缺乏、冗余以及名词 复数形式无变形等。 从蒙古语形态分析角度看,词干和构形词缀是引起词形变化的两个重要元 素。因此,研究将形态信息应用于汉蒙统计机器翻译中的方法,对解决因蒙古语 词形变化引起的译文错误以及由语料库规模限制所带来的数据稀疏等问题具有 理论研究与实际应用的意义。 但是,要在汉蒙统计机器翻译中引入词汇形态学知识,首先必须对双语进行 词法( i 百- - j 汇形态) 分析。目前汉语的词法分析经历了多年的发展比较成熟,真正 的瓶颈仍是蒙古语的词法分析问题。以我们手头的3 万8 千句对经过词法分析的 汉蒙平行语料库为例,这个语料库首先利用基于规则方法的蒙古语词法分析器的 初步自动分析,准确率在7 0 多,之后主要依靠内蒙古大学蒙古学学院人工不断 的校正,可以说这个语料库凝聚了内大蒙古学学院很大的心血。我们很佩服内蒙 古大学蒙古学学院在语料库建设及蒙古语信息化处理方面所做的基础性工作,但 是也发现,当前如英语,汉语等自动词法分析,不仅方法多样,而且准确率达都 在9 0 以上,这样就节省了很大的人力成本进行人工校正。词法分析作为自然 语言处理的一个基础性研究工作,对于自然语言处理其他应用的发展起着举足轻 重的作用,因而蒙古语词法分析需要更多研究人员投入其中,并尝试更多的方法 以提高其词法分析准确率,这也不仅仅是汉蒙统计机器翻译需要解决的闯题,更 是蒙古语信息化建设和自然语言处理研究的桥头堡,任重而道远。 第三、汉蒙统计机器翻译中引入句法知识的探讨。 形态学分析是词法层面的问题,而事实上统计机器翻译目前的趋势是引入相 应语言的句法层面的知识。在2 0 0 6 年的n i s t 机器翻译评测中,南加州大学信 息科学研究所的基于句法的翻译模型系统在封闭测试中超越g o o g l e 的基于短语 的统计机器翻译系统,标志着基于句法翻译模型的机器翻译与基于短语的机器翻 译分庭抗礼的时代已来临。目前,在基于短语的机器翻译方法只能单纯依赖大规 模语料库来提高机器翻译译文质量的情况下,基于句法的机器翻译方法越来越受 到学者们的追捧,是当前统计机器翻译研究的一大热点。 然而,这一研究热点对于汉蒙统计机器翻译似乎还可望而不可即,基于句法 的统计机器翻译系统最重要的基础是相应语言的句法树库,而目前蒙古语的句法 7 第一章绪论 树库还是一片空白。没有了相应句法树库的支持,基于句法的汉蒙统计机器翻译 研究寸步难行。因此我们有必要回到蒙古语信息化基础资源建设这一问题的探讨 之上。 目前蒙古语自身词法资源层面的研究和建设尚不完善,句法层面的研究刚刚 开始,与英语、汉语等语言的基础研究工作相比,还处于远远落后的位置。但是, 放眼国内少数民族语言资源建设这个大环境,蒙古语的信息化水平是少数几个做 得较好的民族语言之一。因此,蒙古语的资源建设既要学习英汉等语言的资源建 设的成熟经验,又要和其他少数民族语言的资源建设共同发展,最终形成一个良 性循环的共享机制。 对于汉语与少数民族语言间的机器翻译及资源建设问题,宏观上应从以下三 个方面入手比较合适:第一,以汉语为中间语言,尽快构建一个多语言间的平行 语料库,无论采用什么技术和方法构建,资源越大越好:第二,在不能做到大而 全的情况下,先重点关注几个重要领域的平行语料库构建,如文化领域、农业领 域、政府文献领域,这与国计民生息息相关;第三,加强对多语言间的机器翻译 技术的研究的支持,尤其是汉语与少数民族语言间的翻译技术,所面临的问题比 较复杂,其所需要的支持力度更大。 总之,统计机器翻译的发展与语料库资源的建设是紧密相连的,尤其对于少 数民族语言来说,目前的语料库资源还远远达不到统计机器翻译的要求,所以当 务之急仍是语言基础资源的建设问题。 1 4 本论文的提出 如1 3 节所述,汉蒙统计机器翻译所面临的问题比汉英等统计机器翻译困难 很多,最突出的两点分别是:蒙古语形态变化丰富这一特点导致译文词形方面的 错误比较突出;汉蒙平行语料库及相应语言资源的匮乏对于研究者限制过多。本 文主要针对这些问题,力图在现有资源的基础上,分别在汉蒙统计机器翻译中的 统计模型构造、词对齐融合过程中引入形态学知识,并针对翻译模型冗余问题提 出一种基于统计方的法短语翻译模型过滤方案。具体从以下三个方面开展了相关 工作: 1 、在汉蒙统计机器翻译的统计模型( 翻译模型、语言模型等) 中将蒙古语 的形态信息( 表面词形、词干、词性等) 以形态因子的形式引入,以因子化模型 的方法融合到对数线性模型中,有效的利用了蒙古语的形态信息。 2 、对汉蒙统计机器中的词对齐过程进行介入,将基于词典方法产生的词对 齐点融入到i b m 翻译模型中以提高汉蒙词对齐质量,进而提高汉蒙统计机器译 文质量的方法,并且利用了蒙古语的形态知识词干提高了基于词典方法的词对齐 8 第一章绪论 质量。 3 、设计并实现了一种基于统计方法的短语翻译模型过滤器,这个过滤器不 仅仅针对汉蒙统计机器翻译,而是一种通用的短语翻译模型过滤器,其可以有效 降低短语翻译模型的规模,并且同时对统计机器翻译译文的质量影响很小。 另外,国内关于统计机器翻译综述方面的文章,刘群( 2 0 0 3 ) 老师曾在中 文信息学报上发表过一篇统计机器翻译综述,但是六年过去,统计机器翻 译技术日新月异,新的方法和新的系统不断涌现,有必要重新做一次这个方面的 论述,因此将其安排在本论文的第二部分。 1 5 本论文结构框架 全文共分为6 章,安排如下: 第1 章绪论 简要介绍了自然语言处理及机器翻译的概况,并探讨了汉蒙机器翻译的现 状、问题及思考,旨在介绍本论文的研究背景、意义以及主要工作,大致概括了 本论文的结构框架。 第2 章统计机器翻译技术综述 本章主要针对统计机器翻译这个大背景详细介绍了统计机器翻译的建模,参 数估计、解码及评测问题,尤其针对近几年来统计机器的发展和现状进行了详细 的介绍。 第3 章汉蒙统计机器翻译中形态因子的引入 本章分别探讨汉蒙统计机器翻译中翻译模型、语言模型中引入形态因子的方 法及其应用,并探讨了利用词性形态因子在源语言汉语句子端进行动词调序以解 决译文输出语序混乱的问题。 第4 章汉蒙统计机器翻译中词对齐融合方案研究 针对汉蒙平行语料库规模较小引起的基于参数估计方法的词对齐准确率较 低这一问题,提出了将基于词典知识的词对齐方法融合到基于参数估计方法的词 对齐模型中,并将蒙古语词干等形态学知识引入用来提高基于词典的词对齐质 量,进而提高整个词对齐融合质量,最终提高汉蒙统计机器译文质量的词对齐融 合方案。 第5 章翻译模型过滤器设计及实现 针对翻译模型冗余的问题,设计并实现了一种基于统计方法的翻译模型过滤 器,用于对翻译模型中的冗余翻译短语进行评价和过滤,并分别在汉蒙小规模平 行语料库和法英大规模平行语料库上分别做了实验验证。 第6 章总结与展望 9 第一章绪论 向。 本章回顾总结了全文的工作,并探讨了可能改进的地方与进一步的研究方 1 0 第二章统计机器翻译综述 第2 章统计机器翻译综述 2 1 引言 早在1 9 4 9 年,美国洛克菲勒基金会自然科学部门的负责人w a r r e nw e a v e r 发表了一份以翻译为题的备忘录,建议将机器翻译的问题用统计方法及信息 论的思想解决,这事实上就是基于信源信道思想的统计机器翻译方法的雏形。但 是由于当时计算机性能的有限以及后来乔姆斯基转换生成语法为代表的理性主 义方法兴起后,统计机器翻译的思想几乎不再被人使用( 刘群,2 0 0 3 ) 。 1 9 9 0 年,m m 华生实验室( i b mt g w a t s o nl a b s ) 的p e t e rf b r o w ne ta 1 0 9 9 0 ) 在计算语言学协会( t h ea s s o c i a t i o nf o rc o m p u t a t i o n a ll i n g u i s t i c s ,简称a c l ) 主 持的权威杂志“c o m p u t a t i o n a ll i n g u i s t i c s ”上发表了统计机器翻译的奠基之作“彳 s t a t i s t i c a la p p r o a c ht om a c h i n et r a n s l a t i o n ,这篇文章系统的阐述了8 0 年代末期 他们将统计方法应用于机器翻译的研究框架及实验结果,从此开辟了统计机器翻 译研究的崭新时代。 b r o w ne ta 1 ( 1 9 9 3 ) 此后围绕统计机器翻译研究所形成的另一篇论文“t h e m a t h e m a t i c so f s t a t i s t i c a lm a c h i n et r a n s l a ,而刀? p a r a m e t e re s t i m a t i o n 在19 9 3 年发 表,主要针对b r o w ne ta i ( 1 9 9 0 ) 中翻译模型的参数估计进行了详细的数学解释, 提出了5 种复杂程度依次递增的i b m 统计翻译模型,并给出了完备的数学描述, 对此后的统计机器翻译研究影响深远,堪称统计机器翻译研究历史上的经典之 作。 由于当时计算机硬件等多方面条件的限制,真正开展统计机器翻译方法研究 的人员并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。不过, 近年来,随着越来越多的研究人员投入到统计机器翻译的研究中并取得了成功, 统计方法已逐渐成为国际上机器翻译研究的主流方法之一。 2 2 形式化描述 统计机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论