(信号与信息处理专业论文)韵律层次预测中基于统计模型的机器学习方法研究.pdf_第1页
(信号与信息处理专业论文)韵律层次预测中基于统计模型的机器学习方法研究.pdf_第2页
(信号与信息处理专业论文)韵律层次预测中基于统计模型的机器学习方法研究.pdf_第3页
(信号与信息处理专业论文)韵律层次预测中基于统计模型的机器学习方法研究.pdf_第4页
(信号与信息处理专业论文)韵律层次预测中基于统计模型的机器学习方法研究.pdf_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音合成是从文本生成语音的技术。为了生成高自然度的语音,一方面要从 文本信息预测出准确翔实的韵律信息,包括韵律层次、重音分布、基频曲线、时 长、停延、能量等。一方面是制作大规模合成语音库中,收录丰富的、足具表现 力的语音基元。韵律层次的预测是生成基频、时长等其他韵律参数的前提条件, 是影响合成语音自然度的重要因素。 本文首先对韵律层次预测的研究历史和现状做了较为完整的调研。通过对前 人工作进行深入了解,作者认为基于机器学习的方法在目前条件下,优于人工总 结规则的方法,今后几年应继续在该方向开展更多的研究工作,并且应着力解决 好属性信息选择和统计模型选择这两个问题,一方面努力利用好更多有利于韵律 预测的语法、语音、统计信息,一方面寻找更适合该任务的统计模型和算法。 围绕这两个方面,本论文阐述了作者在语调短语预测方面的研究,主要工作 包括: 第3 章提出了基于相似句的韵律短语边界预测方法。对于任意一个输入的句 子,该模型都从一个带有韵律短语标注的句子库中寻找其相似句,然后根据找到 的一个或者多个相似句的韵律短语边界位置,决定输入旬的韵律短语边界位置。 在寻找相似旬中,提出了相似距离的度量方法合成的编辑距离,同时考虑了 词性、词义、音节数目对韵律短语边界位置的影响。在1 0 0 0 旬测试集上的实验 结果表明该方法能够达到我们预期的效果,即在能够接受的手工标注工作量下, 超过现有决策树的效果。 第4 章提出了基于最大熵模型的语调短语边界预测方法。在已有的特征 c c f s ( c o u n tc u t o f ff e a t u r es e l e c t i o n ) 方法的基础上,本文提出了特征上下文 c c f s 方法和基于似然比的特征选择方法。实验证实,特征上下文c c f s 方法的 效果最好。同时比较了传统的基于决策树的方法和基于最大熵模型的方法的效 果,指出在使用相同属性的条件下,最大熵模型更适合于语调短语边界的预测。 第5 章针对目前多数方法只利用局部上下文信息的局限,提出了三种平滑模 型,把语调短语的长度分布信息有效地跟局部上下文信息相融合,显著地提高了 整个系统的预测效果。这三种平滑模型分别是增扩特征集模型、切分平滑模型和 滑动窗口模型。其中滑动窗口平滑模型的贡献最为显著。 第6 章为减少制作标注库时的手工工作量,基于主动学习的基本原理,设计 了一个有序标注语料库的方法,同以前随机标注方法相比,节约了约一半的手工 工作量。 关键词;语音合成,文语转换,韵律短语预测,统计模型,机器学习,最 大熵模型 h b s t r a c t s p e e c hs y n t h e s i si s ak i n do ft e c h n o l o g yt o p r o d u c es p e e c hf r o mt e x t t o g e n e r a t eh i g h l yn a t u r a ls p e e c h ,i t i s f i r s t l yr e q u i r e dt op r o d u c ef u l la n da c c u r a t e p r o s o d i ci n f o r m a t i o nf r o mt e x t ,i n c l u d i n gp r o s o d i ch i e r a r c h y ,a c c e n td i s t r i b u t i o n , p i t c hc o u n t o r ,d u r a t i o n ,p a u s e ,a n de n e r g y i ti sa l s or e q u i r e dt oc r e a t eas p e e c hl i b r a r y c o l l e c t i n ge n o u g he x p r e s s i v eu n i t s p r e d i c t i n gp r o s o d yh i e r a r c h yi sp r e r e q u i s i t ef o r p r o d u c i n go t h e rp r o s o d i cp a r a m e t e r s ,a n di ti so n eo ft h em o s ti m p o r t a n tf a c t o r s a f f e c t i n gn a t u r a l n e s so fs y n t h e s i z e ds p e e c h f i r s t l y ,t h er e s e a r c hh i s t o r ya n dp r e v i o u sw o r ko np r o s o d yp h r a s ep r e d i c t i o ni s i n v e s t i g a t e d f r o mt h ei n v e s t i g a t i o n ,i tc a nb ec o n c l u d e dt h a tc u r r e n y ,m e t h o d s b a s e do ns t a t i s t i c a lm a c h i n el e a r n i n ga r ep r e f e r a b l et ot h o s eb a s e do nh a n d c r a f t e d r u l e s m o r er e s e a r c hw o r kb a s e do ns t a t i s t a lm a c h i n el e a r n i n gi sn e e d e di nr e c e n t y e a r s ,a n dt w op o i n t ss h o u l db ef o c u s e do n :s e l e c t i n gg o o da t t r i b u t ei n f o r m a t i o na n d c h o o s i n gg o o ds t a t i s t i cm o d e l s s u r r o u n d i n gt h e s et w op o i n t s ,t h ea u t h o rc o n d u c t e dd e e pr e s e a r c ho f fp r o s o d i c p h r a s ep r e d i c t i o n ,i n c l u d i n g : s i m i l a rs e n t e n c eb a s e dp r o s o d i cp h r a s ep r e d i c t i o ni sp r o p o s e di nc h a p t e r3 i n t h i sm o d e l ,f o ra n yi n p u ts e n t e n c e ,s i m i l a rs e n t e n c e so fi ta r er e t r i e v e df r o mal a r g e l i b r a r yi nw h i c hs e n t e n c e sa r em a n u a l l yt a g g e dw i t hp r o s o d yp h r a s eb o u n d a r i e s t h e n , t h eb o u n d a r i e so ft h er e t r i e v e ds e n t e n c e sa r eu s e dt od e t e r m i n et h ep r o s o d yp h r a s e b o u n d a r i e so ft h ei n p u ts e n t e n c e f o rs i m i l a r i t yd i s t a n c em e a s u r i n g ,an e wm e t r i c c a l l e d s y n t h e s i z e de d i td i s t a n c e i s p u tf o r w a r d ,w h i c h t a k e si n t oa c c o u n tt h e i n f l u e n c e so fp a r to fs p e e c h ,s e m a n t i ca n ds y l l a b l en u m b e ro fe a c hw o r d e x p e r i m e n t r e s u l t so nat e s ts e tc o n t a i n i n g10 0 0s e n t e n c e ss h o w st h a ti ta r r i v e st h el e v e lo f e x p e c t i n g :o u t r e r f o r m i n g d e c i s i o nt r e eb a s e dm e t h o dw h e nt h es i z eo fc o r p u s r e q u i r i n ga n n o t a t i o ni sa c c e p t a b l e a n o t h e rp r e d i c t i o nm e t h o db a s e do nm a x i m u me n t r o p ym o d e li sp r e s e n ti n c h a p t e r4 i nt h i sc h a p t e r ,t h ea u t h o rp r o p o s e dt w oo t h e rm e t h o df o rf e a t u r es e l e c t i o n , o i sf e a t u r ec o n t e x tc c f s ( c o u n tc u t o f ff e a t u r es e l e c t i o n ) ,t h eo t h e ri sl i k e l i h o o d r a t i ob a s e df e a t u r es e l e c t i o n e x p e r i m e n t si m p r o v et h a ta m o n gt h e m ,f e a t u r ec o n t e x t c c f si st h eb e s to n e m a x i m u me n t r o p yb a s e dp r e d i c t i o ni sa l s oc o m p a r e dw i t ht h e p r e v a l e n td e c i s i o nt r e eb a s e dm e t h o d ,a n dc o n c l u s i o ni sd r a w nt h a tm a x i m u me n t r o p y b a s e dm e t h o dw o r k sb e t t e rt h a nd e c i s i o nt r e eb a s e dm e t h o dw h e nu s i n gt h es a n l e i n f o r m a t i o n p r e s e n t l y ,m o s tp r e d i t i o nm e t h o do n l ye x p l o i t e dl o c a lc o n t e x ti n f o r m a t i o n t o b r e a k t h r o u g ht h i sl i m i t a t i o n ,t h r e es m o o t h i n gm o d e l sa r ei n v e s t i g a t e di nc h a p t e r5 b yi n t e g r a t i n gs m o o t h i n gm o d u l ei n t op r o s o d i cp h r a s ep r e d i c t i o ns y s t e m ,l e n g t h d i s t r i b u t i o ni n f o r m a t i o no f i n t o n a t i o n a lp h r a s ei sf u s e dw i t hl o c a lc o n t e x ti n f o r m a t i o n 。 a n dp r e d i c t i o np e r f o r m a n c ei si m p r o v e ds i g n i f i c a n t l y t h et h r e es m o o t h i n gm o d e l s a l ea u g m e n t i n gf e a t u r es e tm o d e l ,s p l i t t i n gm o d e la n ds l i d i n gw i n d o ws m o o t h i n g m o d e ls e p a r a t e l y ,a m o n gt h o s e ,s l i d i n gw i n d o ws m o o t h i n gm o d e l w o r k sb e s t t or e d u c et h eh a n dw o r k i n gd u r i n gc o r p u sb u i l d i n g ,a l la c t i v el e a r n i n gb a s e d m e t h o df o ra n n o t a t i n gc o r p u si sd e s i g n e di nc h a p t e r6 c o m p a r e dw i n lt h ec o m m o n a n n o t a t i n gm e t h o dw h i c hs e l d o m l ys e l e c ts e n t e n c e sf o rt r a i n i n g ,a b o u to n eh a l fo ft h e a n n o t a b o nw o r kc a r lb es a v e d k e yw o r d s :s p e e c hs y n t h e s i s ,t e x t t o - s p e e c h ,p r o s o d i cp h r a s ep r e d i c t i o n , s t a t i s t i cm o d e l ,m a c h i n el e a r n i n g ,m a x i m u me n t r o p ym o d e l i v 论文图表目录 图卜1 语音合成系统框图5 图卜2 语法结构示意9 图2 1 韵律结构与语法结构图1 7 图2 2 决策树的一个示例2 4 图2 - 3t b l 算法训练流程图2 7 图2 - 4t 1 3 l 规则应用流程图2 9 图3 1 目标预测模型的期望效果3 8 图3 - 2 基于整句相似的韵律短语边界预测模型4 0 图3 - 3 句子的向量序列表示形式4 l 图3 4 韵律位置映射4 3 图3 5 按所含词语数目的句子分布4 5 图3 6 基于决策树的预测系统的卜s c o r e 随训练语料的增长的变化4 8 图4 一l 决策树和最大熵的韵律短语边界预测效果5 7 图4 - 2 不同c u t o f f 值下模型的效果6 0 图4 - 3 不同c u t o f f 值下模型所含特征数目6 0 图4 4 特征c u t o f f 与特征上下文c u t o f f 的特征数目和预测效果的对比6 l 图5 1 标注路径举例7 0 图5 2 加入切分平滑模型前后的效果曲线7 7 图5 3 语调短语长度分布曲线7 8 图5 4 滑动窗口平滑处理过程7 9 图5 - 5 加入滑动窗口平滑模型前后的效果曲线8 0 图6 一l 过滤性主动学习流程图8 3 图6 - 2 过滤性主动学习流程图8 4 图6 - 3 平均主观分和熵可信度的一致性8 6 图6 4 主动学习与被动学习8 7 一“一 论文表格目录 表卜1 衍生词分类和举例 表2 - l 文献 4 1 中实验一的结果, 表22 文献 4 1 中实验二的结果 表2 3 发生音位弱化的两个组块的语法关系 表2 - 4 各语法成分中的停顿分布 表2 5 转换规则表 表26 各模型效果剥比 表3 - 1 基于决策树和基于相似句预测效果对比 表3 2 相似句抽取情况 表4l 词性类模板和词面类模扳举例, 表4 2 四人语调短语标注一致性测试结果 表4 3 决策树和最大熵训练饱和时的预测效果对比 表4 - 4 最大熵模型的若干特征举例 表4 _ 5 基于似然比的特征选取的模型效果+ 表4 - 6 对比实验测试语料的分布 表4 7 对比实验主观评测结果 表48 预测错误个例分析, , 袁4 - 9 预测错误比例分布 , 表j lv i t e r b i 预测与原昂大熵模型的效果对比 表5 2 加入切分平滑模型前后的效果对比 表5 - 3 加入滑动窗口平滑模型前后的效果对比 7蝎埔珀虬跎蛆勰鼹瞻鼹璐船甜瞒他鲫 中国科学技术大学博士学位论文 第l 章绪论 1 1 研究背景和意义 第1 章绪论 我们正处于一个信息时代,信息的传递、保存、处理变得越来越多,也越来 越重要。用于处理信息的计算机的发明和普及,给人类生活造成了巨大影响。 当今社会,计算机已经普及到人类社会生活的方方面面。如何方便快捷的和 计算机交流,成为一个关系重大的问题。从人机界面的发展历史来看,已经经历 了从纸带、卡片到键盘、鼠标,从字符到窗口,从命令行到菜单的种种变化,并 且仍在不断的向更人性化、智能化的方向发展。让计算机使用人类的语言,同人 直接进行语音对话,是未来计算机的发展的必然趋势。而其中最重要的两项基础 技术就是语音识别和语音合成。由于波形拼接技术的逐渐成熟,语音合成已经进 入了人们生活的很多方面。如1 6 8 声讯台的查询服务、家庭轿车的数码听、盲人 自动读报机、幼儿教育软件、自动报号等。 1 1 1 存在的问题 人们在讲话时,不是机械地、毫无生气的说出每一个字,而是抑扬顿挫地、 有快有慢的讲话,中间可能还夹杂着或长或短的停顿。人们的口语形成这种风格。 主要跟说话习惯和想要表达的语义有关,同时也受生理条件上的一些限制。计算 机只有尽可能的模仿人类的这种说话风格,才会让人们听起来比较“舒服”、易 懂,否则就是机器味十足。 目前,语音合成系统合成出来的语音还普遍存在着自然度不够高的问题,这 跟多方面的因素有关,其中韵律层次预测的准确度不高,是提高合成语音自然度 的一大障碍。 韵律层次的预测是一个从文本获取信息的过程,它与自然语言处理( n l p ) 领域的很多任务相类似,如词性标注、组块识别、语法分析等。它们虽然面临的 任务有所不同,但它们的共同点在于,可资利用的属性信息基本上只有纯文本。 基于此,自然语言处理领域中的很多方法和理论都可以用到韵律层次的预测中 来。目前,自然语言处理的研究已经由手工总结规则的方法( 理性主义) 过渡到 了基于大规模语料库的机器学习方法( 经验主义) ,大量的统计模型被用来作为 自然语言处理领域的知识表示工具。林林总总的统计模型当中,哪些模型更适用 于自然语言的处理,仍然是一个悬而未决的问题。文本信息的一大特点是可以利 用的属性信息大多是离散值,而非连续值,所以适用于该领域的机器学习方法必 中国科学技术大学博士学位论文 第1 章绪论 然有独特之处,需要研究者具体问题具体分析。 自然语言处理( 包括韵律预测) 研究中,往往需要制作规模较大的标注语料 库,这就离不开大量的手i t 作,即需要消耗大量的人力成本。如何有效的利用 已有的计算资源,尽可能的节省人力成本,也是本文讨论的一个问题。 1 1 2 面临的困难 准确的预测韵律层次结构,不是一个简单的事情,其预测困难首先表现人们 对韵律层次的认识还未统一,没有制定致的标准。对英语的划分常采用t o b i 标准,对汉语常用的方法有以下几种。最简化的是二级分类法:无停顿和韵律词 边界f j 】;稍微复杂一点的四级分类法 2 】:无停顿、韵律词、语调短语、直接短语。 郑秋豫教授提出了一种m - t o b i 标注体系,韵律层次分为6 级:退化的音节边界、 正常的音节边界、较小的短语停顿边界、较大的短语停顿边界、呼吸群边界、韵 律组边界。中国社科院语音研究室提出了c t o b i 韵律标注体系,在该体系中韵 律层次分为5 级:韵律词内边界、韵律词边界、次韵律短语边界、主韵律短语边 界、语调组边界。本文采用了该分层体系,并把各层级韵律由低到高记为l 0 、 l l 、l 2 、l 3 、l 4 。 第二,韵律层次与语法树既有很强的相关性,又不完全相同。韵律层次形成 严格的层级,如一个句子由若干个语调短语组成,一个语调短语由若干个次韵律 短语组成,一个次韵律短语由若干个韵律词组成,层级结构严格。而语法树虽然 也分为若干层,但每个句子的语法树的层次数e l 不固定,一般地,长句子的层数 多于短句子的层数。而且语法树的短语结构是允许递归嵌套的,即动词短语里面 可以嵌套一个名词短语,该内嵌的名词短语内部又可以嵌套另一个动词短语。后 面章节会举例讨论这个问题。 第三,韵律层次的划分不仅跟语法相关,还跟语义、短语长度、讲话风格等 因素有关。各个影响因素如何综合起作用,还没有被人们清楚地认识。基于统计 模型的机器学习算法之所以能在韵律短语预测中取得成功,正是因为统计模型能 够定程度上把各个影响因素较为合理的组织在一起。 第四,很多句子存在着标注多样化的问题。即给定一个句子,不同发音习惯 的人给出的韵律层次标注结果可能不同:甚至同一个人在不同时候给出的标注结 果也是不同的。这就使得所谓“正确”的标注变得比较模糊。 1 1 3 课题的意义 本文面向韵律层次预测的课题, 显著地提高了韵律层次的预测效果, 提出了若干基于统计模型的机器学习方法, 从而改善了合成语音的自然度,拓宽了语音 一2 中国科学技术大学博士学位论文 第1 章绪论 然有独特之处,需要研究者具体问题具体分析。 自然语言处理( 包括韵律预测) 研究中,往往需要制作规模较大的标注语料 库- 这就离不开大量的手工工作,即需要消耗大量的人力成本。如何有效的利用 已有的计算资源,尽可能的节省人力成本,也是本文讨论的一个问题。 1 1 2 面临的困难 准确的预测韵律层次结构,不是一个简单的事情,其预测困难首先表现人们 对韵律层次的认识还未统一,没有制定一致的标准。对英语的划分常采用t o b i 标准,对汉语常用的方法有以下几种。最简化的是二级分类法:无停顿和韵律词 边界川;稍微复杂一点的四级分类法【2 】:无停顿、韵律词、语调短语、壹接短语。 郑秋豫教授提出了一种m t o b i 标注体系,韵律层次分为6 级:退化的音节边界、 正常的音节边界、较小的短语停顿边界、较大的短语停顿边界、呼吸群边界、韵 律组边界。中国社科院语音研究室提出了c t o b i 韵律标注体系,在该体系中韵 律层次分为5 级:韵律词内边界、韵律词边界、次韵律短语边界、主韵律短语边 界、语调组边界。本文采用了该分层体系,并把各层级韵律由低到高记为l o 、 l 1 、l 2 、l 3 、l 4 。 第二,韵律层次与语法树既有很惺的相关性,义不完全相同。韵律层次形成 严格的层级,如一个句子由若干个语调短语组成一个语调短语由若干个次韵律 短语组成,一个次韵律短语由若干个韵律词组成层级结构严格。而语法树虽然 也分为若干层,但每个甸子的语法树的层次数目不固定,一般地,长句子的层数 多于短句子的层数。而且语法树的短语结构是允许递归嵌套的,即动词短语里面 可以嵌套个名词短语,该内嵌的名词短语内部又可以嵌套另一个动词短语。后 面章节会举例讨论这个问题。 第三,韵律层次的划分不仅跟语法相关,还跟语义、短语长度、讲话风格等 因素有关。各个影响因素如何综合起作用,还投有被人们清楚地认识。基于统计 模型的机器学习算法之所以能在韵律短语预测中取得成功,正是因为统计模型能 够一定程度上把各个影响因素较为合理的组织在一起。 第四,很多句子存在着标注多样化的问题。即给定一个句子,不同发音习惯 的人给出的韵律层次标注结果可能不同:甚至同一个人在不同时候给出的标注结 果也是不同的。这就使得所谓“正确”的标注变得比较模糊。 1 1 3 课题的意义 本文面向韵律层次顸测的课题,提出了若干基于统计模型的机器学习方法, 显著地提高了韵律层次的预测效果,从而改善了合成语音的自然度拓宽了语音 显著地提高了韵律层次的预测效果,从而改善了合成语音的自然度,拓宽了语音 - 2 。+ 中国科学技术大学博士学位论文 第l 章绪论 合成的应用前景。关于主动学习方法的讨论,能够有效地减少制作标注库时所必 须的手工工作量,具有坚实的实用意义。 本文在解决韵律层次预测的同时,既提出了新方法,也发展了已有理论。在 运用最大熵模型基本原理的同时,提出了两种新的特征选择方法,并通过实验验 证了各自的有效性。对最大熵模型的本质进行了深入讨论,提出了“最大熵模型 相当于一个能够自动选择规则、自动估计规则权重、自动解决冲突的规则系统” 的新观点。这些实验和讨论都对丰富最大熵模型的基本理论做出了贡献。 虽然本文面向韵律层次预测的课题展开研究,但提出的统计学习方法并不局 限于韵律层次预测的范畴。在自然语言处理领域的其它课题研究中,如组块分析、 命名实体识别、信息抽取等方面,由于其需要解决的问题与韵律层次预测相似, 所以本文提出的方法稍加改动就可以在这些领域中加以应用。 另外,作者通过调研和实践,总结出在涉及机器学习应用的课题中关键要解 决好两个方面的问题,一是选择有价值的属性信息加以利用,二是选择适合具体 问题的统计模型。该结论对其它研究机器学习理论和运用机器学习原理解决实际 问题的学者,具有一定的指导和借鉴意义。 1 2 语音合成系统研究的历史和现状 几百年前,人们就期望研制“会说话的机器”。为此,在语言产生的机理、 语音的特征、发音器官的模拟等方面,做了很多研究【3 j 。1 7 世纪法国人研制了第 一个机械式的会说话装置。自1 9 世纪出现了电子合成器以后,语音合成研究得 到了飞速发展。 1 9 3 9 年,贝尔实验室h d u d l e y 制作了第一个电子合成器v o d e r 。这是一 个利用共振峰原理制作的语音合成器。1 9 8 0 年,m i t 教授d k l a t t 设计了串并联 混合型共振峰合成器。它用串联通道产生元音和浊辅音;并联通道产生清辅音。 其他参数合成法还包括线性预测系数( l p c ) 合成。2 0 世纪8 0 年代末e m o u l i n e s 和f c h a r p e m i e r 提出基于时域波形修改的语音合成算法p s o l a ( p i t c h s y n c h r o n o u so v e r l a pa d d ) 。该方法较好的解决了语音拼接中的问题,从而推动 了波形拼接语音合成技术的发展和应用。按照修改参数的不同。p s o l a 又分为 时域t d p s 0 l a 、频域f d p s o l a 和线性预测l p p s o l a 。近年来,波形拼接 法发展为基于大语料库的波形拼接。 汉语语音合成技术起步较晚,但近年来受到专家学者们的重视,得到了飞速 发展。2 0 世纪8 0 年代,我国学者开始与国外专家合作,开始汉语语音合成技术 的研究。9 0 年代,国内汉语t t s 系统逐步从参数合成法转向波形拼接技术。清 华大学、中科院声学所、中国科学技术大学都开展了相关研究工作。 一3 一 中国科学技术大学博士学位论文 第1 章绪论 中国科学技术大学讯飞语音实验室直致力于语音技术的研究,其中文语音 合成技术经历了从参数合成到波形拼接的各个阶段,在国内研究领域,始终处于 领先地位。近年来,其研究成果k d 系列中文语音合成系统,在国内8 6 3 评测中, 多次获得好评。该系统分析输入文本得到韵律各方面的信息,然后以事先录制的 大语料库为基础,挑选适当的不定长单元,拼按合成最终的语音。由于最终合成 语音中的单元都是直接从音库中复制过来的,其最大的优势就是在于保持了原始 发音人的音质。相比p s o l a 算法。基于大语料库的波形拼接法对拼接单元做了 很少的人工调整,所以合成出来的语音的自然度非常高。 目前,讯飞语音实验室还在进行新一代语音合成技术的研究可训练文语 转换技术( t r a i n a b l et t s ) 。该方法的提出,主要针对目前大语料库合成中单元 拼接不连续所导致的合成效果不稳定、可扩展性差等问题。可训练文语转换借鉴 了语音识别中采用的技术,采用隐马尔科夫模型( h m m ) 对语音参数进行建模, 通过对目标数据的训练,可以快速形成个目标合成系统,非常符合当前多样化 语音合成系统( 多发音人、多风格、多情感、多语种等) 的需求。 1 3 语音合成系统模块分析 语音合成系统实现文本到语音的转换,必然离不开文本分析和语音处理。所 以语音合成系统总体上分为两大模块:文本分析和语音处理。文本分析模块的主 要任务是从文本中抽取合成语音所必需的信息,根据系统处理的语种的不同,文 本分析的任务也有所区别。对汉语语音合成系统,文本分析主要包括分旬、分词、 词性标注、专名识别等。某些系统中要求有更深入的语言学处理,所以文本分析 模块可能还包含组块分析、语法分析、语义分析、语用分析等内容。语音处理模 块根据文本分析提供的语法、语义和其他文本信息,确定韵律短语边界、音节时 长、停顿位置、重音位置、声音大小等参数,生成基频曲线( f 0c o n t o u r ) ,然 后从语音库中挑选合适的不定长单元,拼接形成最后的语音。语音合成系统的一 种可能的流程图如图1 1 所示。不同的系统由于面向的任务和采用的方法存在差 异,所包含的模块有可能与图1 1 不完全相同。 1 3 1 文本分析 文本分析是文语转换系统的前端,它的主要内容是对输入的文本进行分析理 解,给后端语音合成器提供必要的信息,如拼音、停顿等。不同的合成后端需要 的信息也各不相同。对于简单的系统来说,可能文本分析只提供拼音信息就够了; 而对于高自然度的合成系统,文本分析要给出更详尽的语言学或语音学信息。 中国科学技术大学博士学位论文 第l 章绪论 圆圆囤圈豳 f 台成基操 i 型粤坚警粤型一, 图卜1 语音合成系统框图 输入到语音合成系统的文本首先经过分旬处理,分成一个一个单句。这里我 们忽略了单句之间的影响,认为一个单旬可以作为一个单独的发音单元来对待。 文本中除了包括普通文本外,还经常出现各种日期、货币、数学公式、i p 地址、网站域名等特殊文本。( g a o ,2 0 0 3 】1 4 】把日期、时间、货币等十种特殊文本 叫做f a c t o i d ,基本覆盖了大多数常见的特殊文本。显然,如果文本分析模块不 能很好的处理这些特殊文本,必然导致合成失败。文本规范化的目的就是把文本 中的数字、货币、度量等特殊文本识别出来,并转换成一种规范化的表达。例如: 原始文本:同比增加8 规范化文本:同比增自h p e r 百分之八1 “百分之八”用中括号括起来,表示一个独立的分词单位,避免在后面的分 词模块中,在f a c t o i d 文本与普通文本交界处产生分词错误。“p e r ”表示括起 来的部分是个百分比类型。 f a c t o i d 文本的出现具有一定的规律,多使用规则法进行识别。( g a o ,2 0 0 3 ) 州 使用有限状态转移机f s t ( f i n i t es t a t et r a n s d u c e r ) 应用规则,( 陈志剐,2 0 0 3 ) 删 介绍了另种高效实现规则匹配的方法。 1 :3 1 1 汉语分词 汉语是种词根语。与西方语言不同,它采用连续的书写形式,词与词之间 无自然界限,无词尾形式标记,无形态变化。这种“三无”现象使得人们在用肉 眼阅读时需要借助大脑恩维切分词语,而在中文t t s 系统中,若要让计算机理 解和处理书面汉语,以便给出正确的韵律参数,就必须先进行自动分词的工作。 目前汉语自动分词方法至少有十几种,分词速度也不尽相同,下面列出几种 典型的分词方法【6 1 : 机械匹配分词法 习煞 羽酬。蔓蓦草豳卜1引_ 萄卤一 固囱 |瓣囤 一 圜、一 弱 中国科学技术大学博士学位论文 第l 章绪论 其基本思想:实现建立一个词典库,其中包括了所有可能出现的词。对于待 分词的汉字串s ,根据某种确定的原则切取s 的子串,若该子串与词库中的某条 词条相匹配,则该串是词,继续分割剩余的部分,直到剩余部分为空;否则,该 子串不是词,转上重新切取s 的子串进行匹配。 大多系统采用的是前循向最大匹配的机械分词方法。( 陈恚刚,2 0 0 3 ) 1 6 1 1 整j 系统 采用前向最大匹配分词法,忽略了未登录词的错误后,平均正确率达到了9 7 。 高频词优先分词法 此方法是基于词频的统计、字与字之间的构成结合律等现象的分析提出来 的。根据现代词语频率词典,对于报刊和政论性文章,不同音节词的词频为: 双音节词7 4 ,三音节词3 7 ,单音节词1 7 2 ,五音节以上的词0 4 。因此 分词时首先考虑两字词,然后考虑单字词,。这种方法提高了分词的效率, 但是对于歧义问题也同样没有办法【7 j 。 神经网络分词法 此方法是模拟人脑并行、分布处理和建立数值计算模型工作的8 1 。它将分 词知识存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词 结果。 专家系统分词法 从专家系统的角度把分词的知识( 包括常识性分词知识与消除歧义切分的启 发性知识,即歧义切分知识) 从实现分词的推理机中独立出来,使得知识库的维 护与推理机的实现互不干扰,从而使知识库易于管理和维护。它还具有发现交集 歧义字段和多义组合歧义字段的能力和一定的学习功能【l 。 1 ) 分词歧义 在分词过程中,具有两种或两种以上的切分形式的字段的情况,称为分词歧 义。分词歧义( 歧义切分字段) 是影响分词精度的重要因素。 通常,人们把汉语文本中的歧义切分字段分成交集型和组合型两个基本类 型。 对汉字串a b c ,其中每一个字母代表一个或多个汉字,如果a b 、c 、a 、 b c 都可以构成( 词典) 词,则汉字串a b c 是一个交叠型歧义字段。例如字串 “各国有”中,“各国”、“有”、“各”、“国有”都能构成词,所以“各国 有”是一个交叠型歧义字段。看下面的例子: 控 各| 国京| 企韭 寺 在人权f q 题上,各国有共同g ,也有不同点。 ( 孙茂松,1 9 9 8 ) t 】对汉语常见歧义字段做了详细的统计和分类,他制定的歧义 字段表能够快速解决大多数常见的交叠型歧义字段。也有研究者提出了蓿干统计 模型来解决交叠型歧义字段,如【1 2 ,1 3 。 一e 一 中国科学技术大学博士学位论文 第1 章绪论 对汉字串a b ,其中每一个字母代表一个或多个汉字,如果a b 、a 、b 都可 以构成( 词典) 词,则汉字串a b 是一个组合型歧义字段。例如“才能”中,“才 能”、“才”、“能”都能构成词,所以“才能”是一个组合型歧义字段。看下 面的例子: 他的才能,让,人,羡慕。 r 南| 他法 瓴 免整| 邀| 个| 任务。 ( l u o ,2 0 0 2 ) 1 1 4 1 给出了一种基于v s m 的组合型歧义消歧方法,通过对9 0 个最 常出现的组合歧义字段的实验,达到了9 6 5 8 的正确率。 2 ) 未登录词识别 因为词典是相对封闭的,在系统运行过程中,词典大小不可能改变。虽然可 以考虑把一部分常用的人名、地名等专用词加入词典中,但是不可能加入所有的 未登录词。因此一个好的文本分析系统必须有一套针对未登录词生成的算法来及 时生成这些专用名字。未登录词可以分成两大类,分别是命名实体和衍生词。 ( g a o ,2 0 0 3 ) t 4 讨 了三类命名实体( 人名、地名、机构名) 和五类衍生词的识 别。五类衍生词及其例子见表1 i 。 人名识别分两步,首先根据文中出现的可以做姓的汉字提出人名候选,并根 据纯姓名语料计算该候选的可信度。然后结合上下文的语言模型,确定哪些是人 名,哪些不是。地名的识别与人名识别类似,不同的是,提出候选的依据是“村” “县乡沟”“铺”“营”等单字地名。机构名的识别出了需要利用机构 名后缀外,还要考虑机构名的构成规则,如“北京大正科技公司”的构成规则是: 地名+ 公司名+ 类别+ 后缀。 衍生词由于内部构成的规律性很强,识别过程主要依靠规则法。其中融合词 由于其灵活性强,识别难度最大。 衍生词分类 衍生词举例 后缀词( a 硒x a t i o nw o r d )朋友专用友们 重叠词( r e d u p l i c a t i o nw o r d ) 高兴专高高兴兴 融合词( m e r g i n gw o r d ) 上班+ 下班上下班 h e a dp a r t i c l e 走走出去 分离词( s p i tw o r d ) 洗澡洗了澡 表卜l 衍生词分类和举例 1 3 1 2 词性标注 一个词语可能的词性往往多于一种,如“打”,在“打酱油”中是动词,在 一了一 中国科学技术大学博士学位论文 第1 章绪论 “一打信件”中是量词。所以自然语言处理要解决的一个课题就是分析句子中每 一个词的词性。 词性标注可以采取规则方法,也可以使用各种统计模型,根据上下文信息, 决定每一个词的词性。常用的统计模型是稳马尔科夫模型,2 0 世纪9 0 年代以来, 很多统计学习算法被应用于词性标注任务,如( b f i l j ,1 9 9 5 ) ”l 的基于转换的错误驱 动算法( t r a n s f o r m a t i o n b a s e de r r o r - d r i v e nl e a r n i n g ) ,( r a t n a p a r k h i 。1 9 9 6 ) 1 6 1 的 基于最大熵模型( m a x i m u me n t r o p ym o d e l ) 的词性标注,以及d a e l e m a n s 1 的 基于示例的学习算法( m e m o r yb a s e dl e a r n i n g ) 。这些算法都取得了很高的正确 率( 9 0 以上) 。 1 3 1 3 多音字消歧 大多数情况下,字音转换通过词典搜索当前词,配以对应得拼音即可。然而, 对于当前字( 词) 对应多种拼音的情况,简单的词典方法就很难解决了。字音转 换的关键是解决这种一字( 词) 多音问题。事实上,这种情况不是汉语独有,许 多语言都存在着一字( 词) 多音的现象,如英语中的“r e a d ”,只是汉语中更为 常见,更复杂。如“长”在“长城”中读“c h a n 9 2 ”,而在“部长”中则读为“z h a n 9 3 ”, 汉语中常见的多音字还有“为、还、中、行、重、种”等等。 多音字的在语料中的出现可以分成两种情况,一种是在多字词中出现,比如 “行”,可以作为出现在“银行”,“人行道”这样的固定的词中间。另一种情 况是多音字单独出现,比如“为人民服务”中的“为”,在分词结果中就是单独 作为一个词出现的。在计算机处理过程中,因为作为多字词出现的多音字读音比 较固定,通过查找词典就可以很好解决。统计显示,多音字在多字词中出现的情 况占了5 6 8 3 。需要集中注意力解决的是多音字单独出现时其读音的消歧问题。 多音字的词性是影响多音字读音的最重要的因素,据统计,大约有7 8 4 的 多音字的读音完全由其词性决定,如“长”,作动词时读作“z h a n g ”,作形容 词时读作“c h a n g ”。只要其词性能标注正确,就相当于解决了这类多音字的读 音问题。另外2 1 6 的多音字的读音不能仅通过其词性确定,如“背”,作动词 时,既可以读“b e i 4 ”,又可以读“b e i l ”,看下面的例句: 他背着我过了河( b e i l ) 他背着我去赌钱( b e i 4 ) 这种情况下,就需要从上下文环境获取更多用于判断多音字读音的信息。一 般来讲

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论