（计算机软件与理论专业论文）基于重音模型的tts系统.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：75 大小：3.15MB 积分：0 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要语音合成是当今计算机智能应用领域的研究热点，目前的合成系统在可懂度方面的研究取得了较大突破，语音合成的可懂度效果已经达到了基本可以接受的程度，但在自然度方面还不尽如人意。因此现阶段的重点工作就是努力提高合成语音的自然度。在h 前合成技术已经相对比较成熟的情况下，存在的主要困难是韵律层面处理不够理想，其中合成语句缺少重音的刻画是突出问题之一。如果能够从文本层面对语句重音的位置进行较好的预测，能够从声学层面给出与韵律词重音匹配的声学参数，必将使合成的语音在自然度上得到较大的提高。本文的目标是研究基于重音模型的汉语语音合成系统，即是在传统的韵律模型中加入对重音的预测，从而构成支持重音合成的汉语语音合成系统。本文首先对汉语语音合成系统的研究历史和现状做了较为全面的介绍，接着研究汉语语音合成的重音模型。重音模型的研究思路为：第一，从句法分析结果建立词的重音模型。通过提取词所属的句法结构、声调组合、词在句中的位置以及词本身的词性( 或短语类型) 作为属性，使用决策树和s 进行对比，最终选取了对重音影响比较大的属性，同时应用统计( c 4 5 ) 和规则相结合的方法来建立重音模型；第二，研究不同重度的词的声学参数特征，结合以往前人的研究成果，提取了重音声学参数规则；第三，基于重音模型和重音参数规则完成了一个支持重音模型的汉语语音合成系统。另外，本文还提出了利用简谱的音符和节拍来描述单字词韵律的方法。最后对本文进行了总结和分析，对需要改进和增加的功能进行了说明，以便以后的研究者进一步完善支持重音合成的汉语语音合成系统。关键词：语音合成重音预测决策树双字词声学参数 a b s t r a c t ab s t r a c t s p e e c hs y n t h e s i si so n e o ft h er e s e a r c hf o c u s e so fc o m p u t e ra p p l i c a t i o n t h e i n t e l l i g i b i l i t y r e s e a r c ho fc u r r e n t s p e e c hs y n t h e s i ss y s t e mh a sm a d eg r e a t b r e a k t h r o u g h ，a n dt h ee f f e c to fi t si n t e l l i g i b i l i t yi sb a s i c a l l ya c c e p t a b l e ，w h i l et h e r e a r es o m ep l a c e sn e e d e dt ob ei m p r o v e di nt h en a t u r a l n e s s t h e r e f o r e ，t h em a i nt a s k a tp r e s e n ti st oi m p r o v et h en a t u r a l n e s so fs y n t h e s i z e ds p e e c h a sam a t u r e t e c h n o l o g y , c u r r e n ts p e e c hs y n t h e s i st e c h n o l o g yf a c e sap r o b l e mt oh a n d l et h e p r o s o d y , w o r ds t r e s s ，i np a r t i c u l a r , b e c o m eo n eo ft h es e r i o u sp r o b l e m s i fw ec a n m a k eag o o dp r e d i c t i o no ft h ep o s i t i o no fs e n t e n c es t r e s s ，f r o mt h et e x t u a la s p e c ta n d g i v ea c o u s t i cp a r a m e t e r si na c c o r d a n c ew i mp r o s o d i cw o r ds t r e s s f r o mt h ea c o u s t i c a s p e c t ，t h en a t u r a l n e s so ft h es p e e c hs y n t h e s i z e dw i l lb ei m p r o v e dg r e a t l y t h eg o a lo ft h i sp a p e ri st os t u d yt h ew o r ds t r e s sm o d e l - b a s e do fc h i n e s e s p e e c hs y n t h e s i ss y s t e m ，i na n o t h e rw o r d s ，t ob u i l du pas p e e c hs y s t e ms u p p o r t i n g t h es y n t h e s i so fw o r ds t r e s sb yp u t t i n gi n t ot h ep r e d i c t i o no ft h ew o r ds t r e s si nt h e t r a d i t i o n a lp r o s o d ym o d e l i nt h ef k s tp a r t ，t h i sp a p e rd o e sac o m p r e h e n s i v ei n t r o d u c t i o no ft h eh i s t o r yo f c h i n e s es p e e c hs y n t h e s i ss y s t e mr e s e a r c ha n di t sc u r r e n ts i t u a t i o n ，t h e nm a k e s r e s e a r c hi nc h i n e s es p e e c hs y n t h e s i sm o d e lo fw o r ds t r e s s t h er e s e a r c h ，f i r s t ， e s t a b l i s ht h ew o r ds t r e s sm o d e la c c o r d i n gt ot h es e n t e n c ep a r s i n gr e s u l t s ，e x t r a c t i n g t h ew o r d s s y n t a c t i cs t r u c t u r e ，t o n ec o m b i n a t i o n s ，s e n t e n c el o c a t i o na n di t sp a r to f s p e e c ho rp h r a s et y p ea sa t t r i b u t e s ，t ow h i c hb e l o n g w i t ht h eh e l po fc o m p a r i s o n r e s u l to ft h ed e c i s i o nt r e em e t h o da n ds v mm e t h o d ，w ec a ni d e n t i f yt h ei n f l u e n t i a l p r o p e r t yt ot h ew o r ds t r e s s ，a n dc r e a t ea w o r ds t r e s sm o d e lb yt h ec o m b i n a t i o no f s t a t i s t i c a l ( c 4 5 ) m e t h o da n dr e l e v a n tr u l e s s e c o n d ，t h ep a p e rs t u d i e st h ep a r a m e t e r f e a t u r e so fv a r i o u ss t r e s sw o r d s ，a n db yr e f e r e n c i n gt h ep r e v i o u sr e s e a r c hr e s u l t s ，i t s u m m a r i z e da n de x t r a c t e dak i n do fa c c e n t u a t i o nr u l e s t h i r d ，c o m p l e t e sac h i n e s e s p e e c hs y n t h e s i ss y s t e mb a s e do nt h er u l e ss u p p o r t i n gt h ew o r ds t r e s sm o d e la n d a c c e n t u a t i o nr u l e s i i a b s t r a c t i na d d i t i o n ，t h ep a p e rp r o p o s e sam e t h o du t i l i z i n gt h em u s i cn o t e sa n db e a t so f n u m e r i cn o t et od e s c r i b et h ep r o s o d yo fs i n g l ew o r d f i n a l l y , t h i sp a p e rm a k e sa b r i e fs u m m a r y , e x p l a i n st h ef u n c t i o n sn e e d e dt ob ei m p r o v e da n da d d e df o rt h e c o n v e n i e n c eo ff u t u r er e s e a r c h e r st om a k ef u r t h e rd e v e l o p m e n to fi m p r o v i n gt h e c h i n e s es p e e c hs y n t h e s i ss y s t e mb a s e do nw o r ds t r e s s k e y w o r d ：s p e e c hs y n t h e s i s ，a c c e n tp r e d i c t i o n ，d e c i s i o nt r e e ，t w o w o r da c o u s t i c p a r a m e t e r s i i i 图目录图目录图2 1 总体结构图5 图2 2t d p s o l a 算法时长和基频修改的示意图1 4 图3 1 重音预测模型建立研究过程1 6 图3 2 重音标注语料格式1 9 图3 3 句法树结构图2 0 图3 4 中心词分析结构。2 1 图3 5 链语法分析结果示意图2 l 图3 6c h a r t 图2 3 图3 7 句法分析结果2 6 图3 9 预测树结果3 l 图3 1 0 预测过程3 2 图4 1 ( a ) 五度标记法图3 8 图4 1 ( b ) 基于简谱声调坐标3 8 图4 2 ( a ) “社区的基频序列长度规整前示意图4 2 图4 2 ( b ) “社区”的基频序列长度规整后示意图4 2 图5 1 汉语语音合成系统的框架结构4 8 图5 2 语料库构建过程4 9 图5 3 ( a ) s h e 音频文件5 0 图5 3 ( b ) s h a 音频文件。5 0 图5 4 a 读音部分波形5 3 图5 5 基音概念图5 3 图5 6 拼接函数图示6 0 图5 7 系统界面6 l 图5 8 打开分词文件示意图6 2 图5 9 句法分析结果6 2 图5 1 0 重读与非重读波形对比6 3 v i i 表目录表目录表3 1 乔姆斯基语法层次体系语法形式2 0 表3 2c 4 5 和s v m 对比31 表4 1 构词方式对词重音分布的影响3 4 表4 2 声调组合与重音分布关系3 6 表4 3 轻声单字声学参数3 9 表4 4 非轻声单字声学参数3 9 表4 5 基频变化表4 4 表4 6 时长变化表( 相对于语速的时长) 4 5 表4 7 二字词变调规则4 6 表5 1 提取声母的录音文本5 0 表5 2 提取韵母的录音文件51 表5 3 句子停顿时长表5 7 v 1 i i 南开大学学位论文使用授权书根据南开大学关于研究生学位论文收藏和利用管理办法，我校的博士、硕士学位获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在著作权法规定范围内的学位论文使用权，即：( 1 ) 学位获得者必须按规定提交学位论文( 包括纸质印刷本及电子版) ，学校可以采用影印、缩印或其他复制手段保存研究生学位论文，并编入南开大学博硕士学位论文全文数据库；( 2 ) 为教学和科研目的，学校可以将公开的学位论文作为资料在图书馆等场所提供校内师生阅读，在校园网上提供论文目录检索、文摘以及论文全文浏览、下载等免费信息服务；( 3 ) 根据教育部有关规定，南开大学向教育部指定单位提交公开的学位论文；( 4 ) 学位论文作者授权学校向中国科技信息研究所和中国学术期刊( 光盘) 电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库，通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。非公开学位论文，保密期限内不向外提交和提供服务，解密后提交和服务同公开论文。论文电子版提交至校图书馆网站：h t t p ：2 0 2 1 1 3 2 0 1 6 1 ：8 0 0 1 i n d e x h u n 。本人承诺：本人的学位论文是在南开大学学习期间创作完成的作品，并已通过论文答辩：提交的学位论文电子版与纸质本论文的内容一致，如因不同造成不良后果由本人自负。本人同意遵守上述规定。本授权书签署一式两份，由研究生院和图书馆留存。作者暨授权人签字； 2 0 年月日南开大学研究生学位论文作者信息论文题目姓名学号答辩日期年一月日论文类别博士口学历硕士口硕士专业学位口高校教师口同等学力硕士口院系所专业联系电话e m a i l 通信地址( 邮编) ：备注：是否批准为非公开论文注：本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写( 一式两份) 签字后交校图书馆，非公开学位论文须附南开大学研究生申请非公开学位论文审批表。南开大学学位论文原创性声明本入郑重声明：所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外j 本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名：年月日第一章绪论第一章绪论计算机语音合成是实现人机对话的关键技术之一，在当代社会应用极广。经过全世界语音研究者的不懈努力，今天计算机语音合成技术已经初见成效并进入应用和完善阶段。汉语语音合成技术也取得较大进展，但与国际其他语言的合成水平相比差距较大。本文提出了一种通过提取重音韵律声学参数实现汉语文语转换的方法。第一节选题背景信息时代，人们的学习、生产和生活越来越多地借助或直接交付给计算机来完成，计算机及其应用已经渗透在现代社会的方方面面。现阶段，计算机所能识别的语言是专业的程序语言而非人类的自然语言，人们期望有一种真正能够实现入一机直接对话交流的方式。人机语音对话需要实现两个步骤，一是计算机能够识别人类的语音，二是计算机能够说出人类自然语言，在计算机语音技术上分别对应着计算机语音识别和语音合成两个课题。语音合成的主要目的是让机器能说话，以便使文字字符方式存储的信息能够转化成语音信号，让人能够简单地通过听觉就可以获得大量的信息。语音合成技术除了在人机交互中的应用外，在自动控制、测控通信系统、办公自动化、信息管理系统、智能机器人等领域也有着广泛的应用。另外，语音合成技术还可以作为视觉和语音表达有障碍的伤残人的通信辅助工具，帮助这部分人群更好地生活，推动社会的和谐与进步。目前，世界主要发达国家的许多科研机构和公司纷纷投入资金和人力进行计算机语音合成技术研究，形成了相应的语音合成系统研究成果。这些系统大都有相当高的可懂度，已经在语音报警器、语音报时器、公共汽车上自动报站、股票信息查询、电话查询业务，以及打印出版过程中的文本校对等领域实现了商业化应用并取得了良好的效果。蓬勃增长的市场需求应用推动和要求语音合成技术向更精准、更易理解的高目标迈进。第一章绪论随着语音合成技术研究的突破，基于语音合成技术开发出来的产品，几乎可以深入到社会生活的各个领域。世界上有十几亿人使用汉语，研究我们的母语一汉语的语音合成不仅有庞大的用户需求，而且有助于推动中文社会的发展和提高人们的生活水平。第二节语音合成研究历史和现状让“非生物体”像人类一样讲话，一直以来都备受人们关注，从人们最初的设想到现今，已经走过了二百多个年头。期间经历了机械的、电子的、数字的三个发展阶段。人类语音合成的研究可以追溯到1 7 7 9 年圣彼得堡( s t p e t e r s b u r g ) 的俄国教授c h r i s t i a nk r a t z e n s t e i n 的工作乜3 。他为了解释五个元音( a 、e 、i 、 o 、u ) 的生理学差异，亲自制作了与笛子类似的发音器，其构造与人类的声道相似。这是一个相当完善的机械式语音合成器。第一个被视为典型的电子语音合成器的是1 9 3 9 年贝尔实验室的n d u d l e y 等人研制的电子式语音合成器：v o d e r ( v o i c ed e m o n s t r a t o r ) 。第一个发声合成器( a r t i c u l a t o r ys y n t h e s i z e r ) 是在1 9 5 8 年由麻省理工学院的g e o r g er o s e n 发明口1 。同一时代，共振峰合成器也发明了出来，这是由w a l t e r l a w r e n c e 在1 9 5 3 年制作成的并行共振峰合成器p a t ( p a r a m e t r i ca r t i f i c i a lt a l k e r ) 。今天，语音合成都是利用计算机来实现的，当今的语音合成器都可称为电子语音合成器h 1 。1 9 7 9 年，a u e 、h t m n i c u t t 和k l a t t 在麻省理工学院研制成了 m i t a l k 的文语转换系统口3 。这是第一个商业化的文语转换系统，是2 0 世纪一个伟大的杰作。从此，商业化使得语音合成的发展进入了更快的发展。1 9 8 0 年，德州仪器公司应用l p c ( l i n e a rp r e d i c t i o nc o d i n g ) 技术开发了低价的用于语言合成系统( s p e a k n s p e l ls y n t h e s i z e r ) 的线性预测合成芯片( t m s 5 1 0 0 ) 。八十年代中后期，语音合成技术进入了拼接合成阶段，p s o l a ( 基音同步叠加技术) 和h n m ( h a r m o n i cp l u sn o i s em o d e l ) 给语音合成领域开辟了新的研究天地。九十年代初，基于p s o l a 技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于l p c 方法或共振峰合成器的文语转换系统的自然度要高。国外研究语音合成最具有代表性的公司是 i b m 公司。1 9 9 7 年，i b m 研制成了v i a v o i c e ，该系统同样具备语音合成功能。 2 第一章绪论我国自1 9 7 9 年清华大学开始对人机交互技术进行研究后，语音合成的研究不断取得进步。中国科技大学人机语音通信实验室，在十几年语音技术研究和积累的基础上，使用对数振幅近似( l m a ) 模型，独创了以“人声道模拟技术” 为基础的k d 8 6 3 系统，一举突破了语音合成清晰度和自然度的制约瓶颈，将语音合成技术推进到应用的水平。 2 0 0 2 年炎黄新星网络科技有限公司与清华大学合作建立的华意语音研究中心，研制出了第二代汉语语音合成产品炎黄之声s i n o s o m c 。但是，我们距离国际水平还是有很大差距。电子语音合成从技术层面上主要分为波形拼接合成技术和参数合成技术。波形拼接合成是预先将有限的语音波形存储在计算机中，然后采取一定的拼接算法实现语音合成。如经典的对波形进行修改而合成出所需声音的基音同步叠加( p s o l a ) 算法。参数合成是将人类发声的声道表示成参数的形式，根据待合成的语音选择其相应的参数而动态地生成所需语音。如l p c 线性预测，共振峰和对数振幅近似( l m a ) 合成方法都是基于声道滤波模型的语音合成方法。近几年，科大讯飞公司不断将语音合成技术完善，推出了一系列适合各种不同平台、功能各异的文语转换系统。如i n t e r p h o n i e ，v i v i v o i c e 璐1 等。其中有适合嵌入式系统的，适合一般个人计算机操作系统平台的、普通话的、广东话的、中英文混读的等，这些系统是参数合成的代表。目前微软亚洲研究院语音组研制的“木兰文语转换系统3 也达到了非常好的效果，测听自然度都较高。该系统是波形拼接合成的代表。第三节存在问题和研究意义汉语语音合成面临的技术问题可以归纳为两个方面：合成算法和韵律模型。合成算法最理想的状况就是在灵活有效改变合成单元的音段参数和超音段参数的条件下，仍能保持语音高度的可懂度和自然度。目前这还是一个难以达到的目标。基于大语料库的语音波形编码合成系统虽然是市场应用的热点，但该种方法的缺陷除了音库规模庞大之外，在韵律的调整方面也十分有限，基本上相当于一个搜索语音编码合成系统，而且系统的可维护性和灵活性都是十分有限的。基于参数分析合成方法是本文所用的语音合成算法，它能够在保持语 3 第一章绪论音合成单元清晰度的条件下，改变其超音段特征，但合成连续语流的自然度暂时还难以保证。提出更好的合成算法，或者解决目前算法中存在的问题是合成算法研究的关键。韵律模型方面主要问题是对于某些韵律参数的研究困难，很难得到全面的易于实现的韵律参数规律。韵律层级结构配合声调信息，在相当大的程度上涵盖了汉语韵律特征的变化，合成语音也达到了相当的水平；但其缺陷是不能忽视的，音色单调、机器味重、语调平缓，当然也没有为传递特定语义而有意为之的轻重变化。究其原因就是传统的韵律模型不够完善，其中缺少对重音的刻画，这是提高合成语音自然度的一大障碍。实验表明，在文语转换系统 ( t e x t t o s p e e c hs y s t e m ，又称t t s 系统) 中引入重音可以提高合成语音的质量。重音预测是一个从文本获取信息的过程，可利用的信息只有纯文本，目前重音预测的研究还不成熟1 ，但对汉语语句重音的分类和分布存在很多研究口，引。由于研究人员采用的语料不同，重音标注的实验者水平不同，造成了研究结果也不尽相同哺儿8 9 。，因此重音预测和参数提取是本文重点讨论的问题。本文建立了一个针对特定语料的重音预测模型，并对不同重度的单字词和双字词的声学参数进行了规则提取，用此模型和规则合成的语音，自然度得到了提高。该方法可以应用到其它语音合成系统中。第四节本文工作本文的工作分为三个部分： 1 重音模型的建立本文对由专业播音员录制的语音进行入工标注重度，获得了一个带有重音标注的语料库。针对重音特点，采用决策树和s v m 算法进行对比，选取了最有代表性的属性和正确率比较高的方法，并且加入了典型重音规则构成了重音预测模型。 2 重音韵律声学参数的提取统计单字词和双字词的发音规则和发音特点，提取了一系列的量化规则，从而让重音调节韵律成为可能。 3 实现了一个基于重音模型的汉语文语转换系统原型。 4 第二章汉语t t s 系统总体介绍第二章汉语t t s 系统总体介绍汉语文语转换系统主要分为三部分：文本分析、韵律生成和声学合成。其总体结构如图2 1 所示。虚线框内是主要模块。图2 1 总体结构图第一节文本分析文本分析是文语转换系统的前端，主要功能是对输入的文本进行分析理解，给后端语音合成提供必要的信息，比如读音、重音信息、停顿信息等。就目前语音合成的现状来看，文本分析是制约合成语音自然度的一个重要因素。文本分析应该结合自然语言处理和人工智能的研究成果，在“充分”理解文本的基础上，输出尽可能多的信息。文本分析本身又可以独立成几个模块，每个模块中的问题可以相对独立的研究，尝试使用不同的方法解决每个子问题。下面将介绍文本分析中的几个重要模块。 2 1 1 语法分析语法分析是文本分析中最重要的子模块。高智能的文本分析器需要对文本进行尽可能多的理解，而语法分析是理解文本的关键。语法分析多是以句子为单位，将一个句子分解成若干个小的组成部分( 如单词、短语等等) 并了解这 5 第二章汉语t t s 系统总体介绍些部分之间的关系。英语经过断句和文本规范化后得到单词序列，可以直接进行语法分析；而汉语，由于没有严格的词定义，即书面语中汉字都是连在一起的，词与词之间没有明显的分隔符，因而从书面形式上看，汉语中没有“词” 这个单位。分词成为语法分析的一个必需而且是首要的环节。语句在进行分词后得到了一组词序列，之后可以进行词性标注、句法分析等来获得基本的语法信息n 刨。下面从两个方面介绍汉语的语法分析：词法分析和句法分析。 1 词法分析汉语的词法分析包括分词( 查词典、处理歧义词、识别未登录词) 和词性标注。 1 ) 分词词是最小的语意单元。中文分词技术的研究已经有几十年的历史了，分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 ( 1 ) 基于字符串匹配的分词方法这种方法又叫做机械分词方法，它是按照一定的策略将待分析的字符串与一个“充分大的机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功，即识别出一个词。常用的几种机械分词方法如下：正向最大匹配法( 方向从左到右) 通常简称为m m 法( m a x i m u mm a t c h i n gm e t h o d ) ，这是最早的自动分词方法，由苏联学者在六十年代研究汉俄机器翻译时提出。它的基本思想是：设 d 为词典，m a x 表示d 中的最大词长，s t r 为待切分的字符串，m m 法每次从s 仃中取长度为m a x 的予串与d 中的词进行匹配，若匹配成功，则该予串作为一个词，指针后移m a x 个汉字后继续匹配，否则删除子串的最后一个字，然后再查词典，直到找到一词为止，对句子剩余部分重复以上操作，直到将所有的词分出为止。逆向最大匹配法( 方向从右到左) 通常简称为r m m 法( r e v e r s em a x i m u mm a t c h i n gm e t h o d ) ，这种方法和 m m 法的思想一样，不同之处在于它是从句予的最后m a x 个字开始匹配，如果匹配不成功则去掉字符串前面的一个字。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1 1 6 9 ，单纯使用逆向最大匹配的错误率为1 2 4 5 。 6 第一章汉语t t s 系统总体介绍最短路径法又称为最少切分法，该法的原则是使切分出来的词数最少。此外，可以将上述的各种方法结合起来使用，例如，可以将正向最大匹配和逆向最大匹配方法结合起来构成双向匹配法。改进的方法有两种。一是切分标志法，其基本思想是通过建立自然和非自然切分标志的一个底表来识别所有的切分标志，优先在待分析字符串中识别和切分出一些带有明显特征的词。以这些词作为断点，可将原字符串分为较小的串再来进行机械分词，从而减少匹配的错误率。二是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中反过来对分词结果进行校验、调整，从而提高切分的准确率。 ( 2 ) 基于理解的分词方法这种分词方法是通过计算机模拟人对句子的理解，达到识别词的效果。其基本思想是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词和句子的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识笼统、复杂，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。 ( 3 ) 基于统计的分词方法从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字x 、y 的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组( 而非词组) 频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计分词方法。实际应用的统计分词系统都要使用一部基本的分词词典( 常用词词典) 进行串匹配分词，同时使用统计方法识别一些新的词，即将字符串频率统计方法和字符串匹配方法结合起来，既发挥匹配分词切分速度快、效率高的特点，又 7 第二章汉语t t s 系统总体介绍利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 ( 4 ) 分词歧义在分词过程中，具有两种或两种以上的切分形式的字段的情况，称为分词歧义。分词歧义( 歧义切分字段) 是影响分词精度的重要因素。对汉字串a b c ，其中每一个字母代表一个或多个汉字，如果在a b c 字段中，a 、a b 、b c 、c 分别都可以构成( 词典) 词，则汉字串a b c 是一个歧义字段。例如字串“美国会”中，它可产生“美国会”和“美国会两种切分结果，所以“美国会”是一个歧义字段。 ( 5 ) 未登录词识别汉语中，由于词与词之间没有形式上的边界，而且绝大多数的汉字都可以独立成词，因此未定义词的识别问题非常严重。其中中国人名、中国地名、译名和其他专名的识别显得尤为突出。因为这些名词在文本中都是有意义的实体，如果不能识别出来，句子的意义将无法正确理解。中国人名是未定义词中最常见，也是比较容易识别的一类，因为中国人名的姓名用字都有比较强的规律。中国地名的规律性稍差一些。译名的用字非常集中，不过短译名比较容易和其他类型的未定义词混淆。其他专名主要包括组织机构名、企业商标字号等等，这些专名的用字分布也有一定规律，但规律性不是很强，目前识别准确率都不高。未登录词可以分成两大类，分别是命名实体和衍生词。g a o n 妇中讨论了三类命名实体( 人名、地名、机构名) 和五类衍生词的识别。人名识别分两步，首先根据文中出现的可以用作姓的汉字提出人名候选，并根据纯姓名语料计算该候选的可信度。然后结合上下文的语言模型，确定哪些是人名，哪些不是。地名的识别与人名识别类似，不同的是，提出候选的依据是“村、“县、“乡”、“沟”、“铺、“营”等单字地名。机构名的识别除了需要利用机构名后缀外，还要考虑机构名的构成规则。衍生词由于内部构成的规律性很强，识别过程主要依靠规则法。其中融合词由于其灵活性强，识别难度最大。本文的研究基于北京大学计算语言学研究所的汉语切分系统，并进行了手工修改。 2 ) 词性标注词性标注的作用就是通过采取适当的方法，根据上下文的语境关系，消除 8 第_ 章汉语t t s 系统总体介绍句子中词的语法兼类，使得无论一个词兼有几种词性，在特定的场合下只保留其中最合适的一种。词性标注在许多应用领域中都是一个重要的实际问题，在自然语言处理中也是一个基础的课题，对文语转换系统的韵律生成模块起到关键的作用。近年来，随着计算机技术的发展，可用语料库数量的不断增大，基于统计的方法逐渐成为词性标注方法的主流。目前的统计方法，如隐马尔可夫模型( h i d d e nm a r k o vm o d e l ，简称h m m ) n 利、神经元网络、决策树等，其词性标注的正确率大致相同，其中以h m m 最为典型、最为流行。文本分析模块的词性标注子模块可以和分词子模块结合起来，利用丰富的词性信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而进一步提高切分的准确率。在这方面，中国科学院计算技术研究所的汉语词法分析系统i c t c l a s ( i n s t i t u t eo fc o m p u t i n gt e c h n o l o g y , c h i n e s e l e x i c a la n a l y s i ss y s t e m ) 走在前列。该系统的功能有：中文分词、词性标注、未登录词识别。分词正确率高达9 7 5 8 ，基于角色标注的未登录词识别能取得高于9 0 召回率，其中中国人名的识别召回率接近9 8 。 2 句法分析一般来说，一个句法分析系统通常由两部分组成：形式语法体系和分析控制机制。形式语法体系主要有匹配模式、短语结构语法、扩充转移网络、树嫁接语法、基于合一运算的语法、基于词的语法( 链语法、依存语法和配价语法等) ；分析控制机制主要有：早期的模式匹配技术、基于短语结构语法分析算法n 现。句法分析是自然语言处理过程中的一个重要阶段，它的难度是不言而喻的。词法分析的作用是从词典中划分出词，而句法分析的作用是了解这些词之间的关系。句法分析的输入是一个词串( 包含词性等属性) ，而输出是句子的句法结构。句法分析的过程就是将小的语法成分组合成大的语法成分的过程，虽然各种语法的形式相差很大，不过采取的句法分析算法都是类似的，常见的句法分析算法包括：自顶向下分析算法、自底向上分析算法、左角分析算法、c y k 算法、m a r c u s 确定性分析算法、e a r l e y 算法、t o m i t a 算法( g l r 算法) 、c h a r t 算法等等。这些算法都有各自的优缺点和适用的场合，目前应用最多的算法是 t o m i t a 算法和c h a r t 算法。c h a r t 算法在第三章会有详细介绍。 9 第_ 章汉语t t s 系统总体介绍 2 1 2 韵律分析文语转换系统的输入是无限制的文本，只从文本确定读音是远远不够的，为了建立尽可能正确的韵律生成模型，提高合成语音的自然度，需要从文本中提取更多的韵律结构相关的信息。这包括文本的韵律结构、重音和语调分析。对于重音的研究正是本文的重点，本文采用统计预测的方法给出了基于重音的韵律预测模型，第三章会有详细介绍。 2 1 3 汉字注音字音转换一直是中文语音合成系统中不可缺少的模块，一个典型的字音转换子模块可以把词作为基本单元，通过在单字拼音库、词拼音库查找以及应用词型规则来确定每个字的读音。对于一段已分词的汉语文本，对句中的每个词，首先在词拼音库中查找该词的拼音，如果查不到再根据单字拼音音库把词的每个字依次转换成拼音连接起来作为该词的拼音；最后再利用词型规则来调整个别汉字的读音。然而，汉语语音中的一个突出特点就是多音字的存在，同一个汉字，在不同的场合( 词组、词型以及句型) 下读音是不同的。然而，汉语语音中的一个突出特点就是多音字的存在，同一个汉字，在不同的场合( 词组、词型以及句型) 下读音是不同的。例如，汉字“重，在“重新中的读音是c h o n 9 2 ( 2 表示该读音为二声) ，而在“重要”中的读音是z h o n 9 4 ；“区”一般情况下读作q u l ，但是当“区”出现在一个词首时，或代表人名时应该读作o u l ，同样的情形还有“仇字等；“为人民服务”中的“为”其读音是w e i 4 ，而在“为人民所爱戴”中，“为”的读音为w e i 2 n 引。因此，多音字消歧则是字音转换的核心问题。对于当前字( 词) 对应多种拼音的情况，简单的词典方法就很难解决了。字音转换的关键是解决这种一字 ( i 再- j ) 多音问题。事实上，这种情况不是汉语独有，许多语言都存在着一字( 词) 多音的现象，只是汉语中更为常见，更复杂。多音字的读音消歧有时候是一个相当复杂的问题。从根本上说，多音字的读音是和语义以及语言习惯有关的。但从现在的自然语言处理水平来说，从语义层次上解决多音字问题还不现实。解决多音字读音消歧问题一般有两种常用的主流方案：基于规则体系的方 1 0 第_ 二章汉语t t s 系统总体介绍法和基于统计机器学习的方法。基于规则体系的方法由语言研究人员总结出多音字消歧规律，并将这些规律写成计算机可以理解的规则形式，且仅涉及计算机可以获取的信息。计算机发现多音字时就按规则逐条进行条件匹配和消歧处理。由于手工规则对于多音字读音情况的覆盖面很广，可以解决很大程度上的多音字问题，但这些手工规则都具有局部性，而不是全局最优，规则冲突在所难免。基于统计机器学习的方法。近年来，随着统计模型在自然语言处理中应用越来越广，各种统计模型也被用到了汉语多音字消歧的问题上n4 j 。该方法把多音字消歧问题视为机器学习中的分类问题，首先收集包含多音字的语料库并标注每个多音字的正确读音，然后对于每个多音字，抽取前后词性、字面等上下文信息，通过机器学习的方法完成多音字消歧n 副。本系统汉字注音问题针对多音字和单音字分开来处理。单音字通过一个索引表来查找读音；多音字以词为单位，采用了统计分类的方法来处理，包含了大多数多音字( 词) 。第二节韵律生成在汉语中，音节有不同的声调、发音长短和停顿方式，这些都属于语音学上的韵律特征。韵律生成就是研究如何生成体现这些特征的声学参数，如基频、时长、音强等。文本分析的结果是从语言级分析出计算机应该发什么音，以什么方式发音，这些信息比较抽象，比较笼统。而要发音的时长是多少、调型是什么、是重读还是轻读、停顿位置在哪里，停顿多长时间等等信息都未给出，这些就是韵律生成模块所要研究的。语音韵律的生成方法大体分为：基于规则的方法和数据驱动的方法。早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员具有大量的音韵学背景知识，需要对在各种特定的情况下，如声音在句子巾的不同位置、不同声调及句子的不同语气甚至是不同的词性下，对基频、时长和音强等各个声学参数变化的详细情况加以总结、归纳。由于各个语种的韵律特征不同，因此，针对不同的语种，必须找出与该语种相关联的韵律特征。目前，基于规则的方法仍然被认为是行之有效的方法，大部分汉语语音合成系统依然采第二章汉语t t s 系统总体介绍用这种方法。目前，通过神经网络或统计驱动的方法进行韵律生成已获得成功地应用。 s i e m e n s 和m o t o r o l a 公司均采用或试验了此技术。在国内，很多单位如中国科技大学、清华大学等在这方面也进行了大量的研究，其研究成果已接近实用阶段。其实现步骤是：首先设计或收集一个包含大量语音和文本信息的数据库，然后建立一个训练模型

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）基于重音模型的tts系统.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）基于重音模型的tts系统.pdf

文档简介

温馨提示

最新文档

评论

相关文档