（信号与信息处理专业论文）语音识别中的后处理技术研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-17 格式：PDF 页数：117 大小：5.14MB 积分：0 举报 版权申诉

已阅读5页，还剩112页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

北京邮电大学博士学位论文语音识别中的后处理技术研究语音识别中的后处理技术研究摘要普通话大词汇量连续语音识别的研究已经进行了十多年，虽已取得了显著进展，但距离广泛应用还有相当的距离。语音识别后处理是将前处理所得到的音节流转换为汉字流的过程。研究发现，语音识别系统的后处理对提高系统性能具有十分重要的意义。人类听觉实验表明，人只能听清连续语音流中7 0 的音节，剩余的3 0 是靠上下文知识来猜测理解的。因此，语音识别后处理受到了广泛的关注，得到了越来越深入的研究。本文主要对普通话大词汇量连续语音识别后处理中的语言模型自适应、解码策略、错误处理等问题进行了研究，主要工作与创新包括以下几个方面： 1 汉语混淆网络算法首先研究了最小贝叶斯风险解码准则以及基于最小贝叶斯解码准则进行最小字错误率解码的若干方法，例如：基于n - b e s tl i s t s 的方法、基于w o r d1 a t t i c e 的方法等。在此基础上，考虑到汉语语言的特点，提出一种构造汉语词混淆网络的算法，对于汉语词格( w o r d l a t t i c e ) 中的长弧，在强制对齐时根据其发音特点快速有效地加入n u l l 弧。实验表明改进的构造汉语词混淆网络进行解码的方法与m a p ( m a x i i n u map o s t 甜o r ) 解码、先前的各种错误率最小化算法相比，有效地降低了普通话大词汇量连续语音识别词错误率。汉语中一个词一般由l 一4 个汉字组成，由不同数目汉字组成的词的发音时间长短差别比较大，造成构造的汉语词混淆网络中包含了大量的n u l l 弧。本文提出一种构造汉字混淆网络来获取具有最小字错误率的识别结果假设的方法，这种算法显著地减少了构造的汉字混淆网络中的n u l l 弧的数目。实验结果表明这种构造汉字混淆网络进行解码的方法有效降低了识别结果的字错误率。 2 解码结果的错误检测与纠正研究北京邮电大学博士学位论文语音识别中的后处理技术研究在普通话大词汇量连续语音识别中，识别结果出错的现象和原因非常复杂。本文首先分析了一些常见的普通话大词汇量连续语音识别结果中的错误及其出现的原因。在此基础上，采用基于转换的学习方法从混淆网络中学习纠错规则，实验表明应用这些纠错规则能够有效降低识别结果的词错误率。考虑到汉语语言的复杂性以及用于错误纠正规则学习的训练语料集有限，不能覆盖所有的错误现象，本文使用统计的方法进行错误的检测与纠正。具体地，本文提出一种基于支撑向量机s v m ( s u p p o r t v e c t o rm a c h i n e s ) 进行错误检测与纠正的框架，首先使用s v m 对识别结果假设字串中的每个字进行分类，判断其正确性；接下来对于分类为错误的字基于汉语字混淆网络构造候选字序列，对候选字序列重新打分，选择最高得分的字串作为错误纠正的结果。实验结果表明这种方法能够有效地检测出识别结果中的错误并进行纠正，降低了字错误率。 3 语音识别中的区分性语言模型研究语言模型自适应是根据不断变化的应用环境，调整语言模型中各种现象出现的概率，以适应不同应用环境的特征。本文将b o o s t i n g 、 p e r c e p t r o n 以及最小化样本风险三种算法用于训练语音识别系统中的 n g r a m 语言模型，使其对特定领域具有自适应能力。实验结果表明使用这三种算法训练的n g r a m 语言模型降低了特定领域的语音识别结果的词错误率。其中p e r c 印t r o n 算法训练的n g r a m 语言模型的领域自适应能力最好。所以本文在通用领域的语音识别中，将输入的语音与识别输出的汉语词混淆网络作为训练样本，使用p e r c 印t r o n 算法训练区分性语言模型，并用这种语言模型对汉语词混淆网络重新打分。实验结果表明这种方法有效地降低了识别结果的词错误率。关键词：后处理解码最小贝叶斯风险准则区分性语言模型错误检测错误纠正 i i 北京邮电大学博七学位论文语音识别中的后处理技术研究 p o s t p r o c e s s i n gt e c h n i q u e f o rs p e e c hr e c o g n i t i o n a b s t r a c t m a n d a r i nl a 唱ev o c a b u l a 拶c h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o n h a sb e e nr e s e a r c h e df o rm o r et h a nt e ny e a r s a l t h o u g ht h e r ea r es o m e a c h i e v e m e n t si nc o n t i n u o u ss p e e c hr e c o g n i t i o nr e s e a r c h ，t h ed i s t a n c e f 如mw i d e s p r e a da p p l i c a t i o ni ss t i l lv e 巧l o n g t h ep o s t - p r o c e s s i n go f s p e e c hr e c o g n i t i o ni s ap r o c e s s i n gw h i c hc o n v e r t sp i n y i nt oc h i n e s e c h a r a c t e r s t h er e s e a r c hs h o w st h a tt h e p o s t p r o c e s s i n g o fs p e e c h r e c o g n i t i o nh a sv e 拶i m p o r t a n ts i g n i f i c a n c et oi m p r o v et h es y s t e m p e 而m l a n c e t h ee x p e r i m e n to nh e a r i n gi n d i c a t e st h a th u m a nc a no n l y h e a r7 0 s y l l a b l e si nc o n t i n u o u ss p e e c ha n du n d e r s t a n dt h er e m a i n i n g 3 0 u s i n gc o m e x tk n o w l e d g e t h e r e f o r e ，t h ep o s t p r o c e s s i n gt e c h n i q u e o fs p e e ( mr e c o g n i t i o ni sp a i dag r e a ta t t e n t i o na n dc o n ( 1 u c t e di n d 印t h s t u d i e s i nt h i st h e s i s ，w ew i l lm a k ead e 印r e s e a r c ho nt h ep o s t - p r o c e s s i n g t e c h n i q u eo fm a n d a r i nl a 玛ev o c a b u l a 巧c o n t i n u o u ss p e e c hr e c o g n i t i o n ， i n c l u d i n gl 孤g u a g em o d e la d a p t a t i o n ，d e c o d i n gs t r a t e g ya n d e 订o r h a n d l i n g t h em a i nc o n t n b u t i o n sa n di n n o v a t i o n sa r ed e s c r i b e di nd e t a i l s a sf o l l o w s ： 1 c h i n e s ec o n m s i o nn e t w o r ka l g o r i t h m s a tt h eb e g i i m i n g ，w es t u d yt h em i n i m u mb a y e sr i s kd e c o d i n gm l e a n ds o m em i n i m u mw o r de 仃o rr a t ed e c o d i n gm e t h o d s a c c o r d i n gt ot h e c h a r a c t e r i s t i co fc h i n e s el i n g u i s t i c s ，w ep r o p o s e da ni m p r o v e da l g o d t h m o f c o n s t r u c t i n g c h i n e s ew o r dc o n 向s i o nn e t w o r k t h e i m p r o v e d a l g o r i t h mn e e t l ya d d si m l la r ci nc o n 如s i o ns e tw h e nt h el o n ga r cw i t ha c h i n e s ec h a r a c t e rs t r i n gi sf o r c i b l ya l i g n e di nt h ep r o c e s so fc o n s t l l l c t i n g ac o n 如s i o nn e t w o r k t h i si m p r o v e da l g o r i t h mw e r ee v a l u a t e do n2 0 0 5 h t r d p ( 8 6 3 ) e v a l u a t i o nt a s k ， w h e r e i m p r o v e d w o r d a c c u r a c y i l i ：j | ：i l 人学博卜学位论文 p e l t o r m a n c ew a so b s e r v e d i ng e n e r a l ，ac h i n e s ew o r dc o n s i s t so f1 - 4s i n g l ec 】ji n e s ec h a r a c t e r s ， s ojt sp r o n u n c i a t i o nt i m el e n 鲈hc h a n g eq u i t el a 唱e s ow ep r o p o s e da n n 0 、，c j ( i h i n e s ec h a r a c t e rc o n 如s i o nn e t w o r ka l g o r i t h mf o rt h ep u 叩o s eo f d c ( ：j e a s i n gt h em i m b e ro fn u l la r c e x p e r i m e n t a lr e s u l lp r o v e st h a tm i s a 埝( ) r i t h mc u tt h ec h a r a c t e re 玎o rr a t eo f r e c o g n i t i o nr e s u l t se 日e c t i v e l y 2 r e s e a r c ho nd e t e c t i o na n dc o r r e c t i o no fd e c o d i n ； r e s u l t s 0 1 1t h eb a s i so na n a l y s i so f d e c o d i n ge n o r sa n dr e a s ：) n ，w ep r o p o s e d am e t h ) dt h a tw eu s et r a n s f o n n a t i o n _ b a s e dl e a m i n gri rl e a m i n ge 1 1 r o r c ) j t r f ? c li o nm l e s f 而mc h i n e s ew o r dc o n 如s i o nn e t w o r k e x p e r i m e n t a l n 。，。ns h o w ss i g n i 丘c a n ti m p r o v e m e n t so v e rr e c o g n i t i o nr e s u l t s ( ! ( ) n s i d e r i n gt 1 1 ec o m p l e x i t yo fc h i n e s ea n dt h el i m i t e dc o 印u sf o r l e ：湎l1 9e n d rc o r r e c t i o nr u l e s ，w eu s es t a t i s t i c a lm e t h o ( 1 st 0d e t e c ta n d c o r r e c td e c o d i n ge i t o r s i nd e t a i l s ，w eu s es v mt oc l a s s i 黟t h ed e c o d i n g r e 。，u l t s ，d e t e c tt h ee r r o r s ；t h e nw eu s ec h i n e s ec h a r a c t e rc o n 向s i o n n e l 、v o r kt oc o r r e c te r r o r s e ) 【p e r i m e n t a lr e s u l ts h o w st h a tt h i sm e t h o dc a n e 什e c t i v e l yd e t e c ta n dc o r r e c td e c o d i n ge 1 1 r o r s ，a n dr e d u c em ec h a r a c t e r t ! h ) i r a t e 3 s t u d yo nd i s c r i m i n a t i v el a n g u a g em o d e lo fs p e e c hr e c o g n i t i o n h r s t l y w es m d yt h r e ed i s c r i m i n a t i v em e t h o d so fl a n g u a g em o d e l a ( ，i a j ) t a t i o n ，i n c l u d i n gt h eb o o s t i n ga l g o r i t h m ，t h ep e r c 印t r o na l g o r i t h m ，a n dt h em i n i m u ms 觚n p l er i s k a l g o r i m m ， a n dp r e s e n t c o i n p a r a t i v e i ( ) 吖i m o n t a lr e s u l t so nt h ep e r f o r m a n c eo fu s i n gd i f f e r e n t 印p r o a c h e st o t l t 。小l l i s c r i m i n a t i v el a n g u a g em o d e lo nt h et a s ko fs p e e c hr e c o g n i t i o n 7 1 e 1 1w eu s et h e p e r c e p t r o na l g o r i t h mw i t h b e s td i s c r i m i n a t i v e p e r f 、o f n a n c et ot r a i nd i s c r i m i n a t i v el a n g u a g em o d e lf o rg e n e r a ld o m a i n m ：1 n d a r i nl a 唱ev o c a b u l a 呵c o n t i n u o u ss p e e c hr e c o g n i t i o n ，a n dr e s c o r e ih ( 1 1 i n e s ew o r dc o n m s i o nn e t w o r k e x p e r i m e n t a l r e s u l ts h o w st h a tt h i s ii l c t jl o dc a ne f j f e c t i v e l vr e d u c et h ew o r de n o rr a t e kf yw o r d s ：p o s tp r o c e s s i n g ，d e c o d i n g ，m i n i m mb a y e sr i s k n l l e ， di 、c r jm i n a t i v e1 a n g u a g em o d e l ，e m rd e t e c t i o n ，e r r o rc o r r c c t i o n 创新性声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：超邀日期：呈丝墨车! 旦兰；旦关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文不属于保密范围，适用本授权书。本人签名：导师签名：关铽印香日期：? 0 0 8 绎6 目哆日日期：2 0 口矿f 2 多北京邮电大学博士学位论文语音识别中的后处理技术研究 1 1 引言第一章绪论通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。据心理学研究，人类交际信息的全部表达为7 语调+ 3 8 声音+ 5 5 表情，由此可见语音在信息传递中发挥着重要作用。随着计算机的出现及发展，和计算机、机器进行语言交流，使之理解人的语言并做出恰当回应就一直是人类的渴望和追求。语音识别的研究目标就是让机器“听懂人类的语言，它采用语音信号处理等技术自动提取以及判定语音信号中基本、有意义的信息n 1 。因此，对语音识别的研究在过去的数十年中吸引了人们大量的注意力，各国的科技界、工业界以及国防部门都投入了大量的人力、物力、财力来研究语音识别。语音识别技术从理论的研究到产品的开发已经走过了几十个春秋并取得了长足的进步。现在语音识别技术已经广泛应用于工业、军事、交通、医学、通信、民用诸方面特别是信息处理、通信与电子系统自动控制等领域。以语音识别技术开发出的产品，例如：声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统，声控智能玩具、医疗服务、银行服务、股票交易、计算机控制等，几乎深入到社会的每个行业、每个方面，其经济和社会效益前景良好。尤其对于汉语语音识别技术应用而言，面对着有十几亿人使用中文的泱泱大国，其市场需求、应用前景和经济效益等都非常可观口1 。据预测，语音识别将成为继键盘和鼠标器之后，人机交互界面革命中的下一次飞跃。正如 i d c 的p c 分析员黜c h a r d 所说：“语言是最自然的界面”。北京邮电大学博士学位论文语音识别中的后处理技术研究图卜l 语音识别的实际应用和学科基础语音识别是一门涉及面很广的综合性学科，与语言学、声学、生理学、心理学、信息学、数字信号处理理论、模式识别理论和计算机等学科都有着非常密切的关系。因此，虽然有许多科研人员投身到语音识别的研究中，并取得了大量的成果h 嘲，但要使计算机听懂并理解人类的自然语言，实现“人一机无障碍的交流，仍然有许多重要的问题亟待研究、解决。 1 2 语音识别发展历史、现状语音识别的研究历史可以追朔到在二十世纪三、四十年代。1 9 3 9 年美国b e l l 实验室的h d u d l e y 发明了声码器。1 9 5 2 年，贝尔实验室的d a v i s 等人实现了特定人的孤立数字识别；1 9 5 9 年，麻省理工学院的f o r g e 建立了能识别1 0 个元音的非特定人识别器阳1 。从二十世纪三十年代到五十年代，是语音识别的探索阶段，这个时期的研究没有明确地意识到语言和语音的对应关系，研究人员主要是基于语音特征( 主要是对语音频谱特性的认识) 以及对人耳功能的研究的基础上，通过把人耳的功能等效为带通滤波器，依据人耳对共振峰的位置比较敏感的特点进行识别工作的研究u 引。直到二十世纪六十年代，计算机产业的迅速发展提供了实现复杂算法的软、硬件环境，数字信号处理的理论和算法因此取得了飞跃的发展。研究人员开始比 2 北京邮电大学博上学位论文语音识别中的后处理技术研究较深入地研究语音信号的产生机理和内在特征、人类的听觉生理和心理等问题，并提出了对语音识别的发展产生深远影响的两大主要技术：一个是线性预测分析方法( “n e a rp r e d i c t i v ec o d i n g ) n ，它很好地解决了语音信号时域建模的参数估计问题。另一个是以动态规划为基础的模板匹配技术，该技术解决了语音持续时间不均匀的问题。在二十世纪六十年代后期，卡耐基梅隆大学的r e d d y 在连续语音识别领域采用动态音素追踪进行了开拓性的研究n 幻。在二十世纪七十年代，语音识别的研究发展迅速。语音识别中特征提取技术日趋成熟，形成了三种主要的分析方法：频谱分析、l p c 分析、倒谱分析n 引。1 9 7 5 年日本学者f i t a k u r a 将动态规划的概念用于解决孤立词识别时说话速度不均匀的难题，提出了著名的动态时间规整算法( d y n 锄i ct i m ew a r p i n g ) ，较好地解决了由于说话速度不均匀造成的识别困难问题n 1 6 1 。七十年代末，l i n d a 、b u z o 等人首次解决了矢量量化( v q ) 码书生成的方法，并将矢量量化技术用于语音编码获得成功n7 i 。来自i b m 的b a k e r 和j e l i n e k 等人开创了应用统计方法解决语音识别的问题，b a u l 和b a l ( e r 分别研究了隐马尔可夫模型理论在语音识别中的应用。俄罗斯的v e l i c h k o 和z a g o r u y k o 提出了在语音识别中采用模式识别的思想。以美国国防部a r p a ( a d v a l l c e dr e s e a r c hp r o j e c t sa g e n c y ) 为主导的“语音理解系统”的研究计划产生了很大的影响，促进了连续语音识别研究的兴起，研究人员开发出h a p p y 、h e a r s a m i i 等语音识别系统阳j 0 1 8 1 。在二十世纪八十年代，语音识别研究的特点是方法论上的转变，从基于模板的方法转变为更为严格的统计建模框架。矢量量化技术( v e c t o rq i u a i l t i z a t i o n ) 、隐马尔可夫模型( h m m ) 和人工神经元网络( 砧州) 在语音识别中得到了成功应用。隐马尔可夫模型是一个双随机过程，它不但模仿了完整相容统计建模结构中的说话语音的结构，还模仿语音信号( 及其光谱特征) 固有的易变性。所以h 删非常适用于语音识别，特别是连续语音识别n 眈。1 9 8 7 年i b m 采用v q h m m 开发了一个具有2 0 0 0 词汇的特定人孤立字识别系统t a n g o r a 2 0 ；1 9 8 8 年c m u 用同样方法建立了一个9 9 7 个词汇的非特定人连续语音识别系统s p h i n x 。同时，统计语言模型也开始应用到语音识别中。这一时期的语音识别在实验室中突破了词汇量、说话人以及说话方式的限制，在实用化、商品化方面也取得了实质性的进展恻。二十世纪九十年代之后，在各方面的推动下，语音识别技术获得了更深入而北京邮电大学博士学位论文语音识别中的后处理技术研究广泛的研究。小波理论被用于语音识别特征提取，从而能够更好地模拟人耳的谱分辨特性。在模式识别领域出现了众多创新思想。模式识别的问题由传统的贝叶斯框架和数据分配误差估计转向包括最小经验识别误差估计的优化问题。这个基本的变化是由识别的实际情况引起的。语音信号的分类函数很难精确选择或定义，而且贝叶斯分类理论在这些环境下并不适用。从根本上说，识别器设计的目的是达到最小识别误差，而不是像贝叶斯准则那样针对已知数据集合提供一个分类函数。这种错误最小化概念产生了许多技术，如离散训练和基于核的方法。最小分类误差准则是离散训练中的一个例子。它采用g p d 训练算法最小化目标函数，这个目标函数是用来逼近错误概率的。另一个例子是最大互信息准则。在最大互信息准则的训练中，声音的观测值和正确的词汇特征之间的互信息的平均值最大。尽管这个准则不是基于直接的分类错误率最小化并且与m c e 方法有很大的不同，但是它很好地建立在信息论基础之上，并且具有很好的理论特征。基于删i 和m c e 准则的语音识别要比最大似然准则更出色。2 0 世纪9 0 年代语音识别在软件的开发工具方面取得的很大进步，使得遍布世界各地的许多个别研究计划变得可行。随着计算机的普及、通讯和网络技术的发展，信息时代已经来临，语音识别技术正日益显示出它的优越性和巨大的市场潜力。许多国际著名的大公司纷纷投以巨资加强这方面的研究和开发能力，如i b m 、贝尔实验室、m i t 、c m u 、 d r a g o n 、b b n 、l & h 、m i c r o s o f i 、剑桥大学等。而随着用户对语音识别系统性能的需求不断增加，新问题、新技术、新理论的不断出现，使得语音识别的发展必然呈螺旋阶梯状发展田1 0 1 2 卫2 嚣2 4 2 5 1 。 4 北京邮电大学博士学位论文语音识别中的后处理技术研究 m l l e s t o n e si ns p e e c ha n dm u l l i m o d a it e c h n o l o g yr e s e a r c h 圈 f i n e f b a n i a n a l v s i s ：瓢m e n o n n a “z a l o f l d v n a f n i c p 嘲r 8 m m i n g l a r g e 蕊盏磐_s t a t i s t i c a i _ _ b a s e d 网斟 ic o n t n u o u sl is p e hl 善麟僦 m o d e l s 。u 喇e r s l a l l 翻哪：j ：= 。z ：j s o c h a s f t cf | n i e s l a l e。= ：9 ：z ：z “ l 8 n a t i a 口em a c n l 鹏s ，王= ：：“i m o d e i n 口：s 妇b s b c a l 培a m i n a ： ”w 。挑 11 f 2j ；g 71 0 7 21 0 7 7i t l 3 21 9 e 7i 0 9 21 9 囊72 0 0 2 y e a r 图卜2 过去4 0 年语音识别和理解技术发展的里程碑m 1 汉语语音识别相对来说起步较晚，但发展较快。国内的一批科研单位，如中科院自动化所、声学所、清华大学、北京大学等进行了汉语语音识别的研究，取得了许多研究成果，使汉语语音识别技术得到快速发展。为了推动我国语音识别技术的发展，国家8 6 3 计划智能计算机主题专门为语音识别研究立项，同时每一到两年举行一次全国性的语音识别系统测试。在国家8 6 3 计划、中科院八五攻关计划以及国家9 7 3 计划的大力支持下，我国语音识别的研究不断发展，目前我国对大词汇量连续语音识别系统的研究已经接近国外最高水平。鉴于汉语语音识别产品市场前景广阔，许多国际知名大公司都在中国设立研究中心进行这方面的研发，如i b m 、m i c r o s o j f i 等。其中，i b m 公司于1 9 9 6 年正式推出的中文听写机系统 v i a v o i c e 是目前比较有代表性的汉语连续语音识别系统。次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统a v o i c e 9 8 乜j 9 ，1 0 1 2 t “卫别。耋，叫嘛删|竺一一一一 e 融陆勰滁os锄一 v ， m叫悔d阶山牖湖圳细节峪黻删加蚰一吖c 争硼山鳓姚删嚣裂j l o a 卟一 p w 咖邮帆删吣蛳蝴一螂一一一黝一雠蝴北京邮电大学博士学位论文语音识别中的后处理技术研究说话风格识别系统词汇量图卜3 语音识别技术复杂度和当前的应对能力n 2 图卜3 给出了各种语音识别系统的复杂度和当前的应用能力。从左下角到右上角，识别系统的复杂度增加，应用程度减弱。从左上角到右下角的粗线以下部分是基本达到或者接近实用的系统。可以看出小词汇量的语音识别系统己经达到实用阶段，事实上也己经被应用到了实际产品中。而大词汇量语音识别系统距离实用化还有很长的一段路要走。 1 3 大词汇量连续语音识别存在的问题本文的工作主要是基于普通话大词汇量连续语音识别系统进行的。我们知道对普通话大词汇量连续语音识别的研究已经进行了十多年，取得了一些成果。但距离完全地实现商用目的还有相当的距离，还存在着不少的难题。连续语音识别是与孤立词识别相对应的，是指对连续的语音，或者说是正常发音速度的语音的识别。在连续语音识别，由于上下文的影响，字的声学特征模式变化很大，所以精确地判断一个字的结束和下一个字的开始是很困难的。连续语音识别比孤立词语音识别难度要大，正是因为连续语音造成语句中相邻语音单 6 北京邮电大学博士学位论文语音识别中的后处理技术研究元或者识别单元( 音节、词或词组) 相互钳制、相互影响，使各音节间产生“吃音、丢音现象和协同调音作用，从而使得各个语音单元的音长、音强、音调等特征随前后相邻的语音单元不同而发生不同的变化。另外，连续语音使得语音单元的界线模糊，再加上计算机并不知道每次发音包括多少个语音单元数目，这些都给语音单元的正确切割造成极大的困难。语音单元不能正确切割，势必严重影响语音识别的性能。研究表明，即使在安静的环境下语音识别系统一半以上的识别错误来自于端点检测。提高端点检测技术的关键在于寻找稳健的语音特征参数。汉语中存在严重的同音现象，有调音节只有1 3 0 0 个左右，然而汉字却有几万个，这只靠声学参数无疑是区分不开的，必须借助语法、语义以及上下文内容等的非声学的语言知识来完成。大词汇量语音识别要求系统所能识别的词汇达到成千上万个，字典的大小对于语音识别系统的复杂性有很大的影响。随着字典的增大，每一个语音发音的声学特征可变性会增大，字典的混淆度也会增大，而且包括计算复杂度和存储量呈级数增长。所以需要研究减小搜索空间的新方法。语音识别系统的性能还受到说话方式的影响。自然的对话识别与文本朗读语音识别相比，说话人的语速不一定平缓，还有可能央杂一些噪声( 如咳嗽声等) ，还常有不可预测的停顿等现象，这些都会使识别性能下降。说话时的重音、语调等韵律信息包含了很多重要的信息，如何在利用韵律信息进行语音识别还有待进一步的研究，这对于包含丰富韵律信息的汉语语音识别尤其重要。语音识别系统应用于实际环境中，除了说话人因素外，还需要面对声学环境噪声对系统的影响。现有的语音识别系统的适应性较差，对环境的依赖性强。在某种环境下训练的语音识别系统只能在这种环境下应用，否则系统性能将急剧下降。如何将语言学、生理学、心理学方面的研究成果量化、建模并应用于语音识别还需要迸一步地研究。而语言模型、句法、语法及语义模型在大词汇量连续语音识别系统中是非常重要的。 1 4 论文研究意义一个典型的语音识别系统通常可以分为声学处理和语言处理两部分，又称为 7 北京邮电人学博士学位论文语音识别中的后处理技术研究前处理和后处理。对于大词汇量连续语音识别，前处理主要是对输入的语音提取特征参数，使用隐马尔可夫模型( h m m ) 得到语音的发音单元；后处理主要使用基于语料库统计的n 一伊锄模型( b i 伊a m 或t h 伊锄) ，完成音一字转换。人类听觉实验表明，人也只能听清楚连续语音流中7 0 的音节。因此，连续语音识别的前处理很难也没有必要做到9 0 以上的首选正确音节识别率。当前大词汇量连续语音识别的关键主要取决于后处理。本文认为普通话大词汇量连续语音识别后处理中亟需解决以下几个问题：语言模型自适应目前在大词汇量连续语音识别系统中常用的n 模型，它提供了一种根据所给词序列矿中的上下文而估计出某个词毗在此词序列中出现的概率的机制，往往需要大量真实的训练语料。并且把在某一领域中训练好的模型移植到另一领域非常困难。所以希望根据不断变化的应用环境，有限的训练语料，不断调整语言模型中各种语言现象出现的概率，以适应不同应用环境各自的特征，为语音识别的解码提供更为精确的语言模型。解码策略大词汇量连续语音识别的解码器通常是基于最大后验概率准则的，此时得到的识别结果是具有整体最大后验概率的句子，显然这样的识别结果的句子错误率最小。而在普通话语音识别中，通常使用词错误率或字错误率来评价识别结果，与最小化句子错误率的解码准则不相匹配。所以希望在普通话大词汇量连续语音识别中，能设计并实现进行最小词错误率或最小字错误率解码的策略和方法。错误处理语音识别的最终目标是把输入的语音序列转换为正确的汉字序列。在大词汇量连续语音识别中，由于各种因素的影响，解码输出的识别假设中经常存在错误，阻碍了语音识别系统的应用。所以希望寻求有效的错误处理方法，以提高识别系统的正确率。本文的工作重点主要是上述几个关键问题进行研究。北京邮电大学博士学位论文语音识别中的后处理技术研究 1 5 论文结构安排本论文一共分为六章。第一章，绪论，主要介绍了语音识别发展历史、现状、大词汇量连续语音识别存在的问题，以及论文的研究意义。第二章，语音识别中的后处理研究概述，首先阐述了大词汇量连续语音识别系统的基本框架。然后介绍了汉语语音的基础知识，以及大词汇量连续语音让别中的前处理( 前端处理、特征提取、声学模型) 的基本原理。详细讨论了大词汇量连续语音识别中的后处理( 语言模型、解码、错误处理) 的基本原理和关键技术。第三章，汉语混淆网络算法，首先讨论了最小贝叶斯风险解码准则，以及使用最小贝叶斯风险解码准则获得具有最小字错误率的识别结果的各种方法，包括基于n - b e s tl i s t s 的方法、基于w o r d1 a t t i c e 的方法等。在此基础上，考虑到汉语语言的特点，我们提出一种构造汉语词混淆网络的算法，在对长弧的强制对齐时快速有效地加入n u l l 弧。实验表明改进的构造汉语词混淆网络进行解码的方面算法与m a p 解码、m a n g u s 算法以及快速混淆网络算法相比，有效地降低了普通话大词汇量连续语音识别词错误率。汉语中一个词一般由l 一4 个汉字组成，由不同数目汉字组成的词的发音时间长短差别比较大。所以我们提出一种构造汉字混淆网络来获取具有最小字错误率的识别结果假设的方法，这种算法极大地减少了构造的汉字混淆网络中的n u l l 弧的数目。实验结果表明这种构造汉字混淆网络进行解码得到的识别结果的字错误率要小于构造汉语词混淆网络解码得到的识别结果的字错误率。第四章，解码结果的错误检测与纠正研究，首先介绍了一些常见的普通话大词汇量连续语音识别结果中的错误，并分析了原因。在此基础上，我们采用基于转换的学习方法从普通话大词汇量连续语音识别输出的汉语词混淆网络中学习获得一些错误纠正的规则，实验表明将学习得到的错误纠正规则用于语音测试集时，降低了识别结果的词错误率。但是考虑到汉语语言的复杂性以及用于错误纠正规则学习的训练语料集毕竟有限，不可能覆盖所有的错误现象，所以我们考虑使用统计的方法进行错误的检测与纠正。这里我们提出一种基于支撑向量机 9 ：l t 意邮电大学博士学位论文语音识别中的后处理技术研究 ( s u p p o r t 、t o r m a c l l i n e s ，s 、，m ) 进行错误检测与纠正的框架，实验结果表明这种方法能够有效地检测出识别结果中的错误并进行纠正，降低了字错误率。第五章，语音识别中的区分性语言模型研究，首先介绍了语言模型自适应的繁体框架以及常用的一些自适应技术。然后讨论了目前常用于语言模型自适应的二种区分性训练算法：b o o s t i n g 算法、p e r c 印仃o n 算法以及最小化样本风险算法，并将这三种算法用于语音识别中训练特定领域自适应的n g r a m 语言模型，实验结果表明使用这三种算法训练的区分性n g r a m 语言模型降低了特定领域的语音识别结果的词错误率，其中p e r c e p 仃0 n 算法训练的n g 胁m 语言模型的领域自适应能力最好。所以我们提出一种在通用领域的语音识别中，将输入的语音与识别输出酶汉语词混淆网络作为训练样本，使用p e f c e p 的n 算法训练区分性语言模型，爿：将这种区分性语言模型编码为确定的加权有限自动机，对汉语词混淆网络重新打分以改进语音识别系统的性能。实验结果表明这种方法有效地降低了识别结果的词错误率。第六章，总结与展望，对论文的所有工作进行总结，并对以后进一步研究提出几点建议。 2 。- j i 引言第二章语音识别中的后处理研究概述一个典型的语音识别系统通常可以分为声学处理和语言处理两部分，又称为前处理和后处理。对于大词汇量连续语音识别，前处理主要是对输入的语音进行提取特征参数，使用隐马尔可夫模型( h m m ) 得到语音的发音单元；后处理主要使用基于语料库统计的n - 黟锄模型( b i 伊锄或啊黟a n l ) ，完成音一字转换瞳6 1 。，本文的【作主要是对普通话大词汇量连续语音识别中的后处理技术进行研究，以提高普通话大词汇量连续语音识别系统的性能。因此本章重点讨论和分析了一些现有的大词汇量连续语音识别中的后处理技术( 语言模型、解码、错误处理) 。 l o 北京邮电人学博士学位论文语音识别中的后处理技术研究本章首先阐述了大词汇量连续语音识别系统的基本框架。然后介绍了汉语语音的基础知识，以及大词汇量连续语音识别中的前处理( 前端处理、特征提取、声学模型) 的基本原理。详细讨论了大词汇量连续语音识别中的后处理( 语言模型、解码、错误处理) 的基本原理和关键技术。 2 2 大词汇量连续语音识别基本框架在语音识别方法中，目前占主导地位的是基于统计的模式识别方法乜7 1 。一段语音波形通过前端信号处理后可以得到一组特征序列】，= 钞。，j ，：，) ，r ) 。在给定观测序列y 的情况下识别系统采用最大后验概率准则决定输出词序列矿矿= 鹕尹a x 尸( 叩) = 鹕a x 帮 ( 2 - - ) 厂i j 其中，p ( y ) 与词序列形无关，因此在式( 2 1 ) 中分母可以忽略，即矿= a r g m a x 尸( 形) 尸( 】，l 形) ( 2 2 ) 式中，p ( ) 为语言模型，表示特定词序列出现的先验概率，与观测语音信号无关；p ( 】，l 形) 为声学模型，表示给定词序列情况下输出】，的概率，也就是给定声学模型输出】，的概率。如图2 1 所示，大词汇量连续语音识别系统是一般由语音信号处理、声学特征提取、声学模型、语言模型、解码器以及错误处理模块组成。从语音数据提取声学特征并输入到解码器，利用声学模型和语言模型，基于最大后验概率准则解码，并对解码输出进行错误处理，得到最终的识别结果阻3 羽。北京邮电大学博士学位论文语音识别中的后处理技术研究 e l 适图2 一l 大词汇量连续语音识别系统基本框架大词汇量连续语音识别系统通常可以分为声学处理和语言处理两部分，又称为前处理和后处理。前处理主要是对输入的语音进行提取特征参数，使用隐马尔可夫模型( h m m ) 得到语音的发音单元，涉及前端处理、特征提取、声学模型等模块；后处理主要使用基于语料库统计的n - 黟锄模型( b i 笋锄或t r i 舭n ) ，完成音一字转换，由语言模型、解码、错误处理等模块实现。 2 3 汉语语音学基础语音识别的研究与语言息息相关，因此对于普通话连续语音识别的研究必须建立在对汉语的语言特点和声学特点充分了解的基础上。汉语标准语音指的是北京语音，在中国又称为普通话。汉语语音有一些重要的特点口，协删：汉语普通话中有6 0 0 0 多个常用字，大约有

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）语音识别中的后处理技术研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）语音识别中的后处理技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档