《语音识别综述》PPT课件.ppt_第1页
《语音识别综述》PPT课件.ppt_第2页
《语音识别综述》PPT课件.ppt_第3页
《语音识别综述》PPT课件.ppt_第4页
《语音识别综述》PPT课件.ppt_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别算法综述,语音识别的分类,一、从识别单位分为以下几类 1.孤立词语音识别。识别的单词间有停顿。 2.连接词语音识别。在连续语音中识别出其包含的几个或某几 个词。 3.连续语音识别。识别的单词之间没有停顿。 4.语音理解。在语音识别的基础上,用语言学知识推断出语音 的含义。 二、从识别的词汇量可以分为小词汇(1050个)、中词汇( 50200个)、大词汇(200个以上)等三类。 三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。 不仅仅这三种分类方法,我们还可以从识别方法、识别环境、 说话人类型等方面进行分类。,语音识别技术的发展方向,一、大词汇量连续语音识别系统,主要应用于计算机的听写, 以及与电话网或者互联网相结合的语音信息查询服务系统,这 些系统都是在计算机平台上实现的。 二、小型化、便携式语音产品的应用,如无线手机上的拨号、 汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这 些应用系统大都是使用专门的硬件系统实现。 语音识别与语言学和人工智能有密切联系。语音识别的重大进 展可能并不是来自分析、自适应模式匹配及计算机运算等方面 的进一步研究,而是来自语言感知、语言产生、语音学、语言 学及心理学的研究。,语音识别的原理,预处理,待识别的语音经过话筒变成电信号后加在识别系统的输入端, 首先要经过预处理。预处理包括反混叠失真滤波、预加重和端 点检测。经过预处理后,按照一定的特征提取方法产生语音特 征参数,这些特征参数的时间序列便构成了待识别语音模式, 将其与已经存储在的参考模式逐一进行比较(模式匹配),最 佳(由判决规则确定)的参考模式便是识别结果。参考模式是 在系统使用前获得并存储起来的,为此,要输入一系列已知语 音信号,提取它们的特征作为参考模式,这一过程称为训练。 语音识别所遇的难题是搜索最佳识别结果和参数训练。目前, 语音识别所应用的模式匹配和模型训练技术主要有动态时间规 整技术(DTW)、隐马尔科夫模型(HMM)和人工神经网络。,特征提取,特征提取就是对语音信号进行分析处理,去除语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。特征提取一般要解决两个问题,一个是从语音信号中提取有代表性的合适的特征参数,另一个是进行适当的数据压缩。目前,语音识别技术中应用最流行的特征参数是基于人的声道模型和听觉机理的LPCC,LPCMCC,MFCC和ZCPA。 语音特征的参数是分帧提取的,每帧特征参数一般构成一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板,显然,特征的选取对识别效果至关重要,选择的标准应尽量满足一下两个要求: (1)能有效的代表语音特征,包括声道特征和听觉特征,具有很好的区分性。 (2)特征参数要计算方便,在保持高识别率的情况下。最好有高效的计算方法。,特征提取的方法,一、线性预测系数(LPC) 二、LPC倒谱系数(LPCC) 三、Mel频率倒谱系数(MFCC) 四、LPC梅尔倒谱系数(LPCC) 五、zcpa特征,LPC 倒谱 依据语音信号产生的生理和数学模型可知,语音信号是音源激励分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语音信号的倒谱分析可有效地分离激励成分与声道成分。 计算语音信号的倒谱通常有两种方法:其一是先对语音信号进行短时付里叶变换,取其模的对数值,再进行反变换,得其倒谱。声道信息可通过低时窗取出。 其二是依据AR模型对LPC参数进行递推,形成LPC倒谱,LPC 倒谱(LPCC)由于利用了线性预测中声道系统函数的最小相位特性,避免了复杂的相位卷积和复对数计算;且LPC倒谱的运算量仅是用FFT 求倒谱时运算量的一半,适于实时应用,它的递推式如下:,式中a1ap为p阶LPC的特征向量。,识别方法介绍,一般来说,语音识别的方法有四种 : (1)基于声道模型和语音知识的方法 (2)模式匹配方法 (3)统计型模型方法 (4)人工神经网络方法,基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段 。 模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ) ;统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(BP)神经网络,径向基函数网络(RBF)及新兴的小波网络(这两年很少有人用)。,动态时间规整(DTW),动态时间弯折是一种效果非常好的非线性时间规整模板匹配法。例如对于孤立词识别系统,将每个词重复多遍发音,直到得到一个一致性较好的特征矢量序列,从而形成一个模板,在识别时,待识别矢量序列用DTW算法分别求得与每个模板的累计失真,然后判别它属于哪一类。,矢量量化(VQ),DTW方法是针对时间对准问题的,我们希望不考虑时间顺序任意指定时间对准点,这意味着没有任何时间归一化的处理。矢量量化就时完全忽略时间信息的一种方法。对于孤立词,首先为词会表中的每个但词建立一个码本,这些码本是分离的,它们即为每个单词的模板,识别过程指不过是搜寻誉为指单词有最佳拟合的码本问题,即每个输入矢量必须和每个码本所有码字进行比较。,神经网络,关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理(特别是识别)问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重要方向。在模式识别的应用中,多采用BP网和RBF网等前向神经网络来实现。,RBF网络拓扑结构,RBF神经网络的特点,径向基函数神经网络(简称RBFNN)是一种三层前向神经网络。它的隐层激活函数是一种径向对称的核函数。当输入样本传播到隐单元空间时,这组核函数构成了输入样本的一组“基”。因此,这种神经网络称为径向基函数神经网络。RBFNN具有以下特点: 是一种静态网络; 与函数逼近理论相吻合; 具有唯一最佳逼近点; 网络连接权值与输出呈线性关系。 径向基网络与一般的三层BP网结构很相似,区别有两点: 1.输入层到隐层之间权值固定为1,只有隐层到输出层之间的全值可调节。 2.隐层神经元的激活函数不同,它用一种具有局部作用性质的函数代替了BP网常用的Sigmoid函数。RBF网最常用的激活函数是高斯函数。,从上面的分析可知,RBF 网络由两部分组成(设输入维数为 p,隐单元数为 m,输出维数为 q):, 第一部分:从输入空间到隐含层空间的非线性变换层,第 i 个隐单元输出为:,其中:g(.)为隐单元的变换函数(即径向基函数),一般取为 Gauss 函数,即,x 为 p 维的输入向量,即,为第 i 个非线性变化单元的“中心”向量。,为非线性变化单元的宽度。, 第二部分:从隐含层空间到输出层空间的线性合并层,第 j 个输出,其中: 为第 i 个隐单元与第 j 个输出之间的连接权值; y 为 q 维的输出向量,即 。,在RBF网络中可以调整的参数有:隐节点激励函数,隐节点中心和半径,隐层节点个数和隐层至输出的连接权值。RBF网络的学习方法有两种: 1参数同时训练。 2两阶段训练。 确定每个RBF隐单元的中心和半径; 调节权值矩阵(线性最小二乘法)。,RBF网络的学习,基于RBF网络的语音识别原理图,第一步:提取特征 第二步:确定网络结构 第三步:确定隐函数中心(聚类方法) 第四步:确定半径(根据公式 ) 第五步:训练隐层到输出层的连接权值(最小二乘法) 第六步:对测试集单词进行识别,实验步骤,K均值聚类算法步骤(LBG算法):,即按照一定的失真测度,对训练数据进行分类,从而把训练数据在多维空间中划分成一个个以形心(码字)为中心的胞腔。这个过程需要一个由大量的矢量构成的样本集,经过统计实验后确定出各个胞腔的中心矢量。下面是LBG算法的具体步骤:, 初始化: 采用某种适当的方法选一个包含N个码字的初始码本矢量。 分类 : 按最近邻(Nearest Neighbor)准则,以码字为中心,将训练矢量集中的所有矢量分到各个胞腔中,形成N个区域。 产生新码本:重新计算每个区域新的中心,并以此作为该区域的新码字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论