课件:南理工语音信号处理期末考试重点整理.ppt_第1页
课件:南理工语音信号处理期末考试重点整理.ppt_第2页
课件:南理工语音信号处理期末考试重点整理.ppt_第3页
课件:南理工语音信号处理期末考试重点整理.ppt_第4页
课件:南理工语音信号处理期末考试重点整理.ppt_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1月20号晚上七点-九点,四工A107 选择题(2分,10题) 填空题(1分,15题) 文字解释(4分,5题) 简答题(9分,5题) 没有计算题。,语音信号处理 洪弘,2,第一章,1.语音信号处理的实质:是研究用数字信号处理技术对语音信号进行处理的一门学科。 2.语音信号处理的目的: 通过处理得到一些反映语音信号重要特征的语音参数,以便高效地传输或储存语音信号所包含的信息。 通过对语音信号进行某种运算,以达到某种要求。,3,3.语音信号数字表示的优点 数字技术能完成许多很复杂的信号处理工作; 语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理; 数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务; 数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。,第02章基础知识4,第2章 语音信号基础知识,声音是一种波,振动频率在2020 000 Hz之间。 20HZ以下:次声波 20 000HZ以上:超声波,第02章基础知识5,1. 人类的语言器官,人体发音器官肺、气管、喉(包括声带)和声道 肺是语音产生的能源所在; 声带为产生语音提供主要的激励源; 声道是指声门至嘴唇的所有器官:咽、鼻腔 、口腔等,它们具有非均匀截面,且随时间变化,起共鸣器(或谐振器)的作用。,1、人类的语言器官,第02章基础知识6,2.语音产生过程,肺,声带,声道,直流气流,声音,嘴唇,声压波,速度波,能源,激励源,谐振源,辐射源,交流气流,2、语音信号产生过程,语音的形成过程空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。,第02章基础知识7,2.语音产生过程,浊音(Voiced sounds) :声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,这时候就造成周期性的激发气流,如a,o; 清音(Unvoiced or Fricative sounds) :声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d; 爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放 ,如b,p。,2、语音信号产生过程,第02章基础知识8,语音的两个重要声学特性:基音频率,共振峰 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80500 Hz左右。 共振峰(Fn , n=1,2,.):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。 声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要,越多越精确。,2、语音信号产生过程,第02章基础知识9,共振峰是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓,或称谱包络。 语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性,即音色。 元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。 在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现实的。 声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。,第02章基础知识10,3. 语音信号产生的数字模型,下图是一 个完整的语音信号产生的数字模型:,3、语音信号产生的数字模型,第02章基础知识11,由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:激励模型、声道模型、辐射模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励,3、语音信号产生的数字模型,第02章基础知识12,(a)浊音激励 由前面所讲发音过程可知,发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波,其周期为基音周期,单个脉冲的波形类似于斜三角波,故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入,其输出就是浊音激励。 由于人类语音的频率范围主要集中在300Hz3400Hz,数字模型中的信号取样率一般为8KHz。,3、语音信号产生的数字模型,(1)激励模型,第02章基础知识13,由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有 G(z)1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。,第02章基础知识14,周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式 E(z)AV/(1-z-1) (2-5) 所以整个激励模型可表示为 U(z)G(z)E(z)AV/(1-z-1) 1/ (1-g1z-1)(1-g2z-1) (2-6),3、语音信号产生的数字模型,第02章基础知识15,(b)清音激励 发清音时声道被阻碍形成湍流,所以可把 清音激励模拟成随机白噪声。此处用均值 为0方差为1并在幅值上为平稳分布的序列, 具体实现时可采用随机噪声发生器来产生 此序列。,3、语音信号产生的数字模型,第02章基础知识16,声道模型两种建模方法:声管模型,共振峰模型 共振峰模型将声道视为一个谐振腔,按此原则导出。 基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型: (a)级联型 (b)并联型 (c)混合型,3、语音信号产生的数字模型,(2) 声道模型,第02章基础知识17,(a)级联型: 适用于一般单元音,认为声道是一组串联的二阶谐振器:,这是一个全极点模型,极点就是这个多项式的根:,若P为偶数,解其根会得到共扼复数(conjugate complex)的根,表示成:,3、语音信号产生的数字模型,(2) 声道模型,第02章基础知识18,F=1/T - 取样频率 i/ - 共振峰的频宽。 Fi是 - 共振峰(formant)的中心频率,这样分解则每一个二阶因式均对应一个共振峰,其幅频 特性是典型的二阶谐振特性,谐振中心频率值等于共振 峰。若把语音的各个共振峰所对应的二阶系统级联起来 就形成了一个完整的级联型声道模型,且具有明显的谐 振特性。,3、语音信号产生的数字模型,第02章基础知识19,(b)并联型 适用于鼻音、复合元音及大部分辅音,发这些音时发音 腔体具有反谐振特性,必须在模型中加入零点以减弱谐 振强度,故要考虑用零、极点模型:,通常PR,假设分子与分母无公因 子且分母无重根,则此式可分解为 以下部分分式之和的形式:,这就是并联型共振峰模型,每一个二阶因式对应一个共 振峰。每个二阶谐振器的幅度可单独控制。,3、语音信号产生的数字模型,第02章基础知识20,前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取3到5级。级联型结构较为简单,并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。,3、语音信号产生的数字模型,(2) 声道模型,第02章基础知识21,(c)混合型 我们可以根据发音的需要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度控制因子为AB,这是专为一些频谱特性较为平坦的音素如f、p、b而考虑的,以增强反谐振特性。,3、语音信号产生的数字模型,(2) 声道模型,第02章基础知识22,在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这 段过程,声音信号会衰减,而且有高通滤波的特性,我们常用一个 一阶的数字高通滤波器拟这个现象,这个滤波器又叫做辐射模型 (radiation model),3、语音信号产生的数字模型,(3) 辐射模型,第02章基础知识23,4. 语音信号的特性,4、语音信号的特性,图3-1 人的说话过程分为五个阶段,第02章基础知识24,4.2 语音的声学特性,1. 物理属性音色、音调、音强和音长; 音色:也叫音质,是一种声音区别于另一种声音的基本特征,是由声道的位置和形状决定。 音调:声音的高低,决定于声波的频率的高低,而声波频率的高低又由语音的基音频率F0所决定。F0高则音调高,低则音调低。一般说来,老年男性音调偏低,小孩和青年女性音调偏高。 音强:声音的强弱,由声波的振幅所决定。 音长:声音的长短,取决于发音时间的长短。,4、语音信号的特性,第02章基础知识25,4.2 语音的声学特性,2. 语音的构成音节(syllable) 、音素 音素(phoneme):语音发音的最小单位。 我国传统分类 元音(韵母):是当声带振动发出的声音气流在声道中 不受阻碍,这种情况下产生的语音称为元音。元音属于浊 音。 辅音(声母):从声门呼出的声音气流,在声道通路中 某一部分封闭起来或受到阻碍不能畅通,为克服发音器 官的这种阻碍而产生的语音称为辅音。,4、语音信号的特性,第02章基础知识26,4.2 语音的声学特性,汉语语音的特点声、韵、调,音节在汉语 中占有主要地位,它是由声母、韵母和声调按 一定的方式构成的,是语言的最小使用单位; 音节结构简单,与其它语言相比汉语语音音节 和音素都很少。,4、语音信号的特性,第02章基础知识27,4.3语音的时间波形和频谱特性,窄频带的语谱图(narrowband spectrograms) 宽窗 语谱图的产生是用傅里叶转换(Fourier transform),当我们用较长的分析窗口(analysis windows),约20ms,对应频宽约为45 Hz,得到的频率分辨率较高,频谱上可以看到谐振的成分。在语谱图上呈现等距的黑白相间横线条,其间距就是基频(F0) 。,4、语音信号的特性,第02章基础知识28,4.3语音的时间波形和频谱特性,宽频带的语谱图(wideband spectrograms) 窄窗 若是在转换演算时用较少的取样点,分析窗口大约 3ms ,对应频宽约300 Hz,则频谱上看不到谐振成分, 在语谱图上看不到等距的黑白相间。频率分辨率较低, 反而是时轴上的分辨率较高,看到明显的垂直线条。,4、语音信号的特性,第02章基础知识29,语音通信Speech Communication,5、语音感知,第02章基础知识30,5. 人类的听觉功能,人类在分辨声音时,是取决于频域上的分辨率,听觉器官等于是将时域的声音波形转换成在频域的频谱,能否听到声音或分辨声音,是取决于音强(intensity)与频谱(spectrum)。 人耳对于1 kHz到5 kHz的声音最为敏感,但是对于1 kHz以下与5 kHz以上的声音,就要较大的音强才听得到。,5、语音感知,第02章基础知识31,5. 人类的听觉功能,掩蔽效应(masking effect) 当某一频率的声音,有一特定音强存在时,另一个不同频率的声音要将音强提高才会被听到,这就是听觉掩蔽效应。 分类 频率掩蔽:同时存在的声音,常常是低频的声音倾向于掩蔽掉高频的声音,这是一种频率掩蔽的现象。 时间掩蔽: 某一段时间存在一个声音,在此声音刚结束的一小段时间内,其它的声音会听不见这种掩蔽现象叫做时间掩蔽。 这个现象也会发生在此存在声音之前,这是由于声音在听觉器官中传递时延迟所造成的。,5、语音感知,第02章基础知识32,响度与响度级,响度(Loudness,L)是一种主观心理量,人类主观感觉到的声音强弱程度 响度级是表示响度的主观量,它是以 1000 Hz的纯音作为基准,其噪声听起来与该纯音一样响时,就把这个纯音的声压级称为该噪声的响度级,单位为方( phon )。例如一个噪声与声压级是 85 分贝的 1000 赫兹纯音一样响,则该噪声的响度级就是 85 方。 响度级是一个相对量,不能直接进行加减运算,为了计算绝对值和百分比,引入一个响度单位宋( Sone )。 1 宋是频率为 1000 赫兹、声压级为 40 分贝的纯音的感觉反应量,即: 40 方为 1 宋。响度级每增加 10 方,响度相应改变 1 倍, 50 方为 2 宋, 60 方为 4 宋,等等。,5、语音感知,贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个非平衡态过程,不能用处理平衡信号的数字信号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。,第三章 语音信号分析,3.2 语音信号的数字化和预处理,语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码); 预处理一般包括预加重,加窗和分帧,预滤波的目的有两个: 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)为采样频率,以防止混叠干扰。 抑制50Hz的电源工频干扰。 量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。 量化噪声符合具有下列特征的统计模型: 它是平稳的白噪声过程 量化噪声与输入信号不相关 量化噪声在量化间隔内均匀分布,即具有等概率密度分布,矩形窗与汉明窗的比较,从表3-1中我们可以看出,汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。因此,对语音信号的短时分析来说,窗口的形状是至关重要的。例如,选用不同的窗口将使时域分析参数的短时平均能量的平均结果不同。,3.3 语音信号的时域分析,时域分析分为: 1.短时能量及短时平均幅度分析 2.短时过零率分析 3.短时相关分析 注意基本原理和思想,如何区分。,短时能量及短时平均幅度分析 如图3-2所示,设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式: xn(m)=(m)x(n+m) 其中,n=0,1T,2T,并且N为帧长,T为帧移长度。 设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:,短时能量及短时平均幅度分析,短时能量及短时平均幅度分析 En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此,可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度函数Mn,它定义为: Mn也是一帧语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域中会带来一些好处。,短时过零率分析 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。 定义语音信号xn(m)的短时过零率Zn为: 式中,sgn是符号函数,即,短时过零率分析 利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。此时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。但是研究表明,在以某些音为开始或结尾时,如当弱摩擦音(如f、h等音素)、弱爆破音(如p、t、k等音素)为语音的开头或结尾;以鼻音(如ng、n、m等音素)为语音的结尾时,只用其中一个参量来判别语音的起点和终点是有困难的,必须同时使用这两个参数。,2019/8/26,43,可编辑,短时相关分析 相关分析是一种常用的时域波形分析方法,并有自相关和互相关之分。这里主要讨论自相关函数。自相关函数具有一些性质,如它是偶函数;假设序列具有周期性,则其自相关函数也是同周期的周期函数等。我们可以把自相关函数的这些性质应用于语音信号的时域分析中。例如,对浊音语音可以用自相关函数求出语音波形序列的基音周期。此外,在进行语信号的线性预测分析时,也要用到自相关函数。和其他语音参数一样,在语音信号分析中,我们分析的是短时自相关函数。,1短时自相关函数 定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下: 这里K是最大的延迟点数。 短时自相关函数具有以下性质: (1)如果xn(m)是周期的(设周期为N),则自相关函数是同周期的周期函数,即Rn(k)=Rn(k+Np)。 (2)Rn(k)是偶函数,即Rn(k)=Rn(-k)。 (3)当k=0时,自相关函数具有最大值,即Rn(0)|Rn(k)|,并且Rn(0)等于确定性信号序列的能量或随机性序列的平均功率。,2.修正的短时自相关函数 修正的短时自相关函数是用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口的长度相差最大的延迟点数K。这样就能始终保持乘积和的项数不变,即始终为短窗的长度。修正的短时自相关函数定义为: 其中,,2修正的短时自相关函数,短时平均幅度差函数 短时自相关函数是语音信号时域分析的重要参量。但是,计算自相关函数的运算量很大,其原因是乘法运算所需要的时间较长。利用快速傅里叶变换(FFT)等简化计算方法都无法避免乘法运算。为了避免乘法,一个简单的方法就是利用差值。为此常常采用另一种与自相关函数有类似作用的参量,即短时平均幅度差函数(AMDF)。 平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是完全的周期信号(设周期为Np),则相距为周期的整数倍的样点上的幅值是相等的,差值为零。,短时平均幅度差函数 即: 对于实际的语音信号,d(n)虽不为零,但其值很小。这些极小值将出现在整数倍周期的位置上。为此,可定义短时平均幅度差函数: 可以证明平均幅度差函数和自相关函数有密切的关系,两者之间的关系可由下式表达:,短时平均幅度差函数,3.4 语音信号的频域分析,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线性预测法等几种。 因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。,3.5 语音信号的倒谱分析,语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态处理来实现。同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。对语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期,用于语音编码、合成、识别等。 对语音信号进行解卷,求取倒谱特征参数的方法有两种,一种是线性预测分析,一种是同态分析处理。,语音信号倒谱分析实例 2MEL频率倒谱参数(MFCC) 与普通实际频率倒谱分析不同,MFCC(Mel-Frequency Cepstral Coefficents,简称MFCC)的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用式(3-89)表示: 这里,实际频率的单位是Hz。,语音信号倒谱分析实例,3.6 语音信号的线性预测分析,线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。,3.7 基音周期估计,基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等。,3.8 共振峰估计,方法: 带通滤波器组法 倒谱法,量化分为两类: * 标量量化:将取样后的信号值逐个地进行量化。 * 矢量量化:将若干取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化。,第四章 语音信号的矢量量化,采用矢量量化的效果优于标量量化的原因?,矢量量化能有效的应用矢量中各分量之间的四种相互关联性质来消除数据中的冗余度。这四种相互关联的性质是线性依赖(相关性)、非线性依赖(统计不独立)、概率密度函数的形状和矢量量化的维数,而标量量化仅能利用线性依赖和概率密度函数的形状来消除冗余度。,矢量量化研究的目的?,针对特定的信息源和矢量维数,设计出一种最优化的量化器,在R(量化速率)一定的情况下,给出的量化失真尽可能接近D(R)(最小量化失真)。,图7-2 矢量量化系统的组成,工作过程: 在编码端,输入矢量Xi与码书中的每一个码字进行比较,分别计算出它们的失真。搜索到失真最小的码字 的序号 (或该码字所在码书中的地址),这些序号就作为传输或存储的参数。 在恢复时,根据此序号从恢复端的码书中找出相应的码字 。由于两本码书完全相同,此时失真最小,所以 就是输入矢量Xi的重构矢量。,失真测度(距离测度):是将输入矢量Xi用码本重构矢量Yi来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度 矢量量化特点: 传输存储的不是矢量本身而是其序号,所以 据有高保密性能 收发两端没有反馈回路,因此比较稳定 矢量量化器的关键是编码器的设计,译码器 只是简单的的查表过程。,失真度选择必须具备的特性 必须在主观评价上有意义,即小的失真应该对应于好的主观语音质量; 必须是易于处理的,即在数学上易于实现,这样可以用于实际的矢量量化器的设计; 平均失真存在并且可以计算; 易于硬件实现 失真测度主要有均方误差失真测度(即欧氏距离)、加权的均方误差失真测度、板仓斋藤(ItakuraSaito)距离,似然比失真测度等,还有人提出的所谓的“主观的”失真测度。,4.5 降低复杂度的矢量量化系统,矢量量化系统主要由编码器和译码器组成: 编码器主要由码书搜索算法和码书构成, 译码器由查表方法和码书构成。 矢量量化器的研究主要围绕降低速率、减少失真和降低复杂度展开。 降低复杂度的设计方法大致分为两类: 一类是无记忆的矢量量化器, 另一类是有记忆的矢量量化器。,隐马尔可夫模型(HMM)是一个输出符号序列的统计模型,具有N个状态,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列,而不能观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径,不能知道),所以称为隐藏的马尔可夫模型。,第六章 语音编码,是要以最少的数码表示信源所发的信号,语音编码属于信源编码的范畴。语音编码通过减少传输码率(或存储量),来达到提高传输(或存储)效率的目的。作为传输语音的压缩技术,语音编码在通信史上一直都扮演着极为重要的角色。 语音编码分为三类: * 波形编码:重建后的语音时域信号的波形与原语音信号保持一致。 * 参数编码:通过建立语音信号的产生模型,提取其特征参数来编码,波形上不要求与原信号匹配,又称声码器技术。 * 混合编码:有机结合以上两种编码方式,基于语音产生模型的假定并采用分析合并技术。 语音编码(Speech Coding) 从信息论角度看,信源编码,三种编码方式的比较,语音编码发展史,早期的声码器基于对语音信号基音周期与频谱的分析,主要包括通道声码器,共振峰声码器与模式匹配声码器。,语音编码依据之一:语音信号冗余度 基本时域冗余: 语音信号幅度非均匀分布性 语音信号样本间的强相关性 浊音语音段具有的准周期性 声道形状及其变化的缓慢性 静止系数 (即语音间隙性),基本频域冗余: 从长时间的功率谱密度来看,语音信号具有强烈的非平坦型,存在着固定的冗余度。而且高频能量通常较低,恰好对应于时域上的相邻样本相关性。 从短时功率谱密度来看,语音信号在不同频率交替出现峰值(共振峰)与谷值。整个功率谱的细节基于基音频率形成高次谐波结构。,语音编码依据之二:人的听觉特点 人类听觉系统存在着掩蔽系统,即高声级单音会明显掩蔽临近频率声音。 对于不同频段的声音,人耳的敏感程度不尽相同,对低频端比较敏感(基频、共振峰所集中在这里),对高频端不太敏感。 人类对于语音信号的周期性(即音调)极为敏感,但对信号的相位却充耳不闻,这与理论分类存在差异。 人耳听觉特性对语音幅度分辨率是有限的。,语音压缩系统的性能评判指标 较为重要的性能评价准则 编码速率(比特率),决定了编码器工作时占用的信道带宽,要求尽可能降低。 编码器的完健性,要求良好。 编码器的时延,要求最小化。 误码容限,要求保持较高值。 算法复杂度(包括运算复杂度与内存要求),影响硬件成本,尽可能降低。 算法可扩展性,越高越好。,6.3 语音信号的波形编码,波形编码 波形编码是语音编码系统在早期所广泛采用的方法,它把语音信号当成普通的波形信号来处理从而保持原波形形状。 波形编码适应能力强,合成语音质量好,但比特率过高,编码的效率也不尽如人意。 几种典型的波形编码: 脉冲编码调制(PCM) 自适应预测编码 自适应增量调制(ADM) 自适应差分脉冲编码调制(ADPCM) 子带编码(SBC),自适应增量调制(ADM) 增量调制的基本方案: 增量调制方式将下一个语音信号与当前语音信号比较,如果高与当前值则系统则编码1,否则系统编码0. 自适应增量调制的工作方式: 自适应增量调制随输入波形自适应的改变量化阶梯的大小,在信号平均斜率大时自动增大量化阶梯,反之减小。,自适应差分脉冲编码调制(ADPCM) 差分脉冲编码调制(DPCM): 不同于DM的一位编码,DPCM多位量化对两个采样之间的差分信号利用多位量化进行编码,使信息量得到压缩的同时降低了信道负载。,子带编码(SBC) 子带编码原理: 子带编码属于频域编码,它首先将语音信号通过带通滤波器分割为若干频带(子带),而后对子带信号进行频谱平移变为基带信号,再利用奈奎斯特速率抽样,最后进行编码处理。 子带编码优点:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论