语音信号的模型_第1页
语音信号的模型_第2页
语音信号的模型_第3页
语音信号的模型_第4页
语音信号的模型_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章语音信号的模型 语音模型化,便于数字处理。 对模型的要求:精确描述语音产生过程、尽可能地简单, 便于处理和实现。 已提出许多种不同的语音信号模型。 线性模型:广泛使用级联无损声管模型和共振峰模型。 理论基础:发音过程中声道处于运动状态,这种运动与语音信号相比变化缓慢,故可用时变的线性系统来模拟。 更精细分析时,发现语音中也存在较大的非线性现象, 某些应用需考虑这些因素对所研究问题的影响。 非线性模型:有多种,调频-调幅模型受到广泛关注。 本章讨论:级联无损声管模型、共振峰模型、调频-调幅模型,第3章语音信号的模型 3.1 声在声管中的传播特性 物理学的定律是描述声道中声音的产生和传播的基

2、础。 包括:质量守恒、动量守恒、能量守恒的基本定律, 热力学、流体力学的定律等。 空气是一种流体,也是声音赖以传播的介质。 应用物理原理,可得描述发音系统中空气运动偏微分方程组。 精确的方程表达和求解都是极端困难的,需简化假设条件。 因周密的声学理论必须考虑以下各种影响: (1)声道形状的时变性质;(2)声道壁的热传导和粘滞摩擦损耗; (3)声音在嘴唇处的辐射;(4)声道壁的柔度; (5)鼻腔的耦合; (6)声道中的激励。 目前,没有全面考虑各因素影响的声学理论, 应用中对这些因素给出适当的说明或者给出定性的讨论,图3.1:语音产生过程的最简单的物理模型。 假设:声道被看成是不均匀截面的声管;

3、 沿管轴传播的声波是平面波; 在流体中或管壁上不存在热传导和粘滞损耗。 根据假设及守恒定律,Portnoff证明声波满足偏微分方程组: 式中,p, u 为声管内 x 位置处 t 时刻的 声压和体积速度,p=p(x,t),u=u(x,t) ; A 为声管内 x 位置处 t 时刻的管的横截面面积,A=A(x,t) ; 为声管内空气的密度; c为声的传播速度(空气中声速340m/s,给定声管的边界条件和面积函数后,可求得方程组的闭式解。 解的表达式非常复杂,但可以采用数值解。 应用中,某一特定时刻,面积函数可看成不随时间变化。 可借助于各种合理的近似和简化来使方程的求解成为可能。 并由此得到语音信号

4、的模型(后续讨论该问题)。 声管中声传播特性与传输线中电流传播特性有很强的类比关系。 表3.1:声学量与电学量之间的类比关系,第3章语音信号的模型 3.2语音信号的无损声管模型 无损声管模型(行波型模型):由多个不同截面积的无损耗 管子串联而成的系统。是最简单的声道模型。 图3.2:10级的无损声管级联模型。 语音信号的某一“短时”期间,声道可表示为形状稳定的管道。 该“短时”期间,管截面 A 是常数。偏微分方程以写成: 若第 m 段管子处,A(x,t)=Am,u(x,t)=um, p(x,t)=pm,上式可以写成,解偏微分方程组,得: 式中, lm第 m 节声管的长度; 和 第 m 节声管中

5、的正向行波和反向行波。 在两个不同截面积的声管联接处,行波表达如图3.3。 连续条件:第 m 和 m+1 节声管 联接处的声压和体积速度连续。 设第m节声管左端点为坐标0点, 右端点为lm ,则有,重要表达式,后续求解要用到,令声波通过长为 lm 的第 m 节声管需要的时间为 , 由上页两式,得: 解得: 式中km第m节节点的反射系数; km是 在节点处 反射回波 的倍数。 图3.4:两级声管的流图,3.2.1嘴唇端 N 段无损声管,声门处为第一段,嘴唇处为第 N 段。 声学理论:嘴唇处的声压和体积速度间存在正弦稳态关系,即 式中,ZL嘴唇处的辐射阻抗,或辐射负载。 假定ZL()=ZL是实数,

6、令N=LN/c,联立上式和8页偏微分方程 组的解,得: 即: 式中,kL嘴唇处的反射系数, 嘴唇处的体积速度为: 图3.5:级联无损声管在嘴唇处的流图,该式与电学的欧姆定律相对应 (声压对应电压,体积速度对应电流,3.2.2声门端 声门可以看成是控制送入声道气流的阻碍。 电模拟:声门处存在一个内阻抗(感性阻抗), 阻抗值为声门处声压与气流体积速度之比, 即:ZG=RG+j LG, RG和LG是常数。 图3.6:声门端的电模拟图。由图得: 式中,U1(0,) 声门处的体积速度u1(0,t)的Laplace变换; P1(0,) 声门处的声压p1(0,t)的Laplace变换; UG () 等效体积

7、速度源uG(t)的Laplace变换,如果ZG是实数,令m=1, x=0, 则由上页式和 8 页偏微分方程组的解,有: 解得: 式中 kG声门处的反射系数, 图3.7:声门端级联无损声管的流图,将两级声管级联、声门端和嘴唇端与声管级联的结果合成, 可以画出基于声管理论的整个流图。 图3.8:无损声管模型图。 图3.8是无损条件下的结果; 若考虑空气与管壁间的摩擦、穿过管壁的热传导以及管壁振动等损耗,也可以解出前述方程式(结果复杂,不再赘述)。 管壁振动的影响最大,使低频端谐振频率提高; 其它两种损耗的影响较少;两者的净影响只是使低端的 谐振频率比刚性无损声管壁模型的情况稍有上移,例:图3.9的

8、两级无损声管的流图, 在嘴唇处的体积速度为 uL(t) = uL(lL,t) , 系统的频率响应为 令 s=j ,代入上式得该系统的系统函数为,第3章语音信号的模型 3.3级联无损声管与数字滤波器的关系 工程上常将声道用 10 级等长无损声管的级联模型来表征。 每节声管长度均为x,x =c=l/N l 10 级声管总长度, 一节声管中声传播时间。 声门处加单位冲激序列uG=(t),冲激沿声管传播, 在节点处,一部分被反射,另一部分继续传播。 分析传播过程: (1) 声波无反射,直接到达嘴唇的幅度叠加为0,时延为N, 则嘴唇处的单位冲激为:0(t -N) ; (2) 一次反射的冲激到达嘴唇处多延

9、迟2,幅度叠加为1, 则嘴唇处的单位冲激为:1(t -N -2) ; (3) 某一节两次反射,或某两节各一次反射,延迟为22, 幅度叠加为2,则嘴唇处的单位冲激为:2(t -N -22),依此分析,无损声管级联系统的冲激响应及Laplace变换为: 式中,e-Ns传播 N 段管子所需的延迟时间, 如果设: 其频率响应为: 于是: 由上式看出,若系统输入是频带有限信号,即/T , 且取样周期T=2 ,则上述系统和下面的离散系统等效: 式中,n1, n 0,n 取正整数,对式 作 z 变换: 令 z=esT,s=j,T=2,则 与 等价, 即: 此时,n = m, 即等长无损声管级联系统完全可以用

10、一个取样间隔为2, 系数为m的FIR滤波器非递归的方法实现(应取有限项), 理论上证明声道可以用数字滤波器模拟,延迟N 相当于N /T= N /2 =N/2的取样, 延迟 相当于位移 /T= /2 = 1/2 个样本。 图3.9两级无损声管节点信号流 图画成两级等长无损声管流图 (图3.10); 每个延迟 用z-1/2代替,可得到 等效的离散系统流图(图3.11)。 将图3.11中的4个z-1/2用z-1代替, 输出端再乘以z就构成等效的 数字滤波器流图(图3.12,分析:每个节点处都需要计算图3.13(a)的流图。计算式为 计算量:4次乘法,3次加法。 将上式改写为(流图为图3.13(b))

11、 : 计算量:2次乘法,4次加法。 将上式改写为(流图为图3.13(c)) : 计算量:1次乘法,3次加法。 结论:改变算法结构,计算量不同,第3章语音信号的模型 3.4无损声管模型的传输函数 推导无损声管模型的传输函数V(z) : 式中,UL(z)和UG(z)嘴唇处uL(n)和声门处uG(n)的 z 变换。 考虑无损声管模型一个节点处的 z 变换关系,如图3.14所示, 其 z 变换方程为(m = 1,2,N-1): 解得,定义, , , 上页解改写成: 为简化结果,把嘴唇处的边界条件表示成统一的形式。 令UN+1(z)为假想的第 N+1 节声管输入的 z 变换。 设想这个声管无限长,因此第

12、 N+1 节管子中无反向波, 或者等效地看成第 N+1 个声管的终端接有特性阻抗, 可得 : 或,重要的解表达式,后续推导要用到。递推使用可得出声管模型的完整解,该式要代入递推式 中,以求出完整解,如果 AN+1=c/ZL,AN=ZL,由嘴唇端的方程式,得 利用上页两式,则第一节声管输入处的变量可表示为: 按照图3.7,可得声门处的解为: 结合以上两式和上页最后一式,推导出下式,由上式可导出,N 级声管传输函数为: 其中, 展开上式,用多项式表示为: 由此看出,无损声管模型的传输函数只有极点没有零点。 极点对应于无损声管的共振峰。 假定在声门处,kG=1,zG=,可以导出计算 D(z) 的递推

13、公式。 (见下页,先定义: 其中, 。 同理,按照定义: 其中, 。 利用归纳法,得: 其中,,最后可得: 于是,计算 D(z) 的递推公式如下: 无损声管节数的选择:取决于语音信号的取样频率。 推导关系式:由前面知,取样周期 T =2, 是一段声管中声波单向传播所需要的时间。 若声管为 N 节,而总长为 l ,且每段长度相同, 则=l/Nc,解得 N = l/c=2l/Tc。 例:当1/T = 10 kHz,l = 17 cm,c = 340 m/s,则 N = 10, 即需要10节无损声管级联,第3章语音信号的模型 3.5语音信号的数字模型 语音信号的数字模型:利用数字技术来模拟语音信号的

14、产生。 一种实现发音器官的模拟的技术。 数字模型应能产生与语音声波相对应的信号序列。 通常,这种模型是一种线性系统,用一组模型参数可表征语音,并可使模型系统的输出所希望的语音。 系统的模型参数与语音产生过程有关,常采用离散时间模型。 激励与声道的面积函数在10 20 ms的时间范围内近似不变。 浊音为准周期脉冲激励;清音为随机噪声激励。 因此,语音信号的数字模型是一个缓变的线性系统, 线性系统的参数在10 20 ms时间范围内近似不变,利用 N 节无损声管来模拟声道,已证明其传输函数为: 其中, 声道系统用一组面积函数 A(x) 或一组反射系数 km 来表示。 在一帧内,A(x) 或 km 近

15、似不变。 另外,若有一数字系统,其系统函数表示为 : 若取 ,(1)(2)两式性质相当; 注意,此处省略了固定延迟 z-0.5N。 上述系统函数仅有极点,没有零点,称为全极点模型。 除声道响应以外,完整模型还包括激励函数和声辐射的影响,系统函数 V(z) 的极点对应于语音的共振峰。 对于大多数语音,全极点模型能很好地模拟声道的特性。 声学理论表明鼻音和摩擦音有谐振和反谐振特性, 需要用零极点模型才能更好地模拟声道效应。 零点较难处理,常用全极点模型代替零极点模型。 逼近零点:用多个极点。 原理: V(z) 的分母多项式的根是实数或复共轭; 声道的典型复谐振频率为: 复共轭极点相应的时域离散表示

16、为: 复共轭极点的幅值和相角为,图3.15:声道谐振点的平面图。 声道谐振的带宽近似为 2k , 中心频率为 2Fk 。 z 平面原极点的距离 决定带宽; 相角2FkT决定中心频率。 结论:将 V(z) 的分母进行因式分解, 相应的模拟共振峰频率和带宽可以利用下式求出。 人类声道的复自然频率都在s平面的左半平面。 因系统是稳定的,所以,k 0,zk 1。 即:离散时域模型的极点必在单位圆内,由稳定性所要求,利用数字滤波器的各种实现方法可以实现声道的时变滤波器。 时变数字滤波器的系数是随时间缓变,10 20 ms内不变。 例:用直接形式来实现,如图3.16。 也可以用二阶系统的级联来实现 V(z

17、),即: ,其中, 式中,M 为 (N+1)/2的整数部分。 图3.17:上式的实现级联流图(特点是硬件可时分复用,对参数变化较 敏感,没有并联形式好,以上讨论了声道的数字模型, 下面分别讨论在嘴唇和声门处的数字模型。 嘴唇处的数字模型: 根据式 , 嘴唇处的声压、体积速度与辐射阻抗的关系式及 z 变换为: 由于的实部随频率增高而增高,故上式是一种高通滤波运算, 可以证明嘴唇辐射的影响可表示为,声门处激励的数字模型: 语音分成清音和浊音,清音由随机噪声激励产生 浊音由准周期脉冲串激励产生,其周期称为基音周期。 图3.18:浊音情况下,激励信号的产生示意图。 冲激串发生器输出的单位冲激序列(冲激

18、间隔为基音周期)。 线性激励系统函数为G(z),经幅度控制后输出为浊音激励。 G(z) 的反变换 g(n) 可以用Rosenberg函数近似表示: 式中,N1 斜三角波上升部分的时间,约占基音周期的50; N2 斜三角波下降部分的时间,约占基音周期的35,斜三角波的占时比例关系与声带开启面积的与时间关系对应。 图3.19:单斜三角波波形及频谱。 是低通滤波器。 其 z 变换的全极点(二极点)模型: 式中,C 是一个常数。 斜三角波串可看成加权单位脉冲 激励单斜三角波模型的结果。 Av是单位脉冲串的幅度因子; 单位脉冲串的z 变换为: 完整的激励模型为,清音情况下,发塞音或摩擦音,声道被阻形成湍

19、流。 激励可模拟成随机白噪声, 用均值为0、方差为1,时间或/和幅值为白色分布的序列。 图3.20:考虑所有的激励因素,语音产生的数字模型。 特点:二元激励,浊音、清音激励交替进行。 声道可以用多种滤波器来模拟, 通常,把辐射和声道等因素全部结合,表示为全极点函数,结论: 优点:该模型对大多数语音是一个好模型, 能合成出较满意的语音,是分析语音最重要的基础。 缺点:二元激励模型有局限性。 模型建立“短时”平衡为前提,不完全符合实际; 理论上鼻音和擦音需有零点, 浊擦音不是简单的浊音和清音的叠加。 该模型不能给出模拟,第3章语音信号的模型 3.6语音信号的共振峰模型 将声道看成为谐振腔,共振峰是该腔体的谐振频率。 柯蒂氏器官的纤毛细胞按频率感受排列,故共振峰模型有效。 实践证明:元音用前 3 个共振峰。 辅音或鼻音,用到 5 个以上的共振峰。 应用物理学,易推导出均匀断面声管的共振峰频率。 例:成人声道约为17.5 cm, 可计算出:f1 = 500 Hz,f2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论