声音数字语音压缩编码_第1页
声音数字语音压缩编码_第2页
声音数字语音压缩编码_第3页
声音数字语音压缩编码_第4页
声音数字语音压缩编码_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

声音数字语音压缩编码内容一、引言二、数字语音的波形编码三、数字语音的参数编码四、数字语音的混合编码2023/3/202一、引言数字语音压缩编码的必要性码率=取样频率x量化位数x通道数目例:语音=8kx8bx1=64kbps=8kB/s=28MB/h对数字语音进行数据压缩的目的:提高通信/存储效率降低通信/存储成本2023/3/204数字语音压缩编码的可能性声音信号中包含有大量的冗余信息邻近样本之间有很大的相关性周期之间的相关性基音之间的相关性长时(几十秒)自相关性话音间歇(静音)可以利用人的听觉感知特性进行压缩,可以利用语音信号的生成机理进行数据压缩。2023/3/205对语音数据压缩的要求码率低(bitrate)质量高(quality:excellent,good,fair)延时短(timedelay)<25ms成本合理(costeffective)2023/3/206语音压缩编码方法分类波形编码

(Perceptionmodel-basedcompression)优点:通用、音频质量较高缺点:很难获得较大的压缩比示例:PCM,ADPCM,SBC参数编码,源编码

(Productionmodel-basedcompression)优点:压缩比较大缺点:信号源必须已知示例:LPC混合编码(Hybridcompression)示例:CELP2023/3/207三类语音编码器性能比较极低低中码率(kb/s)1248163264优良中差坏语音质量模型编码(源编码)参数编译码器(sourcecodecs)混合编码混合编译码器(hybridcodecs)波形编码

波形编译码器(waveformcodecs)2023/3/208二、数字语音的波形编码波形编译码器算法比较简单,容易实现,低延迟,压缩效率不高,数据速率在16kbps以上,声音质量相当好,通用性好,适用于任意类型的数字声音,很成熟,有一系列国际标准:CCITTG.711PCM64kb/sCCITTG.721ADPCM32Kb/sCCITTG.726ADPCM48,32,24,16Kb/s已广泛应用于语音的中继线传输2023/3/20101.CCITTG.711(脉冲编码调制)

PulseCodeModulation(PCM)ofVoiceFrequency编码过程:对数变换(压缩编码)F(n)低通滤波

(LPF)Xa(t)x(n)A/D(13位)取样(8kHz)X(n)分析:方法简单,易实时处理,语音质量好,压缩效率不高,码率为64kbps。码率=104kbps码率=8位x8k=64kbps2023/3/2011对数变换F=ln(x)目的:适应听觉的非线性特性;压缩数据。北美和日本等地区(μ律压扩算法)当0=<|x|=<1/A当1/A<|x|=<1欧洲和中国大陆等地区(A律压扩算法)2023/3/2012压扩算法的实现

x(n):线性码(1+12位)F(n):PCM码(1+7位)

0000000WXYZa000WXYZ0000001WXYZa001WXYZ000001WXYZab010WXYZ00001WXYZabc011WXYZ0001WXYZabcd100WXYZ001WXYZabcde101WXYZ01WXYZabcdef110WXYZ1WXYZabcdefg111WXYZXa(t)取样(8kHz)A/D(13位)x(n)A律/u律压缩编码8位x8kHzF(n)2023/3/2013

PCM的应用应用于数字声音的编辑处理(多媒体计算机)应用于声音的传输(通信):长途(8KHzx8bitx1),时分多路复用TDM(time-divisionmultiplexing)应用于全频带数字声音的表示/存储:CD-DA(CD唱片),DAT(44.1KHzx16bitx2)2023/3/20142.ADPCM自适应差分脉冲编码调制

(AdaptiveDifferentialPCM)原理:声音信号具有很强的相关性,可从已知信号来预测未知信号,即使用前面的样本预测当前的样本,实际样本值与预测值之间的误差往往很小。利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,效果:量化位数可以显著减少,从而降低了总的码率。2023/3/2015无损预测编码(1)信号在时间上的冗余性无损地恢复初始信号e可能的范围解决办法:SU,SD2023/3/2016无损预测编码(2)21,22,27,25,22f’2=21e2=1f’3=21e3=6f’4=24e4=1f’5=26e5=-42023/3/2017量化器Q(m阶线性预测,A1,A2,...,Am可自动修正。)实际样本值线性预测公式:Xn=A1*Xn-1+A2*Xn-2+...+Am*Xn-m_线性预测器逆量化器Q-1+预测值差值重建信号DPCM编码输出利用样本与样本之间存在的相关性进行编码,即根据前面的样本估算当前样本的大小,然后对预测误差进行量化编码。差分脉冲编码调制DPCM2023/3/2018E量化结果-255~-240-239~-224:-31~-16-15~01~1617~32:225~240241~255-248-232:-24-8824:232248130,150,140,200,230f’=130,130,142,144,167e=0,20,-2,56,63e’=0,24,-8,56,56f’’=130,154,134,200,223举例2023/3/2019自适应脉冲编码调制(APCM)根据输入样本幅度的大小来改变量化阶大小。可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。量化器Q样本值量化阶适配器自适应APCM编码输出2023/3/2020量化器Q13位自然码的数字语音样本_线性预测器逆量化器Q-1+预测值差值重建信号DPCM编码输出CCITTG.721ADPCM编码器A量化阶适配器自适应(4位)6阶自适应线性预测,

4位的自适应量化器,输出码率:8kx4=32kbps2023/3/2021ADPCM小结PCM话音质量4.5级ADPCM话音质量4.34级,码率降低一倍(32kbps)。ADPCM应用:数字语音通信多媒体应用中的语音(解说词)2023/3/20223.Sub-bandcoding(子带编码)基本原理:利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带,子带)低频部分能量较集中,量化精度要高,取样频率可稍低。高频部分是摩擦音、噪音,量化精度可低些,但取样频率要稍高。不同子频带作不同的ADPCM编码处理,然后再复合在一起。2023/3/2023ADPCM编码器11250,3bitsADPCM编码器21429,3bitsADPCM编码器31667,2bitsADPCM编码器42500,2bitsMUX16kbpsSBCBP1(200-700)BP2(700-1310)BP3(1310-2020)BP4(2020-3200)64kbpsPCM例:16kb/s子带编码器2023/3/2024MUX64kbpsSBC数据插入部件辅助数据输入16kHz,14bits,数字声音传输正交镜象滤波器(TQMF)4-8kHz0-4kHzXHXL

高频带ADPCM编码器8000,2bits16kbps

低频带ADPCM编码器8000,6bits48kbps模式1:声音—64kbps;辅助数据—0模式2:声音—56kbps;辅助数据—8kbps模式3:声音—48kbps;辅助数据—16kbpsG.722:64kbps的声音子带编码2023/3/2025二、数字语音的参数编码1参数编码(源编码)的设计思想分析人的发声器官的结构及语音生成的原理,建立语音生成的物理(数学)模型,编码时:从话音波形信号中提取生成该话音的参数;解码时:根据语音生成模型,使用这些参数合成原始话音。提取语音生成参数语音生成模型(编码器)语音参数数字语音使用参数合成语音语音生成模型(解码器)重建的语音2023/3/2027语音生成过程(1)空气由肺部呼出,经过声带,送入声道,最后从嘴唇呼出,产生声音。成年男子的声道平均长度约17cm,它使声音信号具有短期相关性(持续时间1ms左右)声道是一个谐振腔,说话时,声道形状不断变化,引起谐振频率改变,大约10~100ms改变一次;声道可以看作为具有共振特性的一个滤波器,由于声道形状变化比较慢,因此该滤波器的转移函数(transferfunction)只需要每20ms左右时间修改一次。

声道声带空气语音2023/3/2028语音生成过程(2)声道滤波器由肺部空气经过声带而激励,根据激励的模式,语音可分成2类:浊音(时间域)浊音Voicedsounds(声带震动,产生准周期的空气脉冲激励信号,送入声道)清音(时间域)清音Unvoicedsounds(声带不振动,声门始终处于“开”状态,送入声道的空气激励信号是一种无周期性的噪音信号)2023/3/2029语音生成的声道滤波器模型(1)2023/3/2030语音生成的声道滤波器模型(2)LPC模型=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)脉冲序列发生器随机噪声发生器基音周期T(声带振动)(声带不振动)UV(清音)V(浊音)H(z)声道参数a1a2a3a10...语音(声道滤波器)s(n)增益Gu(n)激励信号2023/3/2031语音是一个近似的短时(10~30ms)平稳随机过程,LPC模型的参数A=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)变化比较慢,大约每20ms变化一次;假设语音信号的取样频率为8kHz,将每秒钟分成50帧,每帧20ms(其中有20x8=160个样本),每一帧的所有信号近似地满足同一模型,即每一帧语音可以使用同一组参数来表示:浊音还是清音(1位)浊音的基频T(6位)音源的幅度G(5位)线性滤波器的参数(10个参数,每个参数6位,共60位)语音的参数编码(LPC分析)

——从已知的数字语音信号中提取参数所以,每秒总码率为:50x72bits=3600bps=3.6kbps2023/3/20322如何确定LPC的系数(1)对声音波形的编码实际就转化为如何提取语音生成模型的参数,经典的方法是线性预测编码LPC。每一个样本都用过去10个样本的线性组合来预测:

spre(n)=-[a1s(n-1)+a2s(n-2)+…+a10s(n-10)]样本s(n)的预测误差为:e(n)=s(n)-spre(n)=s(n)+a1s(n-1)+a2s(n-2)+…+a10s(n-10)10个样本s(n-10)s(n-2)s(n-1)s(n)2023/3/2033如何确定LPC的系数(2)问题:对给定的一帧信号s(n),n=[0..159],怎样选择系数ai使得预测误差e(n)的平方和为最小?即

最小为此,上式对a1,a2,…,a10

分别求偏导数得到一组差分方程

dE/da1=0,dE/da2=0,

…..,dE/da10=0,求解差分方程组,可得到系数ai的值。E=∑e(i)2i=01592023/3/2034求解系数ai的线性方程组R(0)R(1)R(2)R(3)R(4)R(5)R(6)R(7)R(8)R(9)a1-R(1)R(1)R(0)R(1)R(2)R(3)R(4)R(5)R(6)R(7)R(8)a2-R(2)R(2)R(1)R(0)R(1)R(2)R(3)R(4)R(5)R(6)R(7)a3-R(3)R(3)R(2)R(1)R(0)R(1)R(2)R(3)R(4)R(5)R(6)a4-R(4)R(4)R(3)R(2)R(1)R(0)R(1)R(2)R(3)R(4)R(5)a5-R(5)R(5)R(4)R(3)R(2)R(1)R(0)R(1)R(2)R(3)R(4)a6-R(6)R(6)R(5)R(4)R(3)R(2)R(1)R(0)R(1)R(2)R(3)a7-R(7)R(7)R(6)R(5)R(4)R(3)R(2)R(1)R(0)R(1)R(2)a8-R(8)R(8)R(7)R(6)R(5)R(4)R(3)R(2)R(1)R(0)R(1)a9-R(9)R(9)R(8)R(7)R(6)R(5)R(4)R(3)R(2)R(1)R(0)a10-R(10)=其中R(k)=∑s(n)·s(n+k),是信号s(n)的自相关性n=0159-k2023/3/2035如何确定LPC的系数(3)

—如何确定其他3个参数(V/UV,G,T)浊音/清音的判定比较困难,不正确的分类会大大降低语音质量使用语音信号过零点的数目来判定;

基音周期T的估计是生成高品质、高清晰语音的关键常用方法:SIFT基音检测法,AMDF基音检测法激励信号的增益G2023/3/2036例12.4kb/sLPC语音编码器20ms作为1帧,按帧进行编码LPC系数的比特分配为:34bit增益G:7bit浊音/清音及浊音的基音周期T:7bit码率:48x50=2.4kb/s2023/3/2037例LPC-10编码器(ANSI1015,2.4kb/s)22.5ms作为1帧,以帧为单位进行编码,LPC系数共10位,采用协方差方法计算,浊音的基音周期T采用平均幅值差分函数(AMDF)计算,共60个值,范围51.3-400Hz,半对数表示,激励信号:浊音采用标准化的存储波形码率:54x1000/22.5=2.4kb/s

参数浊音清音

a155a255a355a455a54-a64-a74-a84-a93-a102-V/UV11T66G55

同步11

误差保护-21

总计54542023/3/20383波形编码与参数编码的比较

波形编码

参数编码

1码率高码率低

2音质好音质差

3算法简单算法复杂

4可处理任何声音信号仅处理语音信号参数编码的数据率在2-4kbps左右,产生的语音虽然可以听懂,但其质量远远低于波形编码。尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上.2023/3/2039三、数字语音的混合编码1参数编码的不足参数编码在降低码率方面有很大突破,但语音质量尚不理想;原因是语音生成模型中的激励信号的处理过于简单:不是清音就是浊音;实际上有些是浊音、清音的混合;浊音的激励信号是周期性的,实际上是准周期性的;脉冲序列发生器随机噪声发生器基音周期(声带振动)(声带不振动)音源幅度音源幅度浊音清音线性滤波器声道参数...语音(声道模型)激励信号改进思路:设计更好的激励信号。2023/3/20412混合编码的原理思路:使用合成-分析法AbS(Analysis-by-Synthesis)来改进参数编码,其中声道滤波器模型仍与LPC编码器中的相同,但不使用两个状态(有声/无声)的模型作为滤波器的输入激励信号,而是增加反馈,调节激励信号u(n),使语音输入信号s(n)与重建的语音信号误差e(n)为最小。误差信号按感知加权误差最小?原始语音s(n)e(n)线性滤波器滤波器参数...合成语音激励信号的生成或选择激励信号u(n)s(n)^

编码器通过“合成”许多不同的近似值来“分析”输入话音信号,所以称为“合成-分析编码器”。)2023/3/2042激励信号生成的方法:多脉冲线性预测编码MPLPC(multiplepulseLPC)

等间隔脉冲激励RPE(regular-pulseexcited)

码激励线性预测CELP(codeexcitedlinearpredictive)最佳激励信号u(n)的生成方法2023/3/20434多脉冲线性预测编码

--MPLPC

将原始语音分为20ms长度的帧,对每一帧计算出LPC的系数;假设激励信号由k个脉冲组成,每个脉冲的幅度和位置待定;从第1个脉冲开始,确定其幅度和位置;若1,···,i-1个脉冲的幅度和位置已经确定,则确定第i个脉冲的幅度与位置;上述过程重复k次,结束。决定第i个脉冲的幅度与位置多脉冲激励发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论