数字音频设计4教材_第1页
数字音频设计4教材_第2页
数字音频设计4教材_第3页
数字音频设计4教材_第4页
数字音频设计4教材_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字音频压缩编码技术问题:什么使音频的压缩成为可能?音频压缩-音频压缩可行性压缩的可行性:音频信号存在冗余时域冗余/相关性频域冗余/相关性,例如可以去除在听阈之外的频率听觉冗余,例如各种掩蔽效应这些冗余使音频数据压缩成为可能问题:音频编码技术有哪些?如何分类?音频压缩-音频编码技术的分类按照编码方法分:基于音频数据的统计特性的编码基本目标是纪录重建波形所需要的信息。典型的是PCM(脉冲编码调制)PCM没有压缩,数据量大,存贮和处理不方便,改进型为DPCM(差分)、APCM(自适应量化)、ADPCM(自适应差分)特点:音质好、压缩比不大、数据码率高基于音频声学参数的编码把声源看成一个随时间变化的时变滤波器,通过编码在不同时刻这个滤波器的参数达到数据压缩和编码的目的MPE:multipulseexcited多脉冲激励RPE:regularpulseexcited等间隔脉冲激励CELP:codeexcitedlinearpredictive码激励线性预测特点:压缩比高、码率低,但是音频质量差,自然度低基于人的听觉特性的编码利用人的心理声学模型(掩蔽效应)来压缩声音,目的是纪录“听觉上不失真”的声音MPEG、DolbyAC-3按照用途分:话音编码主要针对话音speech,要求码率低,便于传输,上面的2常用于话音编码音频编码主要针对音频audio部分进行编码,要求一定的保真度和声音的感觉还原(空间感、深度感等)问题:语音编码技术有哪些种类?音频压缩-语音编码技术的分类波形编译码器(waveformcoder):不利用生成音频的信号的任何知识,将音频视为一种普通的声音,直接对波形信号进行采样和量化。例如PCM、DPCM、ADPCM等。音源编译码器(Sourcecoder):也叫参数编译码器、声码器(vocoder)。它从音频波形信号中提取生成音频的参数,使用这些参数通过音频生成模型重构出音频。混合编译码器(Hybridcoder):综合使用上述两种技术。使用的激励信号波形尽可能接近于原始音频信号的波形。例如CELP音频压缩-

三种语音编码译码器性能特点波形编译码器(waveformcodec):音频质量高,数据率也高音源编译码器:数据率低,音频质量一般混合编译码器:使用了前两种编译码器的技术,数据率和音质介于前两者之间。问题:波形编译码器如何实现?音频压缩-波形编译码器基本思想:不利用音频的任何特别知识,构造一种重构信号,该信号和原始的音频信号尽可能的一致。特点:复杂程度低音频质量好数据率需在16kb/s以上,在此之下,音频质量迅速降低音频压缩-波形编码器的实现方法PCM:pulsecodemodulation脉冲编码调制原理:音频-〉采样-〉量化已知:音频带宽3400Hz约4KHz,采样频率为4*2=8KHz,每个样本量化后用12位数据比表示,可得数据传输率为:96Kb/s由于数据传输率比较高,通常采用压扩技术来减小数据传输率(解释)将样本值取对数(对数量化器),这样可以将数据传输率减小到64kb/s标准化的压扩量化器:北美:µ律压扩标准欧洲:A律压扩标准问题:什么是预测编码技术?音频压缩-

预测编码技术和差分脉冲编码调制原理:利用过去的样本值来预测下一个样本值。由于音频的相关性,预测值和新样本值的差值幅度会小于样本幅度,记录这个差值而不是样本值就是差分脉冲编码调制DPCM(differentialpulsecodemodulation)。DPCM对急剧变化的信号会产生较大的噪声(解释)我们从增量调制说起,因为它是较简单的预测编码技术音频压缩-增量调制(△M)增量调制(delta

modulation,DM)是一种预测编码技术,是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示。DM编码系统又称为“1位系统”。因为只要用1位对话音信号进行编码。下图假设开始时输入信号为0,预测值为0,编码输出x[0]=1。斜率过载(slopoverload):由于每次输出最大变化只能为△,当采样信号急速变化时,量化就不能反映信号的变化粒状噪声:在信号变化缓慢的位置,量化后的信号却以△大小上下摇摆,造成噪音斜率过载要求加大△,同时粒状噪声改善需要较小的△,这本身是一对矛盾音频压缩-自适应增量调制(ADM)基本原理:根据输入信号的斜率自动调整量化阶△,信号变化快,加大△,反之减小△。例如:如果两次量化输出不变,量化阶增大50%,如果两次量化输出不同,减小50%量化阶为什么这样可以克服斜率过载和粒状噪声?连续可变斜率增量调制(CVSD:continuouslyvariableslopedeltamodulation):如果编码器的输出连续出现三个相同的值,量化阶就加上一个大的增量;反之,就加一个小的增量。Motorola公司的MC34XX,MC35XX系列芯片实现了CVSD算法音频压缩-

(自适应)差分脉冲编码调制原理

AdaptiveDifferentialPulseCodeModulation计算:假设采样频率为8KHz,采样精度为16位,求PCM码率?8K*16=128Kb/s如果采用压扩算法,我们能够将量化值压缩到8位,可知码率为:64Kb/s差分编码能够在此基础上更有效地压缩音频数据ADPCM编码原理:利用样本与样本之间的信息冗余来压缩数据。DPCM(差分编码调制)不是对采样信号进行编码,而是对实际信号与预测信号之间的差值进行编码。ADPCM可以做到自适应:小量化阶编码小的差值,大量化阶编码大的差值(量化器)使用过去样本值计算下一个输入样本的预测值,使得得到的差分最小(预测器)音频压缩-

差分脉冲编码调制实现S(K)为PCM样本值输入用S(k)以前预测的样本值Se(k-1)求差,算出差值d’(k)量化器量化d’(k),得到d(k)编码d(k)得到输出I(k)用d(k)经过逆量化器求出dq(k),和以前预测的样本值Se(k-1)求和得到Sr(k)将Sr(k)输入预测器,估计下一次的样本值返回第一步注意:在译码端,我们最后得到的输出实际上是Sr(k),由上面的分析可知误差为:e(k)=S(k)-Sr(k)=Se(k-1)+d’(k)-dq(k)-Se(k-1)=d’(k)-dq(k)所以:总量化误差只和差值信号量化误差有关,不会带来误差累积d’(k)其实就是根据以往的编码预测下一个编码预测值,并编码预测值和实际值的差值音频压缩-

自适应差分脉冲编码调制实现量化器预测器S(k)d’kdkSr(k)Se(k-1)-自适应预测逆量化器自适应量化阶Dq(k)产生误差将历次Sr(k)输入预测器作线性组合,可以得到更精确的预测值S(k-1)将历次Sr(k)输入自适应量化阶模块,可以改变量化阶的大小,图中为后向自适应音频压缩-

自适应差分脉冲编码调制的预测方程式线性预测:如果ai是常数,则为时不变线性预测,否则为自适应线性预测最简单的预测方程:本次预测值就是上次译码端的还原值最简单的DPCMS0121123344Se0012112334d输r=Se+d0121123344音频压缩-

自适应差分脉冲编码调制实现方式APCM是一种根据输入信号幅度大小自动改变量化阶大小的一种波形编码技术。两种类型:前向自适应(FrowardAdaptation):采用未量化样本值的均方根值估算输入信号电平,并根据结果动态调整量化阶后向自适应(backwardadaptation):从量化器刚输出过的过去样本中来计算新的量化阶一般而言,量化阶每隔几个样本就会发生变化,以适应话音的变化问题:波形编码方法还有其他类型么?是什么工作原理?音频压缩-频域里的波形编码方法原理:可以将音频看作多个不同频带的波的组合,利用带通滤波器可以将音频分为不同的频带。同时利用离散余弦变换亦可分成许多频带。然后再对频带进行编码。SBC:Sub-BandCodec子带编码划分子带,每个子带音频分别编码优点:每个子带的噪声仅和本子带相关、对各子带按照听觉重要性不同可按需分配编码位数、可使用自适应分配位数方案缺点:复杂、时延ATC:adaptivetransformcoding,自适应变换编码,利用快速离散余弦变换将音频分为许许多多频带,然后编码变换系数,可获得16kb/s的低数据传输率音频压缩-

子带编码SBC:SunbandCoding

原理:是一种在频率域中进行数据压缩的方法。在子带编码中,首先用一组带通滤波器将输入信号分成若干个在不同频段上的子带信号对每个子带分别编码组合个子带编码值译码端执行其逆过程优点:各子带可以具有不同的量化阶,可以减小总体噪声每个子带分配不同的编码位数,适应人的听力特点

由于各子带分配不同的编码位数,可以起到压缩数据的目的问题:子带编码还有其他的类型么?其主要解决的问题是什么?音频压缩-双子带SBC双子带ADPCM得到了广泛的应用,原理如上图由于SBC中带通滤波器不是理想滤波器,因此音频信号可能出现混叠效应(串扰)。解决方案是使用正交镜象滤波器(QMF,quandrature

mirrorfilter)来划分频带,混叠效应可以抵消,如右图所示。音频压缩-SBADPCM子带自适应差分脉冲编码调制SBADPCM右图为G.722标准7KHzAudio-codingwith64kb/sSBADPCM编码译码框图:由于G.722主要针对宽带话音,所有在低子带的话音带宽部分使用了较多的编码位数据插入部件用于在编码和话音一道传输的附加数据数据抽取部件用于抽取传送的附加数据音频压缩-混合编译码器目的:寻找波形编码和音源编码之间的间隔,找到比波形码率更低,比音源编码声音品质更高的编译码器原理:以Abs(analysisbysynthesis)时域合成分析编译码器为例,将音源分为许多帧,寻找合适参数的激励信号,使得激励信号的波形和音源帧波形最接近。然后编码激励信号参数。历史上出现的有:MPE:multipulseexcited多脉冲激励RPE:regularpulseexcited等间隔脉冲激励CELP:codeexcitedlinearpredictive码激励线性预测音频压缩-Abs编译码器的结构通过调节激励信号u(n)使重构信号s’(n)与话音信号s(n)的差值e(n)最小,编码激励信号的参数问题:怎么使差值最小呢?如何减少计算量?音频压缩-Abs问题和改进为使e(n)最小,需要测试数目巨大的激励信号,需要减少计算量MPE:对每帧采用固定数目的激励信号,需要计算每个脉冲的位置和幅度

10Kb/s可获得较好的音频RPE:使用固定间隔的脉冲,只需要确定第一个脉冲的间隔和脉冲的幅度

欧洲GSM移动电话13Kb/s

音质好于MPECELP:用量化矢量来描述激励参数,量化矢量放到矢量量化大码簿中,码簿项决定激励序列,因此只需要计算需要使用哪个码表项决定的激励序列即可。这使编码器由RPE的47位减少到32位。如:1024项的码表-〉10位,增益5位-〉15位

码速率:4.8-16kb/s之间问题:上述的都是话音编码方法,对于配音,通常是Audio素材,在Audio上,有哪些编码方法呢?音频压缩-MPEG简介MPEG(Moving

PictureExpertGroup)是在1988年由国际标准化组织(InternationalOrganizationforStandardization,ISO)和国际电工委员会(InternationalElectrotechnical

Commission,IEC)联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。专家组开发的标准称为MPEG标准,到目前为止,已经开发和正在开发的MPEG标准有:MPEG-1:数字电视标准,1992年正式发布。MPEG-2:数字电视标准。MPEG-3:已于1992年7月合并到高清晰度电视(High-DefinitionTV,HDTV)工作组。MPEG-4:多媒体应用标准(1999年发布)。MPEG-5:notdefinedMPEG-6:notdefinedMPEG-7:多媒体内容描述接口标准(正在研究)。问题:MPEG标准的制定过程是怎样的?音频压缩-活动图像专家组MPEGMPEG严格遵守着一条规则:最大范围内统一意见和制定标准,最低限度地降低单个或少数几个所有者的主要受益。成立以来,MPEG已经形成为一个相当大的委员会,包含11个分组。出席MPEG会议的专家现在达到300~400人,未出席会议的专家则更多。这种机制能够制定出在短期内广泛被接受的标准,如:MPEG-2音频压缩-MPEG标准产生过程工作文件(WorkingDraft,WD):工作组(WorkingGroup,WG)准备的工作文件委员会草案(CommitteeDraft,CD):从工作组WG准备好的工作文件WD提升上来的文件。这是ISO文档的最初形式,它由ISO内部正式调查研究和投票表决。国际标准草案(DraftInternationalStandard,DIS):投票成员国对CD的内容和说明满意之后由委员会草案CD提升上来的文件。国际标准(InternationalStandard,IS):由投票成员国、ISO的其他部门和其他委员会投票通过之后出版发布的文件。问题:MPEG各个标准的主要应用是什么?音频压缩-MPEG1&2应用MPEG-1和-2标准已经正式发布,并且得到广泛应用。MPEG-1MPEG-2(基本型)标准化时间1992年1994年(DIS)主要应用CD-ROM上的数字电视,VCD数字TV,DVD空间分辨率CIF格式(1/4TV),288×360像素TV,576×720像素时间分辨率25-30帧/秒50-60场/秒位速率1.5Mbit/s15Mbit/s质量相当于VHS相当于NTSC/PAL电视压缩率20~3030~40音频压缩-MPEG4应用MPEG-4的目标是在异构网络环境下能够高度可靠地工作,并且具有很强的交互功能。它是为视听(audio-visual)数据的编码和交互播放开发算法和工具,是一个数据速率很低的多媒体通信标准MPEG-4引入了对象基表达(object-basedrepresentation)的概念,用来表达视听对象(audio/visualobjects,AVO)MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象/自然对象混合编码(Synthetic/NaturalHybridCoding,SNHC)算法在实现交互功能和重用对象中引入了组合、合成和编排等重要概念MPEG-4将应用在移动通信和公用电话交换网(publicswitchedtelephonenetwork,PSTN)上,并支持可视电话(videophone)、电视邮件(videomail)、电子报纸(electronicnewspapers)和其他低数据传输速率场合下的应用音频压缩-MPEG7应用MPEG-7目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息,包括:静态图像、图形、3D模型、声音、话音、电视、面部特性和个人特性的表达以及在多媒体演示中它们之间的组合关系MPEG-7的应用领域包括:数字图书馆(Digitallibrary),例如图像目录、音乐词典等;多媒体目录服务(multimediadirectoryservices),例如黄页(yellowpages);广播媒体的选择,例如无线电频道,TV频道等;多媒体编辑,例如个人电子新闻服务,多媒体创作等等。潜在应用的应用领域包括:教育、娱乐、新闻、旅游、医疗、购物等等问题:MPEG1或2是如何压缩音频的?音频压缩-MPEG声音MPEG音频压缩主要利用了人的心理声学模型:频域掩蔽人的耳朵对不同频率的信号的感知程度不同某频率的信号会掩蔽和其同时发出的其他不同频率的信号,这种效应相对于该信号的低频较不明显,相对于该信号的高频较明显时域掩蔽超前掩蔽滞后掩蔽超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms音频压缩-MPEG声音之

临界频带(criticalband)为从感知上来统一度量声音频率,引入了“临界频带(criticalband)”的概念在20Hz到16kHz范围内有24个临界频带临界频带的单位叫Bark(巴克),1Bark=一个临界频带的宽度频率<500Hz的情况下,1Bark»f/100

频率>500Hz的情况下,1Bark»9+4log(f/1000)临界频带是从感知上来度量声音的频带的,在同一个临界频带内,声音的听觉特性基本相同由于要利用心理声学模型,在压缩时采用临界频带而不是等分音频带宽效果要好一些音频压缩-MPEGAudio与感知特性MPEGAudio标准MPEG-1Audio、MPEG-2Audio和MPEG-2AAC(advancedaudiocoding)处理10Hz~20000Hz范围里的声音数据压缩的的主要依据是人耳朵的听觉特性使用“心理声学模型(psychoacousticmodel)”来达到压缩声音数据音频压缩-MPEG心理声学模型听觉阈值听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉大多数人的听觉系统对2kHz~5kHz之间的声音最敏感,因此需要分配较多的编码位数一个人是否能听到声音取决于声音的频率及声音的幅度(是否高于这种频率下的听觉阈值)听觉掩饰特性意思是听觉阈值电平是自适应的,听觉阈值电平会随听到的不同频率的声音而发生变化声音压缩算法也可以确立这种特性的模型来消除冗余数据问题:MPEGAudio编码有哪些类型?音频压缩-MPEGAudio编码MPEGAudio采纳两种感知编码:感知子带编码(perceptualsubbandcoding)DolbyAC-3编码都利用心理声学模型压缩数据区别联系:都是感知编码具体算法不同DolbyAC-3支持5个通道,并采用浮点数计算感知子带用从模拟音频开始进行压缩,DolbyAC-3从PCM样本开始压缩,且采样频率必须是32kHz,44.1kHz或48kHz感知子带编码音频压缩-DolbyAC-3编码特点:输入是PCM样本支持多达5个音频通道位速率:32~640kbps用浮点二进制指数和尾数表示频率系数音频压缩-MPEG-1AudioMPEG-1Audio世界上第一个高保真声音数据压缩国际标准,得到了极其广泛的应用MPEG声音标准是MPEG标准的一部分,但它也完全可以独立应用编码对象:20~20000Hz的宽带声音不局限于哪一种声源压缩数据的基础是量化,通过量化减小样本位数压缩数据要求量化失真对于人耳感觉不到实验表明:在256kb/s时,压缩比为6:1专业测试员很难察觉声音的变化音频压缩-MPEG1声音主要性能码率:MPEG编码器的输入信号为线性PCM信号,采样率为32,44.1或48kHz,输出为32kb/s~384kb/s。音频压缩-MPEG1压缩层次MPEG声音标准提供三个独立的压缩层次:层1(Layer1)、层2(Layer2)和层3(Layer3)用户对层次的选择可在复杂性和声音质量之间进行权衡编码器的输出数据率为384kb/s,主要用于小型数字盒式磁带(digitalcompactcassette,DCC)。编码器的输出数据率为256kb/s~192kb/s,其应用包括数字广播声音(digitalbroadcastaudio,DBA)、数字音乐、CD-I(compact

disc-interactive)和VCD(video

compactdisc)等。编码器的输出数据率为64kb/s,主要应用于ISDN上的声音传输。层次算法压缩率立体声信号所对应的位率(kb/s)1MUSICAM*4:13842MUSICAM*6:1~8:1256~1923ASPEC**10:1~12:1128~112音频压缩-MPEG1层3性能音质要求声音带宽(kHz)方式数据率(kb/s)压缩比电话2.5单声道896:1优于短波5.5单声道1648:1优于调幅广播7.5单声道3224:1类似于调频广播11立体声56~6426~24:1接近CD15立体声9616:1CD>15立体声112~12812~10:1音频压缩-子带编码MPEG-1使用子带编码压缩声音数据子带编码的理论根据是听觉系统的掩蔽特性,并且主要是利用频域掩蔽特性:编码过程中保留可听到信号的带宽而扔掉被掩蔽信号解码或者叫做重构的声音信号与编码之前的声音信号不相同人的听觉系统很难感觉到声音之间的差别,对听觉系统来说这种压缩是“无损压缩”MPEG-1声音编码器的结构图声音信号经过一个“时间-频率多相滤波器组”变换到频域里的多个子带输入声音信号同时经过“心理声学模型”计算掩蔽特性该模型计算以频率为自变量的噪声掩蔽阈值(maskingthreshold)查看输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率“量化和编码”部分用信掩比(signal-to-maskratio,SMR)来决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧(frame)”的格式组装成位数据流。音频压缩-MPEG-1掩蔽阈值和SMR信掩比是指最大的信号功率与全局掩蔽阈值之比掩蔽阈值曲线下的声音会被掩蔽音频压缩-MPEG-1解码器结构图解码端不需要心理声学模型,比较简单音频压缩-MPEG-1多相滤波器组用来分割子带,把输入信号变换到32个频域子带中去子带的划分方法有两种线性划分声音频带划分成带宽相等的子带这种划分就不能精确地反映人耳的听觉特性非线性划分以“临界频带”来划分在一个临界频带之内,很多心理声学特性都是一样的如图在低频区域,一个子带覆盖好几个临界频带线性划分某个子带中量化器的比特分配就不能根据每个临界频带的掩蔽阈值进行分配,而要以其中最低的掩蔽阈值为准

图9-12滤波器组的带宽与临界频带带宽的比较[1]

9.3.5编码层MPEG声音压缩定义了3个分明的层次,它们的基本模型是相同的。层1是最基础的,层2和层3都在层1的基础上有所提高。每个后继的层次都有更高的压缩比,但需要更复杂的编码解码器。MPEG声音的每一个层都自含SBC编码器,其中包含如图9-09所示的“时间-频率多相滤波器组”、“心理声学模型(计算掩蔽特性)”、“量化和编码”和“数据流帧包装”,而高层SBC可使用低层SBC编码的声音数据。MPEG的声音数据分成帧(frame),层1每帧包含384个样本的数据,每帧由32个子带分别输出的12个样本组成。层2和层3每帧为1152个样本,如图9-13所示。

图9-13层1、2和层3的子带样本MPEG编码器的输入以12个样本为一组,每组样本经过时间-频率变换之后进行一次比特分配并记录一个比例因子(scalefactor)。比特分配信息告诉解码器每个样本由几位表示,比例因子用6比特表示,解码器使用这个6比特的比例因子乘逆量化器的每个输出样本值,以恢复被量化的子带值。比例因子的作用是充分利用量化器的量化范围,通过比特分配和比例因子相配合,可以表示动态范围超过120DB的样本。1.层1层1和层2的比较详细的框图如图9-14所示。层1的子带是频带相等的子带,它的心理声学模型仅使用频域掩蔽特性。层1的“时间-频率多相滤波器组”使用类似于离散余弦变换DCT(discretecosinetransform)的分析滤波器组进行变换,以获得详细的信号频谱信息。根据信号的频率、强度和音调,滤波器组的输出可用来找出掩蔽阈值,然后组合每个子带的单个掩蔽阈值以形成全局的掩蔽阈值。使用这个阈值与子带中的最大信号进行比较,产生信掩比SMR之后再输入到“量化和编码器”。“量化和编码器”首先检查每个子带的样本,找出这些样本中的最大的绝对值,然后量化成6比特,这个比特数称为比例因子(scalefactor)。“量化和编码器”然后根据SMR确定每个子带的比特分配(bitallocation),子带样本按照比特分配进行量化和编码。对被高度掩蔽的子带自然就不需要对它进行编码。

图9-14ISO/MPEGaudio层1和层2编码器和解码器的结构“数据流帧包装”按规定的帧格式进行包装,实际上就是一个多路复合器MUX。层1的帧结构如图9-15所示。每帧都包含:①用于同步和记录该帧信息的同步头,长度为32比特,它的结构如图9-16所示,②用于检查是否有错误的循环冗余码CRC(cyclicredundancycode),长度为16比特,③用于描述比特分配的比特分配域,长度为4比特,④比例因子域,长度为6比特,⑤子带样本域,⑥有可能添加的附加数据域,长度未规定。

图9-15层1的帧结构

图9-16MPEG声音比特流同步头的格式2.层2层2对层1作了一些直观的改进,相当于3个层1的帧,每帧有1152个样本。它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性,并且在低、中和高频段对比特分配作了一些限制,对比特分配、比例因子和量化样本值的编码也更紧凑。由于层2采用了上述措施,因此所需的比特数减少了,这样就可以有更多的比特用来表示声音数据,音质也比层1更高。层1是对一个子带中的一个样本组(由12个样本组成)进行编码,而层2和层3是对一个子带中的三个样本组进行编码。图9-13也表示了层2和层3的分组方法。如图9-17所示,层2使用与层1相同的同步头和CRC结构,但描述比特分配的位数(即比特数)随子带不同而变化:低频段的子带用4比特,中频段的子带用3比特,高频段的子带用2比特。层2比特流中有一个比例因子选择信息(scalefactorselectioninformation,SCFSI)域,解码器根据这个域的信息可知道是否需要以及如何共享比例因子。

图9-17层2比特流数据格式3.层3层3使用比较好的临界频带滤波器,把声音频带分成非等带宽的子带,心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,并且使用了霍夫曼(Huffman)编码器。层3编码器的详细框图如图9-18所示。

图9-18ISO/MPEGaudio层3编码器和解码器的结构层3使用了从ASPEC(AudioSpectralPerceptualEntropyEncoding)和OCF(OptimalCodingInTheFrequencydomain)导出的算法,比层1和层2都要复杂。虽然层3所用的滤波器组与层1和层2所用的滤波器组的结构相同,但是层3还使用了改进离散余弦变换(modifieddiscretecosinetransform,MDCT),对层1和层2的滤波器组的不足作了一些补偿。MDCT把子带的输出在频域里进一步细分以达到更高的频域分辨率。而且通过对子带的进一步细分,层3编码器已经部分消除了多相滤波器组引入的混迭效应。层3指定了两种MDCT的块长:长块的块长为18个样本,短块的块长为6个样本,相邻变换窗口之间有50%的重叠。长块对于平稳的声音信号可以得到更高的频域分辨率,而短块对跳变的声音信号可以得到更高的时域分辨率。在短块模式下,3个短块代替1个长块,而短块的大小恰好是一个长块的1/3,所以MDCT的样本数不受块长的影响。对于给定的一帧声音信号,MDCT可以全部使用长块或全部使用短块,也可以长短块混合使用。因为低频区的频域分辨率对音质有重大影响,所以在混合块长模式下,MDCT对最低频的2个子带使用长块,而对其余的30个子带使用短块。这样,既能保证低频区的频域分辨率,又不会牺牲高频区的时域分辨率。长块和短块之间的切换有一个过程,一般用一个带特殊长转短或短转长数据窗口的长块来完成这个长短块之间的切换。除了使用MDCT外,层3还采用了其他许多改进措施来提高压缩比而不降低音质。虽然层3引入了许多复杂的概念,但是它的计算量并没有比层2增加很多。增加的主要是编码器的复杂度和解码器所需要的存储容量。CopyRight©Octopus2000

音频压缩-MPEG-1编码层MPEG声音压缩定义了3个分明的层次层1是最基础的,层2和层3都在层1的基础上有所提高每个后继的层次都有更高的压缩比,但需要更复杂的编码解码器MPEG声音的每一个层都自含SBC编码器,而高层SBC可使用低层SBC编码的声音数据。MPEG的声音数据分成帧(frame),层1每帧包含384个样本的数据,每帧由32个子带分别输出的12个样本组成。层2和层3每帧为1152个样本通过比特分配和比例因子相配合,可以表示动态范围超过120DB的样本MPEG的声音数据分成帧(frame)层1每帧包含384个样本的数据,每帧由32个子带分别输出的12个样本组成层2和层3每帧为1152个样本音频压缩-MPEG-1层1层1的子带是频带相等的子带仅使用频域掩蔽特性“时间-频率多相滤波器组”使用类似于离散余弦变换DCT(discrete

cosinetransform)的分析滤波器组进行变换,以获得详细的信号频谱信息根据信号的频率、强度和音调,滤波器组的输出可用来找出掩蔽阈值组合每个子带的单个掩蔽阈值以形成全局的掩蔽阈值使用这个阈值与子带中的最大信号进行比较,产生信掩比SMR之后再输入到“量化和编码器”音频压缩-MPEG-1层1的帧结构①用于同步和记录该帧信息的同步头②用于检查是否有错误的循环冗余码CRC(cyclic

redundancycode)③用于描述比特分配的比特分配域④比例因子域⑤子带样本域⑥有可能添加的附加数据域,长度未规定音频压缩-MPEG-1层2层2对层1作了一些直观的改进,相当于3个层1的帧,每帧有1152个样本使用频域掩蔽特性、时间掩蔽特性在低、中和高频段对比特分配作了一些限制比特分配、比例因子和量化样本值的编码更紧凑音质也比层1更高层1是对一个子带中的一个样本组(由12个样本组成)进行编码,而层2和层3是对一个子带中的三个样本组进行编码层2使用与层1相同的同步头和CRC结构,但描述比特分配的位数(即比特数)随子带不同而变化:低频段的子带用4比特,中频段的子带用3比特,高频段的子带用2比特层2比特流中有一个比例因子选择信息(scalefactorselectioninformation,SCFSI)域,解码器根据这个域的信息可知道是否需要以及如何共享比例因子音频压缩-MPEG-1层3使用比较好的临界频带滤波器,把声音频带分成非等带宽的子带使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余使用了霍夫曼(Huffman)编码器使用了从ASPEC(Audio

SpectralPerceptualEntropyEncoding)和OCF(Optimal

CodingInTheFrequencydomain)导出的算法使用了改进离散余弦变换(modifieddiscretecosinetransform,MDCT),对层1和层2的滤波器组的不足作了一些补偿MDCT把子带的输出在频域里进一步细分以达到更高的频域分辨率而且通过对子带的进一步细分,层3编码器部分消除了多相滤波器组引入的混迭效应

计算量并没有比层2增加很多。增加的主要是编码器的复杂度和解码器所需要的存储容量,因此解码性能还是很好的,可以在较小的解码CPU时间占用下解码问题:MPEG1Audio和MPEG2Audio有哪些异同?音频压缩-MPEG-2AudioMPEG-2标准委员会定义了两种声音数据压缩格式:MPEG-2Audio,或者称为MPEG-2多通道(Multichannel)声音又称为MPEG-2BC(BackwardCompatible因为它与MPEG-1Audio是兼容)可用MPEG1播放其中的立体声声道MPEG-2AAC(AdvancedAudioCoding)通常称为非后向兼容MPEG-2NBC(Non-Backward-Compatible)(因为它与MPEG-1声音格式不兼容)音频压缩-MPEG2BCMPEG-2Audio(ISO/IEC1117-3)标准都使用相同种类的编译码器,层-1,-2和-3的结构也相同与MPEG-1标准相比,做了如下扩充:增加了16kHz,22.05kHz和24kHz采样频率扩展了编码器的输出速率范围,由32~384kb/s扩展到8~640kb/s,增加了声道数,支持5.1声道和7.1声道的环绕声。支持LinearPCM(线性PCM)和DolbyAC-3(AudioCodeNumber3)编码音频压缩-MPEG25.1&7.1环绕声也称为“3/2-立体声加LFE”“.1”就是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、右),后面可有2个环绕声喇叭声道LFE(low

frequencyeffects)是低频音效的加强声道7.1声道环绕立体声与5.1类似问题:MPEG2Audio如何实现向后兼容?音频压缩-MPEG2多声道扩展这个标准称为MPEG-2后向兼容多声道声音编码(MPEG-2backwardscompatiblemultichannelaudiocoding)标准,简称为MPEG-2BC问题:MPEG-2AAC有哪些突出功能,这些功能有哪些具体应用?音频压缩-MPEG2AACMPEG-2AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准:AAC支持的采用频率可从8kHz到96kHzAAC编码器的音源可以是单声道的、立体声的和多声道的声音AAC标准可支持48个主声道、16个低频音效加强通道LFE(lowfrequencyeffects)、16个配音声道(overdubchannel)或者叫做多语言声道(multilingualchannel)和16个数据流MPEG-2AAC在压缩比为11:1,即每个声道的数据率为(44.1×16)/11=64kb/s5个声道的总数据率为320kb/s的情况下,很难区分还原后的声音与原始声音之间的差别与MPEG的层2相比,MPEG-2AAC的压缩率可提高1倍,而且质量更高,与MPEG的层3相比,在质量相同的条件下数据率是它的70%音频压缩-MPEG2AAC的配置开发方法不同:MPEGAudio模块化的方法MPEG-2AAC采用的方法是对整个系统进行标准化,把整个AAC系统分解成一系列模块,用标准化的AAC工具(advancedaudiocodingtools)对模块进行定义MPEG-2AAC模块AAC标准定义了三种配置:低复杂性配置(LowComplexityProfile):不使用预测模块和预处理模块,瞬时噪声定形(temporalnoiseshaping,TNS)滤波器的级数也有限,这就使声音质量比基本配置的声音质量低,但对计算机的存储器和处理能力的要求可明显减少基本配置(MainProfile):除了“增益控制(GainControl)”模块之外,AAC系统使用了图中所示的所有模块,在三种配置中提供最好的声音质量

可变采样率配置(ScalableSamplingRateProfile):使用增益控制对信号作预处理,不使用预测模块,TNS滤波器的级数和带宽也都有限制,因此它比基本配置和低复杂性配置更简单,可用来提供可变采样频率信号

音频压缩-MPEG2AAC模块-编码器增益控制(Gaincontrol)用在可变采样率配置中,把输入信号分离到4个相等带宽的频带中。滤波器组是把输入信号从时域变换到频域的转换模块,采用了改进离散余弦变换MDCT,使用了一种称为时域混迭取消TDAC(timedomainaliasingcancellation)技术瞬时噪声定形TNS解决掩蔽阈值和量化噪声的错误

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论