第2章音频信息处理_第1页
第2章音频信息处理_第2页
第2章音频信息处理_第3页
第2章音频信息处理_第4页
第2章音频信息处理_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 2章 音频信息处理2 1 音频处理基础2 2 音频处理软件 Adobe Audition2 3 音频处理综合应用案例2.1 音频处理基础1. 声波( 1)声波: 由各种机械振动或气流扰动引起周围的弹性媒质发生波动。( 2)声源: 产生声波的物体,如人的声带和乐器等。 ( 3)声音: 人的听觉系统所能感知到的声波。 音频的频率范围: 20 Hz 20000 Hz 语音的频率范围: 300 Hz 3000 Hz 次声波的频率范围: 20 kHz( 4)声强: 对于一定频率的声音,要能引起听觉,其声强也有一定的范围。 下限:是恰能引起人听觉的最小声强,叫做该频率的 可闻阈 ; 上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼痛,所以叫做该频率的 疼痛阈 。常见声音的分贝量级分 贝 数 低于 20 20 40 40 60 60 70 70 90 90听 觉 效果 能分辨 轻 声 正常交 谈 声 吵 闹 很吵 听力受 损2声音的基本特征( 1)声波信号的物理特征周期( T): 声波的两个波峰或波谷之间的相对时间。频率( f): 周期的倒数 ( f=1/T) ,即每秒波峰或波谷出现的次数。幅度 :从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。人们感知到的声音特征称为心理学特征n音调: 在音乐中又叫 音高 ,是由发声物体的振动频率决定,振动越快(即频率越大),音调越高,振动越慢,音调越低。音调的高低与声音基频的对数( 20*log)成线性关系。基频越低,给人的感觉是声音越低沉,基频频率增加一倍,在音乐上就叫升高了一个八度。 n音色: 这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,一般高次谐波越丰富,音色越明亮并具有穿透力。n响度: 人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。( 2)声音信号的心理学特征( 3)声音质量的评价声音质量与带宽有关,频率范围越宽,声音质量越高。1)声音质量分级: 按照声音信号的频率范围将声音质量分为 5级。质 量 频 率范 围 采 样频 率( kHz) 采 样 精度( bits) 声道数 数据率(非 压缩 )( kB/s)电话 200 3400 Hz 8 8 单 道声 8AM 100 5500Hz 11.025 8 单 道声 11.0FM 20 11000Hz 22.050 16 立体声 88.2CD-DA 5 20000Hz 44.1 16 立体声 176.4DVD 0 96000Hz 192 24 6声道 12002)信噪比( SNR) :即有用信号与噪音信号的强度之比,单位是分贝。3) 声音主观质量的度量: 主观度量就是大多数人对声音质量的感觉。3音频信号的表示( 1)音频信号: 通过麦克风等设备转换成的电信号。n 规则音频信号: 带有 语音 、 音乐 和音效的有规律的音频信号,承载了一定的信息。 语音: 语言的载体,有丰富的语言内涵,是人类交流的信息载体。 音乐: 是一种规范的符号化的声音。 音效: 自然界中各种声音效果,如掌声、雷鸣声,爆破声等。n 不规则音频信号: 不包含任何信息的声音,比如噪声。( 2)音频信号的表示音频信号的数学表示0: 声音的基音,决定了音调的高低n0: 声音的泛音,决定了声音的音色An : 声波的振幅,表示声音的强弱2)音频信号的波形表示3)音频信号的频谱表示声音信号的频率分布曲线。复杂的声音是由 振幅 和 频率 不同的正弦声波叠加而成的,这些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。1. 音频信号数字化声音信号在时间上是连续的,在幅度上也是连续的,属于模拟信号。( 1)采样声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。n 采样频率: 每秒采样的次数。n 奈奎斯特理论( Nyquist theory) : 采样频率不低于声音信号最高频率的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。f s = 2 f max电话话音信号的最高频率约为 3.4kHz, 所以采样频率取为 8kHz。2.1.2 音频信号的数字化声音信号在幅度上的离散化也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。n 采样精度: 即量化的位数,位数越多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。 ( 2) 量化( 3) 编码就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。典型的音频编码方法:脉冲编码调制法( PCM)。( 4)数字音频的数据量数据量 = 采样频率 * 采样精度 * 采样时间 * 声道数 / 8 (字节数)单声道: 一次只产生一组声波数据,立体声: 一次产生两组声波数据。例 2.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。60 * ( 44100 * 16 * 2 ) / 8 = 10.09 MB一首未经压缩的 4分钟的歌曲文件的大小约为 40MB,那么一个容量为512MB的 MP3播放器也只能播放 12首这样的歌曲 。 2. 数字音频压缩标准( 1)电话质量的语音压缩标准( 2)调幅广播语音压缩标准G.722( 3)高保真立体声的宽带音频压缩标准标 准 编码 方法 采 样频 率 采 样 精度 数据 传输 率G.711 PCM 8kHz 8位 64kb/sG.721 ADPCM 8kHz 8位 32kb/sG.723 ADPCM 8kHz 8位 24kb/sG.728 LD-CELP 8kHz 8位 16kb/s电话质量的语音压缩标准MPEG音频 :第一个高保真立体声音频压缩的国际标准MPEG音频压缩标准提供三个独立的压缩层次: 1) Layer 1: 编码器简单,输出数据率为 384 kb/s,主要用于小型数字盒式磁带。 2) Layer 2: 编码器较复杂,输出数据率为 256 kb/s 192kb/s,主要应用于数字广播声音、数字音乐、 CD-I和 VCD等。3) Layer 3: 编码器复杂,输出数据率为 64kb/s,主要用于 ISDN上的声音传输。1 WAV文件: 波形文件,微软开发,需要的存储量大,多用于存储简短的声音片段和旁白。2 MIDI文件: 记录的是生成音乐的指令, MIDI文件短小。由于 MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的 MIDI文件在不同的设备上播放也会有不同的效果。 MIDI文件适合作为背景音乐来播放。3 MP3文件: 是 MPEG音频第 3层的简称,有损压缩,压缩比达 12:1。 MP3利用人耳的掩蔽特性,削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量。4 RA文件: 属于 Real Media的音频部分,采用流式传输方式,可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5 WMA 文件 : Windows Media的音频部分。无损压缩,支持多声道编码。6 AC3文件: 又叫杜比数码环绕立体声,压缩比 10:1,提供的环绕声系统由 5个全频域声道和 1个超低音声道组成,称为 5.1声道,一般作为 DVD的伴音。 3. 数字音频文件的格式1. 数字音频技术结合数字技术和计算机技术而实现传统音频处理的技术( 1) 特点1)处理长样本文件的能力,录音时间只受硬盘本身大小的限制。2)随机存取编辑3)无损编辑( 2)应用1)声音剪辑和 CD刻录。 2)日常音乐录制。 3)大规模音乐录音和混音。 4)影视音乐的制作与合成。 5)多媒体音乐制作与合成。 数字音频工作站 2.1.3 数字音频处理技术2)语音识别系统分类n 对说话人说话方式的要求n 孤立字(词)语音识别系统n 连接字语音识别系统n 连续语音识别系统。n 对说话人的依赖程度n 特定人语音识别系统n 非特定人语音识别系统n 词汇量大小n 小词汇量语音识别系统n 中等词汇量语音识别系统n 大词汇量语音识别系统n 无限词汇量语音识别系统。( 1)语音识别技术1)语音识别的发展n 50年代 :AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统 Audry系统。n 60年代:提出动态规划( DP)和线性预测分析技术( LP)。n 70年代:提出了动态时间归正技术( DTW),矢量量化( VQ)和隐马尔可夫模型( HMM)理论,实现了特定人孤立语音识别系统。n 90年代:开始进入实用阶段 。2. 智能语音处理技术利用计算机合成语音的技术,使计算机具有类似人的说话能力。n语音合成的三个层次n从文字到语音n从概念到语音n从意向到语音n语音合成技术的特点n清晰度n自然度n表现力n复杂度n语音合成的应用n文语转换n语音查询( 2) 语音合成技术2.2 音频处理软件 Adobe Audition 单轨编辑界面2.2.3 Audition界面及基本操作 多轨编辑界面2.2.4 音频信号获取 直接读取计算机磁盘上的音频文件; 提取视频信息中的音频信号; 直接录音。 Audition允许同时进行多音轨录音,当然需要有相应的硬件支持,比如多个音频输入接口、多个录音源等。 1录音前声卡设置“选项 | Windows 录音控制台 ”2建立录音文件3导入伴奏音乐4控制录音电平5录制声音2.2.5 音频编辑n单轨编辑状态: 可以进行波形的各种编辑处理和效果的设置,还可以分别对左右声道单独进行编辑处理。n多轨编辑状态 : 适合对多个音频轨道进行编辑、录制和合成处理。最多可以同时处理的轨道数为 128个。按钮 “ R” 表示录音、 “ S” 表示独奏、 “ M” 表示静音 。 1常用编辑( 1)裁剪音频波形n 波形的选择n 波形的删除n 波形的移动与复制n 混合工具 : 拖曳左键选中波形,拖曳右键移动波形。n 时间选择工具 : 拖曳左键选中波形。n 移动 /复制剪辑工具 : 拖曳左键移动波形,拖曳右键移动或复制。n 刷选工具 : 拖曳左键可以播放选中波形。( 2)切分和合并音频在多轨编辑状态下,可以对活动音轨上的波形进行分割,使其变成多个波形片段,定位播放线,执行 “ 剪辑 |分割 ” 或右击鼠标点选 “ 分割 ” 。使两段波形首尾相接,按住 Ctrl键将两段波形都选中,执行 “ 剪辑 |合并 ” 或右击鼠标点选 “ 合并 ” 即可完成。( 3)锁定音频波形锁定使音频的绝对时间位置不变。( 4)编组音频波形编组则可以使多个音频片段的相对位置固定,移动时可整体移动。 2包络编辑( 1)音量包络编辑音量包络是指音频波形随时间变化而产生的音量变化,也即是音量变化的走势曲线。通过控制音量包络曲线来改变某音轨上音频信号的音量大小,是一个非常直观和简单有效的方法。( 2)声相包络编辑声相就是声音在左右声道中所处的位置。声相包络线处于中间时( 0点),声音在左右声道中达到平衡的效果,声相包络线位于上半部,声音偏向左声道,声相包络线位于下半部,声音偏向右声道。 ( 3)音量淡化包络编辑Audition提供了简单快速的音量淡化包络。在音乐制作领域,淡化(fade)指音量的逐渐变化,音量由小到大变化称为淡入( fade in),音量由大到小变化称为淡出( fade out)。3时间伸缩用于改变声音播放的速度,且不影响音高 。“ 查看 |启用剪辑时间伸展 ” 时间伸缩2.2.6 加载效果器加载效果器按照使用方法可分为:n 插入效果器 : 作用的声音范围是一整条音轨;n 波形效果器: 作用于音轨中的某一段音频片段;n 总线效果器: 加载在总线通道上的效果器,它使所有的音轨加入相同的效果器; 1插入效果器多轨编辑下2波形效果器单轨编辑下,允许多个音频片段分别进行效果设置。 2.2.7 效果器Audition的效果器按照功能分为:n 振幅类效果器n 滤波类效果器n 延迟类效果器n 降噪类效果器n 波形发生类效果器n 声码器 1动态处理效果器属于幅度类效果器,用于将某个范围内的声音电平按比例增

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论