(电路与系统专业论文)文本无关的电话语音说话人确认的特征域信道补偿方法研究.pdf_第1页
(电路与系统专业论文)文本无关的电话语音说话人确认的特征域信道补偿方法研究.pdf_第2页
(电路与系统专业论文)文本无关的电话语音说话人确认的特征域信道补偿方法研究.pdf_第3页
(电路与系统专业论文)文本无关的电话语音说话人确认的特征域信道补偿方法研究.pdf_第4页
(电路与系统专业论文)文本无关的电话语音说话人确认的特征域信道补偿方法研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 文本无关电话语音的说话人身份确认的研究,以其实用性,成为当今语音识 别领域中的热门课题。当今文本无关说话人确认的主流技术是以高斯混合模型 ( g 删) 为代表的概率统计模型,由于g 蹦的性能依赖于训练和测试特征参数的数据 分布,而在电话语音的说话人确认中,训练语音和测试语音所受到电话信道和环 境的影响是不同的,由此导致的训练和测试失配会使系统性能明显下降。因此如 何解决训练和测试语音的失配问题是提高说话人确认系统鲁棒性的关键。 电话信道引起的失真包括线性失真和非线性的失真,本文在特征域针分别对 特征参数的线性和非线性失真提出补偿办法。 对于电话语音中存在的平稳加性噪声和信道引起的线性失真,实验研究了倒 谱均值相减法( c m s ) 和相关谱滤波( r a s t a ) 的补偿方法,在n l s t 9 9 电话语音库 上的实验表明,通过c m s 和r a s t a 补偿后说话人确认系统的识别率提高了3 6 左右。 针对信道引起的非线性失真,提出了一种基于g 删语音模型特征映射的补偿 方法( f 坳,通过对不同类型的语音采用不同的补偿来实现非线性补偿。采用g 姗 建立语音模型并基于“匹配补偿”思想进行的特征映射,即通过特征映射消除训练 语音特征和测试语音特征中受信道影响的差异,因此各个信道的g 姗语音模型都 是从基准语音模型自适应获得的,并由此获得不同信道不同类语音特征的映射规 则。 实验研究了语音模型的类数,g 姗语音模型高斯加权( 映射规则数) 对说话人 确认系统性能的影响。考虑到手机语音不仅有话筒类型的差异,还存在着编码方 式的不同,实验研究了在话筒分类的基础上按编码方式进一步分类对系统性能的 影响。 关键词:文本无关说话人识别信道补偿倒谱均值相减r a s t a 滤波 g m m 语音模型特征映射 蓁曩l g 薹i 雾薹挚霎曩蠢囊夔 竺孽粤l l 妻鬻霸墼辇霉l 荔裔薹重蔓翼塑 ! 耋冀纛羹睡蠹羲囊斟鍪l i l 9 型薹| l 坚耄l 萋l 墓l p ! i 霉妇茎黯i ! 薹专| l 冀垒囊 莲l ;再! 囊| 璧霸5 l | 鋈堡雾冀i 瞳l 喜5l 签蠢l 翼l 李v x 第一章绪论 1 1 说话人识别发展 第一章绪论 对说话人识别的研究始手2 0 世纪3 0 年代。最初是在第二次世界大战期间, 美国国防部向贝尔实验室提出的课题,目的是根据窃听的电话语音进行判断说话 人是哪一位德国高级将领,这对分析当时的德军战略部署具有重要的意义。 早期的说话人识别工作主要集中在人耳听辨实验和探讨听音识别的可能性 方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。b e i i 实验室的l - g k e s t a 采用日视观察语谱图进行识别,提出了“声纹 l v o c e 州n t l l 【1 1 的概念。但是语谱图难以量化,要由专门训练过的人员进行识 别。 电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。6 0 年代末7 0 年代初语音识别被作为一个课题展开研究并取得了实质性进展。语音信 号线性预测编码( l p c ) 技术和动态时间规整( d t w ) 技术的提出【2 5 】,有效 的解决了语音信号的特征提取和不等长匹配问题。这时期的语音识别主要基于 模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于 线性预测倒谱和d t w 技术的特定入孤立词语音识别系统;同时提出了矢量量化 ( v q ) 和隐马尔可夫模型( h m m ) 理论【6 】【7 】。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束 条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板 的选取和建立发生困难;第二。连续语音中,各个音素、音节以及词之间没有明 显的边界,各个发音单位存在受上下文强烈影响的协同发音( c o a n i c u l a f o n ) 现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差 异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很 大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方 法已不再适用。 。 实验室语音识别研究的巨大突破产生于2 0 世纪8 0 年代末:人们终于在实验 室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集 成在一个系统中,比较典型的是卡耐基梅隆大学l c a m e g i em e o nu n i v e r s 计y ) 的s p h i n x 系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。此 时说话人识别研究进一步走向深入,其显著特征是h m m 模型和人工神经元网络 ( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于a t & tb e 第一章绪论 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学模型工程化, 从而为更多研究者了解和认识,从而使统计方法成为了开始应用于说话人识别。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化, 而是更多地从整体平均( 统计) 的角度来建立最佳的语音识别系统。在声学模型 方面,以m a r k o v 链为基础的语音序列建模方法h m m ( 隐式m a r k o v 链) 比较有 效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元 构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。 2 0 世纪9 0 年代,r e y n o i d s 对高斯混合模型( g a u s s i a nm x t u r em o d e i , g m m ) 做了详尽介绍后【8 】【9 】,g m m 以其简单灵活有效成为文本无关说话人识 别的主流技术。g m m 可以表示为若干个高斯概率密度的线性组合,因而可以看 作是只具有一个状态的h m m ,因为没有状态间的转移,降低了语义相关的时序 信息的影响,通过收集说话人的训练语音提取特征建立g m m ,能够对说话人总 体的发音特征分布进行拟和,从而代表了该说话人与文本无关的统计特征分布。 2 0 0 0 年左右,r e y n o i d s 在说话人确认任务中提出了u b m m a p 【1 0 】的结构,降低 了g m m 对于训练数据的依赖,说话人模型训练只需要较少的自适应语音。 当前各种新的说话人识别技术层出不穷,如大规模连续语音识别技术 f l g r g ev o c a b u l a r yc o n t n u o u ss p e e c hr e c o g n _ i t i o n ,l v c s r ) 1 11 】应用于 文本无关的说话人识别,s v m 与g m m 的结合【12 】【13 】,语音信号中高层信息的 应用等,然而目前最成熟的技术仍然是基于g m m 的。 1 2 说话人确认概述 1 2 1 说话人确认组成 根据任务不同,说话人识别( s p e a k e rr e c o g n i t i o n ) 又可以分为说话人辨 识( s p e a k e r l d e n t i f i c a t o n ) 和说话入确认( s p e a k e rv e r f c a f i o n ) ,本文 的研究内容是针对说话人确认展开的。说话人确认( s p e a k e rv e r i f i c a “o n ) 是 根据说话人的语音来确定是否是其所声明的身份( 如图1 1 所示) 。 2 第一章绪论 判决 结果 ( 是否) 图1 - 1 说话人确认基本框图 说话人确认系统由三个部分组成,即前端处理、说话人建模以及判决。前端 处理负责对高冗余度的语音波形信号进行预处理,去冗余,然后提取出易处理的, 我们所感兴趣的代表说话人特征的信息,也就是特征参数。因此前端处理一般包 括静音检测、预加重、特征参数提取及后续处理等步骤。模型是对说话人特征的 进一步抽象。根据任务的不同,需要为其建立不同类型的模型。 说话人确认按照说话内容( 文本 的类型可以分为与文本有关 及 t e t - d e p e n d e n t l 和与文本无关( t e x t i n d e p e n d e n t l 两种,前者要求说话人提 供指定语义内容的语音,可以用在使用者比较配合的场合,例如关键部门的出入 控制并且语义内容l 如密码) 可以作为说话人身份的补充信息来提高系统的识别 性能:后者则不关心语音信号中具体的语义内容,因此它可以用在使用者不配合 的场合,如电话语音监听,v o i c e m a i l 的发件人身份的标识等等。 对于与文本无关的说话入确认而言,说话入模型有矢量量化【v q ) 、高斯混 合模型( g m m ) 等。此外,还有一些常用的说话入模型,如人工神经网络e a m f i c i a l n e u f a ln e 协,o f k ,an n 和支持向量机f s u p p o v e c t o rm a c h i n e ,s v m 等。 从图1 1 中可以看出,说话人确认分为训练和测试两个阶段。在训练阶段, 由说话人的注册语音通过相应算法训练得到该说话人的模型。在测试阶段,测试 语音在被给出的同时会附带一个身份声明。此语音信号在经过前端处理转换成特 征参数序列之后,将与身份声明所指定的说话人模型进行匹配,给出一个相似度 的得分( 如语音d 由该说话人模型入输出的概率尸( d 1 名) f 1 6 】。然后这个得分将与 确认阈值进行比较,最终获得确认结果f 接受、拒绝或待定) 。 1 2 2 说话人确认的评估手段 对于说话入确认而言,由于存在着两种错误类型,因此说话入确认系统的评 估就变得相对复杂。本节对一些常见的评估方法进行简单的介绍。 一、f r 和f a 3 第一章绪论 说话入确认存在着两种错误,一种是错误接受率( f a l s ea c c e p t a n c e r a t e ,f a ) ,即冒认者被作为真实说话人而接受的错误;一种是错误拒绝率 ( f a i s er e j e c t o nr a t e ,f r ) ,即真实说话人被作为冒认者而拒绝的错误。不 同的阈值设置会有不同大小的f a 和f r ,且这两种错误与确认阈值的关系则是相 反的,因此确认阈值的设置必须兼顾到这两种错误。f a 和f r 与阈值的关系见图 1 - 1 所示,确认阈值一般是在训练阶段确定的。显然,较高的确认阈值会使得冒 认者难以得逞,但同时也会使得真实说话人也容易被拒绝;反之,过低的阈值虽 然使真实说话人被拒绝的机会大大减少,但是同样也会使得冒认成功的几率大大 增加。 错 误 率 e e r 图1 - 1f a 、f r 和确认阈值的曲线 二、等误识率 实际情况下f a 和f r 曲线总是有交叠的,两条曲线相交处的两种错误率相等, 称为等误识率( e q u a le rr a t e ,匪r ) 。e e r 经常被用来作为确认系统的评估标 准,简单而且直观。但e e r 只能衡量系统在等误识率阈值下的性能,无法衡量系 统的整体分类能力。 三、检测代价函数 在实际使用中。不同类型的错误所造成的损失往往是不同的,比如在安全性 要求较高的环境下,错误接受所造成的损失往往大于错误拒绝所造成的损失。因 此美国国家标准技术署在说话人识别评测中定义了一个评价函数:检测代价函数 d e t e c t o nc o s tf u n c 瓠o n d c f ,用公式表示为: d c r = c 矿歙+ c 向尉 其中c _ 。和c 廖分别是错误拒绝和错误接受的代价,和则分别是真实 说话 人和冒认者出现的先验概率,例如在n i s t2 0 0 4 年的评测任务中【17 】。定义 c 矿= 1 0 ,c j 白= 1 ,= o 9 9 ,= o 0 1 这样,在实际的评估中,只要给定一 个阈值,就会得到相应的f a 和f r ,代入上式就会得到相应阈值下的实际检测代 4 第一章绪论 价。d c f 将系统的性能用一个量来表示,并且考虑到了两种不同类型的错误所造 成的影响,以及真实说话人和冒认者出现的概率,因此比匪r 具有更好的合理 性。 四、d e t 曲线 d 日 d e t e c 瓠o ne 拜饼f r q d e o 弼1 18 j 曲线是一种常用的评估说话入确认系 统性能的方法。d e t 曲线是精神物理学( p s y c h o p h y s i c s 中常用的r o c f r e c e i v e ro p e r a t n gc h a r a c t e r i s t c s j 曲线的另一种形式,其横坐标和纵坐 标分别是对数刻度下的f a 和f r ,由于说话人确认可以看作是一个信号检测问 题,因此在d e t 曲线上f a 又被称作f a l s ea l a r mp r o b a b i l i t y ,f r 被称作m i s s p r o b a b 讲t y 。如图1 2 所示。d e t 曲线上不同的点代表了不同确认阈值下的确认 性能,曲线越靠近坐标轴则系统的分类能力就越好。在通过原点的4 5 度角斜线 与曲线相交的地方f a = 豫,此时的f a 或f r 就是e e r 。图上的圆点表示了d c r i 值。 从图中可以看出,实线所示的系统性能优于虚线表示的系统。 s p e a k e fd e t e c 专i o np e f 0 1 m a n ,、 零 c 、- 一 净 。 弼 d o k 器 芝 f a i s ea j a 伟np 沁b a b i i l l y ( 1 n ) 图1 - 2d e t 曲线 5 第一章绪论 1 2 3 说话人确认实用化所面临的问题 目前尽管许多说话人识别系统在实验室环境下都可以获得相当高的识别正 确率,但是一旦把它们放到实际环境当中,往往系统性能就急剧下降,难以令人 满意。这是因为实际环境极为复杂多变,会导致在采集的语音中包含了很多冗余 信息,训练过程中通过训练数据获知的语音信息无法反映实际环境中的情况。从 而给说话人识别系统的各个部分都带来巨大挑战。 美国国家标准及技术署( n a t o n a il n s 卅u t eo fs t a n d a r da n dt e c h n o l o g y , n i s t ) 自19 9 6 年起开始举办每年一度的说话人识别评测( s p e a k e r r e c o g n f i o ne v a i u a t o n s ,s r e ) 以推动了说话人识别研究的快速发展。从n i s t 说话入识别评测的发展趋势也可以看出,n l s t 越来越注重模拟各种实际情况下的 测评任务。实际环境中,影响语音参数和说话人确认系统性能的因素主要有以下 一些: 一、语音信号长度的影响 由于说话人的个人性信息的周期比较长,要充分地反映说话人特征需要比 较长的语音,如十几秒甚至几十秒的长度。人类的经验和有关文献均表明,测 试时的确认文本越长,确认准确率就越高 1 9 。但是,说话入确认作为人机交 互的一种手段,在使用者配合的场合,必须要考虑使用者的耐心程度;而在使 用者不配合的场合,必须考虑实际条件下所可能获得的语音的长度。对于基于 概率统计模型的说话人确认,说话人模型的训练对训练样本数据有较大的依赖 性。因而如何降低这种依赖性,更加有效地利用有限地数据,提取准确的模型 参数以适应不同声学环境的变化便成为说话人识别研究中的一个重要目标。 二、信道卷积噪声的影响 目前,大多数语音信号都是通过手机,电话或者是麦克风话筒等设备接收后 传输的,传输方式又分为有线,无线等多种方式,这些话筒设备和传输信道可以 等效为一个线性或者非线性的滤波器,在传输过程中,相当于语音信号和不同的 滤波器进行卷积。这个卷积过程所带来的影响与语音本身内容完全无关,因而是 需要用一些方法尽量设法去除的【2 伊2 11 。 三、背景加性噪声的影响 在实际环境之中,总是存在各种各样的环境噪声。这些环境噪声对语音的影 响通常可以用一个叠加模型来进行较好的描述。当环境噪声信噪比较恶劣时,就 很有可能对语音质量带来较大的影响。环境噪声的分类非常多样。可以将他们分 为窄带( 带限) 噪声和宽带噪声。也可以分为平稳噪声和非平稳噪声,通常平稳噪 6 第一章绪论 声更容易处理,而非平稳噪声的影响大多很难去除。般认为,加性噪声会影响 语音参数分布的均值,而卷积噪声会影响分布的方差【2 2 2 4 】。 四、语音信号自身复杂多样的影响 语音是非常复杂多样的,人的成长以及衰老、身体情况等生理变化,说话场 合、对象,受教育程度、情绪情感变化等等因素都有可能会引起语音的变化。这 种不稳定性,将会直接影响到语音参数的分布情况,从而进一步对说话人识别系 统带来较大的影响。 五、l o m b a r d 效应的影响 在较强噪声环境中,为了使自己的语音更为清晰可懂,人说话时通常会发生 一些变化,比如音量普遍增高、语音持续时间更长等等,在语音频谱上通常也会 有程度不同的变化。通常把这类现象称为l o m b a r d 效应【2 5 】。这种现象也会使 得噪声环境下的语音与安静环境下的语音之间出现差异,从而给识别器带来麻 烦。 1 3 电话信道对说话人确认的影响 近年来,说话人确认的研究重点已从实验性系统转入到实用化系统,本文从 电话语音的出发研究实际环境下的说话人确认,这是因为电话、手机等的应用越 来越多,同时电话语音的在通话过程中会受到各种干扰,通话环境非常复杂,因 此可以对实际情况进行很好的模拟。下面将介绍电话( 手机) 语音的失真以及对于 说话人确认的影响和一些常见的信道补偿方法。 1 3 1 电话信道的失真 电话语音传输过程中产生的失真主要包括信道的卷积噪声和背景加性噪声。 这两种噪声可以通过带噪语音的生成模型表示( 图1 3 ) 。设x ( m ) 为未受污染的干 净语音,h ( m ) 和n ( m ) 分别为非理想传输信道的冲激响应函数和加性背景噪声,则 实际接收到的语音y ( m ) 为: ) ,( 坍) = x ( 舶) o 坂所) + 疗( 聊) 7 第一章绪论 干净语音带噪语音 加性噪声 n ( m ) ( m ) 图1 - 3 带噪语音的产生模型 其中h ( m l 描述了电话语音在传输过程中的各种失真,包括了话筒的频率响 应和电话信道的传输特性,而传输信道的失真以及训练和测试时信道不匹配是影 响说话人确认系统性能的主要原因【2 6 】。传输信道的失真包括线性失真和非线性 失真。 电话信道的传输特性对语音主要为线性影响,体现在带限和谱整形( 滤波) 两 方面。前者指电话信道所能传输的语音信号频率范围有限。典型的频率范围是 3 0 0 3 4 0 0 h z ,在此频率范围之外的信号将会极大的衰减。后者可以用滤波器来 表示,信号经过信道传输之后可以看作是经过一个滤波器处理,不同频率上的增 益也不相同【2 7 】,因此不同的输入信号能量所对应的输出也不相同,但是在 3 0 0 一3 4 0 0 h z 范围中不同输出之间的间隔基本保持不变,这说明电话网络在上述 范围内的传输特性基本是线性的。在说话人确认的前端处理中,通过3 0 0 3 4 0 0 h z 的带通滤波,可以使电话网络的传输对语音的影响基本上为线性。 除了传输信道本身的线性传输对语音信号有很大影响之外,话筒和信道的非 线性传输也是影响说话人识别系统性能的另一重要因素。在这些非线性失真当 中,最典型的就是互调失真。互调失真是指由于非线性传输导致的“虚共振峰” 现象,简单的稳定非线性失真l 如平方和立方) 对信号来说相当于原来的语音频谱 和自身进行了某种卷积运算,从而导致新的共振出现。这些共振峰可能出现在原 始共振峰的倍数、和、差的位置上。电话送话器主要有碳粒( c a r b o n - b u 们n ) 和驻 极体( e l e 哦t ) 两种类型。两者对语音的非线性干扰不同,驻极体话筒的传输特性 要好于碳粒话筒。 r e y n o l d s 在他的研究中得出结论:电话话筒频率响应的非线性常常导致经过 话筒后的语音出现原始语音中不存在的谐波,这种非线性失真可以通过多项式非 线性效应近似模拟,图卜4 为某一帧干净语音信号的频谱图( 图中虚线所示) 及该 语音信号经过碳粒话筒后的频谱图( 实线所示) ,可以看出,该干净语音信号具有 典型的共振峰结构,而经碳粒话筒后的频谱图中在劬+ 鸱处多出了一个峰值,称 之为“虚共振峰”。虚共振峰还可能出现在原始共振峰倍频,相加和相减的位置。 8 第一章绪论 从下图中不仅可以看到虚共振峰,还可以看到另两种频谱失真,即带宽扩展和频 谱展平。这些失真普遍存在于电话语音的数据库中,如本文实验中采用的n i s t 说话人评估数据库。 图1 - 4 虚共振峰示意图 1 3 2 信道对说话人确认的影响 文本无关的说话人确认通常采用概率统计模型,通过对说话人语音特征参数 分布的描述建立说话人模型,并用测试语音特征参数对说话人模型的概率评分作 为测试语音对模型的似然度。因而基于概率统计模型的说话人确认系统的性能和 语音特征的数据集有关,尤其是训练数据和测试数据分布的匹配程度,如果训练 和测试失配,会导致系统性能下降。 实际应用中,训练语音和测试语音常常采集自不同的电话和环境,从而使训 练语音和测试语音受到的信道影响是不相同的,导致了训练与测试失配。不匹配 除了各种背景噪声、话筒类型不同以外,甚至包括说话人本身也会因为情绪、身 体状况等原因造成其语音特征分布形式的各种变化。 图1 5 是m s t 说话人识别测评分别采用匹配和失配的电话话筒时的说话人确 认效果,两种类型的电话分别是c 盯b o n b 嘶n 和e l e c 仃l e t 。两种情况下的e e r 性能 相差有2 5 倍左右。 这个实验结果表明,虽然电话语音受到各种干扰,当训练和测试环境都是受 到同一种影响时,系统性能相对下降并不是十分严重;而训练和测试环境的失配 会造成系统性能的急剧下降。 9 第一章绪论 匹 也10 2o 蓐125o拍柏 f j h 煽p o b i 曲翻y 御哟 图1 - 5电话麦克风匹配和失配对说话人确认的影响 1 3 3 电话语音说话人确认的信道补偿方法 针对上述电话语音存在的失真以及话筒带来的不匹配问题,在模型域,评分 域和特征域均有各种补偿方法。在模型级,可以通过对模型的修正,使话者模型 与测试数据相匹配来减少失配造成的影响,该类算法主要研究信道对说话人模型 参数变化的影响,或采用“补偿”的方式为不同的信道调整说话人模型的参数,或 采用规避”的方式建立不受信道作用影响的说话人模型。前一类的代表算法为建 立在高斯混合模型一通用背景模型的系统上的基于通用背景模型的说话人模型 合成( u b m - b a s e ds p e a k e rm o d e ls y n t h e s i s ) 4 2 以及因子分析( f a c t o r a n a l y s i s ,f a ) 4 3 ;后一类的代表算法为建立在高斯混合模型超向量一支持向 量机模型( g 删s u p e rv e c t o rs ) 的系统上的有害分量投影( n u i s a n c ea t t r i b u t e p r o j e c t ,n a p ) 4 4 。这类算法的优点在于便于针对不同说话人模型建模方式的 特点组织、利用先验的开发级数据,对信道影响进行更精确的“补偿”或“规避”。 评分域的信道鲁棒算法的目标是通过归一化处理矫正说话人模型对来自不 同信道的测试语音评分的偏差。该类算法通过对开发集数据的分析,得到分数归 一化参数,将说话人模型对冒认者语音的评分归一化为n ( 0 ,1 ) 正态分布。 特征域的说话人识别信道鲁棒算法主要目标是寻找具有噪声鲁棒性的参数 以及消除语音特征中的信道影响,使用消除了信道畸变的特征进行说话人模型的 1 0 鼬 伯 6 2 , 瞄 ” 基j蘑意毫也壤至 第一章绪论 训练与说话入识别。这一类常用的算法有倒谱方差归一( c e p s t r u mv a r i a n c e n o r 帆l i z a t i o n ,c v n ) 、特征弯折( f e a t u r ew a r p i n g ) 4 5 4 6 、特征映射( f e a t u r e m a p p i n g ) 4 7 等。由于在特征域进行补偿,这类算法的优点在于可以通用于各 种不同的说话人模型建模方式的说话人确认系统。 1 4 论文的主要研究内容 针对基于概率统计模型( g m m ) 的电话语音说话人确认系统中传输信道带来的 失真和不匹配问题,本文分析了电话话筒引起的语音失真及失配对说话人确认的 影响,从线性失真和非线性失真两个角度研究了特征域的参数补偿方法。 本论文的正文部分主要由以下几个章节组成: 第2 章详细介绍了基于高斯混合模型( g m m ) 的说话人确认,g m m 模型参数 的估计方法。以及u b m - g m m 的模型结构和通过m a p 算法估计参数模型。 第3 章介绍介绍了说话人确认中各种特征参数,并给出了电话语音特征域的 线性补偿方法,实验讨论了倒谱均值相减( c m s ) 和相关谱( r a s t a ) 方法的补偿效 果。 第4 章针对c m s 方法的不足之处,讨论了特征域的菲线性补偿方法。首先介 绍了一种话筒映射的方法,通过对话简频率响应的估计得到一种映射关系,解决 说话人确认中训练和测试的不匹配问题,但是这种方法受到话筒模型估计好坏的 影响,不具有很好的鲁棒性。 因此,我们提出了一种基于g 删语音模型的特征映射方法( f m ) ,由于信道的 非线性失真对于不同类型语音的影响不同,因此通过对不同类型的语音采用不同 的补偿来实现非线性补偿。采用g 删建立语音模型并基于“匹配补偿”的思想进行 特征映射,即通过特征映射消除训练语音特征和测试语音特征中受信道影响的差 异,因此各个信道的g 删语音模型都是从基准语音模型自适应获得的,并由此获 得不同信道不同类语音特征的映射规则。 由于信道的映射规则来自与统计模型,平均了说话人的影响,反映的是受到 信道影响的语音类和基准模型空间中对应类的差异,因此补偿方法对于各种信道 下所有说话人均适用。特征映射的效果会受到映射规则数的影响,实验在n i s t 9 9 电话语音库中研究了语音模型的类数,g 姗语音模型高斯加权对说话人确认系统 性能的影响。手机语音不仅存在话筒的差异,编码方式也有不同,实验在n i s t 0 4 年的电话( 手机) 语音数据库上研究了对信道模型进行细分对于系统性能的影响。 第二章基于高斯混合模型的说话人确认 第二章基于高斯混合模型( g m m ) 的说话人确认 2 1 引言 自从2 0 世纪9 0 年代,r e y n o i d s 对高斯混合模型( g a u s s i a nm x f u r em o d e i , g m m ) 做了详尽介绍后【5 0 - 51 】,g m m 以其简单灵活有效成为文本无关说话人识 别的主流技术。它基于贝叶斯判决理论,将说话入识别中的分类问题转换成对数 据分布的估计问题,从而将复杂的语音训练、匹配的问题分解为模型表达形式的 选择、模型参数的训练,以及概率的计算等子问题,解决了说话入识别任务中的 很多难题。 理论上,g m m 可以通过无限多个商斯分布的线性加权来拟合一个任意形式 的分布。因此当说话人模型采用g m m 时,可以通过增加g m m 的混合度,来逼 近说话人特征矢量的空间分布,从而提高模型对特征矢量空间分布拟合的精度。 但是,g m m 作为概率统计模型,其模型参数估计的可靠性要依赖于训练数据集 的大小。进行电话语音说话人确认时,训练数据量通常并不充分,因此就无法对 数据的分布形式做出一个可靠的估计,因此也就无法得到g m m 模型参数的可靠 估计【3 0 】。针对于此r e y n o i d s 提出一种g m m - u b m 结构【2 9 】。该结构中的u b m ( u n i 、,e r s q lb a c k g r o u n dm o d e l ) 是由大量数据习l l 练得到的与说话人和文本内 容均无关的一个具有极高混合度的g m m ,而代表某个说话人的g m m 则由u b m 自适应而来,在一定程度上解决了高混合度与训练数据量不充分的矛盾。 本章首先介绍了基于概率统训模型的说话人确认原理,然后分析了与文本无 关的说话人确认系统的基本结构,并详细讨论了模型参数估计的准则和算法。通 过实验比较了g m m 系统和g m m u b m 系统的性能。 2 2 基于g m m 的说话人确认 在文本无关的说话人识别中通常采用高斯混合模型( g m m ) 来对语音参数 进行建模,和其他的很多机器学习建模方法相比,它有着以下的特点: 首先,从本质上说g m m 是对数据集以特征矢量帧为单位,不考虑时序信 息,进行概率统计分布的描述。这种描述是通过m 个不同均值,不同方差的高斯 密度分布函数,并且每个分布具有不同的出现概率( 权重) 完成的。 其次,从统计理论的角度考虑,无限多个高新分布的组合可以拟合一个任意 形式的分布,因此当g m m 的混合度m 足够高时,从理论上说就可以足够精细的 1 3 第二章基于高斯混合模型的说话人确认 逼近说话人特征矢量的空间分布。而为了训练高混合度g m m 的模型参数,就需 要充分且具有广泛代表性的语音特征矢量。 再次,g m m 只是着重于对本类说话人特征空间的描述,不考虑其他说话人 的分布情况,因此不同于区分性的模型。 最后,和连续语音中经常使用的隐马尔科夫模型h m m 相比,g m m 也是不同 的。其区别主要体现在,和h m m 相比,g m m 只有一个状态,因此g m m 并不着 重刻画语音的时序过程,只描述语音特征矢量的空间分布,从而减少了文本内容 和时序关系对说话人识别性能的影响【5 1 5 2 1 。 2 2 1 高斯混合模型( g m m ) 和参数估计方法 一个g m m 通常可以由下列参数描述: ( 1lm ,模型中的高斯密度函数的数目 ( 2 )描述每个高斯密度函数的参数:均值矢量,f = l ,m ( d 维) ,协方 差矩阵。,f _ 1 ,m ( d d 矩阵) f 3 ) 每个高斯密度函数的权重,f = 1 ,m 这样,可以记一个g m m 的模型参数为见= 竹, w , 朋 , ,) ) 。通常g m m 的混合度是事先选定的,因此模型参数中需要估计的为:知= w , 鸬 , ,) ) 。 其基本结构以及观察特征矢量与模型匹配如图2 2 所示。 假设d ,是多维特征空间的一个观察矢量,其和混合度为m 的高斯模型进行匹 配的概率输出是不同加权的高斯分量的线性组合,即: 肘 p ( d ,1 名) = w b ( d ,) ( 2 - 1 ) f 皇l 公式( 2 - 1 ) 中,m 为各个高斯成分的权重,满足限定关系式 m 嵋一 ( 2 - 2 ) i - 1 a ( o f ) ( f = l ,必) 为g m m 中不同高斯成分的概率输出函数: 只( d ,) = 韭掣) 沼3 , 这里,d 为特征参数矢量维数,麒为第f 个高斯分布的均值矢量( d 维) ,墨 为第f 个高斯成分的协方差矩阵,是一个d d 的矩阵。 1 4 第二章基于高斯混合模型的说话人确认 假设语音模型p ( a ) 为常量,并且由于p ( d f ) 与参数估计无关,所以最大化p ( 五jo f ) 就转化为最大化p ( 五id f ) 的问题,即已知模型为名,则观察到矢量q 的概率。然 而,观察矢量q 是不完全数据( 1 n c o m p i e t ed a t a ) ,在这里就表现为,我们不知 道q 来自于g m m 中的哪一个高斯成分,所以要借助e m 算法。e m 中的e 步,求 期望。m 则是最大化。通过不断的e 、m 迭代,得到模型参数的估计值。假定g m m 混合度为m ,训练参数矢量个数为1 | 。可以的得到: r 乃( ,) 4 = 彳一 ( 2 7 i 以( f ) ,= il = i r 形o ) d f = 亨广 ( 2 8 ) 乃( ,) ,= il i l r 乃( f ) 也一麒) ( d ,一以) r 墨= 盟广矿一 形( ,) f = i f - i f 2 9 ) 乃o ) 的含义是观察矢量d f 落在第i 个高斯分布的后验概率。劬为在训练集上, 第i 个高斯成分出现的概率。 2 2 2 u b m - m a p 结构的说话人识别模型 在基于g m m 结构的说话人确认系统里,目标说话人模型一般是由目标说话 人的语音单独训练得到的。1 9 9 7 年,d a r e y n o i d s 提出了自适应目标模型的方 法,通过目标说话入的训练语音,根据最大后验准则( m a x m u map o s t e r i o r i m a p ) 由背景模型( u n i v e r s a ib a c k g r o u n dm o d e i ,u b m ) 自适应得到目标说话人 模型【2 9 1 ,如图2 1 所示: 实际上,u b m 也是g m m ,具体而言,u b m 是使用很多( 几百甚至上千人的 几个小时的语音j 语音参数采用g m m 的e m 算法训练得到的。u b m 并不是描述某 个特定的话者的分布,而是描述受到通道和背景噪声污染的很多人的语音参数在 特征空间中平均分布,具有平均意义。另外,u b m 不仅包含语音信号的各种发 音类的平均信息,还包含有平均的通道和背景噪声的信息 1 6 第二章基于高斯混合模型的说话人确认 训练目标话者g m m 的策略,是根据目标话者调练矢量与u b m 的相似程度, 将u b m 的各个高斯向训练矢量调整。对于目标话者的训练数据d 二“,口2 ,唧) , 先计算。与u b m 中每个高斯的匹配似然度,如式 2 14 ) 2 15 ) : 图2 1 基于u b m m a p 的说话人确认系统结构 烈坍io ,) :盟碰盟 1 2 _ 1 0 ) 哆6 ( d ji 儿,) i l l 2p 伽id ,) 【2 1 1 ) 再根据e m 重估公式,计算修正模型的最优参数, 瓦( 0 ) _ 亡善p ( 圳叭 像。1 2 ) 瓦( 0 2 ) = 去荟以圳d ,h 2 【2 。3 j 最后,由导出的修正因子,修正u b m 中各个高斯混合度的参数: 修正后的权重:丸= 【,r + ( 1 一) 驴 1 2 1 4 ) 修正后的均值:忽= 簖瓯( + ( 卜簖) 心 ( 2 - 15 ) 修正后的方差:= 醒疋( d 2 ) + ( 1 一嵋) ( 以+ 正) 一尼 ( 2 1 6 ) 其中,7 为权重的规整因子,用来保证瓯的和为1 。簖,簖分别为 对第m 个高斯的权重、均值、方差的修正因子。 簖2 南护州f 2 1 7 j 1 7 第二章基于高斯混合模型的说话人确认 式中,尸为常数,用来约束修正因子的变化尺度,一般选为16 。由一些说 话人确认的相关实验证实,相对于权重和方差矩阵,g m m 的均值对于性能的影 响最为重要;并且权重和方差矩阵本身对于算法比较敏感,难于调整。因此在用 m a p 算法训练目标话者的模型时,通常只调整g m m 的均值,而权重和方差不变。 图2 2 示意了由u b m 自适应话者模型的过程,左边的椭圆代表了u b m 的高斯 成分,原点代表了某说话人的语音参数。通过m a p 的方法,自适应出该话者模 型的高斯成分。 从上面的公式中我们可以看出自适应之后,新数据周围的一部分混合高斯成 分由于对新数据的统计知识而发生了改变,而另一部份则保持原状。在u b m 和话 者模型之间,其混合高斯成分建立了一一对应的关系。一般认为这种对应关系使 得脚出的g m m 模型结构比普通的g m m 结构对训练的刻画更为细致,使得似 然比计算更为合理。 图2 - 2m a p 示意图 可以看出,在一定长度的训练语音下,匹配输出概率大的混合度修正因子较 大,这使得与训练语音特征分布接近的高斯被”拉向”目标话者的分布;而对匹配 输出值很小的高斯修正因子趋向于o ,该部分模型几乎不作修改。这表明,m a p 训练只改动u b m 中与目标话者特征接近部分的分布描述,在输出评分的对数似 然比计算中,这些修正结果将被保留:u b m 中与目标话者特征分布较远的部分几 乎保持不变,它们对应了其他可能的非目标话者的特征,将在对数似然比计算中 被消去。在训练语音较长时( 即t 较大) ,n 总体较大,这意昧着使用越多的训练语 音,话者特征分布的“可信度”越大,修正目标话者g m m 也就越“远离”u b m 而接 近目标话者的分布,从而具有更好的性能。 进行话者确认时,系统输出评分是测试语音分别与目标话者g m m 和u b m 匹 配的输出似然度的比值,在评分取对数的情况下,表现为两路输出的差值。 1 上 s = 言 l o g 【p ( d ,i 如r ) 】一1 0 9 【p ( d ,l & 舢) 】) ( 2 1 8 j d 飞零 a 滋n霪 冷 o o 第二章基于高斯混合模型的说话人确认 式中,q 是测试语音的一帧特征矢量,和分别代表目标话者g m m 和u b m 。s 即为输出的对数似然比评分。 u b m m a p 作为目前文本无关说话人识别的系统结构。有着普通的g m m 结 构一些无法比拟的优点: 首先,u 】基m 是一个混合度非常高的g m m 。它由很多入的大量各种背景条件 下的语音数据,用e m 算法训练而成,因此g m m 中每个高斯“隐式”对应的声学特 征得到了充分的描述:u b m 的训练数据的特点,因此可认为u b m 描述的特征分 布是所有话者特征分布的并集,具有背景意义。 其次,目标话者的g m m 是与u b m 混合度相同的g m m ,它是通过m a p 自 适应算法由u b m 中得到的。通过m a p ,在u b m 和目标说话人模型的高斯混合度 之间建立了一一对应的关系,u b m 中描述非限定人的语音分布的部分参数会得 到修正,而u b m 中描述通道以及背景噪声的参数则不会被修正,从而对说话人 特征的刻画更细致,与u b m 之间的区分性也更强。对于只使用g m m 的系统, g m m 训练时只对训练语音集建模,并且由于训练语音集较少,因此很容易在模 型中隐含对训练环境的描述,如果测试与训练环境失配,则识别性能会大幅下降。 再次,在g m m u b m 中,由于使用了m a p 算法,目标说话g m m 只需要较少 的语音就可以训练出较为精确的模型参数:而单独的g m m 结构,往往需要大量 的训练语音参数才能训练出高混合度的说话人g m m 模型。 最后,在对特征矢量进行测试时,u b m m a p 的输出对测试语音中的背景影 响具有较好的抵消作用,突显了目标话者的特征,因此拥有比单独使用g m m 更 好的性能及噪声鲁棒性。同时也可以对各个人的评分起到评分规整的作用。 2 3 实验与讨论 本节通过实验比较了g m m 和g m m u b m 用作说话人模型在文本无关的说话 人识别中的性能。 实验数据库为n i s t 9 9 年o n e s p e a k c r 电话语音男性数据库,包括2 3 0 个男性目 标说话人,每人两分钟左右的训练语音,测试语音长度在2 5 9 吗5 s 之间不等,共 1 4 4 8 条,进行1 9 5 2 8 次确认测试。 语音信号的采样率8 0 0 0 l z ,帧长为2 0 m s ,帧移l o m s ,根据能量大小去除静 音帧。每帧提取从1 阶到1 6 阶m f c c 参数,并提取一阶动态差分m f c c ,构成3 2 维倒谱参数。并对特征参数进行倒谱均值相减【3l 】和相关谱( 黜牾t a ) 【3 2 1 方法进 行补偿。 1 9 第二章基于高斯混合模型的说话人确认 u b m 是由n i s t 9 8 电话语音数据库中挑选出来的2 5 0 条男性话者语音训练得 到的,u b m 与话者模型的混合度均为1 2 8 。表2 1 给出在话者模型混合度为1 2 8 时 两种模型的识别性能,其中e e r 为等误识率,d c f 为代价检测函数。 从表2 - 1 中可以看出,采用了g m m u b m 结构,使说话人确认的性能有很大 的改进,识别率提高了约4 3 7 。 表2 1 g 蹦和g 埘一u b m 说话人确认性能比较 模型结构 e e rd c f g m m2 2 8 3 0 0 7 3 0 g m m u b m1 2 8 6 o 0 4 6 2 2 4 本章小结 高斯混合模型是当前文本无关说话人识别领域中的主流模型。本章对g m m 用于文本无关电话语音说话人确认的基本原理、模型参数估计方法进行了深入的 讨论,并重点讨论了g m m u b m 的模型结构。通过比较实验表明了g m m i u b m 系统对于电话语音具有更好的确认性能。 第三章特征参数线性补偿方法 3 2 语音信号的产生机理与特征参数提取 3 2 1 语音信号的产生模型 人的声道包含咽喉、口腔和鼻腔三部分。当人发声时,肺中的气流首先会流 经气管,通过喉部声门时使拉紧的声带产生震动,而声带的一紧一松使得气流成 为准周期的脉冲,形成激励源。这样的准周期脉冲在通过咽喉、口腔或者鼻腔之 后其频谱被声道的频率响应所改变,当入的下颚、舌头、嘴唇等器官的位置发生 变化时,声道的频率响应同时发生变化,因此多种多样的语音就被产生了。 可以用一种模型简单的模拟上述语音信号产生过程的离散时域模型,这个模 型包括两个部分:激励源和声道模型。激励源分浊音和清音两个部分,按照浊音 清音开关所处的位置来决定产生的语音是浊音还是清音。在浊音情况下,激励 信号是一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论