(计算机软件与理论专业论文)基于svmhmm混合模型的音乐分类研究.pdf_第1页
(计算机软件与理论专业论文)基于svmhmm混合模型的音乐分类研究.pdf_第2页
(计算机软件与理论专业论文)基于svmhmm混合模型的音乐分类研究.pdf_第3页
(计算机软件与理论专业论文)基于svmhmm混合模型的音乐分类研究.pdf_第4页
(计算机软件与理论专业论文)基于svmhmm混合模型的音乐分类研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硬士学位论文 基于s v m h m m 混合模型的音乐分类研究 摘要 音乐的自动分类作为语音信号的一个识别问题,一直以来都得到了人们的重 视和研究。尽管随着语音识别技术的发展,许多新的方法都被应用到音乐分类这 一领域来,却由于音乐的多样性和不确定性,使其离大规模的实际应用尚有一段 距离。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ) 是迄今在语音识别中应用得最成 功的一种方法,它的状态转移原理结合了语音信号连续状态的事实,使其在语音 识别中能取得较好的效果。而支持向量机( s u p p o r tv e c t o rm a c h i n e s ) 是近年来 机器学习研究的一项重大成果,它遵循了结构风险最小化原理,具有很强的分类 能力,大量的实验也已经证明,支持向量机不仅结构简单。而且各种技术性能有 明显提高。本文在研究了基于支持向量机的音乐分类方法基础上,针对隐马尔可 夫模型适于处理连续信号和支持向量机适于处理分类问题的特点,提出一种支持 向量机和隐马尔可夫相结合的混合模型( s v m h m m ) 用于解决音乐的自动分类 问题。由于音乐分类是个多分类问题,本文还探讨了从二分类问题向多分类问题 拓展的方法和策略,并根据音乐的实际情况针对不同的策略对s v m 与h m m 的 混合采取了不同的结合形式。 在s v m h m m 混合模型的基础上,本文提出了关于音乐自动分类系统的一 个解决方案,实验表明,s v m h m m 混合模型能在音乐分类问题上取得较好的 结果。 关键词: 音乐分类,隐马尔可夫模型( h m m ) ,支持向量机( s v m ) 硕士学位论文基于s v m o h m m 混合模型的音乐分类研究 a b s t r a c t m u s i cc l a s s i f i c a t i o nh a sa l w a y sb e e nm u c ha c c o u n t e do f b yp e o p l ea so n eo f t h e v o i c er e c o g n i t i o np r o b l e m a l o n g 、i t i lt h ef a s td e v e l o p m e n t so fv o i c er e c o g n i t i o n t e c h n o l o g y , m a n ya l g o r i t h m sa n dm e t h o d sh a v eb e e na p p l i e di nt h i sa r e a h o w e v e r , i t ss t i l lf a rf r o mt h el a r g e s c a l ea p p i i e a t i o no fm u s i ca u t oc l a s s i f i c a t i o na st h ev a r i e t y a n d c o m p l i c a c yo f m u s i c t h eh i d d e nm a r k o vm o d e l s ( h m m ) m e t h o dh a sb e e nt h em o s ts u c c e s s f u l m e t h o di nt h ev o i c er e c o g n i t i o ns of a r a st h em a r k o vc h a i na c c o r d s 、 ,i 廿lt h e s e q u e n c eo fc o n t i n u o u ss i g n a l ,t h eh m mc o u l da c h i e v eg o o dr e s u l t si nv o i c e r e c o g n i t i o n s u p p o r tv e c t o rm a c h i n e s ( s v m ) i sp r o p o s e di nt h er e c e n td e c a d ea s a n e wm a c h i n el e a r n i n gt h e o r y i th a sb e e nv a l i d a t e db ym a n ye x p e r i m e n t st h a ts v m h a sas t r o n ga b i l i t yo fc l a s s i f i c a t i o na n de s p e c i a l l yt h ea b i l i t yo fg e n e r a l i z a t i o n i n o r d e rt os o l v et h ep r o b l e m o fm u s i cc l a s s i f i c a t i o n ,t h ea u t h o rp u t sf o r w a r da n a l g o r i t h mt h a tc o m b i n e ss v ma n dh m m ,b a s e do nt h el a t e s ta c c o m p l i s h m e n t si nt h i s f i e l d t h i st h e s i sa l s od i s c u s s e st h es c h e m e su s i n gt w o c l a s sc l a s s i f i e r sf o rm u l t i - c l a s s c l a s s i f i c a t i o np r o b l e m ,a n dp r o p o s e sd i f f e r e n tc o m b i n a t i o n so fs v m h m mb a s e do n d i f f e r e n ts c h e m e s as o l u t i o no f m u s i ca u t oc l a s s i f i c a t i o ns y s t e mb a s e do nt h es v m - h m mm o d e li s a l s op r o p o s e di nt h i sp a p e r t h ee x p e r i m e n t ss h o w e dt h a tt h es v m h m mm o d e l p r o p o s e di nt h i sp a p e rc o u l di m p r o v et h ea c c u r a c yo f m u s i cc l a s s i f i c a t i o n k e y w o r d : m u s i cc l a s s i f i c a t i o n ,h i d d e nm a r k o vm o d e l s ( h m m ) ,s u p p o r tv e c t o rm a c h i n e ( s v m ) i i 硕士学位论文基于s v m - h m m 混合模型的音乐分类研究 1 1 研究背景 第1 章引言 随着互联网的迅猛发展,网上音乐资源也在迅速增多。如同图书馆一样,为 便于查询,音乐资源往往要按一定规则进行分类。音乐的分类技术可以建立有效 的索引结构和提供快速的查询能力,因此音乐的自动分类是目前一项重要的研究 主题。在众多的音乐分类方法中,以音乐流派( m u s i cg e n r e s ) 和音乐歌手( a r t i s t s ) 的分类方法最为常见。根据音乐内容的特点把其归入相应的流派一直是音乐分类 的一个重要内容,以国外知名网站w w w y a h o o c o m 为例,就根据流派把音乐分 为1 3 类,如蓝调歌曲( b l u e ) 、乡村歌曲( c o u n t r y ) 、爵士音乐( j a z z ) 、摇滚( r o c k ) 等等,而根据音乐的歌手或演奏者来进行归类也是各犬音乐网站上常见的分类形 式。这种分类方法至今仍由人手工完成,然而面对互联网上海量的音乐,手工的 分类方法使得分类工作变得大量而繁重,因此人们希望能够找到一种方法,使得 计算机能自动识别音乐的所属类别,由计算机来准确完成分类工作,从而把人从 这种繁琐的工作中解放出来。于是对海量的音乐进行有效的自动分类就成为了一 种迫切需要。 音乐分类属于计算机语音信号处理的一种。随着计算机语音技术的发展,许 多新的方法都在语音识别问题上得到了成功的应用,而针对音乐自动分类这一特 定问题,国内外有不少学者都做了研究,他们提出了用语音识别中的一些经典方 法来解决音乐类别的识别问题,如g e o r g e t z a n e t a k i s 和p e r r y c o o k 采用了高斯混 合模型( g m m ) 来解决音乐的流派分类问题【1 】,p a t t is c o t t 则使用了神经网络 ( n e u r a ln e t w o r k s ) 算法 2 】,也有学者提出了用k 近邻法( k n n ) 【3 】,他们的 解决方案都得到了初步的成功,也使更多人开始关注这一领域的研究。 硕士学位论文基于s v m h m m 混合模型的音乐分类研究 1 2 音乐分类的原理 同语音识别一样,音乐的分类要经过训练和识别的过程,图卜l 是原理图: 图1 - 1 音乐识别分类原理图 从图l l 中可以看出,音乐的分类过程主要包括训练和识别分类两个阶段, 训练阶段对应着图中的特征提取模型训练模型参数这一条路径,识别阶 段对应着图中的特征提取匹配距离或似然函数计算判决策略识别 结果这一条路径。在训练阶段中,系统从训练样本中提取特征,建立起每个音乐 类别的模板或系统参数并存储在系统模板库中供识别阶段时比对。在识别阶段, 系统从待分类的音乐中提取特征,然后与训练阶段产生的模型参数进行比较,计 算其匹配距离或似然函数,最后根据一定的判决策略得出识别结果。 从图中还可以看出,要实现音乐的分类应解决以下基本问题:( 1 ) 音乐信号 的预处理和特征提取,即提取能够有效表征音乐特征的参数。( 2 ) 模型的建立和 模型的训练。这包括模型结构的表示及模型参数估计算法。( 3 ) 待识别音乐与模 型的匹配距离计算。( 4 ) 识别或判决策略。 其中的关键问题是提取什么样的特征和建立什么样的模型。好的音乐特征能 够表征出音乐的相关特点,如音量的变化,不同乐器的特定声音等。现今在语音 识别领域中常用的语音特征包括频谱、自相关系数、能量、平均幅度、过零率、 共振峰、线谱对、线性预测系数、倒谱系数等等,其中线性预测系数和倒谱系数 被实验证明是非常有效的语音特征。随着计算机语音技术的发展,不同的模型结 构也不断出现,如动态规整方法中的模板,矢量量化方法中的码本,隐马尔可夫 2 硕士学位论文基于s v m - h m m 混合模型的音乐分类研究 模型、高斯混合模型、人工神经元网络等,这些模型算法都己在语音识别中得到 了广泛的应用。 1 3 音乐分类的方法 作为计算机语音信号处理的一个特定问题,音乐分类的方法随着计算机语音 技术的发展而得到不断的改进。计算机与语音信号处理的结合最早始于6 0 年代, 7 0 年代中取得了三项研究成果,对语音处理技术的长足进步产生了决定性影响, 分别是:( 1 ) 7 0 年代初,动态规划技术用于语音识别,此后隐马尔可夫模型法 也取得初步成功;( 2 ) 7 0 年代中i t a k u r a 提出的线性预测残差原理成功地用于语 音识别,后来又用于语音编码;( 3 ) 7 0 年代末,l i n d a ,b u z o ,g r a y 和m a r k e l 等人首次解决了矢量量化码书生成的方法,并首先将矢量量化技术用于语音编码 获得成功。8 0 年代出现了语音处理技术产品化的热湖,这与上述三种技术的推 动是分不开的。而在计算机语音技术不断发展的过程中,许多新的方法和模型也 得到了探索和应用,如今已应用到音乐分类的语音识别方法主要有: 1 隐马尔可夫方法:隐马尔可夫方法曾被成功应用在语音输入领域,取得 了很好的成绩,如i b m 公司著名的v i a v o i e e 软件。同时,隐马尔可夫方 法也是语音识别中的一类重要方法,是概率模型法的一种。隐马尔可夫 模型是一种既能描述语音信号特征的动态交化,又能很好地描述语音特 征统计分布的统计模型,是准平稳时变语音信号分析的有力工具。隐马 尔可夫模型中的一个重要概念是状态转移,状态可大致对应于语音中的 音节,因此该方法对关键词的识别效果很好。 2 高斯混合模型方法:高斯混合模型也是概率模型法中的一种,它和隐马 尔可夫模型极为相似,只是去掉了隐马尔可夫模型中的状态转移的概念, 可视为是只有一个状态的隐马尔可夫模型。高斯混合模型在语音识别的 说话人确认问题上己得到了较好的应用。文献【l 】中使用的音乐分类方法 就是高斯混合模型。 3 人工神经网络方法:人工神经网络以类比于生物神经系统处理信息的方 式,用大量简单的处理单元并行连接而构成一种独具特点的信息处理系 硕士学位论文 基于s v m - h m m 混合模型的音乐分类研究 统。这种系统具有自组织、自学习的能力,它可以随着经验的积累而改 善自身的性能。用于语音识别的人工神经网络大部分集中在多层感知器 结构的神经网络结构上,如反向传播人工神经网络、人工神经预测网络、 径向基函数神经网络、时间延迟人工神经网络等。 1 4 本文的研究内容 前面介绍的隐马尔可夫模型可以说是语音识别里应用最成功的一种方法,其 理论已经比较成熟了,但由于其算法本身的原因,仍存在一些缺点,如不能明显 反映类别间的差异性等,因此仍然有不少人对其进行进一步的研究,提出各种改 进的算法。支持向量机是近年来机器学习研究的一项重大成果。这一新的理论方 法与以往的模式识别方法不同,遵循的是结构风险最小化原理,而不是经验风 险最小化原理,能够较好地体现出类别间的差异。为此有学者尝试将这两种算 法模型结合起来并用于说话人确认 4 ,得到了成功应用。本文受此启发,针对 音乐的特点提出用一种不同的联结方式将支持向量机与隐马尔可夫相结合,由 此得到的混合模型用于解决音乐分类问题。本文在用该混合模型构架一个音乐 自动分类系统的基础上,讨论了该算法的具体实现方法,并与其他的识别分类方 法作比较。最后通过实验表明这个混合模型对音乐的识别分类是有效的。 本文首先在第二章中介绍了支持向量机以及基于支持向量机的音乐分类方 法,第三章则对隐马尔可夫模型进行了介绍,然后在第四章中对支持向量机和隐 马尔可夫模型的混合进行讨论,第五章为音乐特征的提取,第六章为系统的设计 实现和实验结果分析,第七章为总结与未来工作的展望。 硬士学位论文基于s v m = h m m 混合模型的音乐分粪研究 第2 章支持向量机( s v m ) 支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 是c o r t e s & v a p n i k 于1 9 9 5 年首先提出来的一种用于解决分类和回归问题的方法 5 ,是近年来机器学习研 究的一项重大成果。按照v a p n i k 的统计学习理论,当数据服从某个分布,如果要 使机器的实际输出与理想输出之间的偏差尽可能的小,则应当使机器遵循结构风 险最小化原理,而不是经验风险最小化原理。支持向量机正是在这一理论基础上 发展出来的。与其它的分类算法相比较,支持向量机不仅结构简单,而且各种技 术性能尤其是泛化能力明显提高,这已被大量实验证实 6 e t 。本章就对支持向 量机的基本理论做个引导和介绍。 2 1s v m 基本理论 s v m 最初是针对二分类问题提出的:假设输入集 x f cr ”由两类点组成, 如果x ,属于第一类,则将其标记为1 ,如果属于第二类,则标记为一l 。从中取 大小为z 的样本作为训练集 ,咒) ,f = 1 , 2 ,粤,这里儿= 1 或一1 。s v m 的学 习目标就是要构造一个判别函数,将两类点尽可能正确区分开来。这里根据训练 集的数据分布分三种情况讨论:线性可分情况、线性不可分情况和非线性可分情 况。 2 1 1 线性可分情况 训练集的两类点是线性可分的, ( w - x ,) + b 1 ,y 。= 1 ( w x 。) + b 一1 ,y i = 一l 即存在超平面_ i ,x + 6 = 0 ,使得 ( 2 1 ) 硕士学位论文基于s v m - h m m 混合模型的音乐分类研究 可把以上不等式合并写成 y 【( w ) + 6 】1 ,i = 1 , 2 ,z ( 2 - 2 ) 对于一个固定的超平面来说,这里的参数( w ,b ) 并不是唯一确定的,因此总 能够找到一对( w ,b ) ,使( 2 一1 ) 不等式中至少有一个是以等式的形式成立,这时 ( x l , y 1 ) 到该超平面的最小距离为j 1 1w l l 。 如果训练集到该超平面的最小距离最大,那么我们称该超平面是最优的,即 w x + 6 = 0 是最优,这个问题的解转化为当且仅当( w , b ) 是下面优化问题的解: m i n 扣w i l 2( 2 _ 3 ) s 1 y ,【( w - x ,) + 6 】1 ,f = 1 , 2 , 这是个二次规划问题,其有唯一的极小点,根据l a g r a n g e 乘子法可以把( 2 - 3 ) 式化成对偶形式: m a x 壹印昙壹c t ,o t j y j y j ( 即_ ) 5 “。 ( 2 4 ) s j j ,。甜,= o , a 。o ,f - 1 , 2 ,l 和w = y i a ,t f = i 若口。 0 ,称相应的x ,为支持向量。如图2 - 1 所示,其中的实心圆和实心三 角就是支持向量。 图2 - t 支持向量示意图 6 ! 垡兰兰塑鱼王一 墨王! 幽坚坚塑鱼苎型堕童堡坌茎婴塞 此时最优超平面方程为:掰,奶( t 聋) + 6 = 0 判别函数则为y = s g n 盯,y ,o ,x ) + 6 】 ( 2 5 ) h e s , 2 1 2 线性不可分情况 如果训练集是线性不可分的,即不满足( 2 2 ) 式的条件,则可以引入非负变 量善,i = 1 , 2 ,g ,于是与式( 2 3 ) 相对应的优化问题就成了: 1 f m i n 寺i | w l l 2 + c 毒 f = 1 s j _ y , ( w x ,) + b 】1 一毒( 2 - 6 ) 善,o ,i = 1 , 2 , 这里可看作是训练样本关于分离超平面的偏差,当最= 0 时问题就转化为 了;线性可分情况,c 是自定义的惩罚系数,用来控制样本偏差与s v m 泛化能力( 与 妄l | w0 2 有关) 之间的平衡。 o 根据l a g r a n g e 乘子法可以把( 2 - 6 ) 式化成对偶形式: f m a x 口t i 1 | 往j y i yj q ,x a 。- l “。 ( 2 7 ) , 旺y 。o r 。= 0 , 0 0 ,则称相应的z ,为支持向量,这种情况下的判别函数为: y = s g n 口y ( x i - x ) + 6 】 x 2 1 3 非线性可分情况 ( 2 9 ) 非线性s v m 的基本思想是通过作非线性映射中( x ) :r n f 将输入向量x 映 射到一个特征空间( 称为特征映射) ,然后在此高维空间中构造最优超平面。 7 硕士学位论文 基于s v m - h m m 混合模型的音乐分类研究 这里的推导过程与线性不可分情况完全相同,只是把那里的x ,x ,分别换成 o ( x ) ,o ( x t ) 。从线性s v m 的讨论中可以看出,向量之间只进行点积运算,因此 不必知道中( x ) 的确切表达式,只要知道如何由输入x ,y 计算内积( 中( x ) - 中( _ y ) ) 就够了,即: ( 西( z ) 中( y ) ) = k ( x ,y )( 2 - 1 0 ) 通过特征映射,高维特征空间中的内积运算就可转化为低维输入空间上一个 简单的函数计算。 我们称满足式( 2 一l o ) 的对称函数k ( x ,y ) 为核函数,此时的判别函数为( 如 图2 2 所示) : y = s g n y ,k ( x ,x ) + 6 】 ( 2 1 1 ) 删 x 1 x 2 x n 图2 - 2 非线性可分情况下的判别函数 这样支持向量机由i j l l 练集和核函数完全刻画,在实际问题中,常常是直接给 出核函数,而不是先给出映射( x ) ,所以如何构造、选择核函数是个重要问题。 著名的m e r c e r 定理给出了核函数满足式( 2 - 1 0 ) 的一个充分条件 8 。常用的核函 数有: 硕士学位论文 基于s v m h m m 混合模型的音乐分共研究 ( 1 ) 线性核函数:k ( x ,y ) = x y ( 2 ) 多项式核函数: ( 3 ) 径向基函数: k ( x ,= 【 y ) + l 】。 k ( x ,y ) = e - t u x 一脚4 2 ) ( 4 ) 两层神经网络核函数; k ( x ,y ) = s ( a ( x y ) + f ) ,其e e s 是s i g m o i d 函数, 盯,t g 某些常数。 经过大量的实验表明,支持向量机具有以下特点【9 】:( 1 ) 结构简单;( 2 ) 性 能优良,尤其是泛化能力好;( 3 ) 学习速度快;( 4 ) 适合处理高维数据;计算复 杂性与输入模式的维数没有直接关系,避免了维数灾难;( 5 ) 有关的优化问题有 唯一的极小点;( 6 ) 更换核k ,可以得到各种不同的分离曲面;( 7 ) 支持向量机 不仅用于模式识别,这里的方法已被推广到回归估计,函数逼近等。 2 2s v m 的改进 2 2 1s v m 的概率输出 s v m 输出是一个特定的类别,也就是说,给定一个向量,只要该向量处于 分类平面的某一边,无论其与分类平面的距离远近,s v m 的输出都将是一样的, 但有时我们不仅需要知道该向量属于哪一类,还想知道这个向量属于该类别的概 率有多大,为此我们通过对向量与分类平面距离进行转化来引出s v m 的概率输 出。 由2 1 节可知,厂( x ) = s i g n ( w x + b ) 是s v m 的输出,若不考虑符号函数 s i g n ( ) ,则其数值输出为: g ( x ) = w x + b ( 2 - 1 2 ) 显然,在分类面上的点有g ( 曲= 0 ,而对于不在分类面上的点,则有 g o ) = :k d 1 w 9 ( 2 - 1 3 ) 硕士学位论文 基于s v m - h m m 混合模型的音乐分类研究 其中,d 表示样本点x 到分类面的距离, 两侧,这样,对任一样本点凰有: d ,:5 - 4 3 l iw | | 如果样本点是支持向量,则有: 正负号则表示该样本点在分类面的 ( 2 - 1 4 ) 厶= 赢 ( 2 _ 1 5 ) 可见g ( 工) 是d ,和d 。的比率。因此,我们可以通过s i g m o i d 函数给出s v m 的概率输出: p ( c + tx ) 2 南( 2 - 1 6 ) 以c _ - i x ) 2 百( 2 - 1 7 ) 昂然的,分类面e 的点对应于+ 1 类和一1 粪的概率都是0 5 。 2 2 2 模糊判决s v m 支持向量机的简单性使其在分类问题上得到了广泛的应用,但在分类过程往 往会遇到这样一个问题:如果仅根据对每个样本预测值的正负号进行判决,然后 取数目多的那类符号对应的类别,就意味着对于预测值非常接近零或远离零的那 些样本的判决具有同等的可信度。但事实上,落在不同区域的预测值的置信度是 不完全相同的。为此,有人提出了模糊判决的支持向量机 1 0 】,将支持向量机的 判决函数厂( 工) = s i g n ( w x + 6 ) 改为按照下面三式进行改造: 0 和一个观测随机过程y = y t :t + l t o , 其中m a r k o v 链是不可观测的,它只能由观测随机过程来间接地了解。描述一个 h m m ,所需要的参数集为: ( 1 ) 模型状态集合s = s l ,s x ,s n ) ; ( 2 ) 观测状态集合v = v l ,v 2 ,v m ,对于连续性的观测量,这个集 合可以无限; ( 3 ) 初始概率n = ni ) ,其中i = p ( q l = s i ) ,1 i n ; ( 4 ) 转移概率a = a i j ) ,其中a i j = p ( q t + l = s j | q t = s i ) ,1 i ,j n ; ( 5 ) 状态j 中可见符号的概率分布b = b j ( k ) ,其中b j ( k ) = p ( 在t 时刻出现符号为v kq f s j ) ,1 e ( o a ) ,所以互是五 1 7 硕士学位论文 基于s v m - h m m 混合模型的音乐分类研究 改进后的模型。再将互作为初值用重估公式,得到万。这样就避免了初值的选择 不当,变经典的a 斗万为a 斗互_ 万。当然,沿图中虚线,不用重估公式,五也 可近似作为模型参数。 h m m 有很多类型。因此,针对不同形式的h m m ,也可采取不同的有效的 初值选取方法。 3 2 2 多个观察值序列训练 在实际中的训练一个h m m 时,往往用到的不止一个观察值序列,那么,对 于l 个观察值序列训练h m m 时,要对b a u m - w e l c h 算法的重估公式( 3 2 0 ) 、 ( 3 - 2 1 ) 、( 3 - 2 2 ) 式加以修正。设l 个观察值序列为d ”,a = l ,2 ,l ,其中 0 ( ”o ( a ) t ,0 ( 8 ) 2 ,0 ( 0 3 ,o ( a t a ,假定各个观察值序列独立,此时, p ( o 3 , ) = 丌p ( o ( 0 a ) 1 = 1 由于重估公式是以不同时间的频率为基础的,因此,对l 个训练序列,重 估公式修正为: ;= 口:o ( i ) p p ( o o 五) ,1 i n ( 3 2 3 ) lt i - i 一 口( o a ,q ( 哦 ) 麒- ( j ) p ( o “五) 口= 皇皇r 了e r 一,1 f ,n ( 3 2 4 ) 口p ( f ) 所o ( i ) p ( o “i x ) 1 = it = l 6 * = l” 口;。( j ) f l ( t o ( j ) p ( o “五) 1 = 1f = l 订 彬”( ,) 。( j ) p ( o “a ) = lf = l ,1 j n ,1 k m ( 3 - 2 5 ) 硕士学位论文基于s v m - h m m 混合模型的音乐分类研究 3 2 3 比例因子问题 在前向一后向算法和b a u m w e l c h 算法中,都有a i ( i ) 和1 3i ( i ) 的递归计算, 因为所有量都小于,因此a i ( i ) ( 随着t 的增加) 和bi ( i ) ( 随着t 的减少) 都迅 速趋向于零,为了解决这种下溢闯题,必须采取增加比例因子( s c a l i n g ) 的方法, 对有关算法加以修正,处理过程为: ( 1 ) 对a 的处理 ( f ) = 石。b 。( d 1 ) ,1 i n 相= 羔兰等胚瞧 o f l ( f ) n 骱一( ,) = 【矿( f ) 嘞 b j ( q + ,) 1 j n ,t = 1 , 2 ,t 一1 ( 3 2 6 ) ( 3 - 2 7 ) f 3 2 8 ) 口o 。( _ ,) :一o f 。”一o f t + l ( _ ,) :4 - - ( j ) z 口。( 力击。,1 j n ,:1 , 2 ,t 一1c r 0 。( _ ,) = r “( _ ,) = 口“( 力m ,+ 。, ,=,一 ,= 1 ( 2 ) 对1 3 的处理 屏( f ) = 1 ,1 f n 群( f ) = 1 ,1 i n 万,( j ) :囊呀b j ( o , + 。) 成。( ,) ,1 f n ,f :r l ,1 所( f ) = 万,( j ) 细f + 1 ,1 i n ,r = t - 1 ,1 ( 3 ) 常用计算公式的处理 1 9 ( 3 - 2 9 ) r 3 3 0 ) ( 3 - 3 1 ) r 3 - 3 2 ) ( 3 3 3 ) 硕士学位论文基于s v m - h m m 混合棋型的音乐分类研究 对a 和b 做了上述处理之后,为了保持原有公式计算之结果不便,必须在 常用计算公式中做相应处理,以消去比例因子的影响。 a 概率p ( o ) 的计算公式 由a 的处理过程易推出: z ( f ) = 口,o ) 西,中:函,( 3 3 4 ) 因此盯,( ,) = q 。2 m j = i 即p ( o i a ) = 口r ( ,) = 1 巾2 m h j = l 或l g p ( 0 1 2 ) = l g o , b 重估公式 由b 的处理过程易知: 肿) = 苏 一 万r = 甜( f ) ”( f ) ,1 i n l = l 口f j = b j k = 口- o ( f ) 所泖( f ) 口- 。( ,) 所“( ,) i = lt = 1 m p l ( 3 - 3 5 ) ( 3 - 3 6 ) ( 3 - 3 7 ) ( 3 - 3 8 ) f 3 3 9 ) ,1 i ,n( 3 4 1 ) ,1 - ,n ,1 k m ( 3 - 4 2 ) 2 0 2 啦m v = 口 。一 = )q( 睁。 ko p 口 。一 | i d( 一口 。川 1 1 中 中 )u硝哦( i吩 盯 。, 力(钟、,= 。 硕士学位论文基于s v m - h m m 混合模型的音乐分类研究 ( 4 ) v i t e r b i 算法的处理 在原来的v i t e r b i 算法中加入对数化处理即可,即 定义 每( ) - 扎黔一t l g p ( q l ,q ,q r = 只,0 1 ,0 2 一d t7 a ) ( 3 - 4 3 ) 那么,初始化( 3 1 3 ) 式变为 4 ( f ) = l g 乃+ l g b t ( 0 1 ) ,1 i n( 3 4 4 ) 递归运算( 3 - 1 5 ) 式变为 玩( f ) = m i m a 。:x n 【4 1 ( f ) + l g 口f 】+ l g f 6 ,( q ) 】 ( 3 _ 4 5 ) 终结( 3 1 7 ) 式变为 l g p 5 罂抖露( f ) 】 ( 3 - 4 6 ) 这样,得到的是p 的对数值而不是p 。在实际中为了避免计算出的概率值 p ( o i ) 太小,往往采用l gp ( o i 凡) 。事实上,单个的概率值与通常意义上的概 率有些区别,在大多数语音处理应用场合中,单个具体的p ( oi 九) 的值总是很小 很小。因此,单个的p ( o l 入) 数值本身并无多大意义,通常在应用中只是解各p ( o i ) 的相对大小才是有用的。 3 2 4m a r k o v 链的形状 h m m 由两部分组成,其一为m a r k o v 链,他由、a 描述,显然,不同的 、a 决定了m a r k o v 链不同的形状。几种典型的m a r k o v 链如图3 2 所示。图 3 2 ( a ) 所示m a r k o v 链从任一状态出发,在下一时刻可到达任一状态,对应于a 矩阵没有零值。图3 - 2 ( b ) 所示m a r k o v 链则有些不同,比如,从状态l 出发, 下一时刻不可能到达状态4 ,也就是说,a 矩阵含有零元素。图3 2 ( c ) 和( d ) 是两 种特殊的m a r k o v 链,其特点为:必定从状态l 出发,沿状态序号增加的方向转 移,最终停在状态4 。由这种m a r k o v 链构成的h m m ,一般称之为左一右模型 ( 1 e f t - t o r i g h tm o d e l s ) ,在实际语音处理应用中被广泛采用,尤其是孤立词识别。 图3 - 2 ( e ) 也是一个左一右模型,但它从左到右有多条转移路途,这种m a r k o v 链 2 l 硬士学位论文基于s v m h m m 混合模型的音乐分类研究 形状的h m m 在连续语音识别中有成功的应用。 ( a ) ( c ) 口,一q 一口心 l 234 ( d ) ( e ) 图3 - 2 几种典型m a r k o v 链示意图( n = 4 ) ( a ) a 矩阵没有零值的m a r k o v 链 ( b ) a 矩阵有零值的m a r k o v 链 ( c ) 、( d ) 、( e ) 左- 右形式的m a r k o v 链 硕士学位论文基于s v m h m m 混台模型的音乐分类研究 3 3h m m 在语音识别中的应用 h m m 出现后就被应用于解决连续语音识别中的问题,其中应用得最成功的 是语音识别中的孤立词识别问题。基于h m m 的孤立词识别系统的基本思想是: 在训练阶段,用h m m 的训练算法( 例如b a u m w e l c h 算法) ,建立系统词汇表 中的每个词彬,对应的h m m 记为 ;在识别阶段,用前向一后恕算法或v i t e r b i 算法求出各个概率p ( o ) 值,其中,0 为待识别词的观察值序列;后处理就是 选取最大p ( o 五) 值所对应的词彬为0 的识别结果。但是,对于不同类型的 h m m ,进入h m m 处理的观察值序列d 有所不同,例如,对离散h m m ,一般 求出语音特征参数之后,还必须做矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) ,这样0 就是由v q 码字序号组成的序列【1 6 】;对线性预测h m m ,语音信号经过预处理 即可,不必求取特征参数,o 其实就是一帧一帧的语音数据序列 1 7 ,l s ;对于高 斯型h m m ,语音信号经预处理,特征提取之后,成为一帧一帧的语音特征参数 序列,这就是相应的观察值序列d 1 9 ,2 0 。 h m m 在连续语音中的成功应用使其成为从事语音处理的研究人员共同关 注的一个焦点,本文就把h m m 引入音乐的分类方法中,利用其状态转移的原理 与音乐连续信号相结合的特点,提高同类音乐样本点的关联性,从而最终提高音 乐分类的准确性。在本文中,我们采用了应用最广泛的高斯型h m m ,因此其观 察值序列为一帧一帧的参数向量序列。我们将在下一章中讨论如何将s v m 的输 出值转化为相应的参数向量序列,而这些向量序列将成为h m m 的输入值,从而 将s v m 和h m m 联结起来。 硬士学位论文 基于s v m - h m m 混合模型的音乐分类研究 第4 章s v m h m m 混合模型 通过前两章的介绍,我们可以了解到h m m 适合于处理连续信号,其结果反 映了同类样本的相似度,而s v m 的输出结果则体现了异类样本间的差异,因此 s v m 适合处理分类问题,基于此,本章结合这两个模型的特点,建立一个用于 音乐分类的s v m 和h m m 的混合模型。 由于音乐分类是一个多分类问题,而支持向量机是针对二分类的问题而提 出的,因此在建立s v m 和h m m 混合模型之前我们先要使支持向量机能给出 多分类的结果,解决这个问题的方法是利用某种策略来组合应用二分类器 2 1 , 使之产生多分类的输出,下面就先来介绍常用的解决策略。 4 1s v m 在多分类问题上的解决策略 4 1 1 “一对一”策略 这个策略由k n e l t 等人于1 9 9 0 年提出,主要思想是将n 个类别分类问题分 解成n ( n 一1 ) 2 个二类别分类问题来处理,因此总共需要训练n ( n _ 1 ) 2 个分 类器。训练的过程中,从n 个类别中任意选取两个类别为一组,这样总共有 c ;= n ( n 一1 ) 2 种组合,然后按照这种二类别组合去进行各二类别分类问题的 分类器训练。识别的过程中,把每个测试样本分别输入这n ( n 1 ) 2 个二分类器, 将各分类器所得的分类结果,通过投票的方式,以获得最多票数的类别即为该样 本的最后分类结果。假设我们要进行一个5 类别分类问题,5 个类别分别记为a 、 b 、c 、d 和e ,则此时应用“一对一”策略时我们需要训练5 ( 5 一1 ) 2 = 1 0 个分类器,图4 - 1 演示了这1 0 个分类器。 2 4 硕士学位论文 基于s v m - h m m 混合模型的音乐分类研究 a b a c 卜 a d 卜 a e 斗 b c 斗 b d 斗 b e 一 c d c e 啼 d e b c 斗d e 卜c 斗d e 叶d 卜e e 输出结果 0 2 5a o 6 3a o 8 9a 0 1 8a o 2 5c o 5 lb o 7 6e 0 4 7c 0 6 6c o 3 6e 图4 - l “一对一”策略演示图 从图中我们可以看出,每个分类器是由5 个类别a 、b 、c 、d 、e 的两两配对而成 的,对具体某个样本点,每个分类器都会有一个输出,如图中的a b 分类器输出 值为o 2 5 ,正数表示其判别结果属于a 类,若为负数则判别结果为b 类。经过 每个分类器的计算,此时我们会得到如图中的一系列判别类别结果,接下来就是 按照投票的方式将这些判别类别进行统计,以出现次数最多的那个类别作为该样 本点的最终判别结果,本例子中的a 类为4 票,b 类1 票,c 类3 票,d 类0 票,e 类2 票,所以最终的判别结果为a 类。 “一对一”策略是将二分类问题拓展到多分类问题时一种很常用的策略,其 具有原理简单、容易实现的特点,但其本身也存在些缺陷: 需要训练的分类器个数为c ? 个,当n 很大时分类器也会变得很多。而判别 样本点类别时必须经过每个分类器都计算一次,这在分类器很多时将会使计 算时间大大增加,为此有入提出了一种折中的解决办法 2 2 :采用淘汰制度 来代替投票制度。如图4 2 所示,给定一个样本点,其在分类器a b 的分类 结果为a ,在分类器c d 的分类结果为c ,则进一步将该样本输入分类器a c 中进行分类,此时的分类结果为a ,同理,按照图中右子树的判别顺序也会 得到一个分类结果f ,最后将样本输入分类器a f 中,由它来决定样本属于a 类还是f 类,最终的分类结果就是该样本的判别结果,如图中的a 类就是最 a a a a b b b c c d 硕士学位论文基于s v m - h m m 混合模型的音乐分类研究 终结果。整个过程类似于球赛中的淘汰过程,最后只会有一个胜利者,这个 胜利者就是最终的结果。这个淘汰制度一个明显的特点就是大幅降低了比较 次数,理论上只需要比较州一1 ) 次就能得到最终判别结果,比投票制度的比 较次数n ( n 一1 ) 2 要少很多。 a a f a 。 , 、 | | ab 。j 。- - i 、一_ i cd 图4 - 2 “一对一”策略的淘汰制度演示图 由于每个分类器只负责判别某两个分类,也就是说无论样本点是否属于这两 个分类,该分类器都会输出一个这两个分类中的其中一个分类的结果。如果 样本点本身属于这两个分类中的一个,那么判别结果是有效的,反之判别结 果是无效的,因为样本点根本就不属于这两个分类中的任何一个。举例来说, 给定一个样本点,假设我们已经知道它属于类别c ,则该样本点在经过分类 器a c 的计算后其输出结果包含了属于c 类别的概率值,则这个输出结果对 于该样本是有效的;而经过分类器a b 的计算后其输出结果是个无效结果, 因为这个结果里没有包含有关c 类别的任何信息,这种无效结果经过累加, 很有可能会在投票系统中超过有效结果的投票,从而使判别结果产生错误。 图4 3 演示了一个已知为c 类别的样本点在经过各个分类器时的输出结果对 于判别是否有效的情况。理论上可以计算出来,当类别数为n 时,对于某个 样本点,无效的分类结果个数为( 一1 ) ( 一2 ) 2 个,可以看出来,当n 越大, 无效结果就越多,这也是当类别数增大时,应用“一对一”策略的多分类结 果会大幅降低的原因。 g 、,j h 、 g,f _ ,、 f 玎 硕士学位论文 基于s v m - h m m 混合模型的音乐分共研究 样本点 ( 类别c ) a b a c a d a e b c - b d b e c d c e 啼 d e - 卜 卜b 卜c + d 卜e c + d 卜e 叶d 卜e - 卜e 图4 - 3 “一对一”策略缺陷演示图 4 1 2 “一对多”策略 输出结果 输出结果 输出结果 输出结果 输出结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论