（信号与信息处理专业论文）基于gmm的实用语音情感识别研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：53 大小：2.33MB 积分：0 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要基于g m m 的实用语音情感识别研究硕士研究生姓名：于寅骅导师姓名：赵力东南大学信息科学与工程学院随着信息技术的高速发展和人类对计算机的依赖性的不断增强，智能化的人机交互受到研究者的重视。其中多媒体计算机系统情感信息的研究越来越引起人们的兴趣。语音是人们表现情感最容易的一种方式，因此通过语音来识别说话人的情感具有重要的意义。本文分析了实际情感的相关概念，比较了不同的情感语音特征参数，对语音情感识别过程进行了研究，通过实验取得了一些成果。本文首先分析了对实际情感进行语音识别的意义及应用前景，了解了焦虑和焦虑障碍的相关知识。通过对语音发声原理的解释，分析了些重要的语音特征参数及提取方法，并将焦虑与其他情感的语音特征进行了比较。然后分析了几种语音识别模型，研究了情感语音库的建立方法和实际语音中的噪声消除方法。最后进行了实际情感语音的识别实验：首先建立了一个实际情感语音的数据库，包括了焦虑、高兴、担忧、自信四种情感，同时录制了平静状态下的语音作为对照。根据选择出来的一组语音特征参数，采用高斯混合模型进行识别，最终获得了比较满意的识别结果。关键词：语音识别，情感识别，焦虑障碍，高斯混合模型，噪声消除 a b s t r a c t a b s t r a c t r e s e a r c ho np r a c t i c a ls p e e c he m o t i o nr e c o g n i t i o nb a s e do ng m m a l o n gw i t ht h eh i 曲s p e e dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n dt h ei n c r e a s i n gd e p e n d e n c y t oc o m p u t e r s t h er e s e a r c ho fi n t e l l i g e n th u m a n m a c h i n ei n t e r a c t i o ni sh i g h l ye v a l u a t e d ，e s p e c i a l l y t h es t u d yo fe m o t i o n a li n f o r m a t i o nw i t hm u l t i - m e d i ac o m p u t e rs y s t e mh i g h l yi n t e r e s t sp e o p l e s p e e c hi st h ee a s i e s tw a yt oe x p r e s se m o t i o n , t h u si t si m p o r t a n tt or e c o g n i z es p e a k e rb ys p e e c h s i g n a l t h i sp a p e ri n t r o d u c e sp r a c t i c a l - e m o t i o n - r e l a t e dc o n c e p t s ，c o m p a r e sd i f f e r e n tg r o u p so f f e a t u r ep a r a m e t e r sf o rs p e e c hs i g n a l sa n da n a l y z e st h ep r o c e s st or e c o g n i z es p e e c hr e c o g n i t i o n r e s e a r c hr e s u l t sa r ea c h i e v e dv i ae x p e r i m e n t s i nt h i sp a p e r ，f i r s ta n a l y z e dt h er e a s o na n da p p l i c a t i o nf o r e g r o u n do fs p e e c hr e c o g n i t i o nt e c h n o l o g y f o rp r a c t i c a le m o t i o n , a n di n t r o d u c e dr e l a t i v ei n f o r m a t i o na b o u ta n x i e t ya n da n x i e t yd i s o r d e r i n t r o d u c e dt h es i g n i f i c a n ts p e e c hs i g n a lf e a t u r ep a r a m e t e r sa n de x t r a c t i o nm e t h o db ye x p l a i n i n gt h e p r i n c i p l eo fv o c a l i z a t i o nt h e o r y a n dc o m p a r e da n x i e t yw i i t ho t h e re m o t i o n si nd a t a b a s e s e c o n d i n t r o d u c e ds e v e r a ls p e e c hr e c o g n i t i o nm o d e l s ，a n da n a l y z e dt h em e t h o dt oc r e a t ee m o t i o ns p e e c h d a t a b a s ea n dt h em e t h o dt oe l i m i n a t en o i s ei np r a c t i c a ls p e e c hs i g n a l a tl a s ti n t r o d u c e dt h e e x p e r i m e n t st ol e c o 舀l i z ep r a c t i c a le m o t i o ns p e e c h ：f i r s tc r e a t eap r a c t i c a le m o t i o n a ls p e e c h d a t a b a s e ，i n c l u d i n gf o u re m o t i o n s ( a n x i e t y ，h a p p y ，w o r r i e da n dc o n f i d e n c e ) ，w h i l er e c o r d e dt h e s p e e c hs i g n a li np e a c e f u le m o t i o nf o rc o m p a r i s o n a c c o r d i n gt o t h es e l e c t e ds p e e c hf e a t u r e p a r a m e t e r s u s e dg a u s sm i x e dm o d e lt or e c o g n i z es p e e c hs i g n a la n dg a i n e ds u c c e s s f u lr e s u l t k e yw o r d s ：s p e e c hr e c o g n i t i o n ，e m o t i o nr e c o g n i t i o n ，a n x i e t yd i s o r d e r ，g a u s sm i x e dm o d e l ， n o i s ee l i m i n a t i o n i i 目录附图目录图3 1 语音产生模型。8 图3 2 中心削波函数9 图3 3 声门波形及其微分波形图1 l 图3 - 4 卷积组合变为线性组合系统粗略图1 3 图3 5 卷积组合变为线性组合详解图1 4 图3 _ 6m e l 倒谱求解图l5 图3 7 三角形滤波器15 图3 8 通过声门波残差信号分析得出情感语音特征参数比较1 6 图4 1二维矢量量化概念示意图l8 图4 2v q 在语音识别中的应用1 9 图4 3h m m 模型2 0 图4 - 4多层感知器( 单隐层) 2 5 图4 5r b f 神经网络构成2 6 图4 - 6 神经树网络结构2 7 图4 7 支持向量机原理示意图3 0 图6 1 变换滤波器示意图3 9 图6 - 2 常见宽带噪声消除法原理框图3 9 v 目录附表目录表5 1不同情感语音材料的比较3 6 表7 1 各情感语句条数4 l 表7 2 听众识别结果4 l 表7 3 语音特征排序4 2 表7 4 混合度为4 到1 2 的g m m 的错误率。4 3 表7 5 各情感的混合度。4 3 表7 - 6 实际情感语音g m m 识别结果4 3 v i 东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名：垂宣鳢日期：! 竺! 兰二! 东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布( 包括以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电子信息形式刊登) 授权东南大学研究生院办理。研究生签名：量盟导师签名：日期：里! 皇：三：! 第一章绪论第一章绪论 1 1 语音情感识别的背景和意义随着信息技术的高速发展和人类对计算机的依赖性的不断增强，智能化的人机交互受到研究者的重视。其中多媒体计算机系统情感信息的研究越来越引起人们的兴趣。同时，人们逐渐认识到对应于知识科学世界，感性科学世界也是信息处理的重要组成部分。因此，情感信号的人工处理、在信号处理和人工智能等领域具有重要意义【1 1 。情感计算作为一个崭新的领域，目前日益引起国内外各研究机构的重视。第一次提出“情感计算”这个概念的美国m i t 媒体实验室情感计算研究小组的领导人p i c a r d 教授在1 9 7 9 年她的专著“a f f e c t i v ec o m p u t i n g ( 情感计算) ”中给出：“情感计算是关于、产生于、或故意影响情感方面的计算”，情感计算的目的使通过赋予计算机识别、理解、表达和适应人的情感能力来建立和谐人机环境，并使计算机具有更高的，全面的智能【2 】。在传统的计算机与人的交互过程中，计算机没有被赋予理解操作者的情绪和心情的能力。正是因为没有这种情感能力，就使计算机的工作难以具有类似人的智能，只能作为一个僵硬的工具，而不能实现人类交流之间类似的情感的互动。情感计算就是要赋予计算机类似于人一样的观察、理解和表达各种情感特征的能力，通过对情感特征的分析和处理来获取对情感状态与生理和行为特征相互关系的高层次语义上的解释，最终达到像人一样能进行自然、亲切和生动的交互【3 l 。在情感计算领域，目前世界各国都在积极地开展相关研究，取得了诸多成果，其中以美国m i t 媒体实验室的工作较为突出【4 。我国也在逐步开展情感信息处理的研究，并引起了国家有关部门的关注。例如，在国家自然科学基金1 9 9 9 年的项目指南中“和谐人机环境中的情感计算理论研究”被列为重点项目。同时，中国科学院自动化所、心理所以及国内众多高校在情感信息处理的研究上也取得了一定的进展。2 0 0 3 年1 2 月8 日至9 日，由中国科学院自动化所组织，在北京举行了第一届中国情感计算与智能交互学术会议，会议中展示了国内各研究机构近几年来从认知、心理、模式识别、系统集成等不同角度在情感计算领域取得的研究成果，弥补了国内的情感计算领域的空白。人们的情感，一般都可以通过语音的变化来识别。例如，人们在进行电话交流的时候，并不能够看到对方，也没法感知对方的生理上的变化( 如脸红等等) ，但却能够识别出对方相应的情感。由于情感与很多东西相关，而语音是人们表现情感最容易的方式，因此通过语音来识别说话人的情感具有重要的意义。传统的语音处理系统仅仅着眼于语音词汇传达的准确性，而完全忽略了包含在语音信号中的情感因素。所以它只是反映了信息的一个方面。与知识科学世界相对应且具有同等重要地位的感性科学世界，也是信息处理的重要组成部分。因此，语音情感识别在信号处理和人工智能等领域具有重要意义。而且，如果在信息科学世界中考虑了信号中的情感信息，相应的就可以增加人工智能的智能化、拟人化，尽可能的消除东南大学硕士学位论文人和机器之间的障碍。因此在语音信号处理领域，越来越多的情感识别研究开展起来。在8 0 年代末9 0 年代初期，为了建立语音理解和语音会话系统的会话模型，有人进行了根据说话人语音的韵律变化来判断说话人的态度、意图的研究，这应该算是最早从工学处理的角度来处理情感信息。从9 0 年代中后期开始，随着计算机多媒体信息处理技术等研究领域的出现，各国开始重视情感信息处理技术的研究。在国际口语处理大会i c s l p ( i n t e r n a t i o n a l c o n f e r e n c eo ns p o k e nl a n g u a g ep r o c e s s i n g ) 的论文集中，有关语音情感识别的研究论文逐渐增多。i s c a ( i n t e r n a t i o n a ls p e e c hc o m m u n i c a t i o na s s o c i a t i o n ) 在2 0 0 0 年专门组织了一个名为 “e m o t i o na n ds p e e c h 的w o r k s h o p ，以情感和语音作为研究的主要内容。因为语音情感的识别会涉及到不同语种之间的差异，不同的国家，发音不同，分析时所用的数据库和方法就可能会不同。英语、日语、德语等的语音情感分析都有较多的研究，而中文语音的情感分析相对的要少一些。国内的中国科学院自动化研究所，东南大学，清华大学，微软亚洲研究院，中国台湾的一些大学和研究所也在进行情感语音方面的研究。 1 2 语音情感识别的国内外研究现状语音情感自动识别技术主要包括两个问题：一是采用语音信号中的何种特征作为情感识别，也就是特征抽取的问题，一是如何将特定的语音数据进行分类，也就是模式识别的问题。在过去的几十年里，针对语音信号中的何种特征能有效的体现情感，学者们作了大量的研究。一般情况下，语音的情感相关性的表示形式可以通过说话人模型或者声学模型来实现。有的观点认为语音识别一般只用语音特征，而语音情感识别应把重点放在韵律特征；而另外的一些观点认为，语音特征和韵律特征相互结合才能表达情感，仅有韵律特征是不可能表达情感的【5 】近几十年的各类文献及各国工作人员的研究。针对情感识别所采用的特征很多是基于韵律特征，比如基音、能量、持续时间这几个类型。以及在这几种特征的基础上衍生了大量的参数，比如这些基本特征的均值、范围、方差、中值、轮廓变化等。在部分文献中，也考虑了语音特征的情况，比如共振峰信息、频谱能量分布、谐波噪声比、声门波参数等等。从总的结果和应用的情况来看。在语音情感信息处理中所采用的特征总是局限于一个较小的范畴，而到底何种特征能够较好的反应情感的信息还没有一个明确的结论，关于这些特征以及这些特征的衍生特征的有效性评价和情感识别也在同步进行之中。模式识别方面，各国研究人员在语音情感处理领域几乎利用了所有的手段，新的方法的应用和对比层出不穷，比如a m i r 等人【6 j 使用距离测量分类器取得了正常状态7 0 、高兴7 6 、悲伤8 3 、生气6 1 的识别率，整体识别率大约7 0 ；d e l l a e r t 等人【7 j 使用基音轮廓线作为特征，利用最大似然b a y e s 分类器，k e r n e l 回归分类器和k 最近邻分类器，来区分悲伤、生气、高兴和害怕，达到6 0 6 5 的精度；t a t o 等【8 】讨论了利用更多韵律学附加信息来拓展情感的维数，并通过实验展示了将“结构特征”作为“韵律学特征”的附加来提高多类情感的分类效率，使用了s v m ( s u p p o r tv e c t o rm a c h i n e ) 作为分类器，作了四类( 喜、怒、悲、平常1 情感的识别研究，最后实现了7 3 的平均识别率；t y a m a d a 等【9 】用神经网络的方法对四类语音情感( 悲伤、 2 第一章绪论兴奋、欢乐和愤怒) 进行识别，达到7 0 的识别率：b j 6 ms e h u l l e r 对将h m m ( h i d d e nm a r k o v m o d e l ) 运用于语音情感的研究作了进一步分析u ，他采用两种方法，一种是从语音信号的基音和能量轮廓中提取参数，用单一状态h m m 对全局统一参数进行计算；另一种方法使用了连续的h m m ，使用语音信号的瞬时特征来取代全局参数，均取得较好效果。h u b e r 1 1 l 【1 2 】采用多层感知器来区分生气和正常的状态，达到9 0 的识别率。t y a m a d a 等l l3 j 对将神经网络应用于提取语音中的情感进行了研究，这些情感包括悲伤，兴奋，欢乐和愤怒。对于这些基本的人类情感，运用神经网络可以达到7 0 的识别率。h s a t o 1 4 】等也采用神经网络，但是只能把平静时的情感和其他三种情感区分开来，还不能具体识别每一种情感。n i c h o l s o n ”】所研究的系统的整个神经网络由8 个子网构成，每个子网处理一种特定的情感。测试发现，负面的情感，比如愤怒和悲伤容易识别，但正面的情感，比如喜悦，不易识别。p e t m s h i n 等人【1 6 】主要使用了基音、一次共振峰和二次共振峰、能量、说话速率等特征的统计量，研究了高兴，生气，悲伤，害怕和正常这五种状态，使用神经网络集合识别取得了较好的效果，平均识别率达到7 0 ，同时实现了实时识别的能力，而对于两种情感状态则获得了7 7 的精度。 m c g i l l o w a y 等人中利用几位不同乘客的抽取语音作为研究对象，情感同样是高兴，生气，悲伤，害怕和正常状态，从强度、基音的运动轨迹中抽取了3 2 个潜在的特征，使用了两个不同的分类器，其中的神经网络分类器采用9 0 作训练，1 0 作测试，得到了5 5 的识别率。 m a j ap a n t i e l l 7 j 对近几年的1 4 个语音情感文献的结果进行了对比，研究发现文献中的研究对象差异很大，结果各异，仅从识别率而言，就形成了从5 3 到9 0 这样的悬殊，而且不能说识别率高的那种方法就一定比识别率低的那种方法好，这是不具有可比性的。对于中文语音情绪识别的研究，主要在国内进行，其中东南大学较早的开始了这方面的研究，微软亚洲研究院、清华大学、及台湾的一些大学和研究所也在进行这方面的研究，在国外进行中文语音情绪研究的不多，主要是新加坡国立大学和南洋理工大学在进行这方面的研究。赵力等【1 8 儿1 9 j 对四种情绪( 愤怒，高兴，悲伤和惊奇) 进行了分类。他们对采集到的情绪语音数据进行了听辨实验，对人类主观不能辨别的数据进行了重新录音制作在分析情绪语音信号的时间构造、振幅构造、基频构造和共振峰构造的基础上，采用了三种主元素分析法得到的识别率都在8 0 9 0 之间。还提出了一种利用全局和各元音时序结构的组合特征以及一种修正型二次判别函数( m o d i f i e dq d f , mq d f ) 进行情绪识别的方法。获得了平均9 4 的识别率。 y u 等人【2 u j 对四种情绪( 愤怒，高兴，悲伤和中立) 进行了研究，分类方法为三种：神经网络，k n n 和支持向量机，支持向量机方法能够得到最好的结果，平均7 4 ( 愤怒7 7 2 ，高兴6 5 6 ，中立8 3 7 ，悲伤7 0 6 ) ，k n n 的结果为平均5 0 ，神经网络为略高于4 1 。蒋丹宁等人【2 l j 对六种情绪( 中立，愤怒，恐俱，高兴，悲伤和惊奇) 进行了研究，其语音由一名女性发音人的数据组成。其主要研究了声学参数的统计特征和时序特征在区分情绪中的作用，并提出了一种将两者相融合的情绪识别方法，在提取出基本的韵律参数和频谱参数后，首先利用 p n n ( p r o b a b i l i s t i cn e u r a ln e t w o r k ) 和h m m 分别对声学参数的统计特征和时序特征进行处理。计算它们各自属于每类情感的概率，获得采用加法规则和乘法规则融合统计特征和时序特征的识别结果，通过特征融合，在最好的情况下识别率可达到9 2 9 。p a 0 1 2 2 】等人研究了五种基 3 东南大学硕士学位论文本情绪，包括：中立，愤怒，高兴，悲伤和厌倦，主要采取了一些短时特征：1 6 个l p c ( l i n e a r p r e d i c t i v ec o d i n g ) 系数，12 个l p c c ( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t s ) ，16 个l f p c ( l o g f r e q u e n c yp o w e rc o e f f i c i e n t s ) ，1 6 个p l p ( p e r c e p t u a ll i n e a rp r e d i c t i o n ) 系数，2 0 个m f c c ( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ) 及相关的导数。分类方法为三种：线性判别分析，k n 和h m m 使用h m m 方法可以得到8 8 7 的平均识别率。提出的一种加权离散k n n 法，特征参数选择为m p c c 和l p c c ，最后得到平均7 9 5 5 的识别率。 1 3 焦虑语音情感识别的意义目前为止国内外的语音情感识别主要都是针对高兴、愤怒、惊奇、悲伤与平静的识别，而现实中的情感远远不止这些，众多的情感对我们的生活、工作有着不可忽视的影响。焦虑是一种有用的情感。没有它，我们做事就会不计后果，做出危险的行为，从而对自身造成伤害乃至危及生命。所以，焦虑对个体和种族具有很强的生存价值。但是，如果人的焦虑程度过高，就不再是对环境中各种威胁的适当反应，并可能使个体产生困扰。焦虑情感分布至一个极端就是焦虑障碍1 2 引，会严重干扰正常的生活。对于焦虑语音的情感识别，总结了以下几点意义及用途：从飞行员、驾驶员的语音问答中得出焦虑识别，可以掌握他们的心理状态，保障行驶安全；在语音服务行业，用来了解员工的焦虑程度，提高话语的服务质量：电脑教学、人机互动时，可以增强人工智能对使用者情绪的把握；在医疗上，可以通过平常的聊天测试病人的焦虑情况，辅助医生的诊断及治疗：警察审问嫌疑人时，对回答进行焦虑情绪识别，可以掌握更多的信息等等。由此证明焦虑语音识别的研究价值。 1 4 论文的内容及安排本文的内容安排如下：第一章绪论首先介绍了语音情感识别的背景和意义，结合国内外的语音情感识别的技术发展，提出了对实际情感特别是焦虑的语音识别的意义。第二章介绍了焦虑及焦虑障碍的理论基础。第三章介绍了语音发声原理，分析了基音、共振峰、持续时间、谐波噪声比、声门波、 l p c 、m e l 倒谱等语音特征参数的提取，并将焦虑与其他情感的语音特征参数进行了比较。第四章介绍了矢量量化、h m m 、人工神经网络、支持向量机、g m m 等语音情感的识别方法。第五章介绍了国外的情感语音库，分析了情感语料的获取方法。第六章分析了对脉冲噪声、周期噪声、宽带噪声的消除方法。第七章介绍了实际语音情感识别实验的过程，并分析了结果。 4 第二章焦虑的基础理论研究 2 1 焦虑的定义及起因第二章焦虑的基础理论研究焦虑是一种消极的情绪状态，它主要表现为躯体紧张和对未来的担忧【2 4 1 。过度的情绪反应不是由单维度因素引起的，往往是多维度因素共同作用的结果2 5 1 。接下来从生物学、心理学和社会因素方面来分析焦虑的起因。 2 1 1 生物学因素越来越多的证据显示，某种焦虑的倾向带有遗传性i z 6 1 。与头发或眼镜的颜色由一个基因单独决定的情况不同，焦虑跟其他所有的心理障碍一样，不单是由单一基因引起的。虽然单一基因只有微弱的影响力，但是在适当的心理社会影响下，位于染色体不同位置上基因的微弱作用却会结合起来，使我们产生对焦虑的易感性l z7 。焦虑还与特定的脑部环路和神经递质系统有关。y 氨基丁酸( g a b a ) 水平的下降往往会与焦虑水平的提高相伴出现。因为与焦虑( 及抑郁) 表现有关，促肾上腺皮质激素释放因子( c r y ) 系统的作用受到了越来越多的关注【2 引。这是因为c r f 激活的h p a 轴，对引发焦虑的脑区，包括情绪脑( 边缘系统) ，有广泛的影响。与焦虑联系最紧密的脑区边缘系统i z 6 1 ，是脑干和皮质之间的协调者。更原始的脑干负责监控、感受躯体机能的变化，并将这些潜在的危险信号通过边缘系统传递到更高级的皮质进行加工。英国著名的神经心理学家j e f f r e yg r a y 确定了一个大脑环路，该环路存在于的边缘系统，它与焦虑有密切的关系1 2 引。这一环路始于边缘系统的脑隔膜区和海马回区域，并一直延伸到额叶。g r a y 将它命名为行为抑制系统( b i s ) ，它会被来自脑干的由意外事件引起的信号所激活。b i s 将那些我们认为可能具有威胁性的事件所产生的危险信号，从皮质下传至海马一隔膜系统。另外，行为抑制系统( b i s ) 还接收来自杏仁核的强烈的激活信号【3 0 1 。当行为抑制系统接收到脑干的上传信号或大脑皮质的下传信号而被激活时，我们就会凝神、感到焦虑，警惕周围的环境以确认是否存在危险。 2 1 2 心理学因素以佛洛伊德代表的精神分析学派认为焦虑的来源有：( a ) 本我、自我与超我之间为争夺心理能量而冲突的结果；( b ) 幼年时期发展经验中，在意识或潜意识记忆中所遗留的恐惧感；( c ) 本我的危险冲动；( d ) 来自超我的罪恶感；( e ) 自我处理冲突时，所体验到的不足感。行为主义理论家则认为，焦虑是早年经典条件反射、模仿或者其他学习形式的结果1 3 i l 。人们在儿童期可能就意识到事情并不总能受到自己控制睇4 1 。这个感觉连续体的一端是我们对控制生活所有方面的完全自信，另一端是我们对自身处理问题能力的完全的不确定。这种无法控制事态的感觉可能表现为一系列危险四伏的紧张感。例如，对学习产生了焦虑，那么即使所有成绩都是a ，你还是会认为自己在下次考试中会考得很糟，甚至认为自己根本就无法通过考试。东南大学硕士学位论文 2 1 3 社会因素应激性生活事件会触发产生焦虑的生物和心理易感性。大多数的应激性生活事件是人际间的，例如结婚、离婚、工作困难、家人死亡或其他事件。也有部分是生理性的，如受伤或生病另外一些则是社会性的，如在学校追求学业优秀，也有可能引发焦虑。 2 1 4 综合分析综合这些因素，我们发现心情烦躁或精神紧张的倾向可能是遗传的。但是对焦虑的广泛的生物易感性并不意味着焦虑本身。你也可能会在个体早期经验的基础上逐渐形成一些观念，其中包括世界是危险的，不可控制的，以及当事情变得越来糟糕时，你将无法处理等等。如果这种感觉足够强，那么你就会形成对焦虑的广泛的心理易感性。最终，你将有可能处于一系列的压力之下，特别是来自人际关系方面的压力。此时，某种特定的应激源会激活让你变得焦虑的生物学因素，让你产生无法应对或控制应激的心理倾向。一旦这种循环产生，它将会自我强化，所以，即使某种生活应激事件以过去很长时间，这种循环仍然不会中止。焦虑的内容可能非常广泛，它可以由你生活中的许多事件而引发。但它通常总集中在某个方面，例如对学习成绩的焦虑1 2 川。 2 2 焦虑障碍 2 2 1 焦虑障碍分析正常人在面对困难或有危险的任务，预感将要发生不利的情况或危险发生时，会产生焦虑( 一种没有明确原因的、令人不愉快的紧张状态) ，这种焦虑通常并不构成疾病，是一种正常的心理状态1 2 引。焦虑并不是坏事，焦虑往往能够促使你鼓起力量，去应付即将发生的危机( 或者说焦虑是一种积极应激的本能) 。只有当焦虑的程度及持续时间超过一定的范围时才构成焦虑障碍，这会起到相反的作用妨碍人应付、对处理面前的危机，甚至妨碍正常生活。焦虑障碍简称焦虑症，即通常所称的焦虑状态。焦虑症是一种具有持久性焦虑、恐惧、紧张情绪和植物神经活动障碍的脑机能失调，常伴有运动性不安和躯体不适感。焦虑症与正常焦虑情绪反应不刚乃j ：第一，它是无缘无故的、没有明确对象和内容的焦急、紧张和恐惧；第二，它是指向未来，似乎某些威胁即将来临，但是病人自己说不出究竟存在何种威胁或危险；第三，它持续时间很长，如不进行积极有效的治疗，几周、几月甚至数年迁延难愈。最后焦虑症除了呈现持续性或发作性惊恐状态外，同时伴多种躯体症状。患者表现焦虑、恐慌和紧张情绪，感到最坏的事即将发生，常坐卧不宁，缺乏安全感，整天提心吊胆，心烦意乱，对外界事物失去兴趣。严重时有恐惧情绪、恐惧预感，对外界刺激易出现惊恐反应，常伴有睡眠障碍和植物神经不稳定现象，如头痛、入睡困难、做恶梦，易惊醒，面色苍白或潮红，胸闷、心跳、易出汗，四肢发冷，手指发麻，手抖，肌肉跳动，眩晕、心悸，胸部有紧压或窒息感，食欲不振，口干，患者发现难以控制自己的担心。容易激怒。注意力无法集中。肌肉紧张。容易疲劳。 2 2 2 几种常见的焦虑障碍焦虑症有很多具体情况【2 3 1 1 2 6 】，例举如下：急性焦虑：主要表现为急性惊恐发作。患者常突然感到内心焦灼、紧张、惊恐、激动或有一种不舒适感觉，由此而产生牵连观念，妄想和幻觉，有时有轻度意识迷惘。急性焦虑发作一般可以持续几分钟或几小时。病程一般不长，经过一段时间后会逐渐趋于缓解。 6 第二章焦虑的基础理论研究广泛性焦虑症( g e n e r a l i z e da n x i e t yd i s o r d e r ) ：表现为广泛而持久的焦虑。程度比急性焦虑轻，持续时间长达3 个月以上。此障碍通常开始于儿童或青少年期，但也可以在任何年龄开始儿童焦虑症：与先天素质和后天环境因素有密切关系。这类孩子比较敏感，自信心不足，自尊心又很强的性格特点，容易紧张，多虑。他们的家长也常有敏感、多虑的表现，而且对孩子的教育方法不当。老年焦虑症：表现为老年人心烦意乱，坐卧不安，有的为一点小事而提心吊胆，紧张恐惧。人们往往忽略这种心理疾病，而把原因归结到一些器质性疾病，比如心脏病、糖尿病中去。离别焦虑障碍( s e p a r a t i o na n x i e t yd i s o r d e r ) ：早期出现的以害怕离别为主的焦虑。与正常离别焦虑的区别在于其已属异常( 如已超出通常的年龄期，且异常地持续存在) ，并伴有明显的社会功能障碍。社交焦虑障碍( s o c i a la n x i e 够d i s o r d e r ) ：当遇到新的、陌生的或有社会性威胁的处境时，对陌生人警惕，对社交提心吊胆或焦虑。测验焦虑( t e s t a n x i e t y ) ：是指被试在测验前和测验时产生的紧张、忧虑和恐惧的情绪。同时伴随生理活动变化，如心跳加速、呼吸加快、出汗等。测验焦虑的发生与缺乏自信、抱负水平或期望过高而能力较低，被试认为测验意义重大而又不熟悉测验等因素有关。信息焦虑( i n f o r m a t i o na n x i e t y ) ：又称“知识焦虑综合症”。由于大脑长期大量接受、处理信息，造成大脑皮层活动抑制。 2 3 焦虑的测定方法已有焦虑情绪的测定一般是通过焦虑评定量表进行问答，还可以采集对象的一些生理参数，比如焦虑情绪反应一般都伴有生理、运动指标的改变，因此生理指标可间接反映焦虑的水平p 引。通常使用的指标包括：皮肤电反应( g s r ) 、皮肤导电性( s c ) 、皮肤温度( s t ) 、皮肤血流容积( b v p ) 、肌电( e m g ) 、脑电( e e g ) 、心率( h r ) 、血压( b p ) 、呼吸频率( r r ) 和掌心出汗( p s ) 等。以生理指标测量焦虑的优点具有一定的准确性，因缺少常模数据或解释困难，应用还有局限性，多用于研究领域，临床应用较少。随着焦虑生埋学研究的深入和测量仪器发展，生理学侧量具有更广阔的前景，并将成为测量焦虑反应的可靠指标。通过对焦虑的心理感受的表述和外观行为变化的观察，评定焦虑水平的仿法称量表评定法。焦虑自评量表( s a s ) f l 爿z u n g 于1 9 7 1 年编制，包括正向评分巧题，反向评分5 题共2 0 个条目，每条目分4 级评分，评分需与常模或对照组比较进行分析，主要用于评定焦虑病人的主观感受。汉密尔顿焦虑量表( h a m a ) f qh a m i l t o n 于1 9 5 9 年编制，包括1 4 个项目，每项分5 级评定，为经典的焦虑评定量表。焦虑状态一特质问卷( s t a i ) 由斯皮尔伯格于1 9 7 7 年编制，并于1 9 8 3 年修订的自我评价问 j i 厶卺。测验焦虑量表( t a i ) 由美国佛罗里达州大学的著名临床心理学家施皮尔伯格于1 9 5 0 年编制完成，是目前国际上最有效且应用最广泛的考试焦虑量表。中文版t a i 由叶仁敏修订，有较好的垂测信度、内在一致性与稳定性。其他还有显性焦虑量表( m a s ) 、贝克焦虑量表( b a d 、综合性医院焦虑抑郁量表( h a d ) 、 s a r a s o n 考试焦虑量表( t a s ) 、社交焦虑量表( 认s ) 等等。东南大学硕士学位论文第三章焦虑的语音情感特征分析 3 1 语音的发声原理人类的发声过程是由于肺部的收缩，压迫气流由支气管经过声门和声道引起音频振荡而产生的，其中声道起始于声门处而终止于嘴唇，包括咽喉、口腔。鼻道则是从小舌开始到鼻孔为止。当小舌下垂时，鼻道与声道发生耦合而产生语音中的鼻音。发音过程中，声道各处的截面积会随不同语音发生不同变化，且不同的人的声道各处的截面积也不一样。而声道各处的截面积取决于舌、唇、颌以及小舌的位置。声道截面积随纵向位置而变的函数，称为声道截面积函数。声道的共振峰特性主要决定于声道截面积函数。而声道的共振峰特性又决定了所发声音的频谱特性，即音色i j 3 。基音频率激励部分图3 1 语音产生模型调制部分图3 1 给出一个离散时域的语音产生模型。这个模型是许多研究和应用的基础，它由激励源、声道模型和辐射模型三个部分组成。激励源分为清音和浊音两个分支。声道模型改出了离散时域的声道传输函数v ( z ) ，把实际声道等效成一个变截面管加以研究，在大多数情况下可以看成一个全极点函数。人类发音过程有三类不同的激励方式，因而能产生三类不同的声音，即浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡，形成准周期性的空气脉冲。这些空气脉冲激励声道便产生浊音。若声道中某处截面积很小，气流高速冲过此处时而产生湍流，当气流速度与横截面积之比大于某个门限值时便产生摩擦音，即清音。而声道某处完全闭合建立起气压，然后突然释放而产生的声音就是爆破音。由发音方式和声道形状的不同，人类可以发出无穷多种、听觉系统可以将它们相互区分的声音。但语音又可以分割成可辨别的基本语音单位，即音素，且这样的音素是有限的。这样一个语句就可以分解为一串音素，但一串音素不等于一个语句，语句中还含有反映语义、语感的韵律信息。这里的韵律信息包括各音素的相对强度、相对时长、相对音高、音高之间的停顿以及音素之间相互影响而产生音素的变异等。 8 第三章焦虑的语音情感特征分析 3 2 语音的特征参数分析 3 2 1 基音频率基音周期是语音信号最重要的参数之一【3 4 1 。基音周期估计的方法很多，本文采用了基于求短时自相关函数的算法。语音按其发生方式分为清音和浊音。发清音时，声道完全封闭，声道不受声门周期脉冲的激励而是利用口腔内存有的空气释放出来而发声，因而清音并没有基音。在作基音周期的估计时，必须先去除清音。本设计中利用语音信号的短时过零率z o ( 见式3 1 ) 来区分清浊音，一般而言，在相同条件下，清音的短时过零率分布的平均值最高。利用这一点，可以设- f - j 限区分清浊音。 1 n - ! z 。= 去 is g n s 。( 玎) 卜s 朗【s 。( n - 0 i ( 3 1 ) 其中s 印c x ，= ! - 。二三3 。 j q 叫。 1 一c l+ c l 图3 - 2 中心削波函数短时自相关函数在基音周期的整数倍点上有很大的峰值，只要找到第一个最大值点的位置，便可估计出基音周期。作基音周期估计时，窗长至少应大于两个基音周期，才可能有较好的效果。另一方面，为了克服声道的共振峰特性的干扰，可以对语音信号进行非线性变换后再求自相关函数。一种有效的非线性变换是“中心削波”。若输入信号为x ( n ) ，中心削波的输出为y ( n ) = c x ( n ) 】，函数c 【x 】如图3 2 所示。经过削波后的y ( n ) 的自相关函数在基音周期点上的峰起更尖锐突出，因此用它来进行基音周期估计的效果可以好很多。 3 2 2 共振峰频率声道可以看成是一根具有非均匀截面的声管，在发音时起共鸣器的作用当准周期脉冲激励进入声道时会引起共振特性，产生一组共振频率，称为共振峰频率35 1 。共振峰参数包括共振峰频率和频带宽度，它是区别不同韵母的重要参数。 3 2 3 持续时间语句发音持续时间指每一语句从开始到结束的持续时间。确定一句话的开始和结束的位置采用的方法，是把语音能量和预先设定的能量阈值做比较。当语音能量超过这个阈值，并且接下来的连续几帧都高于这个阈值，标志着一句话的开始。当语音能量连续几帧低于这个 9 东南大学硕士学位论文阈值时表示一句话的结束。这样处理可以比较有效地去除噪声的干扰。 3 2 4 谐波噪声比谐波噪声比( h n r ，h a r m o n i c st on o i s er a t i o ) l 拘提取方法是基于如下假设1 3 6 1 ：一个稳态元音的声波包括有2 种成份；一种是周期性重复的谐波量，一种是附加噪声成份，具有零均值分布信号f c t ) 可认为是每个周期的波形石俐连接，甜持续时间为一个周期的长度我们假设了附加噪音具有零均值分布因此当有足够的；在一个周期的长度内叠加，附加噪音就会被抵消，剩下的即为周期性重复的谐波成份平均波为：以( “) = e z ) 刀 ( 3 2 ) i = 1 在这里我们假设有一周期性重复的谐波量并不严格成立元音的波形是准周期波形，一般会出现周期的扰动。为了计算石俐这里采用了一种简单的时间校准方法，先求出所有周期中的最大的周期持续时间t m a x ，然后每个周期内都假设万俐= o ，t i u = z 。1 l o gix ( z ) i )( 3 2 3 ) 称为倒频谱( c e p s t r u m ) ，也简称为倒谱。从z 变换的性质可知，倒谱是复倒谱的偶部( 实部) ，即：c ( n ) = 【主( 甩) + 童( 一，z ) 】2 。 3 2 8m e l 倒谱参数在8 0 年代，倒谱类型的参数由于具有两个明显的优势而逐渐取代线性预测( l p ) 分析而成为隐m a r k o v 的首选参数，其中一个优势是可以通过对倒谱域的滤波和加权来对基于l p 的频率进行

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）基于gmm的实用语音情感识别研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）基于gmm的实用语音情感识别研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档