人机交互实验2报告解读

上传人：m*** IP属地：天津上传时间：2022-08-19 格式：DOCX 页数：10 大小：62.06KB 积分：20 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、实验报告（/学年第学期）课程名称人机交互基础教程实验名称多通道用户界面实验时间指导单位指导教师学生姓名班级学号学院（系）实验报告实验名称多通道用户界面指导教师实验类型验证实验学时3 实验时间一、实验目的和要求1）了解常见的多通道用户界面2）查找资料，熟悉一种多通道用户界面并写出综述二、实验原理综合采用视线、语音、手势等新的交互通道、设备和交互技术，使用户利用多个通道以自然、并行、协作的方式进行人机对话，通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图，提高人机交互的自然性和高效性。多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解，所要达到的

2、目标可归纳为如下方面：1）交互的自然性使用户尽可能多地利用已有的日常技能与计算机交互，降低认识负荷。2）交互的高效性使人机通讯信息交换吞吐量更大、形式更丰富，发挥人机彼此不同的认知潜力。3）与传统的用户界面特别是广泛流行的WIMP/GUI兼容。多通道用户界面的基本特点1）使用多个感觉和效应通道2）允许非精确的交互3）三维和直接操纵4）交互的双向性5）交互的隐含性（2）涉及的主要技术1）多媒体使用多种表示媒体，如文本、图形、图像和声音，使人机交互技术最终要向着更接近于人的自然方式发展，使计算机具有听觉和视觉，以更自然的方式与人交互。2）虚拟现实又称虚拟环境，虚拟现实系统向用户提供沉浸和多感觉通

3、道体验。虚拟现实系统具有三个重要特点：沉浸感、交互性、构想性。3）眼动跟踪与视觉有关的人机交互自始至终都离不开视线的控制。如果能通过用户的视线盯着感兴趣的目标，计算机便“自动”将光标置于其上，人机交互将更为直接。4）手势识别一个简单的手势蕴涵着丰富的信息，人与人可以通过手势传达大量的信息，实现高速的通信。将手势运用于计算机能够很好地改善人机交互的效率。5）三维输入三维空间控制器的共同特点是具有六个自由度，分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。通过控制这六个参数，用户可以在屏幕上平移三维对象或光标，也可沿三个坐标轴转动三维对象。在三维用户交互中必须便于用户在三维空

4、间中观察、比较、操作、改变三维空间的状态。6）语音识别语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令。7）表情识别面部表情是人体语言的一部分。人的各种情绪变化以及对冷热的感觉都是非常复杂的高级神经活动，如何感知、记录、识别这些变化过程是表情识别的关键。8）手写识别发展手写识别技术并嵌入到各种设备中，将是手写识别技术未来发展的重要方向之一。符合人的书写习惯，是最自然的输入方式。9）数字墨水数字墨水是一种新的人机界面技术，它借鉴手写识别技术的同时，克服了它的许多局限性。数字墨水在数学上是通过三阶贝塞尔曲线来描述笔输入的笔迹，它的记录格式与图像和文本格式都不同。这种

5、存储方式使得数字墨水文件的大小很小，从而可以更有效地进行存储。三、实验步骤1）借助图书馆的中英文参考文献资料以及网络，确定出一种多通道用户界面，可以是眼动跟踪、手势识别、三维输入、语音识别、表情识别、手写识别等。2）完成对该多通道用户界面的综述（包括定义、发展历史、当前的应用、主要的研究方法分类、以及发展前景以及中英文参考文献（至少各5篇）四、语音识别综述1前言随着信息技术的高速发展和人类对计算机的依赖性不断增强，人机交互（Human-Computer Interaction）能力越来越受到研究者的重视。如何实现计算机的拟人化，使其能感知周围的环境和气氛以及对象的态度、情感的内容，自适

6、应地为对话对象提供最舒适的对话环境，尽量消除操作者和机器之间的障碍，巳经成为下一代计算机发展的目标。显然，人的大脑所表现出来的心智现象不仅仅体现在“智”的方面，而且还体现在“心”的方面。人工智能巳经不仅仅把研究重点放在对人脑智能实现上，而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的，而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。顾名思义，语音情感识别包括语音识别和情感识别两大领域，而情感识别中又包括诸如心理学、生理学等多个学科，所以如果要想使计算机准确的在语音中提取出说话人所表达的感情，就必须要从多方面知识领域着手。目

7、前有许多关于语音和情感之间相互联系的研究，如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别技术的用途非常广泛，可以用来设计人性化的语音人机界面；可以用于互动影视；可以用于辅助语音识别；可以用于情感翻译；还可以用在测谎、电子游戏和辅助心理治疗等方面。2研究现状2.1概述1967年，诺贝尔奖得主Simon H A.在认知基础领域强调1：“思想和解决问题的基础理论都不能忽视情感对他们的影响疽情感的传达和描述对于信息的理解和交互是非常重要的。在日常生活中，人们可通过人的面部表情、声音、手势、体态、心跳、步态、体温、呼吸、血压和心肌电流图等来交流情感，

8、其中，人的声音起着非常重要的作用。人的情感是可以通过语音信号反应出来的。从语音中提取情感的基本思路就是找出能反映情感的声学参数，分析其与情感之间的关系。传统的语音处理系统仅仅着眼于语音词汇传达的准确性，而完全忽略了包含在语音信号中的情感因素，所以它只能反映信息的某个方面。情感的识别和表达对于语言信息的交流和理解是非常必要的，也是人们最大的心理需要之一。而作为认知情感研究的第一步，就是要识别各种情感的表现形式，然后才能有效地在实际中利用情感因素，并进而对心智活动的其他方面进行深入研究。2.2情感分类与情感化智能计算情感的分类是一个有趣而复杂的问题，己有许多学者对这个问题展开讨论2。学术

9、界提出的关于情感的定义大概就有1 00多种。为了让计算机能够更好地完成情感识别任务，必须对人类的情感状态有一种合理而清晰的分类。早在1962年， Tomkins曾提出人类的基本感情有8种，分别是愤怒、害怕、苦恼、厌恶、欢乐、惊奇、关爱和羞愧。1980年，Plutchi k提出了与之不同的另外8种基本情感2：害怕、愤怒、哀伤、欢乐、厌恶、惊奇、容忍和期待。在1988年的时候，O rtony，Clore和Collins对之前所提出的基本情感分类进行了一个汇总3，其中最常见的四种基本情感是害怕、愤怒、悲伤和欢乐，其次常见的四种情感是厌恶和惊奇。除去这六种情感之后，其余的情感分类就比较分散，不同的研

10、究者所提出来的基本情感分别有220种不等。除了定义基本情感外，也有通过定义情感的n维取值来描述不同的情感，比如常见的二维取值，是程度（平静/兴奋）和取向（负的/正的）。Lang认为，根据n维取值方法进行分类比根据离散的分类更可信4。另外，情感在感觉上可能是“模糊的”即一个元素可以同时属于一个以上的类5。当人们处于相互交织的情感之中时，是很难将其归入某种特定的情感状态的，很明显，情感状态越纯、越单一的情感，计算机进行分析和识别的效果就会越好。任何表示法都有自己的适用性和局限性，在语音情感识别中，采用哪种情感分类方法取决于具体问题，不能一概而论。情感计算的目标是使计算机拥有人类的情感。

11、如果计算机能够有效的对情感做出判断，就必须拥有与规则系统相一致的情感或类似的情感机制。对于语音情感的识别也是一样，只有更好的考虑情感因素，才能更好地实现各种情感的分析与计算，因此现在越来越多的研究工作者致力于情感的智能计算方面的研究。在传统的刺激-反映学习理论中，通常不考虑情感对适应性的参与利用。但Mower发现6，学习不仅仅只有刺激-反映的发展过程，而且还应该有一个牵涉到情感发生的过程。他所提出的双过程模型理论指出，在情感状态中可以更灵活地学习，并提供新的学习方法动机来源MIT媒体实验室的 B.Blumberg对仿真狗的研究首先将情感因素引入到学习之中，并且近年来正致力于对于情感机

12、器人的研究。基于情感智能计算的另一个方面就是关于情感化决策的研究，也就是让计算机可以自动的对某些特定的事物做出灵活而明智的决定。1994年，A.Araujo提出了一种将低层生理情感反映与其所影响的认知相结合的模型7。该模型通过激励和倾向性的量化来描述情感。该模型由，情感网络”和“认知网络”两个相互作用的网络构成，分别用来模仿人脑中的边缘结构和皮层结构，该模型在情感与记忆的结合研究方面迈出了具有重大意义的一步。2.3语音情感的特征提取一般来说，语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明，高兴时，通常是语速较快，音量较大

13、；悲伤时，通常是语速缓慢，音量较小。基音是最常用的判定情感的语音特征，它反映了超音段的信息。在语音情感识别中使用的特征参数有基频（Pitch），其次才是能量（Energy）、语速（Speech Rate）、共振峰频率（Formant）、单个音节的持续时间（Duration）、音节之间的停顿时间（Pause）、线性预测系数（LPC）、Mel倒谱系数（MFCC）等，以及它们的各种变化形式，如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征，因此和人的生理构造有着密切的关系，在不同的个体上显现出较强的相异性。Dellaerat等人主要使用了基音轮廓线，来区

14、分悲伤、生气、高兴和害怕，识别率能达到60-65%。Seppanen等人在利用韵律学对芬兰语进行语音情感识别时，提出了共43种情感参数，其中基音部分包括基音均值、中值、最大值、最小值、基音范围等参数，对于单个确定人的情感识别取得了 80.7%的识别率。Petrushin采用了基音、一次共振峰和二次共振峰、能量、说话速率等参数对五种情感识别取得了很好的效果，平均识别率达到70%。McGilloway等人研究了高兴、生气、悲伤、害怕和正常这五种情感状态的分类，从能量、基音的运动轨迹中抽取了 32个潜在的特征，得到了 55%的识别率。以下比较详细地分析一下常用的特征。下表中总结了有声情感与五

15、种基本情感之间最普遍的联系8。类型害怕愤怒悲哀高兴厌恶说话速度很快有点快有点慢较快或较慢非常慢平均音调非常高非常高有点低很高非常低音调范围很广很广有点窄很广有点广强度普通较高较低较高较低声音质量不规则的表达带呼吸声的胸腔音调引起共鸣的带呼吸声的尖叫抱怨地胸腔音调变化程度普通的突然的强调音节向下变形平滑的向下变形广阔向下的终端变形清晰度精确的拉紧的含糊的普通的普通的表1人类声音特征与情感之间的一般联系2.4语音情感识别的方法与手段各种模式识别方法，如线性判别分类(Linear Discriminant Classifier), K最近邻法(K-Nearest Neighborhood)、支持向量

16、机(Support Vector Machine) 高斯混合模型(Gaussian Mixtures)、隐马尔可夫模型(Hidden Markov Model)等，都被应用于语音的情感识别。许多学者针对这些情感语音的特征，比较了不同的分类方法能够达到的不同效果。在这些分类方法中，人工神经网络和隐马尔可夫模型的性能比较出色。在模式识别方面，各国研究人员在语音情感信息处理领域几乎利用了所有的模式识别手段，新的方法的应用和对比层出不穷。Chul Min Lee等把语音情感识别归结为模式识别问题，并提出了三种方法9:线性判别分类(LDC)，K最近邻法 (k-NN),支持向量机(SVC)。LDC

17、是带有高斯概率分布的参数方法，估算完参数的均值和方差后，LDC利用贝叶斯准则计算出最大后验概率对情感进行分类。K-NN方法通过计算k领域的平均均值估算每类情感的局部后验概率。在SVC方法中，用非线性的映射方法将输入向量映射到更高维的特征空间中进行计算。Tin Lay New等采用了 Mel频率语音能量系数和HMM分类方法10，将语音信号分成16ms 一帧的互相重叠的窗口，每一段语音帧都用12Mel频率下边带能量评价准则来进行参数化，对参数化后的再用矢量量化器进行编码。在系统的训练阶段，按照分类情感训练生成的码本，训练产生4状态各态历经HMM。在识别阶段，把没有经过事先分类的语音进行特

18、征编码，之后用巳经训练好的HMM 进行识别，识别后的输出有五类，第一类输出是愤怒，第二类为伤心，愤怒与惊讶被作为一个输出分到了第三类，第四类为恐惧和高兴，第五类为厌恶和悲伤。Tin共做了三次实验，第一次只对第一组和第二组进行识别，其平均识别准确率达到了 95%；第二次实验，对第三类和第五类进行了识别，其平均识别率达到了 87.5%，第三次实验，对第三、第四、第五类进行识别，其平均识别率达到了 82.22%。Tin从一个新的角度提出了语音情感识别的方法。在基于神经网络的分类方法方面，Nicholson所研究的系统的整个神经网络由8个子网构成，其处理流程分两部分：语音处理(包括特征计算、句

19、点提取和特征提取)情感识别(包括神经网络训练和识别情感)。其每个子网处理一种特定的情感。测试发现11，负面的情感，如愤怒和悲伤容易识别，但正面的情感(比如喜悦)不易识别。H. Sato等也采用神经网络，但是只能把平静时的情感和其他3种情感区分开来，还不能具体识别每一种情感12。McGilloway等人利用几位不同乘客的抽取语音作为研究对象，情感同样是高兴、生气、悲伤、害怕和正常状态，从强度、基音的运动轨迹中抽取了 32个潜在的特征，使用了两个不同的分类器，其中的神经网络分类器采用90%作训练，10%作测试，得到了 5 5 %的识别率13。赵力等人14提出了一种利用全局和时序结构的组合特

20、征以及MMD进行情感特征识别的方法，对10 名话者采集了带有欢乐、愤怒、惊奇和悲伤的1000句话进行识别，并取得了 94%的平均情感识别率。2.5语音情感识别的工作流程和语音库的获取一般地，语音情感识别的工作流程大致可以分为以下几个步骤：1.对语音信号根据需要进行接收和预处理；2.对预处理后的语音信号进行特征提取和分类；3.根据情感的发生和表达等知识预见话音中所隐含的潜在的感情；4.让计算机通过学习，认识各个情感的重要特征，积累情感识别的经验；5.纠正情感识别中的偏差，加强计算机对不确定性情感的识别能力；6.输出计算机最终的识别结果。如果让计算机能有效的对情感进行识别，那么就必须对情感信

21、息进行有效的选取。情感信息的主要表达方式有内在型和外在型两种，而声音属于外在型情感信息范畴。语音数据的采集一般是请专业的演员在特定的环境下按照要求朗读事先给定的句子或词组，使之听起来带有特定的情感色彩，此时通常要求以16khz速率采样，一般存储为.wav格式，语音库的大小由几百到几千句不等。这些数据还需要通过听取试验进行验证，验证方法是由参与语音情感录取之外的几个人，在不参看文本的情况下对听到的随机播放的话音中所包含的情感进行判断，根据每个人判断的结果，对于那些含有感情歧义的话音进行修改或者删除，留下感情特征明显的语句用来让计算机进行情感的分析与识别。由于大多数情感语音都是先由演员

22、来模拟产生的，因此毫无疑问存在着一个问题，这就是演员模拟的情感语音是否真正反映了普通人会将本是情感的状态进行激励的掩饰，而有些人会将本不是某种情感的状态进行扩张，极力装出所指定的情感状态。因此，由演员来录制模拟情感语音，有可能错误地表达了语音中情感的特点。3.总结与研究展望许多学者已经把语音情感识别和人脸表情识别结合起来研究，并取得了比较理想的效果。另外，语音中情感的识别和合成带有情感的语音是相辅相成的。合成情感语音最重要的韵律参数包括振幅和基音频率，通过修改平静时语音的发音持续时间，基音和振幅来产生带有情感的语音。对这些特征的分析，不仅有助于语音情感识别，还有助于情感语音合成。这些

23、方面的研究将有助于人工智能向更人性化方向发展。尽管语音情感信息处理已经在很多方面取得了一系列的进展，但是面对真正的人机交互，还有许多的问题值得研究。3.1情感分类与情感识别目前的研究大多数将情感分为220种不同的基本情感。有人认为，其他的情感可以有这些基本情感派生出来，那么到底基本情感是哪些，其他的情感怎么由这些基本情感进行派生，仍然是一个有待研究的问题。人的情感复杂多样，也许只有在人们对情感计算和情感模型的领域的了解不断深入之后，才能更可靠的对语音中所含有的情感进行识别。3.2非线性计算方法与语音情感的识别情感是如何与语音相互作用的，每种情感的基本特征是什么，怎样才能得到又少又准确

24、的语音特征，这些都是尚未解决的问题。目前，在提取表征说话人特征时，都是按帧提取的，认为语音信号是短时平稳的，然后再按帧进行特征提取。但是语音信号的特性是随时间而变化的，是一个非平稳过程。如果从整体上把握一段语音，可能对情感的提取与分析更加有利。那么如果把非线性分析方法引入语音情感的识别中，可能会达到很好的效果。1998年提出来的希尔伯特-黄(Hilbert-Huang)变换现在被越来越多的用来进行语音识别和说话人识别的研究，也许这也将成为语音情感识别的一个新的手段。我们有理由相信，随着非线性理论的不断发展，人们对语音情感的分析与识别的认识也会更深一步。3.3语音情感的分级识别在人们表达的情感中除了有较纯的情感之外，还有交织情感，如悲喜交加等，当人们处于交织情感之中时，很难将其归入某种特定的情感状态。也许可以利用分级识别的方法，如第一级识别，先把情感分为几组，把情感特征比较相似的分为一组；在第二级识别的时候，可以利用语法分析或特定情感中的关键字识别，把分组后的情感进行细分。如果发现最终得到较为满意的识别结果，那么分类结束。3.4语音库的选取巳有的语音情感识别的成果大都建立在一个较小的语音库之上15。由于研究的语音样本大多属于人工材料，有的是采用专业演员朗读制定的语句，有的是从这种媒体中选取具有明显情感倾向的语句。采用这种素材作为试验的样本，使样本的收

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人机交互实验2报告解读

文档简介

温馨提示

最新文档

评论

人机交互实验2报告解读

文档简介

温馨提示

最新文档

评论

相关文档