面向智能机器人的Teager语音情感交互系统设计与实现 .pdf_第1页
面向智能机器人的Teager语音情感交互系统设计与实现 .pdf_第2页
面向智能机器人的Teager语音情感交互系统设计与实现 .pdf_第3页
面向智能机器人的Teager语音情感交互系统设计与实现 .pdf_第4页
面向智能机器人的Teager语音情感交互系统设计与实现 .pdf_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 34 卷第 8 期 2013 年 8 月 仪 器 仪 表 学 报 C hi nese Jou rnal of Sc i enti fi c Instru m ent V o1 34 N o 8 A ug 20 13 面 向智能机器人 的 T eager 语音情感 交互 系统设计 与实现 木 李翔 李 昕 胡 晨 卢夏衍 1 上海大学机电l丁程与自动化学院上海200072 2 哈尔滨工业大学机器人技术与系统国家重点实验室哈尔滨150001 摘要 自从 M aragos 首先提出了Teager 能量算子 TEO 后 该算子得到了一系列应用 Teager能量算子的非线性特性 使之 能在抑制背景噪声的同时进行信号特征的有效提取 它还保留了倒谱分析方法中的准稳态假设 因而更能有效地表征语音信 号的复杂性 探索了基于 Teager能量算子的非线性特征对于区分情感语音的有效性 并且进一步将其和普通的声学参数和音 质参数相结合 以应用于语音情感的识别中 以 H M M 和 G M M 为分类器 选取7 种情感设计了4 组对比实验 达到最高 85 的 识别正确率 实验结果表明 将传统的语音情感特征和Teager能量算子的非线性特征相结合 能显著地提高语音情感识别系统 的性能 在此基础上 提出了智能情感机器人进行情感交互的框架 设计实现了智能服务机器人的情感交互系统 经过实时情 感交互实验验证 该智能服务机器人可以很好地与交互对象进行简单的情感交流 关键词 Teager能量算子 非线性特征 智能机器人 语音情感交互系统 中图分类号 TP391 42 文献标识码 A 国家标准 学科分类代码 520 20 D e si gn an d i m p l em en ta ti o n o f sp eec h em o ti o n i n ter ac ti o n sy stem b ased o n T ea g er fo r i n tel l i g en t rob o t L i X i an g Li X i n H u C hen Lu X i ayan J Sc hool of M ec hatroni c E ngi neeri ng A utom ati on Shanghai Uni versi ty Shanghai 200072 Chi na 2 State Key Laboratory of Roboti c s and System H arbi n Insti tute of Tec hnol ogy H arbi n 150001 Chi na A bstrac t Si nc e M aragos fi rstl y put forward the Teager energy operator TE O the operator has got a seri es of appl i c ati ons T he nonl i near c harac teristi c s of th e T eager energy operator c an effec ti vel y extrac t si gn al feature w hi l e i nhi bi ti ng bac kground noi se at the sam e ti m e It al so retai ns the quasi steady state assu m pti on i n c epstrum anal ysi s m ethod and c an m ore effec ti vel y represen t th e c om pl exi ty of the speec h si gna1 T hi s paper di sc u sses the val i di ty of di sti n gui s hi ng em oti onal speec h based on the nonl i near features of T eager energy op erator and c om bi nes the n onl i near features w i th trad i ti on al ac ousti c par am eters and voi c e qual i ty param eters w hi c h are appl i ed to sp eec h em oti on rec ogni ti on T he H M M and G M M w ere used as the c l assi fi ers seven k i nds of em oti on status w ere sel ec ted to desi gn 4 group s of c om parati ve experim ents an d the hi ghest rec ogni ti on rate of 85 w as ac h i eved The experim ental resul ts i nd i c ate that c om bi ni n g the n onl i near c harac teristi c of th e T eager energy operator w i th tradi ti onal em oti onal speec h features c an i m prove the perform anc e of sp eec h em oti on rec ogni ti on system rem arkabl y O n thi s basi s thi s paper p uts forw ard the fram ew ork of i ntel l i gent em oti onal robot m aki ng em oti onal i nterac ti on desi gns and real i zes the i ntel l i gent servi c e robot em oti onal i nterac ti on system T hrough real ti m e em oti onal i nterac ti on experim ent veri fi c ati on th i s i ntel l i gent servi c e robot c an m ake si m pl e em oti onal c om m uni c ati on wi th i nterac ti ve objec ts K eyw ords T eager energy operator nonl i near feature i ntel l i gent robot em oti onal speec h i nterac ti on system 收稿 日期 2013 01 Rec ei ved Date 2013 01 基金项目 机器人技术与系统国家重点实验室开放基金项目 SKLS 2009 M S 10 资助 学兔兔 w w w x u e t u t u c o m 第 8 期 李翔 等 面向智能机器人的 Teager 语音情感交互系统设计与实现 1827 1 引 言 随着机器人技术 日臻成熟 智能服务机器人 取得令 人鼓舞的成就 本 田公司开发的 ASIM O 机器人 可 以行 走 自如 并可以随着音乐翩翩起舞 日本东京 大学研制 的 H RP 2 智能家庭服务机器 人可以为人们端 茶递水 在工业及 日常生活中 机器人也被广泛地应用 如照顾伤 残人 士及老弱病人 随着智能服务机器人 的发 展 人 机 交互 hum an robot i nterac ti on HR I 已经成为机器人科 学 和机 电一体化领域 的重要研究课 题 语 音交流作 为 人机交互的主要方式之一 不但能表达语义 还能传递情 感信息 在消除人与机器人之 间的障碍 实现智能服 务 机器人 的智能化研究过程 中 语音 的情 感识别变成关键 技术 这也成为智能服务机器人领域的研究课题之一 智能服务机 器人 的人 机交互 系统 有很 大 的应 用潜 力 语音交互在其 中发挥 了巨大 的作用 例如家庭管 家机器人 佣人机器人 Sri kandi 移动机器人 它 们只需用语音命 令操作就能实现控制 以便对 机器人或 者计算机了解很少的人使用 语音情感识别是人机交互和情感计算 两大研究方 向的重要领域之一 大量研究显示 语音包含 了大量体 现情感信息 的特征参数 包括基频 能量 共振峰频率 频 率倒谱 系数 M el frequenc y c epstral c oeffi c i ent M FCC 等 共几百个特征 M urray 等人总结了基频 能量 时长等韵 律 特 征 得 出 了语 音 音 质 特 征 与 情 感 之 间 的定 性 关 系 使得韵律学特征成 为语音情感识别 的常用特 征 此后 研究者加入共振峰参数来表征语音音质特征 利 用 线性预测编码 1i near predi c ti ve c odi ng LPC M el M FCC 等 语音学特征 使得韵律学特 征与语音学特 征结合识 别情感 虽然世界各国的研究人员在语音情感 研究 的领 域取得 了许多研究成果 但是 如果将 所有的这些成果放 在一起 比较 可 以发现大部分 的研究 人员都是采用韵律 特征或 者韵律特 征 的线 性组合 与变换 作为研 究对 象 不过 还是有少数研究人员提 出了一些新 的特 征参数作为研究 对象 比如 Guojun Zhou 等人 就基于 能量 的基础上 提出了基于 Teager能量算子 teager ener gY operator TEO 的特征在非线性领域 的研究 他们的实 验证明音调是线性特征中最有效 的 而基于 TEO 的特征 比音调更有效 识别准确率 比之音调 提高 了 5 马永 林等人 钊 用基于 TEO 的基频对变异语音进行分类 对特 定人平均分类正确率达到 了 93 3 多说话 人分类正确 率达到 85 8 Gao Hui 等人 基于 TEO 的非线 性特 征 采用 隐马尔可夫模 型 hi dden M arkov m odel H M M 在使用汉语语音的条件下 识别悲伤和生气 平静 欢快 4 种情绪 结果证实结合 非线性 TEO 的识别特征 NFD M el A F M e l D A F M el 可有效提高情绪识别性 能 张 德祥等人 利用 Teager能量算 子计 算语音信号 本征模 态 函数 的瞬时能量 并对本征模态 函数进行 系数 峭 度计算 提取信号的统计特征信息用于语音信号的端点 检测 取得 了良好 的效果 但是 目前还没有基 于 Teager 能量算子的非线性特征和普通的声学参数 和音质参数相 结合 的专门研究 因此还不足 以说 明 TEO 非线性特征对 于情感识别 的效果 本文在 TEO 基频和基于 时域 TEO 的 M el 倒谱 系数 的基础上 加入 了对 于频 域 TEO 的 M el 倒谱 系数 的研 究 并且将 TEO 的非 线性 特征和 普通 的情感 特 征相结 合 以探索在多特征 向量下基于 TEO 的非线性特征对语 音情感识别 的有效性 2情感特征参数的选取 2 1传统的声学参数及音质参数 情感特征的优劣直接影 响到情感最终识别结果 的好 坏 Tato 从 激发维 Arousa1 评价维 Val enc e 一 强度维 Power 的三维空间情感 模型指出 如果提取 出反映的 情感维数越多的情感特征信息 那么就越能更好地区分 情感 Perei ra 等人 的研究表 明语 音信号 的韵律特 征 同3 个情感维度之间具有一定 的相关性 其 中唤醒度 和 韵律特征之 间的相关性 明显 Gobl Johnstone Perei ra 等 人 的研究证 明语音信 号 中的音质特 征在能够很好 地 表达三维中的 评价维 信息的基础上 还能够部分地 反 映三 维空 间情 感 模 型 中的 强 度维 信 息 在 证 实 了 Perei ra 的研究成果 的基础上 赵艳等人 对共 振峰等音 质类特征进行进一 步的研究 发现共振峰等音质类特征 与效价维的相关 性较强 因此 根据 Cowi e 等人 的研 究结果 为 了更好地识别情感 在提取基本 的韵律特征参 数 的同时 本文 也考虑 与语 音 的音 质特 征参数 相结合 提取短时能量 E 过零率 r 基频 F0 及其 1 2 阶差 分 M FCC 及其 1 2 阶差分作为韵律参数 第 1 第 2 第 3 共振峰 F1 F2 F3 作 为音质参数 将 其结合 用于 TEO 非线性特征的对 比实验 中 2 2 TE O 的非线性特征参数 传统的线性声学理论认为来 自声带的气流在声道 内 是以平面波的形式传播 声音 的产生 主要取决 于声道 内 的激励源位置和声带的振动 而根据 Teager 2 的研究认 为语音的生成是靠声 门激励及声道 中的涡流共 同产生 涡流广泛分布于整个声道 内 声道 内交互作用 的非线 性 涡流构成了真正的声源 为度量这种非线性过程产生的 语音 Teager提出了一个能量操作算子 TEO M aragos 等 人 认为 该算子具有非线性能量跟踪信号特性不仅对 学兔兔 w w w x u e t u t u c o m l 828 仪器仪表学报 第 3 4 卷 调幅 A M 信号的幅包络和调频 FM 信号的瞬时频率 的变化非常敏感 而且对不同类型的信号能清晰显示不 同的 TEO 结果 Teager 和 Kai ser提 出了非线性能 量 算子的连续形式 引 f 1 式中 是连续 Teager 的能量算子 TEO t 是一个 连续语音信号 Kai ser 给出了其离散形式 n 是离 散语音信号 n n 一 rt 1 n 一1 2 频域 的离散 TEO 形式如下 一x f 1 x f 一1 3 式中 为频域的各个采样点 1 TEO 基频 NTD F0 基于 Teager能量算 子的这种特点 在进行 情感语音 分类 时 首先 对原始语 音信号进行 TEO 变换 然后用 自 相关法提取基频 从而得到特征参数 NTD FO 将非线性 的 TEO 引入基频估计后 可 以从 线性 和非线性 2 个不 同 的研究角度研究基频 的变 化 在基音检测 时不再 针 对初始的语音信号 而只是针对信号 TEO 后的非线性能 量 通过 TEO 研究声激励源的细微变化规律 经 TEO 作 用后的语音信号同原始语音信号具有相同的周期性 而 且有实验表 明对于情感语音它具有更好的周期性 2 基于时域 频域 TEO 的 M el 倒谱系数 目前 TEO 主要是用于时域 中 2 8 本文从 时域和频 域 2 个角度来提取 M el 倒谱系数 得到 NTD M FCC non l i near ti m e dom ai n M F CC features 和 N FD M FC C nonl i n ear equenc y dom ai n M FCC features Teager能量算子 能在抑制背景噪声 的同时 进行信 号特征的提取 它也保 留了倒谱分析方法 中的准稳态假 设 因而更能有效地表征语音信 号的复杂性 由情感语 音特征分析结果可知 与平静时 的语音相 比 不 同情 绪下 能量会在不 同频段上偏移 使得主要 的能量在不同 情绪下集 中在不 同的频段上 愤怒和高兴均表现为能量 的加强以及频谱 中高频成 分的增加 与此相反 悲伤 对 应于能量 的减弱 语速的减慢 以及频谱中高频成分的降 低 害怕除了频谱 中高频 成分 的增加外 还包 括基频 曲 线上抖动的加强和语速的加快 这种能量分布的差异经 过 TEO 变换后会更加明显 而且有研究表 明 在语音信 号的频域中 语音信号的谱峰信息 peaks 要比谱谷 val l eys 信息语音感知方面拥有更大的贡献 j 因此 基于 频域的TEO 非线性变换可以强诃能量高时的谱峰信息 使不同情绪间的语音能量有更加明显的差异 在识别时 系统能更明显地 区分 基于时域 TEO 的 M el 倒谱系数 NTD M FCC 的提取 过程是 首先对情感语音分帧 预加重 加汉明窗 对每帧 采样点用式 2 计算 TEO 然后计算 Ffvr 进而求得功率 谱 对谱值进行 M el 频域带通滤波 滤波器个数为 24 对 M el 频域滤波器 组 的输 出求 自然对 数和 离散余 弦变 D CT 从 而得 到 12 阶的 TEO 非线性 M FCC 特征 参数 N T D M F C C 基于频域 TEO 的 M el 倒谱 系数 NFD M FCC 的提取 过程为 首先对情 感语音 分帧 预 加重 加汉 明窗 计 算 F丌 对各点谱值用式 3 计算 TEO 对经 TEO 变换后 的 谱值进行 M el 频域带通滤波 滤波器个 数为 24 对 M el 频域 滤 波 器 组 的输 出求 自然 对 数 和 离 散 余 弦 变 换 D CT 从 而得到特征 NFD M FCC 两种参 数的提取过 程分别如图 1 所示 图 1特征提取结构图 F i g 1 F eature extrac ti on struc ture di agram 3 实验与结果 本实验的情感语句来 自德国柏林情感语音库 选取 A n ger B ored om D i sgust F ear H ap p i n ess N eu tral S ad ne ss 7 种情感 每种情感 70 句共 490 条语句组成本文的实验 数据库 其 中有 5 男 5 女 10 位话者 每种情感 随机 选 取 50 句共 350 句组成训练样本集 剩下 的每种情感 20 句共 140 句组成测试样本集 本实验是基于连续 隐马尔科夫模型的语音情感识别 系统 选取每个 H M M 模型具有 5 个状态 高斯 混合 数为 5 为避免 分类器训 练不 确定 性对 检验结 果 的干 扰 进一步做了在 G M M 分类器下 的对 比实验 对情感识 别 的结 果 进行 检 验 和 比较 对 于每 种 情感 建 立 一 个 GM M 模型 进行训练 在识别阶段计算测试样本 的特征 向量在每种情感 GM M 模 型下 的似然 得分 将似然 得分 最大的 G M M 模型作为识别结果输 出 另外 本文 在对 实验 结果 进行 统计 分 析其 识别 正 确率的同时也计算单一情感的误识率 单一情感误识 率代表某种情感的被误识率 定义如下 他种情感误识 别为此类情感的样本数除以总的测试样本数 单一情 感误识率可以更好地反映出哪种情感最容易为其他情 感所混淆 本文设计的 4 组对比实验如下 1 选取普通基 频 F1D 和 TEO 基频 NTD F0 作为 第 1 组 检验 TEO 基频对于情感分类 的效果 2 次实验 学兔兔 w w w x u e t u t u c o m 第 8 期 李翔 等 面向智能机器人的Teager语音情感交互系统设计与实现 1829 特征参数如下 FD 及其 1 2 阶差分 共 3 维 NTD F0 及其 1 2 阶差分 共 3 维 2 选取普通 M FCC 和基于时域 频域 TEO 的 M el 倒 谱系数作为第 2 组 检验 基于 TEO 非线 性 的 M FCC 情 感分类效果 3 次实验的特征参数如下 M FCC 及其 1 2 阶差分 共 36 维 NTD M FCC 及其 1 2 阶差分 共 36 维 NFD M FCC 及其 1 2 阶差分 共 36 维 3 将基频和 M FCC 相结合作为第 3 组对 比实验 对 比 TEO 基频和 TEO 的 M FCC 与普通的基频和 M FCC 对 于情感分类 的效果 3 次实验的特征参数如下 FD 及 其 1 2 阶差 分 M FCC 及 其 1 2 阶差 分 共 39 维 NTD F0 及其 1 2 阶差分 NTD M FCC 及其 1 2 阶差分 共 39 维 NTD F0 及 其 1 2 阶差分 NFD M FCC 及其 1 2 阶差分 共 39 维 4 最后将 TEO 的非线性 特征和能量 过零率 第 1 第 2 第 3 共振峰参数组成声学参数和音质参数相结合的 多特征 向量情感识 别特征参数 作为第 4 组对 比实验来 检验在多特征 向量下 TEO 非线性特征 的情感分类性能 3 次实验的特征参数如下 及其 1 2 阶差分 M FCC 及其 1 2 阶差分 E r F1 F2 F3 共 44 维 NTD F0 及 其 1 2 阶差分 NTD M FCC 及 其 1 2 阶差分 E r F1 F2 F3 共 44 维 NTD F0 及其 1 2 阶差分 NFD M FCC 及其 1 2 阶差分 E r F1 F2 F3 共 44 维 分别在 H M M 模型和 G M M 模型下完成上述实验 记 录结果如下 1 H M M 作为分类器 如表 1 4 所示 TEO 基频相 比普通基频识别率有所 提高 但 由于特征维数较低 二者识别率都不 高 故不作 详细分析 表 1 基频特征 3 维 T abl e 1 F undam ental frequenc y c harac te sti c s 3 D 特征 总识别 正确率 F10 N T D F 0 3 3 57 36 43 表 2 M FC C 特征 36 维 Tabl e 2 M FCC c harac teri sti c s 36 D 表 3 基 频及 M F C C 特征 39 维 Tabl e 3 Fundam ental frequenc y and M FCC c harac teri sti c s 39 D 学兔兔 w w w x u e t u t u c o m 1830 仪器仪表学报 第 3 4 卷 表 4 韵律 特征 及音质特征 结合 44 维 Tabl e 4 C om bi nati on of prosodi c features and voi c e qual i ty features 44 D 2 GM M 作为分类器 如表 5 8 所示 由于使 用 GM M 分 类器效 果不 如 H M M 而且 G M M 是验证 TEO 的非线性在不 同分类器下 是否有效 故不列出详细结果 表 5 基频特征 3 维 T abl e 5 Fundam ental frequenc y c harac teri sti c s 3 D 特征 总识别正确率 F 0 34 2 9 N T D F 0 36 4 3 表 6 M FC C 特征 36 维 T abl e 6 M F C C c harac teri sti c s 36 D 特征 总识别正确率 M F C C N T D M F C C N F D M F C C 6 2 86 6 O 00 6 5 7 1 表 7 基频及 M F C C 特征 39 维 T ab l e 7 F u nd a m enta l freq ue nc y an d M F C C c harac teri sti cs 39 D 特征 总识别正确率 F1D M F C C N T D F O N T D M F C C N T D F O N F D M F C C 6 6 4 3 5 8 5 7 7 0 0 o 表 8 韵律特征及音质特征结合 44 维 T ab l e 8 C om b i na ti on o f p rosodi c featu res and voi c e qual i ty features 44 D 特征 总识别正确率 FD M FC C 及 E r F 1 F2 F3 N T D F O N T D M FC C 及 E r F 1 172 F3 N T D F 0 N F D M F C C 及 E r F 1 F2 F3 70 OO 66 43 72 86 1 整体上 H M M 的分类效果较 GM M 要好 当特征 维数较低时 3 维 H M M 和 GM M 分类器 的识别效果相 差不大 当特征维数增大时 30 维以上 识别效果相差 较大 达到 10 以上 这是 因为 H M M 模型不仅用混合 概率密度函数来 逼近特征 矢量 的分布情 况 同时 H M M 模型还建立了若干状态 基于 M arkov 链 的随机过程还可 以很好地跟随特征矢量的动态变化 2 与传统的语音情感特征相 比 带有 NTD M FCC 参 数的实验在不 同的分类器及不同的特征组合下对识别效 果均有一定程度 的下 降 说 明基 于时域 TEO 的 M el 倒 谱系数不是一个 有效的特征 而带有 NFD M FCC 参 数 的实验在不同的分类器及不同的特征组合下对识别效果 均有一定程度的提升 这说 明基 于频域 TEO 变换 的 M el 倒谱系数特征在 情感识别 中是有效 的 故此 以下对带 有 NFD M FCC 参数的特征组合进行详细的分析 从整体识别正确率 出发 以 H M M 为例 4 组对 比实 验 中平均识别正确率分别提高了2 86 2 14 3 57 和 5 72 以 GM M 为例 4 组对 比实验 中识别正确率分 别提高了 2 14 2 85 3 57 和 2 86 从 特征维 数的角度 出发 在 H M M 分类 器 中 随着特 征维数 的增 大 识别正 确率随之上升 频域 TEO 的非线性特征对 正 确率 的提升率也 随之增 大 尤其 是 当特 征维数 较大 时 4O 维以上 频域 TEO 的非 线性特征可 以显示 出更好 的情感 区分效果 在 GM M 分类 器中 随着 特征维数 的 增大 识别正确率随之上升 但是频域 TEO 的非线 性特 征对正确率的提升率并不是一直上升 的 当特征维数在 40 维以上时 正确率的提升率下 降 这是 因为 当特征维 数较大时 GM M 的分类效果相 比 HM M 要差 3 从单一情感误识率的角度 出发可 以看 出 识别正确 率较低的情感其误识率也相对较低 在不 同的分类器 和 特征组合下 一般 Anger 只误识 为 H appi ness 反之亦 然 因此 Anger和 H appi ness 相对 于其他 5 种 情感较 为独立 可以比较容易地先将这 2 类情感从 7 种情感 中区分出来 另外 Boredom 和 Neutral 也较难区分 容易混淆 4 从单一情感的识 别效果 出发 取 不同分类器下第 2 3 4 组对 比实验 中普通情感特征和频域的 TEO 特征 的 结果共 l 2 组数据 计 算每种情 感在普 通特 征下 和频 域 学兔兔 w w w x u e t u t u c o m 第 8 期 李翔 等 面向智能机器人的 Teager 语音情感交互系统设计与实现 1831 TEO 非线性特征下 的平均识别率 并计算 其差值 作为识 别率 比较 的依据 最后计算各种情感 的最大 最小识别 正确率及其差值 平均识别正确率 和平均 被误识 率如表 9 所示 表 9各种情感的最大 最小识别正确率及其差值 平均识别正确率和平均被误识率 T a b l e 9 T h e m axi m u m m i ni m u m c o rre c t rec og n i ti o n rates and th ei r d i ff eren c es av era ge c orrec t rec ogn i ti on rates and average m i srec ogni ti on rates for vari ous em oti ons 从 表 中可 以看 出 频域 TEO 非 线性 特征 对 于情感 Anger Di sgust Neutral Sadness 的识别正确率均有一定的提 升效果 尤其是 Di sgu st 和 Sadness 分别提升 了 6 67 和 13 33 而对于 Boredom 的识别正确率虽有下降 但是下 降率不大 与Anger 的提升率持平 对于隋 感 Fear和Happi ness则没有影 响 此外 除了 Boredom 外 最大识别正确率 均出现在带有 NFD M FCC 参数的非线性特征组合中 需要 注意的是 在以 HM M 为分类器 带有 NFD MFCC 参数的各 类特征相 结合 的实验 中 对 Sadness 的识别正确率达 到了 100 进一步说 明了 TEO 非线性特征 的有效性 不管是 在最小最大还是平均识别正确率中 Di sgu st和 Sadness 的识 别效果最好 H appi ness 的识别效果最差 从最大最小正确 率的差值中可以看 出 Fear 和 di sgu st 的波动相对较小 说 明在不同的分类器及特征组合情况下 对于 Fe ar 和 di sgu st 的识别效果相对稳定 而 Boredom Neutral 和 Sadn ess 波动 相对较大 证明此 3 类隋感受分类器及特征组合的情况影响 较大 另外 Fe ar 的平 均单一情感误识率最 高 这是 因为 Fe ar 情感的表达比较灵活 依个人表达习惯不同而没有明显 的基频 频谱能量分布等特征 因此很容易与其他情感混淆 孙颍 等人 针 对 4 种不 同特 征 LPCC TEO M FCC ZCPA 在德国柏林语音库的实验 平均识别率为81 75 单独使用 l EO 特征 的识别 率为 80 83 3 采用本文所提 出的基于频域 TEO 变换 的 M el 倒谱系数特征 识别率达到 85 这证明这一特征的有效性和可靠性 4 智 能机器 人语 音情 感交互 系统 设计 与 实现 1 实时语音情感交互实验 本实验的实验平台为上海市电站 自 动化重点实验室 智能服务机器人 SKLPAT 实验过程为实验者对着机器 人 SKLPAT 说含有情感 的语音 然 后 SKLPAT 将 反馈情 感用语音表达 出来 本 实验分 别选取 基于 TEO 的 M el 倒谱系数 TFCC 基频 PF Pi tc h frequenc y 和 M FCC 相 结合 PF M FCC M FCC 等 3 种特征参数来训练语音模 型 实验针对高兴 悲伤 愤怒 平静 4 种情感进行识别 每种情感由实验者现场说 20 句话 每种特征参数的实验 总共 80 句 实验结果如表 10 所示 表 1O实时情感交互实验结果 T ab l e 1 0 R eal ti m e em o ti on i ntera c ti on experi m ents resul t 由表 l 0 可以看出 智能服务机器人 SKLPAT 的语音 情感实时识别 实验 的平均识 别率可 以达到 73 75 可 以进行情感交互 用 来满足一些特定 的交互 场景 但是 识别率还不是很高 主要是 由以下几个方面造成的 1 人 的情感是通过面部表情 行为 语音 生理反应 等多种方式综合体 现的一 种心理活动 语 音信号只是情 感表达的一种形式 2 所应用 的情感语音库并也不是真正意义上的语音 数据库 如何评测实验用 的情感 数据的真实有效性 国 内外暂时还没有统一的标准 实验人员在语音 录制环境 及方法上有待于进一步提高 3 语音信号的情感特征和特定文本信息是密切相关 的 本实验中设计的通用 的实验语句会 削弱语音 中的情 感特征 4 实验中训练的样本 总数是有 限的 不能对 语音情 感模型做出完全准确的训练 学兔兔 w w w x u e t u t u c o m 1832 仪器仪表学报 第 3 4 卷 5 结 论 本文从基于 Teager能量算子的非线性特征人手 将 其用于反映 激发维 信息 的韵律特征参数的改进 中 并 与能够反映 评价维 和 强度维 信息 的音质特征参数 相结合 利用 H M M 模型对 7 种情感分类取得了平均最高 85 的正确率 说 明基于 Teager能量算子的非线性 特征 确实是一种较有效的情感特征参数 无论是将其单独作 为分类特征还是与反 映其他信息 的特征参数相结合 均 比传统的特征参数表现出了更佳 的分类性能 基于 TEO 的非线性特征在带有情感环境下 的语音分析 体现 了一 定 的动态语音生成时 的非线性变化 今后还需要在该领 域有更多的深入研究 和完善 参考文献 1 CHIAVERINI S SICILIANO B VILLANI L A survey of robot i nterac ti on c ontrol sc hem es w i th experim ental eom pari son J IEEE A SM E Trans M ec hatroni c s 1999 4 3 273 285 2 GA SSERT R M OSER R BU R D ET E et a1 M RI fM R I c om p ati b l e roboti c system w i th forc e feedb ac k for i nterac ti on wi th hum an m oti on J IEEE A SM E Trans M ec ha tro ni c s 2006 11 2 216 224 3 K UL II B JA N O S S TIBO R S M obi l e robot c ontrol l ed by voi c e C Intern ati onal Sym posi um on Intel l i gent System s an d Inform ati c s 200 7 89 192 4 LIU P x CH A N A D C CH E N R et a1 Voi c e based ro bot c ontrol c Internati onal Conferenc e on Informati on A c qu i si ti on 2 005 54 3 54 7 5 JEA N J H H SIEH M J LIN Z Devel opm ent of a house keepi ng robot wi th vi sual servoi ng c apabi l i ti es c Ic C A S S IC E 200 9 7 12 7 16 1 6 l B UD IH A R TO W JA ZID IE A PU RW A N TO D Indoor n avi gati on usi ng ad ap ti ve neuro fu zzy c ontrol l er fo r serv ant ro bot C Internati onal Conf erenc e on Com puter En gi neeri ng and A ppl i c ati ons ICCE A 2010 582 586 7 THIAN G D W Li m i ted speec h recogni ti on for c ontroll i ng m ovem ent of m ob i l e robot i m pl em ented on A T m ega l 62 m i c roc ontrol l er C Intern ati onal Conferenc e on Com puter an d A utom ati on Engi neeri ng ICCAE 20O9 347 350 8 高美娟 杨智鑫 田景文 移动机器人实时语音控制的 实现 J 电子测量技术 2011 34 7 50 53 G A P M J Y A N G Z H X TIA N J W A c hi eve c ontrol by real ti m e voi c e of the m obi l e robot J El ec troni c M eas urem ent Tec hnol ogy 20 11 34 7 50 53 9 W EIGA N D E Em oti ons The si m pl e an d the c om pl ex M 10 12 13 14 15 16 17 18 19 A msterdam Phi l adel phi a John Benjam i ns Publ i shi ng C om pany 20O4 M U R R A Y I R A R N O T r J L T ow ard the si m td ati on of em oti on i n syntheti c sp eec h a revi ew of th e l i teratu re on hum an voc al em oti on J1 Journal of the Ac ousti c al Soc i ety of Am eri c a 1993 93 2 1097 1108 G U Y 0 N I G U N N S N IK R A V ES H M et a1 Feature extrac ti on foundati ons an d appl i c ati ons M Spri nger 2006 罗宪华 杨大利 徐明星 面向非特定人 的语音情感识 别特征 研究 J 北 京 信息科 技 大学 学报 2011 26 2 72 76 L U O X H Y A N G D L X U M X Sp eec h em oti on rec ogn i ti on fo r non spec i fi c hum an c har ac teri sti c s J Journal of Bei ji ng Inf orm ati on Sc i enc e Tec hnol ogy U ni versi ty 2011 26 2 72 76 黄程韦 赵艳 实用语音情感的特征分析与识别 的研 究 J 电子与信息学报 2011 33 1 112 116 H U A N G C H W Z H A O Y P rac ti c al sp eec h em oti on an al ysi s and rec ogni ti on J Journal of el ec troni c s Info rm a ti on Tec hnol ogy 2011 33 1 112 116 姜 晓庆 崔世耀 殷艳华 人机语音 交互 中的情感语 音 处理 J 济南大学学报 2008 22 4 354 357 JIA NG X Q CU I SH Y YIN Y H em oti onal voi c e pro c essi ng i n the hum an m ac hi ne voi c e i nterac ti onf J Jour nal of U ni versi ty of Ji nan 2008 22 4 354 357 Z H O U G H A N SE N J H L K A ISE R J F C l assi fi c ati on of speec h un der stress based on features deri ved from th e nonl i near teager energy operator J ICA SSP 98 1998 54 9 55 2 马永 林 韩 纪庆 张 磊 等 基 于 Teager 能量算 子 TE O 基频的应力影响下的变异语音分类 J 声学 学报 2002 27 6 519 522 M A Y L H A N J Q ZH A N G L et a1 Based on teager en ergy operator TEO baseband stress under the i nfl uenc e of vari ati on of voi c e c l assi fi c ati on J Chi nese Journal of A c ousti c s 2002 27 6 519 522 G A P H C H E N S E m oti on c l assi fi c ati on of m an d ari n speec h based on T EO nonl i near features f J Softwar e E ngi n eering A rti fi c i al In tel l i genc e N etw orki n g and P ar al l el D i stributed C om puti n g 2 007 3 3 94 3 98 张德祥 吴小培 吕钊 等 基于经验模态分解和 Teager 峭度 的语音 端点 检测 J 仪 器仪 表 学报 2010 31 3 493 499 Z H A N G D X W U X P L V Z H et a1 B ased on em pi ri c al m od e dec om p osi ti on an d T eager kurtosi s sp eec h en dpoi n t detec ti on J Chi nese Journ al of Sc i enti fi c Instrum ent 2010 31 3 493 499 PEREIRA C Di mensi ons of emoti on meani ng i n speec h C 学兔兔 w w w x u e t u t u c o m 第 8 期 李翔 等 面向智能机器人的Teager语音情感交互系统设计与实现 1833 20 21 22 23 24 25 26 27 28 Proc ISC A W ork shop on Speec h and E m oti on A C onc eptual Fram e W ork for R esearc h Beff ast 2000 25 28 张石清 赵知劲 雷必成 等 结合音质特征和韵律特 征的语 音情感 识别 J 电路 与 系统 学报 2009 14 4 120 123 ZH A NG SH Q ZH A O zH J LE I B CH et a1 Com bi na ti on of q ual i ty featu res an d prosod i c featu res of speec h em oti on rec ogni ti on J Journal of C i rc ui ts and System s 2009 14 4 120 123 赵艳 赵力 邹采荣 结合韵律和音质参数的改进二次 判别式在语音情感识别 中的应用 J 信号处 理 2009 25 6 882

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论