(控制科学与工程专业论文)基于特定说话人识别的门禁系统研究.pdf_第1页
(控制科学与工程专业论文)基于特定说话人识别的门禁系统研究.pdf_第2页
(控制科学与工程专业论文)基于特定说话人识别的门禁系统研究.pdf_第3页
(控制科学与工程专业论文)基于特定说话人识别的门禁系统研究.pdf_第4页
(控制科学与工程专业论文)基于特定说话人识别的门禁系统研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 说话入识别是一种生物识别技术。通过对采集到的语音信号提取 相应的特征,建立相应的模型,最后判断说话人身份。说话入识别在 信息安全和身份鉴别等领域部具有广泛的应用前景。但目前国内外绝 大部分说话人识别系统都是完全基于计算机来完成,从而成本过高, 并且现有的语音门禁系统产品也仅限于单用户使用,这些不足阻碍着 语音门禁产品的推广使用。 本文重点研究了m e l 频率倒谱系数特征和矢量量化模型的说话 人识别理论,在此基础上设计出一套稳定可靠、经济实用的多用户语 音门禁系统。针对当前大部分说话人识别系统完全依赖计算机来完 成,通过采用一台计算机作为主机和多个用户终端作为从机方式进行 组网,实现多用户分时共享单台计算机,达到降低单用户使用成本的 目的,同时也为用户管理带来便利;针对目前门禁系统普遍使用 r s 4 8 5 总线方式通讯所造成电缆铺设施工不便以及用户容量受限的 不足,本系统通过无线通讯的方式实现门禁终端安装灵活,不受地理 位置影响,并且用户容量可以根据需要进行扩展;用户终端采用 t m s 5 5 0 9 a p g e 作为主处理器,充分利用该芯片高效的数字运算能力 和便于扩展高性价比数据存储器( s d 删) 特性,以及处理器自身 较低的市场价格实现用户终端在满足运算需求的前提下成本最优。在 u s b 接口通讯设计中,没有采用专门u s b 接口芯片,而通过普通单 片机i o 模拟u s b 物理时序的方法实现u s b 通讯,进一步降低硬件 成本:u s a r t 异步通讯中使用码元宽度实时检测的方法,实现无线 模块波特率的自适应,拓宽模块的使用范围,也为今后产品升级提供 便利。 通过对整套系统的测试表明,本课题所设计的特定说话人识别门 禁系统工作正常、系统运行稳定、适应性强,识别率达到预期设计目 标,具有较强的推广价值和市场竞争力。 关键词说话人识别,矢量量化,d s p ,语音门禁 a b s t r a c t s p e a k e rr e c o g n i t i o nt e c h n o l o g yb e l o n g st ob i o m e t r i c sr e c o g n i t i o n t e c h n o l o g i e s ,w h i c hi st h et e c h n o l o g yo fa u t o m a t i ci d e n t i t ys p e a k d s a u t h e n t i c a t i o n ,a c c o r d i n gt oo b t a i nt h ef e a t u r ep a r a m e t e rw h i c hr e f l e c t i n g m e n t a la n dp h y s i o l o g yi nv o i c ef o r m v o i c e p r i n tr e c o g n i t i o nc a l lb eu s e d t om a n ys i t u a t i o n ,e x a m p l ef o ri n f o r m a t i o ns a f e t y s e c u r i t ya n dp e o p l e s i d e n t i t yr e c o g n i t i o n a tp r e s e n t ,t h es p e a k e rr e c o g n i t i o ns y s t e ma r ew o r k d e p e n do nc o m p u t e rm o s t l y ,s ot h es y s t e mi sv e r ye x p e n s i v ea n ds e r v e j u s tf o ras i n g l eu s e r t h i st h e s i si n t r o d u c e st h ef o u n d a t i o na c o u s t i c sk n o w l e d g eo fs p e a k e r r e c o g n i t i o n :t h em a t h e m a t i cm o d e lo fs p e e c hs i g n a la n dt h ec h a r a c t e r i s t i c p a r a m e t e r so fs p e e c h a n dt h e nd e s i g nas e to fv o i c e p r i n tl o c ks y s t e m w h i c hw o r k e ds t e a d i l ya n de c o n o m i c a lf o rm u l t i u s c r t h es y s t e mi sm a d e u po fah o s tc o m p u t e ra n ds e v e r a lt e r m i n a l ,t h eh o s tc o m p u t e rs e r v ef o r a l lo ft e r m i n a l t h eh o s tc o m p u t e rc o m r n u n i c a tw i t ht e r m i n a ld e p e n do n t h ew i r e l e s sm o d ei n s t e a do fr s 4 8 5b u s ,w h i c hc o n v e n i e n c ef o r i n s t a l l t m s 5 5 0 9 a p g e c h i p b e e q u a l t ot h et e r m i n a l f o r h i 曲一p e r f o r m a n c e ,l o w p o w e ra n de c o n o m i c a l mu s bi n t e r f a c ei s d e s i g n e db y m c ua n dm a k e di ns o f t w a r ew i t ho b d e vu s bd r i v e r a s y n c h r o n o u sc o m m u n i c a t i o nc a nb ea u t o m a t i cc o n f i r mb a u dr a t eb y c o d ep e r i o dd e t e c t a t i o na n d c o m p a t i b l ef o rp r o d u c tu p g r a d e 砀et e s t i n gp r o v e st h a tt h ev o i c e p r i n tl o c ks y s t e mw o r k sw e l la n d h a ss t r o n ga d a p t a b i l i t ya n dh i g hd i s c r i m i n a t i o nb u tl o wc o s t ,a n dt h e d e s i g nc o m p l e t e l ya c h e i e v e st h ea n t i c i p a t i v eg o a la n do fh i g h e ri n p r a c t i c a l i t ya n ds t r o n g e rc o m p e t i t i o ni nt h em a r k e t k e yw o r d s s p e a k e rv e r i f i c a t i o n ,v q ,d s p , v o i c e p r i n tl o c k i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:主邀日期:址年上月垒日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:盐 导师签名 趾拄一日期:丑年羔月鱼日 硕士学位论文 第一章绪论 第一章绪论 随着计算机技术和信息化社会的发展,现代数字通讯、多媒体系统、信息高 速公路等技术的应用和发展,已经越来越深入地影响并改变着我们每个人的生活 和工作方式。语言是人类特有的功能,声音是人类常用的交流工具,是相互传递 信息的主要手段。通过语音传递信息是人类最重要、最有效、最常用和最方便的 交换信息的形式。因此,语音是人们构成思想疏通和感情交流的最主要的途径。 并且,由于语言和语音与人的智力活动密切相关,与人类文明的进步紧密相连, 所以它具有最大信息容量和最高的智能水平【l 】 语音是人的自然属性之一,由于各个说话人发音器官的生理差异以及后天形 成的行为差异,每个人的语音都带有强烈的个人色彩。因此每个入的语音中蕴含 着与众不同的个人特征,如果能从每个人的语音中提取出他或她的个人特征,那 么我们就可以把这些作为他们的标识,从而在不同场合利用他们的语音来鉴别他 们的身份吲。 本文设计和构建了基于特定说话人实时识别门禁系统,该系统可应用于楼宇 门单元控制锁的工程实践中,它是生物特征中的语音信号在现代门禁系统中的应 用。人的声音具有唯一性,依靠声音来识别准确可靠。楼宇单元门语音控制锁与 已有的门锁技术相比,具有价格便宜,使用方便,可维护性强,卫生状况好等优 点,使其在与同类型其他产品的竞争中更具有广阔的市场潜力【3 】。 1 1 课题研究的背景及意义 对于说话人识别的研究要追溯到上个2 0 世纪3 0 年代。早期的工作主要集中 在入耳听辨实验和探讨听音识别的可能性方面。在第二次世界大战期间,美国国 防部向贝尔实验室提出了识别说话人的课题,目的是根据电话窃听到的录音材 料,判断说话人是哪位德军高级将领,这对于分析德军战略部署具有重要意义。 这项研究持续了三年多,自至二次世界大战结束,并未达到预期目的,但却产生 了语谱图描记技术( s o n o g r a p h y ) ,为语音的三维图表征奠定了声纹分析技术的基 础。这一研究经过4 0 年到7 0 年代的逐渐积累过程,形成了靠说话人嗓音识别罪 犯的声纹( v o i c er e c o g n i t i o n1 鉴定技术,形成了说话人识别的研究潮流。其间的工 作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等 方法应用于说话人识别【4 j 。 2 0 世纪6 0 年代至今,说话人识别的研究重点转向对各种声学参数的线性或 非线性处理以及新的模式匹配方法上,如动态时间规整、矢量量化、主成分分析、 隐马尔可夫模型、神经网络和多特征组合等技术【5 】。 硕士学位论文 第一章绪论 说话人识别技术关系到多学科的研究领域,而不同领域上的进步都对说话人 识别的发展作出了贡献。说话人识别技术是集声学、语音学、语言学、计算机、 信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔。 考虑到说话人识别技术广泛应用于身份鉴定、信息高速公路、多媒体技术、 办公自动化、现代通信、智能系统、银行金融、医学工程、公安司法及机要保密 等众多领域,受到了极大的关注【6 l 。通过说话人识别技术,可以实现利用语音信 息进行身份鉴别,例如缉拿电话信道罪犯,法庭中根据电话录音信息做身份确认, 电话语音跟踪,为用户提供防盗门开启功能等。在互联网应用及通信领域,说话 人识别技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息 服务、语音e - m a i l 、安全控制、计算机远程登录等领域。在呼叫中心应用上,说 话人识别技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼 叫中心进行请求时,系统能够根据话音判断出来者身份,从而提供更加个性化, 更贴心的服务。 a t & t 、欧洲电信联盟、m o t o r o l a 和v i s a 等公司、r r r 公司、k e y w a r e 公司、 t n e t i x 公司等相继开展了相关实用化研究。近3 0 年来,在这一领域的研究取 得了重大进展,商用系统己经在若干领域中得到应用。说话人辨认系统在司法领 域中可以帮助对嫌疑人的查证。通过犯罪记录中所记录的声音判断究竟是多个嫌 疑犯中的哪一个的声音,或者判断罪犯是否真的存在于嫌疑犯中。在军事领域中, 它可以用于战场的侦听,以辨认敌方指挥员。同时,它也可以运用在对于实时执 行军事指挥员和飞机驾驶员的1 2 1 述命令( 如实时发炮命令) 等需要特定指挥人员 的场所。说话人确认系统较多的应用在保安领域,如机密场所的进入控制,合法 使用通信线路、机要设备的身份核查。在电话服务中,可以利用说话人识别系统 以用户语音实现汇款、转帐、余额通知、转款、股票行情信息查询等服务。在医 学应用中,如使说话人确认系统只响应患者的命令,则可以实现对患者假肢的控 制。 随着i n t c r n e t 的飞速发展以及大规模宽带网络的迅速建立,过去只能在电话 网络上进行的各类语音增值服务己经可以在互联网络上找到新的增长点。随着网 络上各类商务流程的蓬勃发展,网上交易和网上购物已经逐步成为人们日常生活 中不可缺少的一个重要环节。利用说话人识别技术,结合现在使用的各种安全密 码技术,来辨识标志各人身份的d 代码,以及各种购物卡、信用卡等,将使网 上交易更安全,使人们购物更放心。同时,将电话系统中已有的利用用户语音实 现汇款、转帐、余额通知、转款、股票行情信息查询等服务转移到互联网络上, 可以建筑真正的天2 4 小时营业的网上银行和网上股市。 与图像识别技术相比,说话人识别有着许多独特的优势:携带信息量大、处 2 硕士学位论文第一章绪论 理响应快、无需专f - i n 练、周边设备简单、应用领域广阔、经济效益可观等。 1 2 国内外研究现状 语音处理技术的发展可以从1 8 7 6 年的贝尔发明电话算起,贝尔第一次采用 电讯号将语音传输到远方。1 9 3 9 年h d u d l e y 首次成功设计出了声码器,它是将 语音提取参数后,传输语音的参数,然后在接收端重新生成语音。它的发明中所 孕育的伟大思想是对语音信号的建模。1 9 4 7 年b e l l 实验室发明了语谱图仪,它 是对连音识别,引入了时间规整算法改进匹配性能的方法。数字计算机成为语语 音处理研究的重要工具。此后时期语音识别的主要研究方向和方法都是利用硬件 提取语音的频谱信息,使用计算机进行匹配计算和判决。对语音处理技术产生决 定性的影响的是在上个世纪7 0 年的三项研究成果:7 0 年代初期的将动态规划法 用于语音识别及隐马尔可夫模型,为语音识别在匹配算法上提供了新的方法:中 期的线性预测法,在语音识别、语音编码等方面获得了极大成功,成为现代语音 处理的主要方法:随后在七十年代末期的矢量编码量化技术,更推进了语音处理 技术的发展。1 9 8 0 年后是语音处理技术走向市场化、商品化的黄金时期,m m 公司在1 9 8 5 年研制成功了5 0 0 0 单词的英语听写机t a n g o r a - 5 ,在此基础上又推 出了t a n g o r a - 2 0 ,其识别率可达到9 4 6 9 6 ,且有自适应说话人的特性。1 9 9 7 年m m 公司又推出了汉语听写机产品。 国内的研究较之国外起步较晚,主要的研究单位有清华大学、中科院声学所 和西安电子科技大学等单位。无限词汇汉语听写机首先由清华大学于1 9 8 8 年研 制成功,四达公司等单位在9 0 年代初使之产品化、商品化。但从目前的市场应 用范围来看,语音产品的实际应用还很狭窄,这说明语音技术产品还存在缺陷, 达不到市场化、商品化的要求,在技术上许多工作要做。近几年,汉语言识别成 为研究的重点,国外公司投入巨资进行研究,国家“8 6 3 刀计划也在这方面加大 了投资。 说话人识别技术近几年也取得了快速的发展。现在较高档的移动手机可以整 合有语音拨号功能。说话人识别和语音识别一样都需要提取语音信号的特征和建 立相应的模型进行分类判断处理r n 。但说话人识别提取的是说话人的个性特征, 这些特征因说话人的不同而不同,语音识别则提取的是语音的语意特征,重点是 不同词语间的不同特型鄹。现在日本的一些厂家可以制造专门的说话人识别芯 肯o 语音处理技术地发展,也带动了处理硬件载体和方式的快速发展。从2 0 世 纪5 0 - - 6 0 年代的通用计算机进行算法研究和模拟,到2 0 世纪7 0 年代的经典 3 硕士学位论文 第一章绪论 d s p ,单板机上的数字滤波等,再到现代的采用哈佛结构,分离结构的总线d s p , 直至2 0 世纪9 0 年代的流水线、并行指令、l v s i 技术d s p ,语音信号处理的硬 件方式发生着质的变化。 语音技术和d s p 技术的发展进一步带动了消费类电子,特别是移动通讯中 的手机、数码相机等的发展,高端的d s p 芯片由于它的高性能,逐步在移动通 讯的基站中得到应用。目前语音技术研究的热点是如何在高的听觉效果下,实现 更低速率的语音编码,以扩大移动系统的通信容量。 d s p 技术的出现和发展,有着它自己的原因和应用需求。更有效地处理信号 一直是人们追求的目标。传统的数字信号处理研究,包含了算法研究和算法的系 统实现研究两类。算法研究是指如何以最小的运算量和运算资源完成指定的任 务,这方面的发展里程碑是f f t 算法和d f t 算法的出现。算法的系统实现研究 是指如何在硬件系统上利用硬件、软件或者硬件和软件相结合的方法,以最小的 计算资源和最快的速度实现给定算法。在语音处理算法的实现上,传统的做法是 基于通用p c 机或者大型系统的专门语音处理系统,但由于语音数字信号处理要 完成大量的数值运算,特别如乘加运算,采用通用计算机速度很慢,而且通用计 算机体积庞大,只适宜于算法仿真,不能用于现场的数据处理。专用语音处理系 统的最大问题是只能针对特定的算法实现,而且实现成本较高,不能灵活对算法 做修改。d s p 技术的出现弥补了在算法实现上的滞后,它通过特定的硬件和软件 指令,实现了更高效的计算处理。例如在f f t 计算中,如果采用f o r t r a n 或者c 语言,位反转计算将占去大约1 5 2 5 的运算量,而d s p 芯片内部设计有专 门的位反转硬件,极大的提高了运算效率,再例如实时滤波器的实现,d s p 内部 设置有循环缓冲区,可以不断地更新数据,实时实现滤波。 随着芯片工艺的发展,d s p 性能的进一步增强,为特定说话人识别技术走向 实践应用奠定了基础。门禁系统,它作为一种新型现代化安全管理系统,是解决 重要部门出入口实现安全防范管理的有效措施,又称出入管理控制系统,它集微 机自动识别技术和现代安全管理措施为一体,它涉及电子,机械,光学,计算机 技术,通讯技术,生物技术等诸多新技术。在何处放行某些人,拒绝某些人,何 时要发出警报,记忆出入的过程,以达到安全的目的,是门禁系统最基本的功能。 门禁系统的发展是随着人类社会的发展一起进步的。从原始社会以来,随着剩余 价值的产生,人们有了自己的财产和物业,为了保护自己的产业不受他人的侵犯, 人们用杠棒或木插将门锁起。于是,人类从有看家护院的意识起,就有了最初的 出人口控制概念,门禁也就随之产生了。随着社会的发展和人们安全意识的提高, 产生了铁锁和暗锁等门锁设备。 但是传统的门锁仅仅是单纯的契合性机械装置,无论它的结构如何复杂坚 4 硕士学位论文第一章绪论 固,一把在街头就可以配制的钥匙就能打开,并且不留痕迹。如果钥匙遗失连带 门锁也要一起更换。为了弥补这些缺点,又产生了磁卡门禁系统。用磁卡控制锁, 各种性能均有所提高,但由于磁条存储的信息量小,磁卡与读卡器之间容易产生 机械磨损,并且读卡器的刷卡口容易被人为破坏,它的安全性和可靠性便受到限 制。 随着现代化经济建设和管理的发展,各种酒店、宾馆、写字楼、智能大厦、 政府机关和企事业单位、高级物业管理部门等,对门禁系统的需求正发生着重大 的变化,其核心是对门锁及其开启、关闭实现智能化管理。 电子门锁是近几年随着电子计算机技术,尤其是智能i c 卡应用技术的提高 发展起来的,随之而产生的接触式智能l c 卡和密码键盘门禁系统也越来越被人 们重视和使用。电子计算机作为系统管理主机,通过联接系统的各个读卡器( 即 开门控制器) 管理门锁。智能i c 卡具有存储运算功能,经初始化和授权后成为控 制门锁开和关的特殊钥匙,从而便构成一个现代化的门禁系统。 随着接触式智能i c 卡门禁系统应用规模的扩大,其本身不可克服的缺点成 了它进一步发展的绊脚石,如接触磨损、难以维护、基础设施投入大等。随着信 息业和服务业的全球化,社会对信息载体的便携性、高安全性及容易使用等方面 提出更高的要求,于是非接触式智能卡以其无机械磨损、容易维护、方便使用等 优点,成为智能卡潜力最大的新军而倍受业界瞩目。非接触式门禁系统是当今最 具有用在各种场合均有大量应用的机械锁方面;机电一体化控制处理模块,主要 应用在各种独立的,安全防范级别要求不高,且无需随时检测系统运行的环境中; 全电子型控制处理模块,是当今门禁系统的真实代表。正是由于数字化的大量普 及,高性能数字电路的不断完善,各种保护电路的不断改进,各种芯片的大幅降 价,使得全世界的设计师有机会设计出性能干姿百态、结构不断推陈出新、性价 比极高的优秀产品。门禁系统所有的功能、概念、组态方式均是出自控制处理模 块这一门禁系统的灵魂中心,它能充分地表现出门禁系统对安防工作以及对日常 管理工作的真实贡献。 门禁系统由r f i d 卡经历了磁卡、接触式i c 卡、非接触式d 卡、非接触式 可读写i c 卡的更替,逐步在向简单化、无人化、智能化系统发展,同时为了适 应高安全度的要求,门禁系统在向r f i d 卡门禁、指纹门禁、面部识别门禁、指 纹门禁、声纹门禁系统的变革。 1 3 课题主要研究内容 目前国内外绝大部分说话人识别系统都是完全基于计算机来进行的,本课题 实现了一套基于d s p 客户端与p c 主机组成的特定说话人识别门禁系统,可广 s 硕士学位论文第一章绪论 泛应用于语音门禁锁等其他身份鉴证场合。 l 、研究内容 首先,从基于矢量量化的特定说话人识别算法研究着手,在计算机平台上实 现了m e l 倒谱参数的提取,以及基于矢量量化识别模型的仿真。 其次,根据仿真结果和系统需求完成硬件平台的设计与搭建。包括系统客户 机、主机等相关设计。 最后,根据实际使用的实时要求,完成系统各模块软件编写和系统运行测试, 实现了具有实用意义的特定说话人识别的门禁系统。 2 、章节安排 第一章主要阐述特定说话人识别技术的研究背景及意义,国内外研究现状, 课题主要研究内容。为满足当前门禁系统对高安全性的要求,利用人体生物特性 进行身份验证成为一种行之有效的解决方法,并且随着信息技术的发展和d s p 性能的不断增强,为特定说话人识别技术从理论研究进入实践应用奠定了基础。 第二章对特定说话人识别理论进行了研究。包括语音信号的前期处理、特征 参数的选取以及识别模型的建立经过分析比较,选取较为合适的m e l 倒谱参 数和矢量量化模型作为本系统的说话人识别方案。 第三章主要介绍语音门禁系统硬件设计。依据可靠方便、经济实用、维护成 本低的原则,整个硬件系统分为主机和客户机两部分。客户机由u p s 电源供给、 门禁锁控制、人机交互、无线通讯、电磁锁控制几大模块组成;主机由一台p c 机和无线通讯适配器组成。该部分难点在于客户端门禁锁控制器的设计,在可靠 运行的前提下还需要考虑控制器数据处理能力、能耗、成本、与外围接口等多方 因素。 第四章主要介绍语音门禁系统主机和客户端软件编程。客户端包括客户端控 制器和控制模块初始操作、采集语音的预处理、特征参数计算提取、参数的发送 和执行主机指令等程序模块组成:主机端包括无线适配器驱动程序、上位机模型 训练和匹配程序和用户管理程序组成。程序设计是整个系统核心部分,涉及到识 别算法、数据流实时处理、无线通讯、上位机界面编程等。 第五章介绍本系统的仿真和实时测试。使用m a t l a b 对说话人识别系统进 行仿真实验,客户端和主机无线数据通讯测试,门禁系统实时识别测试。经过测 试,验证了本系统设计方案的可行性和门禁系统工作的可靠性。 第六章是全文的总结与展望,对门禁系统研究课题的整体工作和创新点进行 总结与归纳,指出下一阶段的工作重点和待研究方向。 6 硕士学位论文第二章特定说话人识别系统理论研究 第二章特定说话人识别系统理论研究 语音信号的表示方法一般有两种:波形表示和参数表示。波形表示是通过对语 音进行采样和量化获得,是一种简单而直接的表示方法,也是获得参数表示的基础。 波形表示法的缺陷是数据量很大,给后续处理和存储带来了困难。用参数表示的关 键是如何获得能反映语音信号特征的参数【9 1 。 要提取语音参数就要对语音信号进行分析,语音信号的分析方法主要有时域分 析、频域分析和倒谱分析。识别系统性能的好坏与语音特征参数有着直接的关系。 选取特征应尽可能摈弃无关信息,准确合理地描述语音的实质性质【l o l 。 语音信号具有时变性,其中反映声道响应的部分,其随机性很强,而另一部分 则是受发音器官控制的,这部分的变化相对缓慢。因而可以把语音信号分成一段一 段来分析,并假设在每一段内其性质是相对平稳的,也就是假定它具有短时平稳性 ( 这些段常称为分析帧,帧长一般取1 5 m s 至4 0 m s ) 。短时处理技术正是基于这种思 想来进行语音信号的处理的,它是处理语音信号的一种最基本的技术。对每一帧信 号进行时域分析和频域分析,分别称为短时时域分析和短时频域分析【l l 】。 2 1 语音信号预处理 在对语音信号进行时域或频域分析前,一般首先要对语音信号进行一定的预处 理,其中主要包括语音信号的预加重、分帧和加窗。另外可以采用噪声估计,语音 增强,自适应滤波等方法减少噪声干扰。 2 1 1 预加重 预加重是一种重要的预处理技术。语音信号频谱的高频部分的能量比较小,易 受干扰,而且信号的高频部分大约在8 0 0 h z 以上按6 d b 倍频程跌落。为此,在分析 语音信号之前,需对其高频部分进行增强。另外,为了对数字化的语音信号进行平 滑处理以及减少在以后的信号处理中受到有限精度的影响,也必须首先对语音信号 进行预加重。预加重的实质是提升高频部分,使信号的频谱变得平坦,保持在低频 到高频整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。 预加重一般是在语音信号数字化之后、参数分析之前在计算机里用具有提升高频特 性的预加重数字滤波器来实现,它一般是一个一阶的数字滤波器 h ( z ) = 1 口z 一1 7 ( 2 - 1 ) 硕士学位论文第二章特定说话人识别系统理论研究 口决定截止频率,此滤波器为单零点滤波器,呈高通特性。口为频域中的预加重因 子,控制预加重程度,口典型值为0 9 左右【1 2 1 。 语音信号特性是随时间变化的,但是在一个短时间范围内其特性基本保持不变, 因此可以将语音看作是一个准平稳过程,对语音的分析和处理都建立在短时分析的 基础上,将其分成一段一段来分析,其中每一段称为一帧,即对语音信号流采用分 帧或分段来处理。由于语音通常在l o m s 3 0 m s 之内是保持相对平稳的,因而帧长 一般取为l o m s 3 0 m s 。 ( 1 ) 矩形窗 f 1 0 靠【一1 以以) 2 1 “,其他 c 2 - 2 ) ( 2 ) 汉明窗 以露) : 竺誓? 4 5 c o s ( 2 万刀( 。) ) ,o n l q ( 2 - 3 ) 以露) 2 1o 其他 、川 ( 3 ) 汉宁窗 h 刀) = 0 5 1 - c 舱s ( 纫露三) 】。露三一 ( 2 - 4 ) 其中三为窗长,这些窗函数都有低通特性。通过比较分析:矩形窗旁瓣太高,会产 生严重的泄漏现象,因此很少采用矩形窗;而汉明窗旁瓣最低,可有效地克服泄漏 现象,具有更平滑的低通特性,因此应用最广泛。另外若窗越长,它对信号的平均 作用越厉害,信号的频率分辨率越高,但是其时间分辨率也越低,因此要想反映出 快速时变信息,窗长应相对短一些。 在预处理中可以采用噪声估计,语音增强,自适应滤波等方法减少噪声干扰【1 3 l 。 2 i 2 端点检测 除非在高信噪比的声学环境中( 如消声室或隔音室) 的语音外,从背景噪声中鉴 别语音不是一件简单的事。对于高信噪比环境,最低电平语声的能量( 如弱摩擦音) 超过背景噪声能量,简单的能量判断就可以得到比较满意得结果。然而对大多数情 况而言,这种做法很不理想。但在现实环境中,静音段经常由于受到噪声的污染能 量值不为零,导致系统误判,性能降低。对语音信号进行端点检测,有利于降低系 统运算量,提高系统性斛1 4 1 。 首先可以考虑用信号的幅度作为特征,区分静音段和语音段。只要设定一个门 限,当信号的幅度超过该门限,就认为语音开始,幅度降低到门限以下就认为语音 结束。 硕士学位论文 第二章特定说话人识别系统理论研究 语音信号的幅度用短时能量来描述。对于输入语音信号砌) ,其中刀为采样点, 设帧长为,帧移为m 对于第i 帧,第刀个样本,它与原始语音信号的关系为: 五( 嚣) = 缸o 一1 ) m + 露】( 2 5 ) 除第f 帧语音信号的短时能量可以用下面几种算法得到: e ( f ) = i t ( ,1 ) l ( 2 - 6 ) i = i p ( d = # ( 刀) ( 2 7 ) 1 = 1 d d = l o g # ( 行) ( 2 8 ) 它们分别表示绝对值酌累加、平方的累加和对数能量,可任选其中一种。将语 音信号分帧后计算每帧的短时能量,再设定一个门限,就可以实现一个简单的端点 检测算法。但是这样的算法是不可靠的。人的语音分清音和浊音两种,浊音为声带 振动发出,对应的语音信号有幅度高、周期性明显的特点,而清音则不会有声带的 振动,只是靠空气在口腔中的摩擦、冲击或爆破而发声,其短时能量比较小。如声 母。s 、“c 黟等的幅度很低,会被基于能量的算法漏过去。如图2 1 所示,数字“7 开始部分的波形,可见声母。q 力的幅度明显比后面的幅度低,而比前面的静音部分 高声母“s 、“c 的幅度往往更低,以至于有时候肉眼都难以与静音部分相辨别, 因此基于能量的算法对这些清音信号几乎无能为力。 图2 1 数字“7 一开始部分的波形 短时能量“f ) 的主要用途为: ( 1 ) 可以区分清音段与浊音段,因为浊音时p ( f ) 值比清音时大得多; ( 2 ) 可以用来区分声母与韵母的分界,无声与有声的分界,连字( 指字之间无间 隙) 的分界等; ( 3 ) 作为一种超音段信息,用于语音识别中。 9 硕士学位论文 第二章特定说话人识别系统理论研究 仔细观察可以发现,在静音段信号的波形变化相对比较缓慢,而在清音段,由 于口腔空气摩擦的效果,所造成波形在幅度上的变化比较剧烈,通常用一帧信号中 波形穿越零电平的次数来描述这种变化的剧烈程度,称为过零率【嘲。语音信号的短 时平均过零数定义为 乙= l s g n x ( m ) - s g n x ( m - 1 ) 1 w ( n - m ) = l s g n x ( m ) - s g n x ( m - 1 ) 】1w ( n - m ) ( 2 9 ) 式中,s g n 是符号函数,即 s 酬叫= 仁蕊乙 而“万) 为窗口序列,设 ,删: 上眍雁。1 ( 2 - 1 1 ) 2 n,“以) = 10 ,其他 这里的窗口幅度为1 2 n , 是对窗口范围内的过零数取平均的意思。因为在窗口内共 有个样本,而每个样本使用了2 次。当然,这里也可以不用直角窗,采用别的形 式的窗。在实际应用中,为了避免静音段的随机噪声产生过高的过零率,通常先设 定一个门限,当前后两个采样的符号不同,而且差值大于该门限的时候,就将过零 率的数值加1 , 一一。一硼卜 一- 一 图2 2 数字“7 的语音信号、短时能量、过零率波形 1 0 硕士学位论文 一 第二章特定说话人识别系统理论研究 图2 - 2 ( a ) 、( b ) 、( c ) 分别为数字。7 黟的语音波形、短时能量分析和短时过零率分 析。由图可以看出,短时能量可以辨别出信号的浊音段,短时过零率可以辨别出信 号的清音段,所以综合短时能量和过零率则可以准确地判断出语音信号的起始端点, 通过丢弃可能包含噪声的非语音信号帧,可以减少系统的计算量,降低噪声对系统 性能的影响【1 6 1 。 2 2 语音特征参数的选取 从说话人的语音信号中提取出说话人的个性特征是说话人识别的关键。在说话 人识别中,特征选取往往要舍弃语义内容信息而保留个人特征信尉忉。 2 2 1 说话人识别中常用特征参数 不同说话入的差异体现在很多方面,有生理上的先天因素,有说话入习惯、状 况上的后天因素等等。说话人所发语音信号中既包括了所发话音的特征,也包括了 说话人的个性特征,是话音特征和说话人个性特征的混合体,他们以极其复杂的形 式交织在一起。目前还没有找到能够将话音特征和说话人个性特征很好分离的方法, 尽管如此,语音信号的信号特征仍从不同的侧面反映说话人的个性,因此,仍是说 话人个性特征的重要来源。在说话人识别系统中经常用到的特征参数有线性预测系 数( 1 i n e a rp r e d i c t i o nc o d i n g ,l p c ) 或其派生参数,由语音频谱直接导出的参数,其它 鲁棒性参数,混合参数【1 9 1 。 ( 1 ) 线性预测系数或其派生参数 通过对线性预测参数进行正交变换得到的参量,其中阶数较高的几个方差较小, 这说明它们实质上与语句的内容相关性小,而反映了说话人的信息。另外,由于这 些参数是对这个语句平均得到的,所以不需要进行时间上的归一化,因此可用于与 文本无关的说话人识别。由它推导出的多种参数,例如部分相关系数、声道面积比 函数、线谱对系数【2 l 】以及l p c 倒谱系数等,都是可以应用的。目前,l p c 倒谱系 数和差值系数是最常用的短时谱参数,并获得了较好的识别效果。 ( 2 ) 由语音频谱直接导出的参数 语音的短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差 别,而短时谱随时间的变化,又反映了说话人的发音习惯,因此由语音短时谱导出 的参数可以有效地用于说话人识别中。己经使用过的参数有功率谱,基音轮廓、共 振峰及其带宽、语音强度及其变化等。基音周期及其派生参数携带有较多的个人信 息。但基音容易被模仿,且不够稳定,最好与其它参数组合后使用【1 9 1 。 硕士学位论文第二章特定说话人识别系统理论研究 ( 3 ) 鲁棒性参数 包括m e l 频率倒谱系数( m e lf r e q u e n c yc c p s t r u mc o e f f i c i e n t ,m f c c ) ,以及经过信 道谱减或噪声谱减的倒谱等。 ( 4 ) 混合参数 为了提高系统的识别率,也可能是因为对研究哪些参量是关键把握不够,相当 多的系统采用了混合参数构成的矢量。如将“动态一参量( 对数面积比与基频随时间 的变化) 与“统计 分量( 由长时间平均谱倒出) 相结合,还有将逆滤波器谱与带通滤 波器谱结合,或者将线形预测参数与基音轮廓集合等参量相组合的方法。如果组成 矢量的各参数之间相关性不大,则会更有效一些,因为它们分别反映了语音信号的 不同特征。 2 2 2 适合本系统特征参数的选取 常用于说话人识别的特征参数有:语音短时能量、基音周期( 己证实基音周期及 其派生参数携带较多的个人信息) 、语音短时谱或b p f g ( b a n dp a s sf i l t e rg r o u p s ,带通 滤波器组) 特征( 包括1 4 - 1 6 个b p f ) 、线性预测系数l p c 、共振峰频率及带宽、l p c 倒谱等,以及反映这些特征动态变化的线性回归系数等。其它的特征参数还包括鼻 音联合特征、谱相关特征、相对发音速率特征、基音轮廓特征等。另外,对这些特 征进行变换加工,如k - l 变换等,而得到加工后的二次特征。 实际上是不可能( 至少在目前是如此) 找到完全符合要求的基本特征。对人的语 音感知进行多年研究的结果表明,不同人之间说话的差别既有先天的因素也有后天 的因素。不同人的发声器官的生理尺寸有所差别,不同的人即使在发同一音时发音 器官的动作也不同,而这些不同会影响到收听者对语音的感知以及在收听过程中的 回忆性能。此外还有一些通过语音信号间接表现出的信息,如说话人的习惯风格、 情感状态、遣词用句的特点等。人往往是利用这些高层次的间接效应来进行对说话 人的识别,尽管以往也尝试过把这些特征定量化,或者找出它们与语音信号参量之 间的关系,但迄今为止并没有成功的例子。因而说话人识别系统不得不利用物理上 可以测量的参量来表征说话人,而单一参量很难达到可靠的性能要求。 在说话人识别系统设计中,以上所有的特征参数中,单独使用哪个参数都不能 有效可靠地表征说话人特征。一般情况下,为了更有效地表征说话人特征,更多地 是采用几种特征参数的组合使用来提高实际系统的性能,当各组合参量间相关性不 大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。 在实际应用中,基音特征参数常常与l p c c 倒谱特征结合使用。语音的基音频 率是声带振动的基本频率,它反映了声带激励源的特点。基音容易被模仿,不宜单 独使用,但它可以与l p c c 倒谱参数相结合,由于l p c c 倒谱参数和基音参数分别 1 2 硕士学位论文第二章特定说话人识别系统理论研究 描述了说话人声道、声带特性,从而可以充分反映说话人特征同样,基音特征参 数也可以和m f c c 倒谱特征结合使用【2 0 】。 为了对l p c c 与m f c c 参数的性能进行比较,对基于计算机平台的与文本有关 的说话人确认系统,分别做了如下实验。其中l p c c 参数取第l 1 2 个分量,m f c c 参数取第2 一1 6 个分量。实验数据取自1 0 个同学的每人2 0 段录音,其中l o 段为 相同发音,5 段为相似发音,5 段为不同发音。录制的语音为8 k h z 采样率,单声道, 1 6 b i t 线性量化的w a v e 文件。用于训练和识别的语音首先通过一个截止频率为6 0 h z 的切比雪夫高通滤波器和一个预加重滤波器( 口值0 9 ) ,然后进行加窗分帧,帧长 2 0 m s ,即1 6 0 个采样点,在端点检测时采用矩形窗,在进行语音频谱分析时采用汉 u 羽( h a m m i n g ) 窗。说话人识别方法采用v q 算法,匹配阈值设置为高安全性阈值, 即使错误接受率为零。具体实验结果如下表2 1 和表2 - 2 。 表2 - 1l p c c 参数的说话人确认 同一个人同一个人同一个人不同人不同人不同人 次数相同发音相似发音不同发音相同发音相似发音不同发音 匹配次数1 0 05 05 05 05 05 0 接受次数9 21 5 2000 拒绝次数83 54 85 05 05 0 表2 - 2m f c c 参数的说话人确认 同一个人同一个人同一个人不同人不同人不同人 次数相同发音 相似发音不同发音相同发音相似发音不同发音一 匹配次数1 0 05 05 05 05 05 0 接受次数9 62 ll l00o 拒绝次数42 93 9 5 0 5 0 5 0 从以上实验结果可以看出,m f c c 参数更适合于与文本无关的说话人识别系统, 而l p c c 参数更适合于与文本有关的说话人识别系统。所以,本课题实现的说话人 识别系统采用m f c c 参数作为系统特征参数。 2 3 美尔倒谱参数 2 3 1 美尔倒谱参数原理 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同 的,基本上是一个对数的关系【2 1 1 。l p c 模型是基于发音模型建立的,l p c c 系数是 一种基于合成的参数,这种参数没有充分利用人耳的听觉特性。近年来,一种能够 1 3 硕士学位论文第二章特定说话人识别系统理论研究。 比较充分利用入耳这种特殊的感知特性的参数得到了广泛的应用,这就是m d 尺度 倒谱参数( m c l s c a l e dc e p s t r u mc o e f f i c i e n t s ) 或称m e l 频率倒谱参数( m df r e q u e n c y c e p s t m mt o e 伍c i e n t ,简称m f c c ) 。大量的研究表明,m f c c 参数能够比l p c c 参数更好地提高系统的识别性能。利用听觉频率非线性特性的美尔倒谱( m f c c ) 和感 知线性预测p l p ( p e r c e i v el i n e a rp r e d i c t i o n ) 贝l j 是两种常见的考虑听觉特性的说话人 特征【捌。 通过实验,人们己经知道:当中心频率在1 0 0 0 h z 以下时,临界带宽一般保持 恒定,约为l o o h z 。当中心频率超过1 0 0 0 h z 时,随着中心频率增长,临界频带的 带宽呈线性增长【2 3 1 。符合人的听觉系统的频率刻度划分方法,应该满足在低频上具 有较高的分辨率在高频上具有较低的分辨率,符合临界带宽的特性。以m e l 为单位 的频率刻度就是符合这种特性的一种频率刻度【2 4 】。 m e l 频率尺度( m e l 丘e q u e n c ys c a l e ) ,它的值大体上对应与实际频率的对数分布 关系【2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论