(信号与信息处理专业论文)基于麦克风阵列实现声源定位.pdf_第1页
(信号与信息处理专业论文)基于麦克风阵列实现声源定位.pdf_第2页
(信号与信息处理专业论文)基于麦克风阵列实现声源定位.pdf_第3页
(信号与信息处理专业论文)基于麦克风阵列实现声源定位.pdf_第4页
(信号与信息处理专业论文)基于麦克风阵列实现声源定位.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在电话会议、视频会议等系统中,可以通过麦克风阵列声源定位方法来确定说话人 的位置,以控制摄像机和麦克风阵列波束对准正在说话的人。但由于混响和噪声的存在, 严重影响现有声源定位方法的性能。现有方法一般将混响和噪声分开对待,所以精度较 低。此外,现有声源定位方法一般运算量较大,难以实时处理。针对这些问题,本论文 系统地研究了基于麦克阵列的声源定位方法,主要做了以下几方面工作: ( 1 ) 总结归纳并比较了各种基于麦克风阵列声源定位方法的优缺点。主要介绍两种声 源定位方法:基于可控波束的声源定位方法和基于时延估计的声源定位方法。此外,还 介绍一种神经网络声源定位方法。 ( 2 ) 简单介绍传统的基于可控波束的定位方法。给出了一种最大似然参数声源定位 法,并将其与延迟一求和可控波束定位法的性能进行了比较。 ( 3 ) 介绍了一种神经网络声源定位方法。 ( 4 ) 研究时延估计方法。提出了改进的互功率谱相位时延估计方法;介绍一种基于高 阶统计量的时延估计方法;最后给出基于建立信号模型和互功率谱相位的时延估计方 法。该方法对噪声和混响均具有很强的鲁棒性。 ( 5 ) 简单介绍了基于搜索的定位方法和基于几何定位的方法。对于前者,给出了三种 不同的误差准则,并对其进行分析比较。对于后者,在现有球形插值法的基础上,给出 了一种新的方法:线性修正最小均方声源定位法。另外,还给出了线性插值声源定位法。 ( 6 ) 给出一种实际的声源定位系统基于建立信号和互功率谱相位的定位系统。该 系统运算量小,对噪声和混响均具较强鲁棒性。文中并给出了该系统实现框图及会议室 实验结果。 关键词:麦克阵列;声源定位;波束形成:时延估计;广义互相关函数 自适应滤波;互功率谱相位:建立信号 a b s t r a c t s o u r c el o c a l i z a t i o nb a s e do nm i c r o p h e n ea r r a yc a nb eu s e df o rav i d e o c o n f e r e n c cs y s t e mt og u i d ei t s c a m e r at o p i c ku pt h e f a c e so ft h es p e a k e r s a u t o m a t i c a l l y h o w e v e r , b a c k g r o u n dn o i s e a n dr o o m r e v e r b e r a i e n sd r a m a t i c a l l yd e g r a d et h ep e r f o r m a n c eo f m o s ts o u n ds o u r c el o c a l i z a t i o ns y s t e m s i na d d i t i o n t oh i g ha c c u r a c y , t h el o c a t i o ne s t i m a t o rm u s tb eu p d a t e d f r e q u e n t l yi n o r d e rt ob eu s e f u li np r a c t i c a l r e a l t i m e t r a c k i n ga n db e a m f o r m i n ga p p l i c a t i o n a i m i n ga tt h e s ed i f f i c u l t i e s ,m a i n l yt w om e t h o d sf o r s p e a k e rl o c a l i z a t i o nu s i n gm i c r o p h o n ea r r a ya r ed i s c u s s e di nt h i sp a p e r :d e l a ya n ds u mb e a m f o r m i n g ,t i m e d e l a ye s t i m a t i o na n dg e o m e t r yl o c a l i z a t i o n ;a l s oam e t h o db a s e do nn e u r a tn e ti si n t r o d u c e d t h e naf i l t e r a n ds u m b e a m f o r m i n gm e t h o di sp r e s e n t e dt oe f f i c i e n t l ys u p p r e s st h en o i s ea n dr e v e r b e r a t i o n a l s oam l p a r a m e t r i cl o c a l i z a t i o nm e t h o di sp r e s e n t e d a n dc o m p a r e dw i t hd e l a ya n ds u m b e a m f o r m i n gm e t h o da s f o rl o c a l i z a t i o nm e t h o d ,f ll i n e a r - c o r r e c t i o nl e a s t - s q u a r e sa p p r o a c hi sp r o p o s e dt oi m p r o v et h e a c c u r a c yo f s im e t h o d a n dl im e t h o di sa l s oi n t r o d u c e d w h a ti sm o r e ,t h em o d i f i e dc s p a l g o r i t h mi sp r o p o s e di no r d e rt oi m p r o v et h ep e r f o r m a n c eo fc s p m e t h o d h i g h e r - o r d e rs t a t i s t i c sm e t h o di si n t r o d u c e dt ot i m ed e l a ye s t i m a t i o n at i m ed e l a ye s t i m a t i o n m e t h o db a s e do no n s e ts i g n a la n dc s pi sp r o p o s e d ,i t sr o b u s tt on o i s ea n dr e v e r b e r a t i o n i nt h ee n d ,a p r a c t i c a ls y s t e mf o rm i c r o p h o n ea r r a ys p e a k e rl o c a l i z a t i o n ,w h i c hi sr o b u s tt or e v e r b e r a t i o n a n dn o i s e ,e a s yt ob er e a l i z e di nr e a l t i m ed s p s y s t e md u e t oi t sl o w c o m p u t a t i o nc o s ta n ds i m p l i c i t y , a r e p r e s e n t e di nt h ep a p e r , e x p e r i m e n t sw e r ec o n d u c t e di nan o r m a lr o o mw i t hh i g hr e v e r b e r a t i o n t h e r e s u l t sc o n f o r ma l lt h e s ep e r f o r m a n c e s ,s h o wt h a tt h en e w a l g o r i t h mo u t p e r f o r m so t h e ra l g o r i t h ms u c ha s b e a m f o r m i n g ,l m sa d a p t i v ef i l t e ro rc s pm e t h o do n l y k e yw o r d s :m i c r o p h o n ea r r a y ;a c o u s t i cs o n r c el o c a l i z a t i o n ;b e a m f o r m i n g ;t i m e d e l a ye s t i m a t i o n ; g e n e r a l i z e dc r o s sc o r r e l a t i o n ;a d a p t i v ef i l t e r ;c s p ;o n s e t s i g n a l i i 致谢 经过一年的努力工作,现在终于完成了硕士学位论文。本论文能够顺利完成,首先 要归功于导师的悉心指导,所以这里特别要向导师殷福亮教授表达深深谢意。殷老师严 谨的治学态度、渊博的专业知识、求实的科研作风给我留下了深刻的印象,并将使我终 生受益。还要感谢马晓红老师。她在学习和生活中给了我很多的帮助,使我受益匪浅。 还要感谢大连理工大学电子系信号处理教研室的陈掂老师、郭成安老师、孑l 祥维老师和 李建华老师。正是从这些老师那里,我学到了信号处理方面的专业知识和很多做人的道 理。 读研期间,我的师兄魏建强、周浩洋、顾巨峰和师姐朱建华等给了我很多帮助,特 向他们表示感谢。还要感谢李细林、刘国峰做论文期间对我的帮助。还要感谢初正伟、 欧雄兵、缪春波等同学以及师弟师妹们。 最后,谨以此文献给我的家人,他们是我坚实的后盾。不管是过去、现在还是将来, 使他们过上幸福的生活是我努力学习和工作的最大动力。 基于麦克风阵列实现声源定位 1 1 应用背景 第一章概述 在无噪声、无混响的情况下,距离声源很近的高性能、高方向性的单麦克风可以获 得高质量的声源信号。但是,这要求声源和麦克风之间的位置相对固定。如果声源位置 改变,就必须人为地移动麦克风。若声源在麦克风的选择方向之外,则会引入大量的噪 声,导致拾取信号的质量下降。而且,当麦克风距离声源很远,或者存在一定程度的混 响及干扰的情况下,也会使拾取信号的质量严重下降。为了解决单麦克风系统的这些局 限性,人们提出了用麦克风阵列进行语音处理的方法。麦克风阵列系统较之单麦克风系 统具有许多优点,其优越性表现在: 1 ) 克风阵列系统具有空间选择特性,可以用“电子瞄准”的方式从所需的声源位 置提供高品质的信号,同时抑制其他说话人的声音和环境噪声,因此可以取得明显的消 噪效果。在这一点上,麦克风阵列明显优于良好瞄准的、高方向性的单麦克风系统。 2 ) 高方向性的单麦克风系统通常只能拾取一路信号,且一般不能随声源一起运动, 这就限制了它的使用范围,而且由于说话人的一些运动,也会导致其接收效果下降。麦 克风阵列系统不要求在声源本地放置传感器,也不会限制说话人,并且不需要移动以改 变接收方向。这些特性有利于它获取多个或移动声源。并且可用于一些特殊的场合。 3 ) 它具有单个麦克风不具各的性能,即自动探测、定位,并且在其接收区域内追 踪正在说话的入。如果算法设计精简得当,则系统可实现高速的实时跟踪定位。 在雷达、声纳、医学、通讯、航空航天技术等诸多领域中,阵列信号处理早已有着 广泛的应用。在国际上,将麦克风阵列技术用于语音信号处理的研究源于二十世纪八十 年代。随后,许多国家( 如美国、德国、法国、意大利、日本、香港等国家和地区) 相继 开展了这方面的研究工作。 进入九十年代以来,基于麦克风阵列的语音处理算法正逐渐成为一个新的研究热 点。现有的阵列系统已经有了许多的应用,这些应用包括视频会议( f l a n a g a n 1 9 8 5 :k e l l e r m a n1 9 9 1 ) 、语音识别( s i i v e r m a n1 9 8 7 ) 、车载系统环境( g r e n i e r1 9 9 2 :卟, v i s w a n a t h a n 。a n dp a p a m i c h a l i s1 9 9 2 ) 、大型场所的记录会议( f l a n a g a n , j o h n s o n ,z a h n 。a n de l k o1 9 8 5 ) 和助听装置( g r e e n b e r ga n dz u r e k1 9 9 2 ) 等。 我国在这方面的研究工作起步较晚,耳前相应发表的论文较少。 1 2 麦克阵列定位方法的历史 基于麦克阵列的定位问题,简而言之,就是利用一组按一定几何位置摆放的麦克定 出声源的空间位置。 基于麦克风阵列的声源定位方法大体上可分为三类:( a ) 基于最大输出功率的可控 波束形成技术。该方法对麦克风阵列接收到的语音信号进行滤波、加权求和然后直接 控制麦克风指向使波束有最大输出功率的方向;( b ) 基于离分辨率谱估计的定向技术。 该方法利用求解麦克信号间的相关矩阵来定出方向角,从而进一步定出声源位鼍;( c ) 基于到达时间差( t d o a ) 技术。该方法首先求出声音到达不同位置麦克的时间差,再利用 基于麦克风阵列实现声源定位 这些时间差求得声音到达不同位置麦克的距离差,最后用搜索或几何知识确定声源位 置。 ( 1 ) 基于最大输出功率的可控波束形成定向方法 该方法对麦克所接收到的声源信号滤波并求加权和来形成波束,进而通过搜索声源 可能的位置来引导该波束,最终使波束输出功率最大的点就是声源的位置。在文献 1 , 2 中最早提出该方法的理论基础,在文献 3 中进一步得出可控定位的理论和实际上的 方差,并在文献 4 中将该方法应用于多声源的定位。 该类方法中最简单的方法是延迟一求和波束形成法。该方法对麦克信号采用延迟以 补偿声源到麦克的传播延迟。这些信号通过时间校正和求和来形成一单一信号。更复杂 一些的波束形成法在进行时间校正的同时,还对信号进行滤波。由于各种滤波器的不同, 形成了不同的算法。本论文将给出一种最大似然参数定位法,该方法基于在真正声源处 修正的麦克信号相关性最大的原则,这是一种改进的可控一波束形成定位法。 可控波束形成技术本质上是一种最大似然估计,它需要声源和环境噪声的先验知 识。在实际使用中,这种先验知识往往很难获得。此外,最大似然估计是一个非线性优 化问题,这类目标函数往往有多个极点,且该方法对初始点的选取也很敏感。因此,使 用传统的梯度下降算法往往容易陷于局部极小点,从而不能找到全局最优点。如果采用 其它搜索方法,若要力求找到全局最优点,就会极大地增加计算复杂度,从而不可能用 于实时处理系统。 ( 2 ) 基于高分辨率谱估计技术的定向方法 该方法来源于些现代高分辨率谱估计技术( 如a r 模型,m v 最小方差谱估计,g u s i c 算法,特征值分解法等) 。这些方法的详细总结见文献 5 ,6 。 虽然该方法成功地应用于一些阵列信号处理的问题,但在说话人定位中的效果不佳。 原因有以下四点: 1 ) 该方法需要通过时间平均来估计各麦克信号之间的相关矩阵,这就需要信号是平稳 的,且估计的参数是固定不变的。而语音信号是一个短时平稳过程,往往不能满足 这个条件。因此效果和稳定性不如可控波束。此外,该方法往往假设理想的信号源、 相同特性的麦克定位等这些在实际中不可能的条件。虽然可以通过某些方法减弱这 些因素的影响,但这往往需要成倍地增加运算量0 3 。 2 ) 由于房间的反射作用,使信号和噪声有定的相关性,也会极大地降低该方法的有 效性。 3 ) 该方法还需假定声源离麦克的距离比较远,且麦克是一个线性阵列,这样声波可以 近似看成平面波。而这对需近距离定位的系统是不可行的。 4 ) 高精度谱估计技术往往针对窄带信号,而语音信号是宽带信号,这也需要以增加运 算量为代价来提高定位精度“”1 。 ( 3 ) 基于时延的定位方法 该定位方法采用两步法。首先估计麦克对之间的时延,这些时延对应空间一些双蓝 面,然后可以以某种最优准则估计声源位置。各种准则见文献 1 1 一1 7 。 对于该方法而言,精确而具有韧性的时延估计是有效估计声源位置的关键。由于噪 声和混响的存在,使得精确估计时延变得困难。只存在嗓声的情况已被深入研究。像s n r 加权的归一化互相关( g c c ) 法“”,m l 一类型加权法o ”已成功用于低混响环境中”。而随 基于麦克风阵列实现声源定位 混响的增加,该类方法性能下降“。2 “。本人做的实验也证明了这一点。而互功率谱相位 法( c s p ) 通过减少依赖频率的加权,锐化互相关函数峰值,而对混响有一定的抵抗作 用”。”1 。但在低信噪比环境下,其性能降低。基于此,本论文给出一种改进的c s p 法: 针对一般方法都将混响和噪声分开对待的缺点,本论文提出一种新的时延估计法一基于 建立信号和互功率谱相位的时延估计法,该方法对噪声和混响均有较强的韧性。 就已经获得的一组麦克时延,大体上可以有两种方法定位出声源。其一,以获得的 时延求得一个目标函数,通过搜索的方法来确定声源的位置;本论文给出三种准则,并 比较其性能。其二,用次最优的方法通过几何方法估计出声源的位置。本论文深入研究 该方法,给出了一种线性修正最小均方声源定位法和线性插值声源定位法。 基于时延的定位方法在运算量上远远小于可控波束和谱估计法,可以考虑在实际中 实时实现。但是该方法也有不足之处。其一,估计时延和定位分成两阶段来完成,因此 在定位阶段用的参数已经是对过去时间的估计,这在某种意义上只是对声源位置的次最 优估计;其二,时延定位的方法比较适合于单声源的定位,而对多声源的定位就束手无 策:其三在房间有较强反射和噪声的情况下,往往很难获得精确的时延,从而导致第二 步的定位产生很大的误差。 虽然如此,由于时延估计定位方法的运算量比较低,而且在适当改进后,在一定的 噪声和反射下有比较好的定位精度,因此适合于在实际中实时应用。本文将重点论述该 方法。 1 3 基于麦克阵列定位系统的模型和难点 传统的视频会议系统通过人来控制摄像机,使其对准说话人的位置。该方法不仅精 度低,而且带来很大的不便。本文通过麦克风阵列确定房间内说话人位置,从而控制摄 像机自动地对准说话人。 本文麦克阵列定位系统主要是针对在室内应用场合。图l - 1 详细描绘了一个麦克阵 列定位系统的实际情况。 由图1 1 可知,麦克阵列系统定位声源的精度受多方面因素的影响。第一是噪声和 反射的噪声;第二是声源的多重反射;第三是说话者与麦克的相对位置。 假定声音传播满足线性波动方程,且房间内的环境在一段时间内不变,则从声源到 麦克之间可看成线性时不变系统。可设声源信号为,( ”) ,第i 个麦克接收到的信号为 x 。( n ) = h s ( h ) + s ( ”) + w i ( n ) ( 1 - 1 ) 其中髓( 疗) 是房间的脉冲冲击响应,w ,( 一) 是高斯白噪声。图1 - 2 是一个典型房间的脉冲 冲击响应。 一个高精度声源定位系统所面临的难点主要有: 1 ) 定位系统不仅受到噪声的干扰,而且由于房间的反射作用,会产生相关噪声。这 样各麦克间噪声的互相关函数就不等于零,从而增大了定位的难度。 二茎王茎塞墨堕型壅墨主塑塞垡 图卜1 麦克阵列定位系统描述 f i g u r ei - 1s y s t e mo f m i c r o p h o n e $ o l l r c cl o c a l i z a t i o n 直接部分 反射部分 : 一t ? r ? - - _ : 。 、? - i 黼 0 l 沙 嘲 j 协a沁m 图卜2 房间的脉冲冲击响应 f i g u r e1 - 2i m p u l s er e s p o n s ei nt h er o o m 2 ) 由于房间的反射,麦克不仅收到声源的直接到达部分,还收到反射部分。而声音 的反射会导致互相荧函数或者波束的尖峰扩展,使得难以确定最大值,从而加大了定位 的误差。 3 ) 对于单面墙上摆放的线性麦克,当声源在方向角比较小的位置时,会影响几何近 似的精度,从而给麦克与声源间距离的确定引入了比较大的误差。因此,声源与麦克的 相对位置也会极大地影响定位的精度。 4 ) 麦克的摆放。对于一个定位系统而言,麦克的数量越多,麦克的相对位置越多样 化,提供的空间信息量越大,从而具有较高的定位精度。而在实际系统中,麦克的摆放 位置比较固定,数量也比较少。因此难点就是在尽量少的麦克和固定摆放位置条件下, 提供高的定位精度。 基于麦克风阵列实现声源定位 1 4 本论文的主要工作 本文对麦克风声源定位系统进行了研究,主要工作如下: ( 1 ) 总结归纳并比较了各种基于麦克阵列的定位方法的优缺点。主要介绍两种声源定 位方法:基于可控波束的声源定位方法和基于时延估计的声源定位方法。此外,还介绍 一种神经网络声源定位方法。 ( 2 ) 简单介绍传统的基于可控波束的定位方法。给出了一种最大似然参数声源定位 法,并将其与延迟一求和可控波束定位法的性能进行了比较。 ( 3 ) 介绍了一种神经网络声源定位方法。 ( 4 ) 研究时延估计方法。提出了改进的互功率谱相位时延估计方法:介绍一种基于高 阶统计量的时延估计方法;最后给出基于建立信号模型和互功率谱相位的时延估计方 法。该方法对噪声和混响均具有很强的鲁棒性。 ( 5 ) 简单介绍了基于搜索的方法和基于几何定位的方法。对于前者,给出了三种不同 的误差准则,并对其进行分析比较。对于后者,在现有球形插值法的基础上,给出了一 种新的方法:线性修正最小均方声源定位法。另外,还给出了线性插值声源定位法a ( 6 ) 给出一种实际声源定位系统。该系统运算量小,对噪声和混响均具较强鲁棒性。 文中并给出了实现框图及会议室实验结果。 基于麦克风阵列实现声源定位 第二章可控波束定位方法 基于可控波束的定位方法。2 ”是出现比较早且应用在实际中的一种定位方法。该方 法对麦克所接受到的声源信号滤波并求加权和来形成波束。进而通过搜索声源可能的位 置来引导该波束,最终使波束输出功率最大的点就是声源的位置。文献 1 ,2 最早提出 该方法的理论基础,文献 3 3 进一步得出可控定位的理论和实际上的方差,文献 4 将该 方法应用于多声源的定位。 基于可控波束的定位法中最简单的一种方法,是延迟一求和波束形成法。该方法对 麦克信号进行延迟,以补偿声源到麦克的传播延迟。这些信号通过时间校正并求和来形 成信号。更复杂一些的波束形成法在进行时间校正的同时还对信号进行滤波。由于各种 滤波器的不同,形成了不同的算法。前者运算量小,信号失真小,但抗噪性低,需要较 多的麦克才有比较好的效果。后者因为加了自适应滤波,所以运算量比较大,而且输出 信号有一定程度的失真,但需要的麦克数目相对较少,在没有反射时有比较好的效果。 本章将给出- $ q 最大似然参数声源定位法。该方法基于麦克信号通过实际声源位置处的 延迟校正后得到的信号相关性最大的原则,是一种改进了的可控波束形成定位法。 2 1 传统可控波束定位方法简介 假设麦克的数目为m 。延迟一求和波束形成法对接收的麦克信号x a t ) 进行校正并求 和,以期望从不同空间位置中得到源信号,同时削弱噪声和混响的影响。该方法可简单 定义为 y ( f q s ) ;t ( ha ,) l - 1 ( 2 1 ) 其中是当阵列指向声源g 。时的“可控延时”,用以补偿从声源到每个麦克的直达信号 的时延。式( 2 1 ) 表明,用声波到达时间延迟( t d o a ) 信息来控制波束方向可以达到声源 定位的目的。 该方法的优点是可以一步完成定位,且在最大似然意义上是最优的,同时对不相关 的噪声有抑制作用。当接收到的噪声是加性噪声、彼此互不相关、方差均一且不大; 声源到麦克距离相等的情况下该方法是最优的。而实际情况中存在反射及复杂的噪声, 从而影响了该方法的精度。图2 1 描述了一个典型房间的波束功率分布图,其中x ,y 分别表示房间宽的方向和房间长的方向。声源高度为1 8 m 。左图是该分布的三维图,右 图是该分布的等值线图。 由图2 1 可以看出该目标函数是具有多个极点的非线性多模态函数。不仅难以确定 优化搜索方法,同时也需要较大的运算量。 为了削弱噪声和混响的影响,于是产生了更一般的滤波一累加方法。该类方法在麦克 进行时间校正求和之前先进行滤波,该方法在频域中如下式所定义 6 基于麦克风辞列实现声源定位 y ( w ,q ) = g ( w ) x 。( w ) p m ;i ( 2 2 1 图2 - 1 延迟一累加波束功率的三维图和等值线图 f i g u r e2 - 1 t h r e e d i m e n s i o nd i a g r a ma n di s o l i n cd i a g r a me f d c i a y a n d s u mb c a r a f o r m i n gp o w e r 其中x 。( w ) ,g ( w ) 分别为第n 个麦克接收信号的傅立叶变换及其相应的滤波器,该方 法中对于某一声源位鼍口,麦克信号进行该位置下的可控时延相位校正,这种形式同时 域波束形成在本质上是等同的。这种麦克间信号的相加以及基于频率的滤波,在某种程 度上补偿了环境及信道效应( 噪声,反射) 的影响。根据声源信号的性质、噪声、混响 的特性来选择适当的滤波器,可以提高算法性能,但最优滤波器是找不到的。 通过控制阵列方向( 搜索声源的可能位置) 来引导该波束,最终使波束输出功率最 大的点就是声源的位置。 波束输出功率定义为 - 2 p ( q ) = i1 y ( c o ) ld o j ( 2 - 3 ) 于是可得到声源位置为 q ,= a r g m a x p ( g )( 2 4 ) q 滤波一求和可控波束形成声源定位方法的原理如图2 2 所示。 图2 2滤波一累加可控波束形成声源定位法原理框图 f i g u r e2 - 2p r i n c i p l ed i a g r a mo f f i l t e r a n d - s u ms t e e r e d - b e a m f o r m i n gs o u r c el o c a t i o n 基于麦克风阵列实现声源定位 2 2 最大似然参数声源定位法 最大似然参数声源定位方法也属于可控波束形成法。它基于的原则:用在实际声源 位置情况下的延迟对麦克信号进行校正,得到的信号相关性最大,是一步最大似然参数 声源定位法。该方法避免估计时延,且避免直接计算相关。 该方法对宽带接收信号在频域中进行交叉相关计算。其思想源于声源位置信息包含 在接收信号谱的线性相移中。假设有m 个麦克,每帧数据长度为l ,d f t 长度为n , n l + r ,r = m x ( f 。) ,b q = l ,m ,r ,= l 一! v 为位于的声源到第p 个位于0 的麦克的时延。 f w = ( 1 一0i i 一0i ) l v 为声源到麦克p 和麦克q 的相对时延- v 为声速 接收麦克阵列信号可表示为x ( n ) = x 。( n ) ,x 。( n ) 】= i s 。( n ) ,一。( 一) ,+ 彳( 一) 其中 5 ,( 月) = 玎,0 一t p ) ,这里( n ) n n n n g - ,口,为麦克pn 接收n - 3 n n ,0 - ( 一) 为零 均值、方差为盯2 的高斯白噪声。 接收麦克阵列信号的频域表达式为 x ( k ) = s ( k ) + 口( t ) ,k = o ,一1 ( 5 ) 其中 x ( k ) = i x i ( k ) ,x m ( k ) 】1 , s ( 妁= i s l ( 女) ,( t ) , s p ( ) = ( n ) e 叩“= s o ( t ) 即8 讲“。“, 其中7 7 ( t ) 为零均值、协方差为l a 2 的复高斯白噪声。 麦克p 和麦克q 的加权互相关函数为 c p 口( r ) = w p q x ,( 一) x ,( n - r ) = 吉c 。( ) e 止“ ( 2 。6 ) t 卸 2 专荟咖炉“” 其中力权因子:w _ p = a p l 屡i 为麦克p 的归一化增益= w p q x p 舯 为加权互功率谱密度。互功率谱密度的表达式避免了直接计算互相关函数,可大幅度减 少计算量。 定义j 【o ) 为 8 - 基于麦克风阵列实现声源定位 j ( e ) = ( k ( 。) ) ,;1q ;1 n - l 村m = 专o x ,( k ) e j 2 “, i n 瓦x :( ) e 1 2 蛳 ( 2 - 7 ) i ;op - 1口2 l = 寺陬。) f 2 其中b ( k ,e ) = ”( 女) 爿( ) = :弼x ,( ) 。2 坼7 ”是在频域内可控波束的输出。阵列权矢 w p 【 ) = - d p e - j 2 “t p i ”,h 表示复共轭转置。通过对式( 2 - 7 ) 在一系列位置上进行搜索,使式( 2 7 ) 最大化的位置即为声源位置。如果只考虑具有正频率下标或具有重要谱密度下标的声源 位置,我们可以得到 其中,。:n 乙2 j 乙。m 弓,( 女) 0 2 。其中,。= 乙f 乙。弓,( 女) l i 。 = o 。 o 厶( 0 ) 的梯度为 n 2 瞰,。1 2 “( o ) = 魁l _ 一1 , ( 2 - 8 ) p 1 1 b x 脚,= 孟篝鬈。顾删 ( 2 - 9 ) 其中c ( k ,。) = 弓x ,( 七) e 。2 坼“,“,= ( 一m 一,l 表示声源到麦克p 的方向矢量。 一种简单的梯度算法可表示为3 0 ) = 0 。) + p 。j 。( 0 。) 】( 2 - 1 0 ) 下面来推导该方法在最大似然意义上是最优的。由式( 2 5 ) 可得,第k 个频率下的对 数似然函数为。( o ) = - ( 1 三d2 ) | l x ( 女) 一s ( 七) j 1 2 。于是得到声源位置的最大似然估计 为 m a x 确l ( 。) _ m 仙i n 到( 垆蚓f ( 2 - u ),岛 p o i 面 定义厂( ) = 眵( ) 一s ( 量) i 2 ,f 最小化应该满足 ( 2 - 1 2 ) s弓 h 硝 一 h 州 器 基于麦克风阵列实现声潭定位 由式( 2 一1 2 ) 可得声源位置的最大似然估计为 2 丽1 附。) 将式( 2 1 3 ) 代入f ( k ) ,可得 r 2 1 3 ) m i n f ( k ) = r a i n - 2 r e i b ( k ,o ) f 2 j + f b ( k ,o ) f 2 ) :m。)12(2-14)max = i b ( 七,o ) f 式( 2 1 4 ) 与本节的参数算法是一致的。由上述推导过程可知,该方法在最大似然意 义下是最优的。 2 3 实验结果 下面给延迟一求和波束形成声源定位法和最大似然参数声源定位法的性能比较实验 结果。 定位系统的房间大小为4 x ? 3 m ,采样率为1 6 k h z ,信号窗采用汉宁( b a n n i n g ) 窗。 噪声环境为1 2 d b ,混响时间为2 0 0 m s 。麦克的数量为8 个,成双线性排列,如图2 3 所 示。语音长度5 s ,采样率1 6 kh z ,每帧数据长度1 0 2 4 点,帧移3 2 m s ,取九帧作为实 验结果。 图2 3 房间和麦克的三维视图 f i g u r e2 - 3v i e wo f m o ma n dm i c r o p h o t l cp l a c e m e n t 令式( 2 2 ) 9 的g ( 脚) = l ,即为延迟一累加波束形成法;对于最大似然参数声源定位 法,令a 。= 1 r 。采用m a t l a b 中f m i n s e a r c h ( ) 函数来优化式( 2 3 ) 和式( 2 - 7 ) 。原始可控 波束法( 延迟一求和波束形成法) 和改进后的波束法( 最大似然参数法) 的定位结果如图 2 _ 4 和图2 - 5 所示。 图2 - 4 和图2 5 中的水平角和仰角是相对于原点的,用来表示空间各点相对于原点 的方向。水平角和仰角的搜索范围是一6 0 至6 0 。,搜索步长为o 1 。图中的灰度深浅对 应着该方向波束值的大小。图2 4 表示式( 2 3 ) ,图2 5 表示式( 2 7 ) ,九幅图依次表示连 基于麦克风阵列实现声源定位 续处理的九帧语音。 4 卸 角 第一帧 第= 帧 5 9 = _ l i t 第四帧薷五帧 稍。第七帧第几帧 第九帧 6 0 鼍km 9 术平角 。 图2 - 4 原始可控波束法( 延迟一求和波束形成法) 的定位结果 f i g u r e2 - 4 r c s u j lo f d e l a y - d s u mb e m f o 圩n e r o c 丑j i z a t i o n 第一帧第:帻 蕙三幢 硒 书第四帻第五帧 膏六帧 仰 角 瑚筇七鞭第 犊第九鞍 鼍kq 水平 b t 图2 - 5 改进可控波束法( 最大似然参数法) 的定位结果 f i g u r e2 - 5 r e s u l to f m lp a r a m e t r i cl o c a l i z a t i o n 图2 - 4 和图2 5 中的圆形亮点表示声源位置,叉号表示这两种方法所估计的声源位 置。从这两幅图明显可以看出,改进后的可控波束法( 最大似然参数法) 所形成的波束 峰值尖锐,声源位置的估计值接近声源的实际位置,定位比较精确。而未加改进的可控 波束法( 延迟一求和波束形成法) 由于噪声和反射的影响,其波束的峰值明显扩展,很 难辨别出最大值的位置,因此导致定位误差明显大于改进后的可控波束法。 基于麦克风阵列实现声源定位 第三章基于神经网络的声源定位方法 本章要介绍的是一种运用神经网络来定位声源方位角的方法。该方法可用于估计远 端或近端声源( 包括窄带及宽带信号) 到达的方向角。该方法使用多层感知机反馈网络 结构,并将邻近麦克归一化的互功率谱作为特征矢量。下面给出该方法的详细推导和计 算机模拟结果。 3 1 算法推导” 该定位方法将麦克的接收信号通过特征提取来除去冗余,保留所需信息。该过程的 一个重要步骤是求麦克对的互功率谱相位( c s p ) 。 该声源定位系统的结构图如图3 1 所示。 图3 1 中的步骤为:计算每个麦克接收信号的离散傅立叶变换( d f t ) ,寻找具有大 幅度d f t 系数的频率点,将该频率点上的d f t 系数和临近麦克相应的d f t 系数的共轭相 乘。很明显,这种处理方法能大幅度减少计算量,同时声源位置信息并没有明显丢失。 图3 - 1 神经网络法声源定位系统 f i g u r e3 1 b l o c k d i a g r a mo f s p e a k e rl o c a l i z a t i o ns y s t e m 基于麦克风阵列实现声源定位 图3 - 2 远端声源位置估计 f i g u r e3 - 2f a r _ f i e l ds o u r c el o c a t i o ne s t i m a t i o n 图3 - 3 近距离声源位置估计 f i g u r e3 - 3 n e a rf i e l ds o u i 、c cl o c a t i o ne s t i m a t i o n 远端声源位置估计如图3 - 2 所示。当说话人和参考麦克的距离大于2 d 2 k 。”时 到达声波近似为平面波。其中九。是声源信号的最小波长,d 是阵列相邻麦克的距离, 麦克m 和麦克1 ( 参考麦克) 接收信号间的时延为 m = ( 一1 ,d s i n o m 一1 ) r( 3 - 1 ) l 其中d 为相邻两麦克的距离,口是d o a 角度,c 为空气中声音传播速度。 当说话人与麦克阵列距离很近时,时延还依赖于说话人和麦克阵歹f j 的距离。近距离 声源位置估计如图3 3 所示。声源与参考麦克的距离r 为 声源和麦克m 的距离为 s = r2 2 ( m 一1 ) d rs i n o + ( m 一1 ) 2 d 2( 3 3 ) 麦克1 和麦克m 信号间时延差为d o a 角度的函数,即 铲! 芝曼竺娑型塑业( 3 - 4 ) 乙 在定位声源时,我们利用麦克的相位差来估计d o a 角度。 本方法选取多层感知器m l p 来进行声源定位。m l p 的优点在于任意函数均可用它 来逼近( 只要神经元足够多) 汹1 。 由于d o a 角度包含在麦克信号的相位差中,所以在本定位方法中选取的特征矢量应 该只包含相位信息。选取麦克1 为参考信号,麦克m 接收到的信号以及它的傅立叶变换 可用该参考信号来表示,即 。( r ) = 3 1 ( hr 。) ( ) = s l ( o o e 。( 3 - 5 ) 其中f 表示傅立时变换。 麦克m 和麦克m + 1 信号间的互功率谱表示为 妒删“( ) = s m ( 0 0 s ;+ i ( 伽) = s j ( ) e 。k s :( 珊) e 一7 。+ 1 - l s i ( 由) 1 2e 。h 一+ l ( 3 - 6 ) 基于麦克风阵列实现声源定位 在频率点曲的归一化,卅+ ,( m ) 为 。“( q ) = e 4 ( 。一。( 3 - 7 ) 假设语音信号的k 个支配频率点含;占足够大能量,可以提供可靠的互功率谱估计, 所以只要计算k 个支配频率点q ( f = l 2 ,胃) ,上的式( 3 7 ) 即可。式( 3 1 ) 到式( 3 4 ) 的关 系表明,由。( 印) 和q 可以转化为= l ,2 ,m ) ,进而求d o a 角度0 。我们的目标 是用m l p 感知器来近似这个过程,从而决定d o a 角度。 下面的算法用于计算长度为( 2 ( m 1 ) + 1 ) k 的实特征矢量( 其中k 表示k 个支配频率 点,m 表示m 个麦克) : 1 ) 计算每个麦克信号的n 点f f t 晶,m = l ,m ,n = o ,n 一1 2 ) 找到第一个麦克的k 个支配频率点( 模值最大) 的f f t 系数,用姒) 表示k 个 最大系数的下标,且满足 i s i 【) 】m s l 【,( 2 ) 】忙 - i s “,( t ) 】剖s “f ( f ) i = 1 ,n 且i l ( k ) ,k = 1 ,k 3 ) 将麦克m 的k 个最大f f t 系数和麦克m + i 对应的f f t 系数的共轭相乘,来计 算互功率谱的瞬间估计。 p r o k = 岛【舭) 】s :+ l 【舭) 】k = l ,k ,m = l ,m - 1 4 ) 将互功率谱归一化。 尸卅 七】= 名【纠,i 匕【纠lk = 1 ,k ,m = 1 ,m - 1 5 ) 形成m l p 输入矢量,分别为;归一化互功率谱系数的实部和虚部,以及相应 的f f t 系数下标: v = r e 怠 七】 i m 岛【七n f 耻】) 七= 1 芷,卅= 1 ,m 一1 。 3 2 模拟实验 我们使用模拟语音数据来进行训练和测试。麦克m 在n 时刻产生语音数据的模型为 “, 【n 】- 吼c o s ( 2 厅譬n 一戎一2 矾f 。) + v m ( 3 8 ) k :lj j 其中n 。为余弦函数的个数,丘为第k 个余弦函数的频率,工为采样频率,丸为第k 个 余弦函数的初始相位,f 。为前面所定义的时延,v n 为高斯白噪声。实验中n ,= 1 0 , ,= 8 0 0 0 h z ,五为 2 0 0 h z ,2 0 0 0 h z 间均匀分布的数,以为 o ,2 x 间均匀分布的数,a k 基于麦克风阵列实现声源定位 为 o ,1 间均匀分布的数。r 。取决于声源到麦克的距离r ,这里r 为 0 ,2 d 2 ,丑 间 均匀分布的数。通过改变角度0 来产生数据,0 在一口2 和硝2 之间分3 6 等份,( 不包 含玎2 ) ,间隔为丌3 6 ( 5 。) 。对于每一个0 ,产生1 0 0 套独立的长度为1 2 8 点的数据。 实验中使用不同的麦克数、隐含节点数、数据长度、支配频点数、麦克间隔来训i 练 和测试该神经网络定位方法。具体做法是先改变其中一个参数而固定其它参数找到最优 值,然后把该参数设为最优值,再改变另一个参数找到它的最优值。以此类推。 图3 - 4 图3 - 9 为对应于不同参数下的d o a 角度估计的平均绝对误差。图3 - 4 表明含 有4 个麦克的阵列是最优选择。在以后的实验一直取m = 4 。图3 5 示出了不同隐含节点 情况下的平均绝对误差。从图3 5 可以看出,当隐含节点太多时,此时由于数据长度有 限而不能估计太多的模型参数,所以误差大;当隐含节点太少时,由于此时的近似模型 已经不精确,误差也大。隐含节点数最好的选择是1 0 ,图3 - 6 示出了不同数据长度情况 下的平均绝对误差( 只检查2 的次方处) 。从图3 - 6 可以看出,在n 大于1 2 8 后,误差 下降的很慢,所以取n = 1 2 8 。当然,如果希望误差低而对复杂度要求不高的话,可以通 过增加n 来实现。图3 7 示出了不同支配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论