深度解读麦克风阵列技术：语音交互应该选用怎样的方案？

类型分类：: 科普知识

数据分类：: 麦克风

深度解读麦克风阵列技术：语音交互应该选用怎样的方案？

发布日期：2022-10-09 点击率：75

　　亚马逊Echo和谷歌Home争奇斗艳，除了云端服务，他们在硬件上到底有哪些差异？我们先将Echo和Home两款音箱拆开来看，区别最大的还是麦克风阵列技术。Amazon Echo采用的是环形6+1麦克风阵列，而Google Home（包括Surface Studio）只采用了2麦克风阵列。这里想稍微深入谈谈麦克风阵列技术，以及智能语音交互设备到底应该选用怎样的方案。

　　什么是麦克风阵列技术？

　　学术上有个概念是“传声器阵列”，主要由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理的系统。而这篇文章讲到的麦克风阵列是其中一个狭义概念，特指应用于语音处理的按一定规则排列的多个麦克风系统，也可以简单理解为2个以上麦克风组成的录音系统。

　　麦克风阵列一般来说有线形、环形和球形之分，严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量，也就是麦克风数量，可以从2个到上千个不等。这样说来，麦克风阵列真的好复杂，别担心，复杂的麦克风阵列主要应用于工业和国防领域，消费领域考虑到成本会简化很多。

　　为什么需要麦克风阵列？

　　消费级麦克风阵列的兴起得益于语音交互的市场火热，主要解决远距离语音识别的问题，以保证真实场景下的语音识别率。这涉及了语音交互用户场景的变化，当用户从手机切换到类似Echo智能音箱或者机器人的时候，实际上麦克风面临的环境就完全变了，这就如同两个人窃窃私语和大声嘶喊的区别。

　　前几年，语音交互应用最为普遍的就是以Siri为代表的智能手机，这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是，若声源距离麦克风距离较远，并且真实环境存在大量的噪声、多径反射和混响，导致拾取信号的质量下降，这会严重影响语音识别率。而且，单麦克风接收的信号，是由多个声源和环境噪声叠加的，很难实现各个声源的分离。这样就无法实现声源定位和分离，这很重要，因为还有一类声音的叠加并非噪声，但是在语音识别中也要抑制，就是人声的干扰，语音识别显然不能同时识别两个以上的声音。

　　显然，当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候，单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性，利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构（常用线形、环形）摆放的麦克风组成，对采集的不同空间方向的声音信号进行空时处理，实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能，进而提高语音信号处理质量，以提高真实环境下的语音识别率。

下一篇： PLC、DCS、FCS三大控

上一篇：索尔维全系列Solef?PV

工业电气产品

工业控制产品

传感测量产品

仪表工具产品

工业电子产品

机械设备产品

深度解读麦克风阵列技术：语音交互应该选用怎样的方案？

推荐产品

新手指南

业务合作

物流配送

支付方式

售后服务

关于我们