什么是麦克风阵列? 相信大家都见过麦克风。是我们常用的麦克风。麦克风阵列与麦克风基本相同,但收音机的单元更多。基本上,如果有两个以上的无线电孔,就可以说是一个麦克风阵列。简单理解为一个麦克风就是一个麦克风,多个麦克风就是一个麦克风阵列。 麦克风阵列是一种多麦克风系统,其中一定数量的声学传感器(麦克风)按照一定的规则排列,对声场的空间特性进行采样和滤波。 除了看到的麦克风数量外,麦克风阵列还有一系列的前端算法。组合系统是一个完整的麦克风阵列。麦克风阵列只完成物理世界中的音频信号处理。要完成语音识别,仍然需要云端的 ASR 模型。两个系统协同工作以获得最佳识别效果。
对麦克风阵列的需求 消费级麦克风阵列的兴起得益于蓬勃发展的语音交互市场,主要解决远距离语音识别问题,保证真实场景下的语音识别率。 麦克风阵列声音定位 这涉及到语音交互用户场景的变化。当用户从手机切换到类似的智能音箱或机器人时,面对麦克风的环境其实完全变了,就像两个人窃窃私语和大喊大叫的区别。 几年前,语音交互应该最常见的就是以 Siri 为代表的智能手机,一般采用单麦克风系统。 单个麦克风系统可以获得满足语音识别需要的低噪声、无混响、非常接近声源的声音信号。 但是,如果声源距离麦克风较远,并且在真实环境中存在大量噪声、多径反射和混响,则拾取信号的质量会下降,严重影响语音识别率. 此外,单个麦克风接收到的信号是由多个声源和环境噪声叠加的,很难将每个声源分开。 这样就无法实现声源定位和分离,这很重要,因为还有另一种声音叠加,不是噪声,但在语音识别中也应该被抑制,那就是人声的干扰。语音识别显然不能同时识别两个。不止一种声音。
麦克风阵列是由一组麦克风按一定的几何结构(通常是线性和圆形)放置而成,对采集到的不同空间方向的声音信号进行时空处理,以实现噪声抑制、混合噪声去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,从而提高语音信号处理质量,提高真实环境下的语音识别率。 事实上,仅通过麦克风阵列很难保证语音识别率。 麦克风阵列只是一个物理入口,它只是在物理世界中完成声音信号处理,获得语音识别所需的声音,但语音识别率是在云端得到的结果,所以两个系统必须匹配在一起得到最好的结果。 不仅如此,麦克风阵列处理的信号质量也无法由标准来定义。因为目前的语音识别基本上都是深度学习训练的结果,而深度学习有一个局限性,就是严重依赖样本数据库进行输入训练。如果处理后的语音与样本数据库不匹配,识别效果不会很好。