转自:http://bbs.elecfans.com/jishu_1628138_1_1.html

1、Amazon Echo
不管第一代还是第二代,Echo都采用典型的6+1麦克风阵列结构,即环形6个麦克风搭配中间1个麦克风,如下图左所示。而且,Amazon一直非常喜欢采用TI的AD芯片TLV320ADC。目前,这种阵型国外主要是Amazon Echo使用,国内也只有联想和科大讯飞曾经模仿过这种阵型,其中,1代联想智能音箱采用的是环形6个麦克风+中间2个麦克风的结构。如下图右所示。

这里再说一下科大讯飞,其叮咚音箱系列产品都是模仿的这种结构,讯飞增加了1个麦克风,形成了环形7+1麦克风阵列的结构,如下图所示。叮咚1代和2代的差别主要是1代采用的是驻极体麦克风,而2代换成了模拟的MEMS麦克风。相比Amazon来说,科大讯飞更喜欢科胜讯的芯片,1、2代叮咚产品全部采用科胜讯的AD芯片CX20810,另外,科大讯飞的双麦算法也是采用的科胜讯CX20921芯片。

2、Echo Show
Echo Show则采用了椭圆形麦克风阵列,国内一般也称为跑道形,其实就是双线形,如下图左所示。这个阵型因为Echo Show的厚度问题所做了折衷处理,也是典型的技术妥协于产品设计的案例。目前,国内只有声智科技供应类似阵型,即L型6麦阵列,见如下图右所示。

3、Echo Spot
进一步缩减了麦克风阵列的配置,采用了环形4麦的技术,如下图左所示,这个阵型既降低了成本但也保证了一定的效果,这是比较典型的根据场景选择合适技术的案例。目前,国内的声智科技也供应这种阵型的麦克风阵列产品,即兼容4麦和4+1麦的麦克风阵列及开发板,如下图右所示。

相比6麦阵型来说,减少了2个麦克风之后,这个阵型仅是损失了一些4米以外的远场语音交互性能。但是根据国外产品公司对用户使用习惯的统计分析数据显示,在1-3米的范围是用户最习惯的远场交互距离,所以4麦也适合大多数用户使用场景,尤其是酒店等行业的应用。

4、Apple HomePod
采用的是环形6麦方案,环形6麦的优点就是给产品ID设计更大的自由性,同时也兼顾了成本和远场语音交互性能。国内小米AI音箱采用声智科技的前端方案,其中的阵型就是环形6麦,同时为继续降低成本,麦克风也全部采用数字麦克风,这样就省掉了模拟麦克风必须搭配的AD芯片。国内采用这个阵型的还有天猫精灵、小雅音箱,然而,不同于小米AI音箱,天猫精灵为照顾算法因素,依然采用了模拟麦克风+TI ADC的方案。

5、Google Home
Google Home则独具一格,采用了双麦克风的方案,国内出门问问的智能音箱也沿用了这个方案。国内双麦技术提供商主要是科大讯飞和声智科技。而声智科技的双麦方案主要应用在汽车等行业,其在消费电子领域的成熟应用方案则是单麦克风方案。

6、除此之外,还有一些特殊阵型。
科大讯飞曾经发布过双层的麦克风阵列,以及4麦线形阵列。除了科大讯飞,声智科技也推出了量产版的4麦线形阵列、3麦三角阵列以及分布式阵列。但是由于这些特殊阵列的产品目前销量还较小,在市场上的影响还很小。

为何不同产品的麦克风阵列差异如此大?
从上面的盘点可以看出,Amazon几乎每个新产品系列都会采用新的麦克风阵列技术,国内知名产品的麦克风阵型也多种多样,即便相同的阵型,其阵元间距也会不同,为何会产生这个现象?

1、麦克风阵列技术
首先从麦克风阵列技术本身来看,麦克风阵列是指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、双L、平面、螺旋、球形等。

至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。由于成本限制,消费级麦克风阵列的阵元数量一般不超过8个,所以市面上最常见的就是6麦和4麦的阵型。

2、麦克风的质量、数量及布局
除了算法,决定麦克风阵列性能的主要就是阵元麦克风的质量、数量及布局。这些基本都是硬件架构所决定,特别是麦克风的质量和数量,又与每个厂商的供应链紧密相关,这就非常容易造成每款产品的差异。比如叮咚1代为保证性能,选择了性能指标更高的指向型驻极体麦克风,而Echo则为了保证量产质量,则选用了性能指标较低的MEMS麦克风。由于算法的持续提升,对于麦克风的要求不再严格,因此MEMS麦克风是当前主流的应用。

3、远场语音交互的场景
其次从远场语音交互的场景来看,比如智能音箱、智能中控和智能汽车的场景肯定不一样,其需求自然也不同。智能音箱一般都是放置桌面,需要360度响应指令,所以环形阵列比较适合,而智能中控一般贴墙固定,仅照顾180度范围即可,这时候线形阵列就能满足。

当然这里也有特殊,比如手机和平板,一般也是3麦或4麦的矩形,这种阵型恰当利用屏幕导向而只是重点满足某个扇形角度的性能。智能汽车又分了两种情况,一种情况是仅满足驾驶员的语音交互需求,则单麦/双麦基本就能满足,另外一种情况则是满足所有乘员,而且重点照顾后排,则需要采用分布式阵列。

4、产品设计美观和约束
再次从产品设计美观和约束来看,刚才提到了阵型,这就约束了产品的ID设计,但是产品若有差异就必然需要不同的ID,那么自然就需要形态各异的麦克风阵列。不同的阵元间距和分布会对麦克风阵列性能产生重大影响,所以这个设计过程中是技术和艺术互相妥协的过程。同时麦克风阵列对于遮挡也有一定的要求,当前的麦克风阵列主要是放在顶部,就是为了避免这个问题,当然这个约束也会随着算法技术的不断提高而弱化。

5、产品成本及生产工艺
最后从产品成本及生产工艺来看,比如麦克风的选型问题,驻极体麦克风的性能指标更好,但是由于生产需要大量人工介入导致成本较高,因此当前主要采用MEMS麦克风。MEMS麦克风又分为模拟和数字两种,模拟麦克风+专业ADC的性能指标也更好,但是同时也让成本上升。数字麦克风的难点就是采集的信号相对最差,需要算法处理更多以达到与其他方案同样的效果。

为什么Google Home要选择双麦方案?
偶尔会听到行业人士做的一个类比,人类有两只耳朵,所以两个麦克风就能达到同样性能。这实际上是一个误解,以现在技术来看,即便用100个麦克风,也未必能达到人耳的效果。人耳是极其复杂的一个结构,至今为止实际上科学也没搞清楚所有原理,更谈不上用简单的麦克风进行模拟了。现在的麦克风,实际上都是标量麦克风,所获取的仅仅是声压变化转成的电信号,而且还没有耳廓,更无法根据场景变化随动调整。

那么为什么Google Home要采用双麦方案呢?这和麦克风阵列有何差异?事实上,这要从各家不同的技术架构来探讨,当前市面上主要存在三种远场语音交互技术架构。

1、以Google为代表的纯云端技术架构
首先就是以Google为代表的纯云端技术架构,Google并非不想采用麦克风阵列,因为阵列相比双麦方案具有了波束形成的功能,自然就拥有了更好的噪声和去混响能力,当距离较远或者环境复杂的时候依然能够保证远场识别率。但是由于麦克风阵列涉及了前端硬件,这并非Google所擅长,因此Google就希望能通过云端机器学习的方式来达到类似功能。

但是麦克风阵列的阵元较多,产生的数据容量太大,而当前的网络上传带宽严重不足,所以只能权衡选择更少的麦克风。实际上若采用前端方案,大部分场景下单麦克风方案也能达到双麦方案的性能。当然多一路麦克风信号对于云端算法来说也是很重要的。

2、以科胜讯为代表的纯前端技术架构
其次就是以科胜讯为代表的纯前端技术架构,双麦降噪实际上是非常成熟的方案,在智能手机和蓝牙耳机上已经广泛应用,但是直接应用到语音交互则需要大量适配工作。纯前端方案的优点就是容易集成到芯片上,缺点就是很难升级以及扩展,这恰好与人工智能不断迭代的趋势不太兼容,也是当前这种方案无法流行的主要原因。

3、以Amazon为代表的前端+云端方案
最后就是以Amazon为代表的前端+云端方案,这种方案是把算法分别放置到前端和云端,根据具体场景可以调配优化,更容易优化性能并扩展功能。这种方案考虑了麦克风阵列与唤醒和识别技术一体化的问题,由于唤醒和识别严重依赖麦克风阵列的算法处理效果,实际上这三种技术是无法完全分割的,特别是麦克风阵列和唤醒技术更是浑然一体。

所以国内厂商开发的Amazon Alexa产品,若选用Sensory等提供的唤醒词,总是会比Echo差不少,有意思的是,Alexa与Echo两个团队之间的互相较量,以致于产生了产品接入Alexa平台却要接受更差性能的尴尬。

全球量产麦克风阵列的阵型技术盘点(转)相关推荐

  1. 续航超1000km,极氪成为宁德时代麒麟电池全球量产首发品牌 | 美通社头条

    美通社消息:8月27日,宁德时代新能源科技股份有限公司(宁德时代)与极氪智能科技有限公司(极氪)共同宣布极氪是麒麟电池的全球量产首发的品牌.极氪009为麒麟电池首发车型,而极氪001将成为全球首款搭载 ...

  2. 全球量产汽车流行色彩报告:亚洲偏爱白色,欧洲喜好灰色

    白色连续第九年蝉联冠军色彩 灰色反超银色,位列全球流行榜单第三 银色市场占比为十年来最低 灰色有史以来首次成为欧洲最受欢迎的汽车色彩 艾仕得发布了第67年度<全球量产汽车色彩流行统计报告> ...

  3. 启明云端分享|ESP32-C3有望三月中旬量产出货,ESP32-C3-MINI-1模块技术规格书分享

    ESP32-C3-MINI-1模块性能介绍 ESP32-C3-MINI-1 是一款通用型 Wi-Fi 和低功耗蓝牙 (Bluetooth LE) 模组,体积小,具有丰富的外设接口,可用于智能家居.工业 ...

  4. IBM推全球首个5纳米芯片:计划2020年量产

    IBM日前宣布,该公司已取得技术突破,利用5纳米技术制造出密度更大的芯片.这种芯片可以将300亿个5纳米开关电路集成在指甲盖大小的芯片上. IBM推全球首个5纳米芯片 IBM表示,此次使用了一种新型晶 ...

  5. 聊一聊麦克风阵列技术:语音交互应该选用怎样的方案?(转载)

    转自:http://news.soundai.com/?id=7 雷锋网(公众号:雷锋网)按:本文作者陈孝良,工学博士,声智科技创始人.雷锋网独家文章. 亚马逊Echo和谷歌Home争奇斗艳,除了云端 ...

  6. 多麦克风做拾音的波束_麦克风阵列是什么 有哪些关键技术?

    麦克风阵列是什么 有哪些关键技术? 亚马逊Echo和谷歌Home争奇斗艳,除了云端服务,他们在硬件上到底有哪些差异?我们先将Echo和Home两款音箱拆开来看,区别最大的还是麦克风阵列技术.Amazo ...

  7. L2级自动驾驶量产趋势解读

    来源:<国盛计算机组> L2 级自动驾驶离我们比想象的更近.18 年下半年部分 L2 车型已面世,凯迪拉克.吉利.长城.长安.上汽等均已推出了 L2 自动驾驶车辆.国内目前在售2872个车 ...

  8. 中国最懂自动驾驶量产公司秀肌肉:自动驾驶算力怪兽、百亿参数云端超大模型、百万公里路测里程...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这可能是中国进展最迅猛的自动驾驶公司. 刚刚结束的毫末智行Q3品牌日,这家被业内人视作"中国最懂量产自动驾驶"的公司晒 ...

  9. 音视频开发(36)---麦克风阵列声音定位解决方案

    麦克风阵列声音定位解决方案 噪声源定位简介 噪声源定位意义 噪声源识别是指在同时有许多噪声源或包含许多振动发生部件的复杂声源情况下,为了确定各个声源或振动部件的声辐射的性能,区分噪声源,并根据他们对于 ...

最新文章

  1. 论文笔记 Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
  2. Dart是一个怎样的语言?
  3. Linux---More命令 初级实现
  4. firewalld的防火墙
  5. keras安装_代码详解:构建一个简单的Keras+深度学习REST API
  6. 深度学习分类类别不平衡_「图像分类」 关于图像分类中类别不平衡那些事
  7. 泛型技巧系列:类型字典和Type Traits
  8. curl模拟自动登陆采集网页数据
  9. jq 获取当时时间的到秒_js(jQuery)获取时间的方法及常用时间类
  10. 三大协议NetBEUI和 IPX/SPX TCP/IP
  11. Axure RP9授权码(亲测有效)
  12. 如何解决直播中的播放杂音、噪音、回声问题 | 直播疑难杂症排查
  13. 28岁以后,我再也没为工作拼过命
  14. shell 的大于等于小于等
  15. 新生代公链再攻「不可能三角」
  16. 1N4148的导通电压
  17. STM32H743使用PA0,PA1作为ADC输入的坑!!
  18. 长续航高性价比,轻松畅享好音质 ——索尼长续航颈挂式无线耳机WI-C100活力发布
  19. 10种基于MATLAB的方程组求解方法
  20. aps助油田服务与设备行业实现数字化

热门文章

  1. 冷水机组相关温度、压力参数意义详解
  2. python爬取豆瓣短评_爬取并简单分析豆瓣电影短评
  3. SQL Server 2005详细安装过程及配置【转载瑞文软件】
  4. 五子棋游戏(Java编写)双人对赛
  5. 精品软件 推荐 免费的PDF 阅读 软件 福昕阅读器
  6. 记一篇IT培训日记026-小组讨论
  7. 数据结构与算法weeks03
  8. godspeed机器人_机器人总动员?经典 及其它
  9. 一度智信|购物节即将来临,商家如何做好促销活动?
  10. 织梦html编辑器修改,织梦dedecms自带编辑器替换成百度(ueditor)编辑器的方法