本文参考自 Machine Learning Journal:https://machinelearning.apple.com/2018/12/03/optimizing-siri-on-homepod-in-far-field-settings.html

关于HomePod

HomePod是苹果推出的内置Siri智能音箱。当地时间2017年6月5日,苹果开发者大会2017正式推出了Siri智能音箱HomePod。搭载6个麦克风阵列,4英寸低音炮,底部配有7个扬声器阵列,内置Apple A8处理器。

首先看一下HomePod的内部结构及用途。Why?因为看了结构才能发现问题,发现了问题才有优化的必要。直接上图:

HomePod内部结构

图片可能不是很清晰,这是网上能找到最清晰的了。。顶部是A8芯片,中间是6个麦克风阵列,底部是扬声器阵列。发现问题了没?扬声器和麦克风离得太近了,试想一下,如果在你的耳朵上贴上两个100分贝以上的扬声器(如果现实的话),你自己说的话你还能听见么?

再就是HomePod的使用场景,它是在室内使用的,如下图:

室内HomePod

室内可能有很多噪声源,比如空调、电视等,再有就是声音反射造成的回声。在多个声源之下去辨别一种声源也不是很容易。

在以上情况下,按照常理你喊一句“Hey Siri”,这个智障应该是没有反应的,但是我在入手HomePod以后测试了一下,HomePod正在播放音乐并且我的电视在运行的情况下,在接近房间对角线的距离我正常语速和语调喊了一声“Hey Siri”,这家伙竟然识别出来了,我后面的语音指令也被正常的识别并执行。

中间肯定有优化的算法,查了查资料,苹果处理的相当之专业。

HomePod远场语音识别增强VS其它远场语音识别增强

其实优化的目标很明确:刨除所有杂音,让Siri识别器只接受来自指令发出者的语音信号。也就是所谓的语音增强。

HomePod内置了一个多通道信号处理系统,这个多通道信号处理系统主要使用了以下方法:

1)利用深度学习去除回波和背景噪声的基于掩模的多通道滤波;

2)无监督学习分离同步声源并触发基于短语的流选择以消除干扰语音。

先来看看其他的处理系统是怎么做的。以及HomePod为什么不能用这些技术。

HomePod之远场语音识别增强相关推荐

  1. 远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术

    [12月公开课预告],入群直接获取报名地址 12月11日晚8点直播主题:人工智能消化道病理辅助诊断平台--从方法到落地 12月12日晚8点直播:利用容器技术打造AI公司技术中台 12月17日晚8点直播 ...

  2. 远场语音识别,性能提升 30%,百度怎么做到的?

    导语:彻底端到端 ~ "今天我保守报一个30%以上的性能提升,很保守.未来这个技术会再次大幅刷新人们对远场语音的认知.我自己的判断是,三年以内远场语音技术的识别率将达到近场识别率,因为有了这 ...

  3. 后端根据百度地图真实路径距离_远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术...

    [12月公开课预告],入群直接获取报名地址 12月11日晚8点直播主题:人工智能消化道病理辅助诊断平台--从方法到落地 12月12日晚8点直播:利用容器技术打造AI公司技术中台 12月17日晚8点直播 ...

  4. 远场语音识别套件评测

    我在过去和百度语音打交道的这些日子,曾遇到过很多问题,比如识别慢.精度差.自身原因和设备原因太多,举步艰难.我觉得一个非音频内行的人很难进一步提升在这一块的性能与质量. 但现在,百度语音正不断地完善, ...

  5. 百度远场语音识别套件-开箱评测

    远场语音识别套件之开箱 很荣幸,在2019年我依旧在百度AI平台下茁壮成长,这次收到了来自百度的测试邀请,我将有机会拿到最新的前沿产品~为各位献上来自前线的战况~ 我在过去和百度语音打交道的这些日子, ...

  6. 远场语音识别面临的瓶颈与挑战

    语音交互正在被视为用户在未来很多场景下的主要流量入口之一.因此,寻求可靠有效的远场语音技术突破变成了当下工业界和学术界的迫切需求.一个经典的语音识别系统包含麦克风信号采集模块.信号处理模块以及语音识别 ...

  7. 长虹新一代人工智能电视Q6A、Q6K发布,搭载远场语音识别

    2018年10月27日,在长虹建业60周年战略转型暨产品发布会上,长虹新一代人工智能电视新品--CHiQ电视Q6A.Q6K首次亮相,引起业界重大关注. 长虹本次推出的CHiQ电视新品Q6A.Q6K系列 ...

  8. 百度对数据的要求很高,智能音箱的难点是远场语音识别

    今年刚入职百度的智能生活事业群组小度硬件平台总经理钱晨首次面对媒体,介绍了百度新近推出的新品小度PLAY的设计理念. 值得注意的是,就在上周百度AI开发者大会上景鲲宣布推出新品小度PLAY后,天猫精灵 ...

  9. 傅盛谈AI场景化:猎户星空远场语音识别采用率业内第一

    中新网10月30日电 10月28日,猎豹移动CEO傅盛参加新出海行业峰会,发表题为<后互联网时代 "中国模式"弯道超车>的演讲,回顾了猎豹移动从工具到内容的全球化历程, ...

最新文章

  1. 准官宣?余承东证实华为已有自研操作系统
  2. CentOS7 安装NodeJS
  3. 算法不会,尚能饭否之队列
  4. Android事件分发机制(一)
  5. 方舟建服务器局域网显示,方舟生存进化怎么新建局域网
  6. 如何生成CGCS2000坐标系等高线
  7. Mac关闭Iphone更新系统iTunes强制自动备份文件
  8. 从信息泄露到权限后台
  9. Python高效编程之88条军规(1):编码规范、字节序列与字符串
  10. 优秀程序猿写技术文档的正确姿势
  11. 任意角度旋转图片的ground truth目标检测框
  12. 十三五智慧医疗与健康服务业发展趋势
  13. 【Turtle表白合集】“海底月是天上月,眼前人是心上人。”余生多喜乐,长平安~(附3款源码)
  14. 基于 NI myRIO 的平衡车设计
  15. ORB-SLAM稠密点云地图构建(黑白+彩色)+ pcd文件以八叉树形式表示
  16. 使用AVPlaer创建视屏播放器
  17. 等离子显示器测试软件,液晶/等离子高清晰度显示器评测方案
  18. 酷播云H5播放器倍速播放功能
  19. 最值得收藏的电脑快捷键使用, 让你的效果成倍增加
  20. cookbook(1)

热门文章

  1. 免费WAP改变自我现状 谈四个赢利途
  2. Java 导出exl表格 一个单元格内换行
  3. neo4j图数据库入门
  4. windows资源保护无法启动修复服务器,win10专业版sfc/scannow修复系统提示windows资源保护没法启动修复服务?...
  5. Idea中maven 只从本地仓库导入jar包,取消联网下载的问题
  6. Qt编写可视化大屏电子看板系统3-新建布局
  7. 【财富空间】将门CEO高欣欣、顺丰首席科学家刘志欣、图灵机器人联合创始人杨钊、中国人民大学向松祚等——AI应用落地:用产品说话
  8. C++运行三维人脸重建 VRN
  9. 计算机基础——5.2 图像与图形
  10. 手把手教你,Stanford Drone 数据集的正确打开方式