鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

如果技术不能让每个人无差别使用,不能帮助人去适应变化……

这是程序员的耻辱。

这就是阿里达摩院技术大牛、天猫精灵首席科学家、程序员聂再清,在被问及近期热议话题时的表态。

最近,一则讨论引发了两种认知的割裂。

智能手机给多数人的生活带来了种种便利,但也有少数人被“落下”——许多老人不会用、不善用智能手机,没有健康码,技术的快速铺开,反而给他们的生活造成了一定困扰。

于是问题来了:在这个科技日新月异的时代,如果有人跟不上技术迭代的节奏,怎么办?

有人言辞激烈:科技倒逼人类进步,跟不上发展就要被淘汰,这是时代在惩罚不主动学习的人。

也有人坚决反对:技术的发展,不应该让每个人能无差别使用吗?

而阿里达摩院的大神程序员聂再清,就是后者的坚定支持者。

作为前微软亚洲研究院首席研究员、如今的阿里天猫精灵首席科学家,聂再清当前正在不断推进的正是新一代人机交互方式——AI语音交互。

所以在他看来,让所有人无差别使用最新技术,技术应该帮助人去适应变化,是每一个程序员、工程师再正常不过的使命。

当然,体现到他带队的最新技术和产品应用中,聂再清也是这样做的。

技术应该让每个人能无差别使用

7月5日,天猫精灵刚好迈过三周年。

对于聂再清而言,过去半年,疫情改变了工作形态,但没有改变工作目标——一种新的语音模组正在加快冲刺。

每天清晨,他习惯在自家小区400米一圈的院子里,跑到汗水浸透全身,再回到家中,与各种家用设备改装的AI实验仪器为伴。

而这新一代语音模组的关键算法,正是要实现云端一体化后,让不同用户“无差别使用”。

所以在刚过去的618消费季中,虽然天猫精灵孵化的智能家居设备,出现了100个千万级销售爆款。

但让聂再清最开心的一则新闻,则是这样一则“社会新闻”——在杭州,一位孙女为自己奶奶打造了无障碍的家。

视频中,这位70多岁的老人通过智能音箱,语音操控家中的空调、窗帘、电视。

这也是对聂再清团队持续“无差别实验”,尤其是特殊疫情环境下坚持的回报。

新冠疫情发生后,聂再清和天猫精灵产品团队的“无差别实验”,险些面临停摆。

首先,天猫精灵自身对新算法的测试流程,过去有大量外包设备厂商和测试员完成,新冠疫情导致2月基本无法复工。

更困难的是,预计要在618成为新品的扫地机、跑步机、按摩仪、水果榨汁机、集成灶等等智能设备,正处在厂商与天猫精灵智能语音模组对接测试,即将量产的关键阶段。这些家电普遍运行声量偏大,对智能语音识别颇有挑战。

由于疫情影响,人们也在家居环境中更高频购买和使用这些产品。让技术的门槛持续降低,让先进科技能够覆盖到更多人群。

这是天猫精灵三周年的目标之一,也是聂再清整个职业生涯,希望以语音助手作为一个突破点去实现的“无差别”价值。

因为语音对话、眼神手势交流,无疑是更为自然的交互方式,这就在技术层面,降低了用户触达前沿科技的门槛,用更简单的方式满足人们的科技需求,让科技普惠到更多人的生活。

去年,聂再清曾用业余时间打造了一个“爆款”,阿里反骚扰电话AI“二哈”。

而这半年以来,聂再清团队则投入精力,针对老人、儿童这样的弱势群体,尝试进一步扩宽智能语音助手的“基站”覆盖范围,降低使用门槛。

比如,天猫精灵上线的方言功能,让不会说普通话、普通话不标准的老人也能方便地和语音助手交互。甚至还能合成四川话语音,实现与老人的乡音交流。

一般来说,一个智能产品的推出,往往会选择先覆盖最主流、最具购买力的群体。但这一次,聂再清团队却是着重针对老人、儿童的功能进行了优化,背后的考量,与商业价值有关,却也与商业价值无关。

聂再清认为,智能音箱,应该是智能网时代的助手,其实是第三代的互联网。

他打了这样一个比方,在移动互联网时代,手机的通信依靠基站,哪个地方有基站覆盖,信号连上了,这个地方的人就能够享受到手机的服务。

而对于语音技术来说,能否发挥最大价值,最终也是要看覆盖多少人群。

解决覆盖人群的问题,就像是在建基站。最终,只有百分百的覆盖,才能说,智能语音真正成为了第三代互联网助手。

音素编码上的语义理解

单纯站在技术的角度,聂再清说,科研的出发点很简单,就是让用户在使用的过程中,感受到的是“人工智能”,而非“人工智障”。

核心需要解决的问题,就是如何让数字世界里天猫精灵这样的语音助手,“听懂”物理世界里用户的需求。

传统的做法,分为三个阶段:

首先,把语音信号接入,做语音识别,将语音转化成文本;

然后,对文本进行语义理解

最后,用抽取出关键词,在知识库里做实体链接。

这样的方法,其实存在很多问题。比如,一旦语音识别阶段出现决策失误,在后续的流程中就没有办法纠正,就会影响到识别的精度。

另外,实体链接也是很大的挑战。因为实体的名字经常是“反语言模型”的。比如说陈奕迅的《圣诞结》,在正常的语言模型中,就很容易被识别成“圣诞节”。

那么,能不能不转成文字,直接根据语音做语义理解呢?

答案是,可以。聂再清介绍,语音语义一体化的关键,在于音素

音素,是根据语音的自然属性划分出来的最小语音单位,基于人的发音动作来分析,一个动作构成一个音素。

聂再清解释,比如输入“liangzhu”这个语音信号,通过声学模型,就可以计算出一个音素后验矩阵。在这个时候,模型并不需要马上判断“liangzhu”到底是指音乐里的“梁祝”,还是建筑里的“梁柱”,而是可以在音素后验的基础上去做意图分类、语义分类。

这样,就避免了一步错步步错的情况。

也就是说,基于音素,语义理解、实体链接都可以放到一个统一的优化模型中进行优化。

这一成果发表在了ICASSP 2020上。聂再清介绍,实验表明,该方法在公开数据集上超越了此前的SOTA模型,同时在天猫精灵上线解决了大概30%的语义实体链接错误。

这就真正让智能语音助手在“听懂”人类的道路上更进一步。

语音+眼神,让交互更自然

而聂再清思考的另一个问题,是如何让新一代语音助手跟人们之间的交互更自然。

交互方式越自然,学习成本就越低,使用的门槛就越低,越能服务到更多的人。

当带屏音箱越来越受到市场的认可,视觉技能点的点亮,就给智能语音助手带来了更多可能性。

比如,多模态唤醒

比起每次都要喊“天猫精灵”这样的唤醒词,如果给智能音箱一个眼神,它就能知道你是在跟它对话,那这样的交互就更符合人们的习惯,更加自然直接。

聂再清介绍,这其中的难点在于,智能音箱需要判断一段语音到底是不是在跟它进行对话,如果反复出现误唤醒,那就太“人工智障”了。

于是,他们采用了视觉 + 声音 + 全双工自然对话三管齐下的方式,来对“唤醒”这个动作进行优化。

并且,这三个条件只要有两项满足,多模态唤醒就能够实现。也就是说,即使是在无屏音箱上,这项技术也能让对话更加自然。

就像这样:唤醒智能音箱,要求它打开空调后,无需再次唤醒,只要说“调到20度”,语音助手就能结合上下文,判断出这句指令是对它说的。

云端一体化,让每个人都享受同样智能

从实验室到落地终端,用户最终的体验又是如何保证的呢?

天猫精灵产品部资深专家孙尧介绍说,一方面,是针对特定用户的样本测试。

比如,老人可能存在语言能力退化、口音重的问题,就需要定向采集相关的语料和录音,来提升老年人语音识别的准确性。

另一方面,则是聂再清提到的关键词,云端一体化

依靠云端的能力,就可以把硬件端的产品做到更便宜,让更多人用得起,但在智能体验上并不会有所损失。

这样的方式,也降低了AI能力接入硬件的门槛。

去年,天猫精灵就推出了AI语音模组,把实现智能功能的一些设备集成到一个板子上。这样,电器厂商只要在产品中留出标准接口,就能轻松把天猫精灵的AI能力接入到产品中。

就在疫情期间,天猫精灵工程师们还用这样的AI语音模组打造了一个有趣的“业余项目”——

给园区里的电梯接入语音助手。

他们把天猫精灵的智能模组抽出来,业余时间自己买电路板进行了一番DIY、离线算法优化,以便接入电梯。大概两周时间,这个方案就上线到了园区电梯里,喊一声“我要去XX楼”,电梯就能无接触式完成操作。

甚至还能更酷。

孙尧介绍了这样一个新的应用场景:小区接入天猫精灵后,高层住户只需在家中让语音助手叫一下电梯,语音助手就能帮你隔空“按”电梯。

这样换完鞋子出门时,电梯差不多也就到了。

科技的发展,当然会给人们的生活带来改变。但在这种变化之中,人们的习惯和技术本身也不应该是对立的。

聂再清表示:

我的观点是,科技发展的目标是让每个人都能得到帮助。

即使是在改变的过程中,技术也能够辅助人们适应变化,而不是跟人对立起来,造成所谓的“淘汰”。

做智能助手,遵循的就是这样的逻辑:用跟人一样打交道的模式,为更多人提供前沿科技带来的便利。

聂再清还打了个比方:

比如你需要招一个私人助手,Ta告诉你你必须要适应我的节奏,那你肯定就不招了。

千人千面的AI

从端到端的口语理解,到多模态的自然交互,聂再清也坦承,从技术的角度上,语音助手的进步空间还很大。

谈及语音交互的未来形态,聂再清描绘了这样一个场景:

身处北京的你有一个智能音箱,当你飞到杭州出差,在另一台设备上,智能助手依然能一眼就认出你,按照你的习惯调出所有需求。

届时,终端便只是一个载体,而你的定制语音助手,将如影随形。

何时能够实现?

聂再清笑答:5年可以有,3年也是可以期待的。

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

报名 | 四场直播详解AI芯片所有知识点

7月8日—7月11日期间,燧原科技资深产品专家和软件架构师将为大家分别详细讲解:

  • 高端人工智能训练芯片的发展趋势

  • 剖析软件全栈的技术难点

  • 人工智能训练芯片在云计算中所面临的挑战和机遇

四场直播将讲透所有的芯片知识点,欢迎扫码报名~~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

专访阿里达摩院聂再清:不能让每个人无差别享受AI,是程序员的耻辱相关推荐

  1. 阿里达摩院青橙奖“硬核10人”出炉,钟南山寄语青年科学家

    9月9日,2020年阿里巴巴达摩院青橙奖获奖名单公布,梁文华等10位青年科学家获得达摩院的1000万元奖金.这群平均年龄不足32岁的科研后浪收到了中国工程院院士钟南山的鼓励:"你们处在最好的 ...

  2. ​阿里达摩院金榕:从技术到科学,中国 AI 将何去何从?

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 编辑 | 陈大鑫 转自:AI科技评论 本文为阿里巴巴达摩院副院长.原密歇根州立大学终身教授金榕 ...

  3. 阿里AI大牛聂再清重返清华,加入张亚勤AIR战队

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要8分钟 Follow小博主,每天更新前沿干货 "终于成为一名真正的老师了." 这就是AI大牛.阿里天猫精灵首席科学聂再清, ...

  4. 阿里AI大牛聂再清重返清华,加入张亚勤AIR战队,说“阿里很支持为国家培养人才”...

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI "终于成为一名真正的老师了." 这就是AI大牛.阿里天猫精灵首席科学聂再清,最新官宣的新动向--重返学界,加盟清华. 更 ...

  5. 阿里AI大牛聂再清重返清华!

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 金磊 发自 凹非寺 来源:量子位(QbitAI) "终于成为一名真正的老师了.&qu ...

  6. 阿里达摩院的AI Earth(AIE)初体验

    前段时间偶然发现阿里达摩院推出了针对国内用户的地球科学云计算平台--AI Earth(AIE),还是很感兴趣滴,连忙提交了使用申请,来体验一下AIE与GEE有何区别(重在优势). 平台使用申请 AI ...

  7. 阿里达摩院春招 Research Intern 招聘

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[AI求职]微信技术交流群 阿里达摩院春招 & Research Intern 招 ...

  8. AI 一分钟 | 独角兽旷视被爆明年一季度上市;阿里达摩院再得顶级大牛,计算机理论最高奖得主马里奥加盟量子实验室

    一分钟AI 独角兽旷视被爆将在明年第一季度上市,目前估值14.6亿美金. 计算机最高奖哥德尔奖得主.匈牙利裔美国计算机科学家马里奥·塞格德加盟阿里达摩院! 致力于开发家庭机器人的人工智能公司 Roki ...

  9. 从小镇到北大!再到阿里达摩院,「AI萝莉」的“升级打怪”之路...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 从今天开始,开启一个关于我的故事...... 文|罗福莉 编辑|LFL的AI Hello 小伙伴们,大家好啊 ...

最新文章

  1. android组件什么时候加载到r文件,Android自定义加载loading view动画组件
  2. 市面上有没有靠谱的PM2.5检测仪?如何自己动手制作PM2.5检测仪
  3. mysql 避免使用NULL字段
  4. 解决英文版Windows 2003中文乱码问题
  5. NYOJ(21),BFS,三个水杯
  6. Elasticsearch-6.7.0系列(六)ES设置集群密码
  7. 使用 RxJS 实现 JavaScript 的 Reactive 编程
  8. 9月10日见!OPPO再曝Reno2相机细节:你想要的全都有
  9. Android四大组件---BroadcastReceiver
  10. 26种对付反调试的方法
  11. java实现继承的代码_纯作业代码——Java实现接口、继承
  12. 在搭建tesseract-OCR环境中遇到问题和反省
  13. 什么是CMMI能力成熟度模型?企业为什么要做?
  14. 高维数据可视化之t-SNE算法
  15. 汇编---串传送指令MOVS
  16. 数学三角形和倒三角形公式表达了什么
  17. Python网页截图/屏幕截图/截长图如何实现?
  18. (离散)设函数 f:A→B,g:B→C,证明:若g °f是满射,则g是满射.
  19. PageNow企业级数据可视化开发平台
  20. C#调用不同.cs文件下数据的方法

热门文章

  1. MySQL 8.0版本无法使用 node、Navicat等三方工具连接的问题
  2. MySQL常见错误代码及代码说明
  3. 慕课网 javascript深入浅出编程练习
  4. 数据库设计原则【转】
  5. 项目经验分享——Java常用工具类集合 转
  6. 《大数据的“道”“术”“释”》----读书摘录+思考
  7. 有关rsync的一些语句
  8. Discuz x3论坛使用CDN后获取真实IP的解决方法
  9. GlobalSign 荣登网络信任联盟 2013 年网络信任荣誉榜
  10. 调试器定位变量的原理