作者 | 阿司匹林
出品 | AI科技大本营(公众号ID:rgznai100)

语音助手大战已经进入到白热化的阶段了,除了苹果、亚马逊、Google、微软等国际玩家,国内的百度、阿里、腾讯、天猫也已经纷纷在这个赛道上加快布局,好不热闹。

不论你承认与否,现阶段的语音助手都还处在探索阶段。苹果的 Siri 作为元老,已经很多年没有带给我们惊喜了,而亚马逊虽然 Alexa 风头正盛,但是他们其实也在焦虑,没人敢断定,现在的 Alexa 就一定是语音助手的终极形态。

与此同时,微软却通过小冰向大家展示了另外一种可能性——基于 Session-oriented 基础框架的对话 AI 系统。

▌什么是 Session-oriented?

小冰负责人李笛表示,对话式 AI 基础框架的理念之争正在发生变化。目前,以苹果 Siri 为代表的语音助手都是基于 Turn-oriented 框架,只有微软小冰是采用的 Session-oriented 框架。



如何理解这两个框架?

Turn-oriented:这种框架主要是面向单个任务,每一次对话就像是一个“十字路口”,它的中心就像是这个路口中间指挥交通的“民警”。每当你发出一个指令,他就会把你迅速引导到目的地,当这个任务完成之后,他会把你拉回这个十字路口的中心,一切归零,再循环上述的过程。如果他没有办法把你引导到目的地,那么就会通过搜索引擎提供搜索协助。这个框架已经发展 20 年了,虽然可以在某些场景下迅速完成某个任务,但是却没有办法进行很好的对话。

Session-oriented:这个框架主要是面向对话全程。基于这个框架的对话就像“河流”一样,从一个 turn 往下一个 turn 走,这个 turn 可能跟任务有关,但是这个任务之后可能会进入到进一步的交流,而进一步的交流有可能引发出新的任务,然后再随着新的任务引发一些知识的了解,然后这样流转下去。当我们关注整个 Session 的时候,那么整个 Session 的质量高低都要优于任何一个单一任务完成的质量高低。




▌全双工语音交互

虽然李笛宣称 Session-oriented 有很大的优势,但是口说无凭,用户体验才是最重要的。

去年下半年,微软开始与小米生态链企业 Yeelight 合作,将小冰内置在了 Yeelight 的智能音箱之上。与此同时,在微软内部打磨了一年半的全双工语音技术也首次出现在大众视野。具体的体验视频可以参考AI科技大本营此前的评测文章:

而这个全双工语音交互感官就是 Session-oriented 框架的最后一环,在此之前的所有感官,都是 Turn-oriented 的。李笛称,目前国内的对话式 AI 系统都不能算是全双工,最多算半双工。



什么全双工语音交互?

一次唤醒就可以连续对话,不用每次对话都要唤醒词,这是普通用户最直接的感知,它可以理解为流式交互、连续交互、实时交互、双向交互,是 EQ 和 IQ 的结合。不过,它与目前的多轮交互、持续聆听、免唤醒词有着本质上的不同。

近日,微软小冰的首席架构师周力就首度公开了全双工语音交互背后几大技术支撑。

边听边想:通过预测模型,小冰不会再等到一句话说完,再进行语音识别,然后再处理如何回复,而是没有、听到一个字,就会提前预测用户的完整意思,提前开始“思考”回应;此外,小冰还会根据预估的思考时间、复杂任务的完成时间,有选择地将回答拆解为多段,而不再是用户输入一条,系统回答一条,这样可以减少用户感知的等待时间。



通过预测模型,我们可以让回答更加迅速,而且会有不一样的互动,因为在全双工中,不再拘泥于我要回消息,系统就可以使用更好的策略,让对话变得更加流畅。

节奏控制器:在全双工的对话中,节奏就会变得非常的重要。用户每一句话的重要性并不一样,因此需要采取不同的策略,与自己协调,与人类协调,甚至与其他语音助手协调,来判断是继续倾听,还是回复,甚至抛出新话题等等。

声音场景的理解:在全双工语音交互中,环境的处理同样重要。传统意义上的语音识别是通过其中一段语言识别其中对应的文字,但全双工场景实现的理解不止如此,它包括了分类器、环境处理、对象判断。

其中分类器主要用来识别用户的身份和情绪,以及环境中的音乐,而环境处理则主要涉及背景噪声识别、回声消除、动态音量识别与调整等等,至于对象判断则主要是用来进行声纹识别,针对不同用户,提供不同的服务,不过目前声纹识别还在内测中。

自然语言理解与生成模型:与微信小冰用的减缩模型不同,全双工版的小冰用的是生成模型,通俗的解释就是,后者的每一句话都是自创的。利用这种技术,系统可以实现更好的容错性,并且可以基于时间、整个对话的内容、以及用户的意图,来动态决定是否主动结束整个 Session。

周力表示,生成模型本身本身更适于一种引流性交互的模式。因为第一个词出来的时候,系统已经开始生成对应的语音音频了。而且生成的模型也可以帮助对整个场景的理解,而且还可以去判断什么时候这个对话应该结束了,这个如果是用传统的形式,或者用搜索的技术,很难达到这样的效果,也很难作出这样的判断。

▌Siri 们和小冰的未来

李笛表示,国内人工智能整体的发展更像在堆积木,而没有特别多探索到底层框架的设计。从全球的范围来看,大家已经开始逐渐向 Session-oriented 的方向再转,为什么?

“Turn-oriented 的上限决定了语音助手未来的发展空间。”

在李笛看来,现在的 AI Speaker(AI 音箱),相当于原来用遥控器去遥控的 Siri,现在改为用语音交互命令去遥控她,并没有完成更多的增值,也没有给人工智能留下多大的空间。因为框架决定了,她在未来的拓展性比较低。

李笛称,苹果最近也在考虑是不是要把 Siri 原来的框架废止掉,然后切换到一个新的框架上。“如果我们仅仅是针对一两个功能、技能,或者是一些知识图谱去做调整的话,不需要废掉原来的框架,这实际上是技术底层框架发生很大的改变。”

虽然这么说,但是 Alexa 凭借着上万种 Skills(技能)引发了效仿的热潮。虽然小冰在 Yeelight中没内置如此多的技能,不过周力表示,他们并不担心。

“真正重要的并不是说有 100 个、1000 个功能,而是我用起来到底费劲不费劲,如果费劲的话,你有再多的功能,我可能尝试一下之后,也不太会经常用。但如果你的交互变得很自然,哪怕功能很少,我可能也会经常去用,每天都会去用,甚至像我们天天用手机一样。”

而就在去年下半年,亚马逊为 Alexa 举办了一场竞赛,赛题是:建立一个社交机器人,这台机器人要能够与人类进行交流,并对热门话题持续讨论 20 分钟。

李笛认为,这是亚马逊在探索从 Turn-oriented 转向 Session-oriented 标志。

据悉,微软还会为小冰增加视觉交互的功能,与全双工语音交互一起形成完整的 Session-oriented 框架。但是这个框架是不是就是对话式 AI 系统的终极框架呢?李笛并没有盲目乐观。

“实际上,我们也一直是在类似纠结的过程中。我们在一个领域里领先的时候,我们很害怕,因为底层框架或者一些技术严重滞后的原因,突然出现一种新的框架,它的发展空间比我们的发展空间高,那我们就没有办法再追了,这是很重要的一件事情。”

Siri不行了?微软小冰或许是未来的方向相关推荐

  1. 天载优配分析科技有望是未来的方向

    抱团股受制于反弹空间有限,当时最强的仍是碳中和概念.电力.钢铁.有色金属.煤炭板块体现比较强,新[gubar]动力[/gubar].光伏板块弹性大,动摇率高,都是获益于碳中和出资的主题. 天载炒股分析 ...

  2. 谷歌、华为、腾讯等纷纷布局,代表未来游戏方向的云游戏抢滩登陆

    云游戏"抢滩登陆",由来已久,也备受期待.新旧技术更迭下,难以计数的厂商已经在"云游戏"布局多年,传统厂商和新入局者相互博弈,也在客观上探索着云游戏的商业模式. ...

  3. python编程未来就业方向有哪些?

    毋容置疑,python编程未来就业方向是多向的,有Linux运维.Python Web网站工程师和Python自动化检验等职位,因为我们现在已经迎来了大数据时代,Python编程语言成为了数据分析师的 ...

  4. [置顶] Java程序员们读什么书决定了对未来职业方向的选择

    学习Java最痛苦的事情莫过于对未来职业方向的选择.尤其是选择开发Java Application还是Java Web方向,在你先定好大类后还有数不尽的小类教你无从学起. 因此,作为初学者的你必须看完 ...

  5. Postgres 9.5的特性及未来发展方向

    2019独角兽企业重金招聘Python工程师标准>>> Postgres 9.5的特性及未来发展方向 在2015年中国数据库技术大会上来自华为postgres 中国用户会发起人李元佳 ...

  6. 中国牙科用人工骨替代材料市场供需态势与未来投资方向分析报告2022年

    中国牙科用人工骨替代材料市场供需态势与未来投资方向分析报告2022年 --------------------------------------- <修订日期>:2021年12月 < ...

  7. 全球及中国汽车紧急呼叫终端行业运营模式及未来投资方向建议报告2022版

    全球及中国汽车紧急呼叫终端行业运营模式及未来投资方向建议报告2022版 --------------------------------------- [修订日期]:2021年12月 [搜索鸿晟信合研 ...

  8. 全球及中国汽车物流行业未来发展方向与投资机遇研究报告2022版

    全球及中国汽车物流行业未来发展方向与投资机遇研究报告2022版 --------------------------------------------- [修订日期]:2021年11月  [搜索鸿晟 ...

  9. 全球及中国新能源汽车电机市场未来发展方向与投资潜力研究报告2022版

    全球及中国新能源汽车电机市场未来发展方向与投资潜力研究报告2022版 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS-- [修订日期]:2021年11月 ...

最新文章

  1. SpringMVC容器初始化篇----ContextLoaderListener
  2. 'cross-env' 不是内部或外部命令,也不是可运行的程序
  3. linux线程同步(2)-条件变量
  4. Angular ERROR NullInjectorError: R3InjectorError(AppModule)的错误分析
  5. 福建省计算机应用考试成绩,福建省高校学生计算机应用水平考试成绩查询
  6. 【SpringCloud】Spring cloud Alibaba Nacos 集群和持久化配置
  7. IDEA两步删除版本控制
  8. python脚本用类编写_跟老齐学Python之编写类之二方法
  9. [LoadRunner]LR11安装或破解时报错的解决方法
  10. CSS基础知识10-两种CSS布局
  11. PCB中的SOLD MASK和阻抗开窗
  12. python判断闰年_python如何判断闰年
  13. Buffer(缓冲区)
  14. OpenCV路在何方
  15. python重新执行条件_Python 基础(二)
  16. 电脑蓝牙已关闭,蓝牙开关不见的故障排除
  17. PotPlayer 和 VLC 播放器的书签
  18. 【学习总结】Git学习-参考廖雪峰老师教程六-分支管理
  19. luogu 1094
  20. 33.0 haproxy

热门文章

  1. 构建插件式的应用程序框架(八)----视图服务的简单实现(ZT)
  2. 金融学名词M0, M1, M2, M3, M4, M5, M6
  3. python找不到reshape_如何加速Python程序
  4. 【leetcode 字符串】466. Count The Repetitions
  5. 【设计模式】 模式PK:策略模式VS状态模式
  6. Centos 7 意外断电如何处理
  7. UISearchBar和 UISearchDisplayController的使用
  8. H.264 picture parameter sets成员值含义学习笔记
  9. 青少年编程竞赛交流群周报(第036周)
  10. LeetCode实战:回文数