2018年,亚马逊Alexa语音助手取得的进步更多来自于广度而不是深度。记得,亚马逊在2014年秋季推出了第一款AI人工智能音响Echo时,当时很多人都不了解Echo的运行机制是怎样的。从2014年到2018年,Echo以及Alexa驱动的智能设备,已经渐渐褪去神秘感,遍布人们日常生活中的每一个角落。

亚马逊语音助手Alexa的可用国家数量已经增加了一倍之多,取得规模上的较大收益。对于初级用户而言,可以利用Alexa学习法语和西班牙语。现阶段,有超过2万8千台智能设备与Alexa展开合作,是今年年初合作设备数量的6倍之多。Alexa内置入100多种不同的产品、设备中。还记得1999年首次出售的大嘴比利·巴斯Big Mouth Billy Bass吗?这条会转头、可以摇动尾巴、张嘴唱歌的鱼,在今年已经可以兼容Alexa了。

Alexa在2018年的发展路径,时刻影响、定义着2019年乃至更远将来的发展趋势。Alexa正在悄悄、微妙地发生着一些改变,这些改变大众平时可能根本没有注意、察觉到。

技术与改变

在过去的一年中,Alexa get到了很多新技能。举例来讲,Alexa可以根据上下文,从一个查询转移到下一个查询,激活后续问题,无需重复唤醒单词。用户可以根据自己的需求,要求Alexa在同一个请求中执行多项操作,在Alexa应用程序中召唤一个技能,且无需知道确切的名称。

这些小的调整并不可见,但累积后,量变引起质变。用户与机器的交流,变得更加柔和、顺畅,比一年前更加自然。亚马逊不断引入、完善机器学习技术。在人类语言专家的帮助下,通过系统识别中的主动学习功能,大大降低了错误率。

亚马逊Alexa的副总裁兼首席科学家Rohit Prasad表示,主动学习已经融入进亚马逊的每个渠道中,包括语音识别和自然语言理解。“这些使得亚马逊的所有机器学习模型更加完善。”

近年来,数据表示已经成为一项重要的研究课题。自然语言理解(NLU)系统很少输入原始文本,而是采用嵌入形式。数据表示保留文本的语义信息,而不是以持续、确定的方式呈现。采用嵌入式改善特殊的NLU任务已经被多次应用。

今年IEEE语言技术峰会上,亚马逊展示了专门针对Alexa NLU的数据表示方案。数据显示,在一些关键任务的技能选择上,以及在数千种技能中,该方案将技能选择错误率降低了40%。在Alexa的NLU系统中,用户语言经过了更加细粒度的分类。

首先,对话领域或者对话主题的分类,例如,音乐、天气。其次,根据潜在的意图,或者用户所希望的对话分类。比如,音乐领域中,可能是搜索、播放、下载等指令。最后,根据词语位置类型进行分类。例如,播放AA唱的XX歌曲,AA属于歌手名字,XX属于歌曲名字。

亚马逊数据表示方案通过领域、意图、位置三个方面形成了一个比较自然的层次结构。通过一系列语言位置,将语言串联起来来界定用户意图,一系列的意图构成了域。亚马逊已经训练了覆盖17个域在内的24.6万个语言神经网络。该网络首先生成一个位置表示( 雷锋网注:slot representation),然后生成意图表示(intent representation),最后产生域表示(domain representation)。

在训练期间,神经网络需要评估怎样准确地对域分类,其目的在于表达( 雷锋网(公众号:雷锋网)注:representation)而不是分类(classification)。评估有效地执行了表示的层次结构,即确保语言位置和意图不会丢失域所必须的任何信息。网络输入时,首先会通过一个“去词汇化器”,即用一个特定的语言位置值代替,例如,播放Drake的Nice for What,变为播放歌手的歌曲。这个过程由单独的NLU系统处理。网络分类的目的在于分类表示的最佳方法,而不是进行分类。

雷锋网注:架构图,如何产生意图,聚合意图,产生域表示

去词汇化的语句传递进入嵌入层,该层采用现成的嵌入网络。网络将单词转换成固定长度的向量—数字串。比如,在高纬空间中的空间坐标,将有相似意义的单词聚集在一起。特定的词语通过去词汇化器,由网络以简单的标准嵌入,但语言位置的理解会有所不同。通过训练表示网络。算法对训练数据进行梳理,以识别每个语言位置采用的可能值。比如,天气领域天气状况相关的语言位置,可能包括风、暴雨、雪、暴雪等等。

具有相似词语含义的嵌入词彼此空间位置接近,平均嵌入层的几个相关词汇可以捕获其空间位置的接近性。在训练以前,去词汇化的位置被简单的嵌入,作为平均的可能值。训练过程中,可以修改嵌入网络的设置,根据语言位置、意图、域的特性情况进行调整,基本原则仍为对向量进行分组。

去词汇化话语嵌入后传递到双向长短期记忆网络。长短期记忆LSTMs按顺序处理数据,并在其之前的输出中,处理给定的输出因子。LSTM在NLU中被广泛使用,因为它可以根据在句子中的位置来学习解释单词。融合LSTM(bi-LSTM)是处理从前到后和从后到前相同输入序列的一种LSTM。

bi-LSTM的输出是一个向量,用作意图表示。意图向量通过单个网络层,该网络层产生域表示。为了评估表示方案,亚马逊将编码输入到两种技术选择系统中。当使用原始文本作为输入时,系统准确率为90%,亚马逊则将准确率提高到94%。

为了证明其表示成功依赖于分类类别的分层嵌套,将设计的三个不同系统进行比较,通过融合LSTM编码的去词汇化输入学习域和意图嵌入。三个系统显示原始文本的改进,均不能匹配分层系统。“从本质讲,通过深度学习,亚马逊对大量领域进行了建模,并将学习转移到新的领域或者新的技能。”Rohit Prasad说。

最近,亚马逊推出了迁移学习,该项目属于亚马逊未来战略的一部分。机器学习的改进最直接的影响就是使得系统错误率较去年减少25%。此外,今年12月,亚马逊启动了机器的自学习,系统可以联系上下文线索进行修正。Rohit Prasad举例说,用户对Echo说玩XM Chill请求失败时,可以通过说播放Sirius 53频道继续收听。对于Alexa而言,XM Chill和Sirius 53频道的意义是相同且独立的。“从隐藏式反馈中学习。”

现状与未来

“当两个人开始说话时,很容易感受、理解到对方的情绪,系统却对此无能为力。人们正在努力地开发能够使得系统更加成熟,更能够理解对话如何发展的人性化能力。”卡内基梅隆大学语音识别专家Alex Rudnicky说。

今年秋天,亚马逊的一项技术专利显示,Alexa可以识别用户的情绪并做出相应的反应。Rohit Prasad表示,Alexa的最终目标是远程会话功能,根据要求对给定的问题作出不同的反应,当然,成为一个理解语音、语调微妙差别的语音助手还有很长的一段路需要走。Alex Rudnicky认为人类的五大情绪中,愤怒最容易辨别成功。

现阶段,亚马逊在稳定版本中拥有7万项技能,从测试、游戏再到冥想,是两年前的7倍之多。随着Alexa设备的增加,其技能也在不断地改善。Alexa可以很好的预测人们的意图,不过更多Alexa用户并不了解其潜在的用途,厨房、闹铃成为用途最多的场景。另一方面,开发者也没有更多的精力、动力研究用户更多的潜在应用场景。

事实上,语音助手除了直接表现出的使用需求之外,还拥有很多潜力。更多人使用Alexa收听美国国家公共电台、检查天气。2016年Alexa推出过互动幻想的游戏,算法显然难以提醒用户Alexa其它潜在功能的存在。

“如果我们向用户介绍新技能、新功能,与用户正在做的事情高度相关,那么,结果是好的。值得注意的是,这些推荐需要适当的时机,适当的内容。否则,会造成信息过载。”Toni Reid说。Canalys数据显示,2018年Q3Echo出货量为630万台,谷歌仅次之,出货量为590台。尽管谷歌起步较晚,但谷歌已经成为亚马逊不能忽视的竞争对手。

从市场体量来看,不包括第三方设备,Alexa在使用数量、用户基数上占据了主导地位。但谷歌的优势依旧明显,Canalys分析师Vincent Thielke表示,谷歌拥有多年的人工智能积累,Alexa则是从头开始。谷歌在人工智能领域绝对领先,所以很容易赶超亚马逊。

Android、Android Auto、WearOS,可以为谷歌助手提供更多土壤。亚马逊曾在2014推出Fire Phone,失败较为惨烈,所以在移动端口,亚马逊的选择极其有限。在汽车领域的较好表现,不能抵消其在原生项目集成方面落后于谷歌、苹果。

不可否认的是,亚马逊Alexa增长趋势丝毫没有放缓的迹象。优势和缺点同样明显的Alexa未来将会走向何方,只有Alexa知道答案。

via:亚马逊;wired

2019年,ALEXA将会走向何方?相关推荐

  1. 突破8140亿美元的加密货币市场, 2019年将走向何方?

    作者 | Ash Egan 编译 | Guoxi 2010 年 5 月 22 日,程序员 Laszlo Hanyecz 用一万个比特币购买了两个披萨,相当于一个比特币仅价值 0.003 美分,加密货币 ...

  2. 2020年,中国AI创业公司将走向何方

    前言 如果说2012年深度学习的崛起是点燃AI浪潮的星星之火,那么2016年的AlphaGo的成功则是一阵东风,AI之火已成燎原之势.那么,走向21世纪的新的十年(2020年),中国AI创业公司将走向 ...

  3. 从仁慈的独裁者到微软打工人,Python之父和Python将走向何方?

    但凡名人,一言一行一举一动都会引发热议和追捧,名气越大,影响就越大.比如Python之父,被业内人士尊称为龟叔的吉多·范罗苏姆(Guido van Rossum)老爷子,退休之后赋闲在家才刚满一年,闲 ...

  4. P2E引发热潮,从代币经济学、元宇宙和风投等角度看链游行业将走向何方?

    本文编译自The Defiant 对我们大多数人来说,在玩游戏的同时产生收入听起来像是一个乌托邦.然而,由于游戏玩赚(play-to-earn)运动,这种情况离现实并不遥远. 自2021年5月以来,基 ...

  5. AI作画的人机战争走向何方?

    AI对于人类职业的影响及其引发的舆论波澜,迅猛到让人难以想象.还记得2017年,AI还是个标准的新生事物,我们的核心工作之一就是向读者们解释,同声传译.漫画作家.主持人等人类工作短期内仍是无法被AI取 ...

  6. 突然集体涨价的背后 共享充电宝未来会走向何方?

    最近有朋友跟我吐槽用了一次怪兽充电宝花了他60,足够他自己买一个充电宝的价钱. 借一次充电宝60,难道现在共享充电宝高价到如此地步?朋友说,但是没办法,因为临时要用,而用了之后又忘记归还,这种情况我相 ...

  7. 2020年代,中国AI创业公司将走向何方

    如果说2012年深度学习的崛起是点燃AI浪潮的星星之火,那么2016年的AlphaGo的成功则是一阵东风,AI之火已成燎原之势.那么,走向21世纪的新的十年(2020年),中国AI创业公司将走向何方呢 ...

  8. 2020年代,中国AI创业公司将走向何方?

    点击我爱计算机视觉标星,更快获取CVML新技术 如果说2012年深度学习的崛起是点燃AI浪潮的星星之火,那么2016年的AlphaGo的成功则是一阵东风,AI之火已成燎原之势.那么,走向21世纪的新的 ...

  9. 杨建允:2022年社交电商要如何突围、会走向何方?

    随着互联网发展,社交电商成为新的行业风口,2021年社交电商喜忧参半.返利网上交所上市.商务部发文支持推动社交电商规范健康持续发展:而另一边,贝店"暴雷".阿里巴巴淘小铺宣布关停, ...

最新文章

  1. rpm包管理功能全解
  2. python数据库有什么特点_python进阶十——mysql初识
  3. 树莓派入门教程 - 0 - 准备篇 - 0.1 第一次开机
  4. javascript 变换变量 数据类型 类型转换 运算符 运算表达式 运算优先级 理解笔记...
  5. Linux驱动之分层框架
  6. thymeleaf js 动态拼接html_Thymeleaf从入门到吃灰
  7. 代码块(block)之函数体(二)
  8. Mac上“照片”的终极工具箱​​​​ PowerPhotos
  9. spring mybatis使用时报 java.lang.AbstractMethodError
  10. EI收录的中国(中文)期刊(2021版)
  11. linux操作系统原理【3】
  12. 3道js面试题引发的脑洞
  13. PCI/PCIe硬件相关知识
  14. 西部数据移动硬盘检测与分区
  15. 《Qt5:同一个界面多窗口或者多页面切换(QStackedWidget)》
  16. 作为通信的学子,怎么在深度学习领域里面发论文
  17. SSH机试顺丰搬家预约信息查询参考
  18. 全职宝妈卖出去5万多元的保暖袜子 只用这一招截流
  19. 涂鸦智能股权曝光:王学集持股19.9% 公司市值蒸发超百亿美元
  20. Python爬虫 - 人人贷散标

热门文章

  1. Java Collections工具类
  2. 1389. 按既定顺序创建目标数组
  3. openjudge 二叉树 2756
  4. Golang通道(chan,协程交互数据)
  5. 使用python将数据导出excel表格
  6. java垃圾回收机制的理解
  7. 2018-2019-2 网络对抗技术 20165320 Exp2 后门原理与实践
  8. DB2时间函数 实现 时间加减
  9. Asp.net C# 遍历Excel中的表格名称
  10. .net/c#中栈和堆的区别及代码在栈和堆中的执行流程详解之一(转)