导读:本文带你简单了解一下智能助手背后的会话式人工智能技术。

作者:木羊同学

来源:大数据DT(ID:hzdashuju)

01 大话智能助理

智能助理应该是当前人工智能技术最为成功的落地方向之一。我还记得,当初iPhone4S率先推出著名的人工智能助理Siri,马上就有不少评论家预测,Siri也将像iPhone一样,为人类开创一个全新的时代,而调戏Siri也成了当时最流行的游戏之一。当时我们在看视频演示的时候,心中都对Siri充满的期待。

我们一直说,智能手机智能手机,但以前总感觉所谓智能手机,也就是传统的手机+迷你版的电脑,“智能”体现在什么地方呢?现在有了Siri,手机真的能像个老友一样和你聊天打屁,感觉要名副其实得多了。

我们都听过智能助理,可是你是否认真想过一个问题:智能助理对于用户,到底意味着什么?也许不同人能给出很多不同的看法,不过,业界最常见的答案是,提供了全新的交互界面。

我们说Windows是桌面霸主,它的成功,就成功在提供了在当时来说相当友好的交互界面,相比黑乎乎的命令输入,Windows的桌面简单、直观,一下降低了PC的使用门槛。

而智能助理则是在这个已经不太高的门槛上再打一个“骨折”,几乎不需要额外的学习曲线,不用学习使用键盘鼠标,也不用熟悉系统界面,只需要用对话这种最自然的交互方式就能操控机器。相信在今年疫情期间,很多人说话最对的对象,就是家里各式各样的智能助理,譬如智能音箱。

02 新的交互界面

采用对话作为交互方式有很多优点,我觉得有两样最为重要。一样就是自然,人类从一出生就开始学习的技术也就两样,除了蹒跚学步,就只有牙牙学语,说话应该是我们日常中最常见也是最习惯的交互方式。

另一样是便捷,回想一下,手机也好、电脑也好,虽然给我们带来了种种便利,但也禁锢了我们最为重要的双手,而现在回归了用说话的方式操控机器,双手就被解放出来可能干别的事情。

正因为这两样有点,现在智能助理的应用场景很多,所以产品也很多,智能手机、智能音箱,甚至不少汽车也将智能助理作为重要卖点,现在我家电梯里经常播的一个汽车广告就是这样,里面的车载智能助理细心得就像亲妈一样,车主一回到车里就各种嘘寒问暖,就差非要加上一条秋裤。

不过,从今天往回看,智能助理的优势很大,推出自然是理所当然,但是,智能助理背后运用了一整套互相配合的智能技术,发展也是一波三折充满坎坷。

就拿Siri来说吧,别看今天Siri好像是一位高冷的知识女性,在它波折的成长路途中,说伤痕累累都是轻的,感觉好几次都差点在一片唾沫星子当中遭到灭顶之灾。

Siri的槽点很多,第一个就是语种。没错,虽然Siri可以算是iPhone 4S最大的卖点,很多人干脆就是冲着Siri去果断卖了肾。可是到手一看,发现自己吃了没文化的亏,人家Siri只听得懂英文,说完Hello以后,95%的用户都猛然发现自己像是头一次相亲一样,接下去就不知道该说什么好,词穷了。好不容易找到点句子吧,结果口音还必须纯正。

在大多数时候,Siri需要识别半天不说,最后返回结果经常是牛头不搭马嘴。语音识别时间长、识别结果不准在后来很长一段时间都是Siri的重要槽点,给人一种蠢笨难忍的感觉。哪怕后来iOS 6以后,Siri终于学会了中文,仍然距离那种与用户谈笑生风的形象相去甚远。

03 智能助理的耳朵和嘴巴

当时大家对智能助手还很新奇的时候,最想知道的问题之一,就是这个小葫芦里面究竟装了一副怎样的药,是不是真的把人缩小了然后塞进里面去。

我当时就十分好奇Siri的原理,究竟要做到以自然语言的形式,做到自然对话来控制机器,背后是怎样的一套机制在运行呢?但是查了好多资料,感觉大家也都还不甚清楚,只是模模糊糊说很高大上。

大家都容易高估不了解的东西的难度。其实,智能助理还真不太“复杂”,说起来,结构和我们熟悉的电脑还十分类似。

先说外设,智能助理要开口说话,同样需要一套输入输出设备,具体来说,我们不妨将智能助理的大脑当作电脑的CPU,CPU是需要得到数据输入,然后经过计算,在将结果输出,而所谓外设,就是能够能够将外部的语音转化为机器能懂的输入,以及将机器经过运算得到的结果转化成语音输出。

这是两项独立的任务,当然也都是采用人工智能技术来完成,分别为负责将语音转化为机器输入的自动语音识别技术(ASR),以及将结果转化为语音输出的语音生成技术(TTS)。这两项技术虽然听着复杂,背后的技术原理也确实足以写一本书,不过已经发展得较为成熟,人工智能方面有较为丰富的技术积累。

简单来说,ASR负责将声音转成文本,而TTS则负责将文本转成声音。具体就不介绍了,市面上已经有太多类似的技术,譬如微信就有声音转文本,这就是典型的ASR,而许多读书工具都有AI朗读功能,虽然吧效果一言难尽,从感情到灵魂一路都缺,不过用来理解ASR应该没有问题。

04 智能助理的大脑

最难也是最复杂的部分,就是实现智能语音助手的大脑,通常可以切分为三项独立的任务,分别为自然语言理解(NLU)、对话管理(DM)和自然语言生成(NLG)。这里出现了很多缩写,其实核心就是自然语言处理(NLP)。

自然语言处理,被誉为人工智能皇冠上的宝石,也是现在人工智能研究的重点方向,不断有模型推陈出新,很有一点一代版本一代神的意思。现在NLP的扛把子叫Bert,各大顶会只要和NLP沾边,都会现在肯定都会有一个占比颇重的环节,叫花式玩弄Bert。

说远了说回来。在智能助手的大脑中,NLU、DM和NLG就是NLP的两项重要任务。

NLU很好理解,人的语言和机器指令有个很大的不同点,就是前者属于非结构化数据,而后者属于结构化数据。非结构化数据机器是听不懂的,必须转化成结构化数据,机器才好理解和执行。那谁来扮演中介商呢?就是NLU。道理很好懂,但是实现很复杂,还有无数的坑在前面等着大家去填。

在智能助手中,NLU的角色是这样的,首先ASR将声音转成文本,当然,是非结构化文本,然后将这些文本输入给NLU,有NLU做一些阅读理解,把理解以后的意思按固定格式填写,也就是形成机器能懂得结构化文本,交给下游环节处理。

NLU的下游环节就是DM,对话管理,名字起得有点莫名其妙,其实就干两件事,一件事是状态追踪,解释起来很复杂,不过可以简单理解为根据上下文理解当前输入的意思,也就是做了个阅读理解。另一件事就是动作生成,你得根据人说话的意思作出回答。

那NLG是什么呢?和NLU正好反过来,是文本生成。上游不是通过DM作了阅读理解,输入了结构化文本吗?那根据这个输入,咱得通过动作生成思考一下该回答啥,一般的机器知道回答个Yes和No就了不起了,顶多再多给一点选项,不过光这样一点也不像自然对话,还得扩展扩展,也就是根据某个意思,“生成”一点文本内容,这就是NLG的工作。到了这一步,整条链子就串起来了。

现在这种智能助理应用已经非常多了,而还有一种类似但应用更广的技术,叫对话机器人技术,譬如双十一肯定能遇到的淘宝机器人客服,这种客服不需要听说能力,直接用文字对文字的形式进行沟通,相信看完了上文,大家应该也清楚对话机器人技术的基本原理。

不过,上面只是很浅显地介绍了会话式人工智能技术,还有很多细节的问题,譬如中文分词问题,需要在实际实践是加以解决。我推荐一本书,叫《会话式AI:自然语言处理与人机交互》,里面系统地介绍了会话式人工智能的相关内容,想要更深入了解该技术的同学可以仔细阅读。

关于作者:莫凡,网名木羊同学。娱乐向机器学习解说选手,《机器学习算法的数学解析与Python实现》作者,前沿技术发展观潮者,擅长高冷技术的“白菜化”解说,微信公众号“睡前机器学习”,个人知乎号“木羊”。

延伸阅读《会话式AI:自然语言处理与人机交互》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:腾讯、阿里、国家标准委&AIIA人工智能专家多年大型项目经验总结,详解NLP和人机交互核心技术,从技术、算法、实战3维度讲解聊天机器人原理、实现与工程实践。

划重点????

干货直达????

  • 华为内部资料流出!揭秘华为数据湖:3大特点、6个标准、入湖流程

  • 中台的本质及中台建设的4点思考

  • 什么是YARN?跟HBase和Spark比优势在哪?终于有人讲明白了

  • 终于有人把大数据讲明白了

更多精彩????

在公众号对话框输入以下关键词

查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 1024 | 数学 | 算法 数字孪生

据统计,99%的大咖都完成了这个神操作

????

为什么Siri总是像个智障?智能助手背后的技术到底有多难?相关推荐

  1. 《中国人工智能学会通讯》——1.28 智能助手背后的技术

    1.28 智能助手背后的技术 呈现在人们眼前的智能助手几乎都是"小而美"的,但其背后却是一个十分复杂的系统,需要多种技术的集成和联动.本文将智能助手背后的技术归为四类,分别是需求理 ...

  2. 不服就开干,手撕智能助手背后的自然语言处理技术

    ###### 链接:https://pan.baidu.com/s/1KNexPwdIoVIiTfRyFG9gbQ 提取码:1234 最近天猫精灵.小爱同学和小度在家等智能助手火爆全网络,各种大佬都出 ...

  3. 我的微信'智障聊天助手'的设计思路

    2019独角兽企业重金招聘Python工程师标准>>> 前言 每次写前言最费神,就是感兴趣想研究研究,有了一点点成果希望分享交流,如果能帮助别人就很好,如果有人指导一下就更好了.这次 ...

  4. 收获 3 亿用户的背后,华为智能助手的征程与野望...

    2019 年 4 月 11 日,华为年度旗舰机型 P30 系列的国行版本在上海发布,并在当天面向消费者正式发售.凭借强大的拍照实力和移动智能体验,华为 P30 系列在各大渠道全面热销,其中在华为商城 ...

  5. 收获 3 亿用户的背后,华为智能助手的征程与野望

    2019 年 4 月 11 日,华为年度旗舰机型 P30 系列的国行版本在上海发布,并在当天面向消费者正式发售.凭借强大的拍照实力和移动智能体验,华为 P30 系列在各大渠道全面热销,其中在华为商城 ...

  6. 人工智障 2 : 你看到的AI与智能无关

    2019独角兽企业重金招聘Python工程师标准>>> " Artificial-Intelligently Challenged " 前言 大家好,我又出来怼人 ...

  7. AI 产品经理:别让你的智能对话产品变“智障”

    http://www.woshipm.com/ai/2393344.html 聊天功能的人工智能经常被大家吐槽"人工智障",究其原因,人类对话的本质其实是思维的交流或交换,让机器到 ...

  8. 智能耳机究竟是智能还是智障

    近日,谷歌在年度新品发布会上推出了多款重量级新品,包括新一代智能手机Pixel 2/Pixel 2 XL,搭载谷歌Assistant语音助手的全新笔记本电脑PixelBook,随身抓拍神器Clips( ...

  9. DeepMind智能体自学跑酷:略显智障,结果尚好

    本文来自AI新媒体量子位(QbitAI) "看起来就像小学生在玩地狱边境." 近日,谷歌DeepMind团队创造了一个自学跑酷的智能体,并且解锁了它在不同地形和障碍物下的跑酷姿势. ...

最新文章

  1. linux shell脚本攻略_(python)Linux下shell脚本监控Tomcat的状态并实现自动启动步骤...
  2. dicom文件_图像识别 | 使用Python对医学Dicom文件的预处理(含代码)
  3. 透过三翼鸟,看品牌背后的“有效创新”
  4. tom启动报错:org.xml.sax.SAXParseException: Content is not allowed in prolog.
  5. NOIP模拟测试30「return·one·magic」
  6. 求解多变量非线性全局最优解_一种求解非线性约束优化全局最优的新方法
  7. 获取文件的后缀名 和 Process进程
  8. 【7.9校内test】T1挖地雷
  9. in use 大学英语4word_(word)大学英语考试样题四.doc
  10. java键盘钩子_jna test【鼠标 键盘钩子】
  11. MATLAB绘图——加强篇
  12. 保研推免经历经验分享——2018北大软微、北航计算机、南大计算机夏令营保研经历
  13. Spring Aop 5种通知写法及参数JoinPoint详解
  14. 在Linux下玩QQ游戏
  15. 【图深度学习】简单图的定义以及各类衍生图
  16. 安卓手机APP进行自动化点击软件详解
  17. 1.1 芯片研究背景及意义
  18. 用几何语言表示线段ab的中点c,根据下列语句画出图形:(1)过图甲线段AB的中点C,作CD⊥AB;(2)点P...
  19. 程序员的工资这么高,为什么还会有人离职?
  20. iOS开启个人热点的纵向适配

热门文章

  1. SQL笔记-用户表中增加salt属性与真实密码聚合存储
  2. java redis hession_spring: 整合 springmvc shiro redis hessian rocketMQ
  3. lol1月8日服务器维护,LOL1月16日更新维护到几点 8.1版本更新内容
  4. 12c oracle 修改内存_还在等12.2吗?Oracle 12c后这个观念要改改!
  5. mongodb php 删除,MongoDB / PHP:从数组中删除元素
  6. sftp java测试连通性_如何使用知行EDI系统模拟连通性测试?
  7. vlookup练习_VLOOKUP拉住她的手,数据查询不用愁
  8. python读取大文件的坑_Python读取大文件的坑“与内存占用检测
  9. php 实现贪吃蛇游戏,HTML5 贪吃蛇游戏实现思路及源代码_html5教程技巧
  10. 模块ntdll中出现异常eaccessviolation_python常用模块