AI时代,人与机器的沟通方式
编辑导语:AI,也就是人工智能,随着科技的发展,越来越多的人工智能出现在我们的生活中,比如手机里的对话工具,物流公司、餐馆也出现了工作机器人;本文作者分享了关于AI时代人与机器的沟通方式,我们一起来看一下。
随着度晓晓以虚拟形象在百度世界 2020 ⼤会上的⾸次亮相,引发了人们对人与机器的沟通⽅式的思考。
图 1 – 度晓晓是百度公司推出的⼿机虚拟 AI 助⼿
度晓晓⽬前具备视觉识别能⼒,⽀持最⾃然的交流⽅式,更接近人与人的沟通过程,那么未来人机沟通⽅式⼜会是怎么样的呢?
为了详细探究人机沟通⽅式的变化和趋势,我们要从最早的人机沟通⽅式说起。
一、人适应机器
1. 最早的人机沟通方式
图灵测试:
问:你会唱歌吗?
答:是的。
问:请再次回答,你会唱歌吗?
答:是的。
你多半会想到,与你对话的是一台机器,因为正常人对再次回答会多多少少显得不耐烦;早在 1950 年,艾伦·图灵发表了一篇划时代的论文,预言了创造出具有真正智能的机器的可能性。
由于智能这一概念很难确切定义,他提出了著名的图灵测试——如果一台机器能与人类展开对话而不被辨别出其机器身份,那么称这台机器具有智能;可见半个世纪前,人类期望的人机沟通方式就是自然的方式,即人与人对话的方式。
1)第一台语音交互机器
在人与机器沟通的方式方向上,人类做了很多尝试;1952 年,贝尔实验室开发的 Audrey 语音识别系统是其主要标志;Audrey 约 180cm 高,可以识别阿拉伯数字 0 – 9 的英文发音,对熟人的准确度高达 90%以上。
图 2 – 1952 年贝尔实验室开发的 Audrey 语音识别系统
1962 年,IBM 发明了第一台可以用语音进行简单数学计算的机器 Shoebox;即便如此,人类至今还没有发明出使用人与人的沟通方式的、通过图灵测试的机器。
2018 年 5 月,谷歌 Duplex 人工智能语音技术也只是部分通过了图灵测试;因此,在半个世纪前,人机无法使用自然的沟通方式的原因是技术的限制;那时候互联网还没有出现,语音识别、自然语言处理技术只是在萌芽阶段。
2)第一个鼠标
正是由于技术的限制,人类只能使用其他的方式与机器沟通。
1968 年 12 月 9 日,美国斯坦福大学博士道格拉斯·恩格尔巴特展示了世界上第一个鼠标;它的外形是一只小木头盒子,其工作原理是由它底部的小球带动枢轴转动,继而带动变阻器改变阻值来产生位移信号,并将信号传至主机。
总的来说,人类当时可以使用的材料是有限的,技术也只有变阻器等有限的技术;在这个前提下,人类只能适应机器,从而创造了鼠标这种相对体验好的方式与机器沟通。我们称这种沟通方式为“人适应机器”。
图 3 – 世界上第一个鼠标 | 引用 artimachines.com
2. 人适应机器的特征
1)技术的限制
人适应机器的根本原因是技术的限制,因为机器作为产品的一种形式,它的产生包括三大要素:需求、市场和技术。
- 技术是产品的核心驱动力;
- 需求是产品落地的基础;
- 市场是产品成长的环境。
人类使用技术打造产品,用产品试探市场,满足用户的需求,让新的产品发挥出商业价值。
50 年前,技术还没有成熟,即便我们的需求、我们的想象力、我们期望的是用最自然的方式沟通;也只能适应机器,使用键盘、鼠标等来与机器沟通。
图 4 – 需求、市场和技术
2)设计创造更好的体验
设计是沟通的桥梁,连接着用户的需求和技术的能力;虽然有技术的限制,但设计师可以让人适应机器的体验变得更好。
以百度翻译 APP 的取词翻译为例,直到现在 5G 还没有完全普及,光学字符识别(OCR)技术在全世界 200 多语种的表现也达到不了毫秒级的全文精准识别。
面临着网速等技术的限制,设计师采用矩形的取词框与机器沟通,让用户瞄准书本中的单词去翻译;瞄准哪里、翻译哪里的这一行为,既降低了技术实现的难度,也让人适应机器的过程不再这么生硬,让翻译的体验变得更好。
图 5 – 百度翻译 APP 取词翻译
总的来说,半个世纪前“人适应机器”的沟通方式是必然,不可否认这种沟通方式在下一个革命性技术突破前还会长期存在,但设计可以帮助我们在这过程中创造更好的体验。
二、机器适应人
1. 机器适应人的时代
随着 AI 时代的来临,加速了 5G、面部识别等一系列新技术的进步;虽然还未完全成熟或普及,但是机器主动适应人的条件似乎已经具备,机器开始主动适应人的表达方式和生活方式。
图 6 – 一系列新技术的进步
2. 机器适应人的方式
对话是人与人之间最自然的沟通方式之一,当技术达到了一定的水平,语音对话逐步进入了大众的视野;该方式不仅提高了信息传递的效率,还帮助用户解放双手和双眼;而且帮助对文字识别有障碍的群体更好的使用产品。
当人们逐步适应了对话作为与机器沟通的方式时,也对沟通舒适度有了更高的憧憬和需求。
1)百度地图 APP
借助语音技术,百度语言助手“小度”大幅提升了用户的沟通舒适度,除了对驾车这一用户群体双手的释放之外;当用户说出“小度小度,回家”这样简单的指令时,通过算法和数据的积累,百度地图会根据用户习惯,自动规划出从当前位置回家的最优路线。
甚至当用户每天在特定时间打开百度地图时,会预算出当前时段你是否想去这里?使沟通更加高效。
图 7 – 百度地图 APP
2)百度翻译 APP
百度翻译 APP 通过人工智能技术帮助用户打破语言的界限,支持全世界200+语言互译,提升全世界的沟通体验。
图 8 – 百度翻译 APP
不仅如此,百度翻译 APP 还帮助用户解决学习、商务、旅游等不同场景下的语言问题,比如:百度翻译同传通过领先行业的同传技术与服务,大幅降低信息交流成本,驱动企业持续发展。
3)百度翻译同传
图 9 – 百度翻译 同传
在 2020 百度全球人工智能技术大会上,百度翻译同传搭建了大会不同语种之间沟通的桥梁。
同声传译本是一项困难且专业的工作,翻译官除了对语言有深厚的储备,还需要极强的反应能力和应变能力;注意力需要高度集中,对脑力和体力都具有极高等要求。
同传通过搭载百度语言自研的 SMLTA 声学建模技术,提升识别的准确性;同时,通过对音频信号的加强处理,提升了识别的“鲁棒性(Robustness)”。
在该场景下,百度翻译同传做到了全场景多模态,即时的沉浸式体验——这也进一步体现了机器适应人的沟通方式。
三、人和机器相互适应
1. 机器更像人的诞生
当机器开始逐步适应人,一系列新的问题也被大家所关注,人类到底因该如何与之相处成为了大众所热议的话题。
1992 年,雷波特与他人一同创办了波士顿动力;波士顿动力每出一款机器人都及其引人注目,甚至会掀起一阵阵机器人要逆天的伦理性大讨论。
图 10 – 波斯顿机器人引用 | Boston Dynamics
2015 年 4 月 19 日,索菲亚被激活。她以女演员奥黛丽·赫本为模型,与以前的各种型号机器人相比,她更具与人类相似外观和行为方式。
她的发明者汉森说:“它的目标就是像任何人类那样,拥有同样的意识、创造性和其他能力。”
图 11 – 索菲亚 | 引用 极客公园
人类从开始对于机器的期望是它能够帮助我们带来意想不到的便利,但随着技术的进步,类似像大白这样具有温度的机器人走进我们的视线,它采用了更具有温度的方式与人沟通。
图 12- 大白 | 引用 超能陆战队
2. 不同场景下的情感沟通
由此,伴随着技术的发展不断发酵,关于机器更像人的讨论也越演越烈。
给技术产品赋予人类的性格特征似乎已经成为趋势,被赋予的不同“人格”的机器所引发的话题也不尽相同;比如仿真机器人带来的恐慌,和大白的爆红。
但事实是:即使有了深度学习的加持,现阶段的机器还远没有到达真正“智能体”的标准;既然如此,引发恐慌的究竟机器人的技术,还是它过强“人格”所触犯到的人类的存在感边界?
原因是多方面的——比如从心理学的角度,由于在外形设计的层面,若机器依旧停留在工具的外形纬度,人类下意识本能的判断也就将其归为了工具的类别;从发明的角度,被人类发明的机器/工具,除了本身具备特定的功能之外,还取决于被如何使用或如何定义。
简单来说,同样一把剪刀,可以是工具也可以是凶器——计算机或是智能机器也是同样的道理。
因此,将机器”人格”化的方向,不是赋予机器所谓独立的“人格”;而是让机器拥有更有情感、更人格化的设计,让人类和机器能够产生情感上的沟通交流甚至共鸣,能够更好的相互适应。
1)多样化场景
正如上文提到的,用语音回复的方式,赋予机器情绪和性格只是人类和机器沟通的开始。
现实的情况是:自然语言处理、知识图谱、图像识别、人脸识别等越来越多的细分技术早已被运用到不同产品中,为人类解决不同场景下的问题;只是随着需求的增多,被直接展示的越来越多罢了;由此,在不同产品的使用场景下,我们需要给予其更精准的“人格”定位,营造更恰当的沟通场景。
所以,作为翻译技术赋能的学习类产品;结合产品功能和用户需求,在设立 IP 形象时,百度翻译 APP 将其“人格”定位为“智能助手”。
图 13 – 百度翻译 APP IP 形象 DODO
在保留其机器属性的同时,强调陪伴和可依赖的沟通方式‘强化情感温度,塑造区别于其他冰冷机器的愉悦感。
图 14 – 百度翻译 APP IP 形象 DODO
除此之外,顺应不同场景的情感沟通方案,UNIT 的个性化定制功能则满足了人类在行为水平层面的多方面诉求。
图 15 – 百度翻译 UNIT 智能
2)个性化反馈
其实,人与机器沟通边界探索与机器本身情绪的反应、分析模型的准确性是直接关联的;且在现有的技术中,AI 对情绪的情感分析还停留在封闭场景中的阶段。
通俗来说,它也许能理解你的表情、语音,但猜不到你表情背后的内心活动到底是什么。
梅罗维茨在《消失的地域》中曾提出“新媒介-新场景-新行为”的关系模型,认为新媒体的应用可能重建大范围的场景和行为,甚至人类的社交角色与规则也随之产生影响;确实,线上线下、虚拟现实的场景重叠,个体人类也已开始追求更具有个性化的细致表达。
例如 Emoji,表情包作为信息时代的传播沟通符号,火遍全球;在 ios12 中,借助人脸识别技术,苹果公司推出了可定制的 Memoji。
图 16 – Apple Memoji|引用 Jeremy Horwitz
度晓晓的诞生也是如此,基于语音、图像、语言等技术的支持赋能,度晓晓具备答疑解惑、情感陪伴等能力,可以帮用户解决生活中的各种问题;在沟通方式上,度晓晓也不再局限于语音的互动方式,还加入了视频聊天、触碰闲聊等功能。
图 17 – 百度手机虚拟AI助手度晓晓
更重要的是,度晓晓还会随着用户的使用而形成不同的性格,是一个典型的养成型助理;且随着用数据的积累,最终能够实现千人千面的效果,每个人的度晓晓都会因各自主人而不一样。
图 18 – 百度手机虚拟AI助手度晓晓
3. 未来
至此,关于机器与人类沟通的方式讨论似乎还没有一个确切的答案。
未来的机器到底是否会真实的感情? 我们无法论证,但可以肯定随着人工智能时代的到来,机器已经在改变人类的生活,且引发了人类不同的情感需求和反应。
脑机接口技术的爆发,神经形态芯片的日趋成熟;科技的不断进步,似乎为人和机器的沟通方式带来无限的可能;也许未来的某天,机器能够完全使用人类的沟通方式与我们沟通,甚至不被察觉。
那么对你而言,人机沟通方式的边界在哪?未来可能又会诞生哪些技术,为人机沟通带来意想不到的可能?
参考资料:
《百度百科:度晓晓》
《百度百科:图灵测试》
《A Brief History of ASR: Automatic Speech Recognition》
《鼠标诞生49周年!世界上第一个鼠标就长这样》
《AI与情感》
《未来搜索还能这样玩!养成类虚拟助理“度晓晓”亮相百度世界2020》
AI时代,人与机器的沟通方式相关推荐
- 沟通:不同的人采用不同的沟通方式
跟技术人沟通,可以讲些技术细节:如果跟非技术人沟通,切忌去讲技术细节,否则会听的人家一头雾水.跟高层沟通,多讲宏观,少讲细节.
- 人与机器全面协同作战的智能时代
前言 ChatGPT全球热浪来袭,无数行业.场景和产品都将面临自我革新,我们已经进入了"人与机器全面协同作战的智能时代". 自2019年创业以来,雾帜智能始终坚持将人工智能技术精准 ...
- AI时代的三类人:探索掌握AIGC,引领未来的人才之路
(本文阅读时间:6 分钟) 1 AI时代:ChatGPT引领AIGC技术革命 对于那些热衷于探索新技术的小伙伴而言,ChatGPT早已超越了抽象的概念,我们对其能力已有所了解.那么,Ch ...
- 人脑VS机器?AI时代经济决策的机遇与挑战?| AI TIME 27
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! · 经济学为什么需要计算机科学? · 计算机科学为什么需要经济学? · 目前工业界对于经济学家的需求大吗? 你对这些问题好奇么? 那一定 ...
- AI时代,你的职业会是?99%的人都无法直面!
在我10岁的时候,算命先生曾对说我30岁时我会每天与八阿哥玩在一起. 当时懵懂的我一脸茫然,想着谁是我的八阿哥,却在30岁的这一年意识到自己确实日以继夜的与八阿哥在一起. 曾经,我们也担心自己未来的工 ...
- 【百度联盟峰会】李彦宏详解AI时代思维方式,算法驱动的降维攻击
[百度联盟峰会]李彦宏详解AI时代思维方式,算法驱动的降维攻击 新智元 2017-05-23 14:51:52 李彦宏 手机 百度 阅读(20879) 评论(19) 新智元报道 来源:百度 [新 ...
- 傅盛希望定义AI时代的机器人产品,2年交出这份可落地答卷
李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 8岁的猎豹,40岁的傅盛,从今往后都将拥有新印象. 3月21日,傅盛站上北京水立方,以猎豹董事长兼CEO身份,也以猎豹旗下子公司猎户星空之 ...
- NLP--- 将改变你未来沟通方式的7种NLP技术(第二部分)
在第一部分中,我介绍了自然语言处理(NLP)领域以及为其提供支持的深度学习运动.我还向您介绍了NLP中的3个关键概念:文本嵌入(字符串的矢量表示),机器翻译(使用神经网络翻译语言),以及对话和对话(可 ...
- 从人机交互到人机协作,人类在抑制 AI 时代的焦虑时做的尝试
大家好,我是为人造的智能操碎了心的智能禅师. 全文大约1800字.读完可能需要下面这首歌的时间 ? 下面内容,源自作者的一个线下分享. 为什么分享这个话题呢? 我做了好多年交互设计的工作,所以学习和工 ...
最新文章
- 计算机组成原理文华学院,华中科技大学文华学院计算机组成原理课设.doc
- sequelize 增加数据库字段_使用Sequelize动态创建新表
- 题目11 数值的整数次方
- 当 RocketMQ 遇上 Serverless,会碰撞出怎样的火花?
- json数据交互与@RequestBody
- POJ 1743 (后缀数组+不重叠最长重复子串)
- android ffmpeg 静态库,在CentOS中编译FFmpeg for Android静态库(含fdk aac,x264)
- 2080 Ti莫名起火,英伟达承认GPU有缺陷,财报后股价暴跌19%
- 米莱狄机器人怎么那么多_米莱狄究竟应该怎么玩?
- mysql 初级练习题
- composer killed while updating or install
- euraka有哪些组件_SpringCloud及其五大常用组件之Eureka和Zuul
- 计算机网络基础期末试题,计算机网络基础期末考试试题
- markdown实现点击链接下载文件
- 施一公等团队登Science封面:AI与冷冻电镜揭示「原子级」NPC结构,生命科学突破...
- 2017百度之星资格赛 1001/hdu 6080 度度熊保护村庄
- MySQL LPAD 和 RPAD 位数填充函数的使用
- 信息安全密码学:古典密码
- 磁盘压缩卷只能压缩一半
- Microsoft Edge 中的ie浏览器图标、右击新标签页打开功能的关闭方法