语音交互设计的一点认知
语音用户界面(或VUI)是一种交互模型,在该模型中,人与机器进行交互,并至少部分通过使用语音来执行一组任务。
实际上,这种方式的交互式语音应答(IVR)系统在银行业和旅游业中已经得到了广泛的应用。这些系统主要依赖于语音生物识别来识别用户并使用语音作为主要交互模式完成的任务集。随着亚马逊Echo、苹果的siri 等产品的诞生,VUI发生爆炸,各大公司也开始尝试多媒体交叉设备的体验。
“治学先治史”,了解语音技术的过去点滴,大概会有些帮助。
穿越时间走廊
早在1961年,IBM设计了一个名为Shoebox的实验装置,是由William C.Dersch开发的,大概是早期的语音识别设备。机器把声音转换成电脉冲可以识别出16个单词。在1962年西雅图举行的世界博览会上首次展示,这可能是自动语音识别(ASR)和自然语言理解(NLU)的起点,但只涉及第一部分的声音识别。对于纯语音用户界面,机器生成人声早在1939年或更早的时候就有了。
霍默·达德利(在新泽西的贝尔电话实验室)的Voder是第一款能够产生连续人声的电子化设备。1939年,阿尔登·P·阿玛涅克在《大众科学》杂志上写下了关于这一装置的文章。它是用真空管和电路制成的,是为了复制人类的声音。为了进行对话,机器操作员使用了一个像风琴一样的键盘。十三个黑白键产生了所有的元音和辅音,另一把键控制着合成声音的扬声器响度。脚踏板改变了音调,使同一句话可以陈述句或疑问。大约一年的培训,操作员就能使机器说话,想起来也是一个有意思的东西。
2000年初,IVR系统成为主流。任何有电话的人都可以预订飞机航班,在账户间转账,查找当地电影时间,听交通信息,所有这些都只使用普通电话和人声。
语音交互、增强现实和虚拟现实等技术或许已经存在或研究了相当长的时间。令人兴奋的是,它们最终在市场上广泛商用了,这就需要设计师和工程师来承担开发场景以解决用户日常问题的挑战。
为什么是语音助理
语音助理已经风靡各地,为什么呢?它的优势有:
自然
解放双手
快速响应
个性化
语音是人们交流的基本手段。其他形式的交流方式如写作、面部表情或手语,在所有文化中也都同样具有表达力,但人们主要还是通过语音来说服、告知和建立关系。语音助理能够在不同的场景和渠道中保持一致。
理解对话
用户通常会就手头的特定任务进行语音对话。交互通常很短,来回的交互也很少。用户可以通过对话来完成一项任务,即使他们不忙,不能总是全神贯注。用户在通过GUI执行相同任务时会感觉到很多延迟或不爽,而对话将有助于减轻这种体验。
在语音识别中,得到对话所有的上下文几乎是不可能的。上下文大约分成三类:
物理上下文
情感上下文
对话的上下文
从物理、情感和会话上下文中,可以创建一个关于会话内容的推理或得出结论,得出一个拟人化的结果。
对话的意图大约有两种,一种是目标反馈确定的,一种是不确定的,对于不确定的意图需要更多的用户选择。也就是说,大约可以分为基于意图的对话和随机问答。基于意图的对话是为了完成一个目标或完成一个任务而进行的对话。心里有一个意图,需要助手的回答,这时只想完成一项任务。随机问答是指用户与助手进行交互时没有特定的意图。他们只是想和助手聊天,谈兴趣,也许是想更多的彼此了解,建立一种关系。
当然,语音交互有着自己的局限。在IVR中,很难暂停系统,相反,用户必须不断地进行交互,而视觉组件可以让用户以更轻松的方式继续交互。另外,是在公共场所使用方面的限制。用户可能不能在某些公共空间使用语音,因为这样做会侵犯用户的隐私。
语音交互的部分关注点
人的一种主要行为,就把人的情绪联系起来,试图理解一个复杂的物体。不过,大多数消费者的底线是,更愿意与一个温暖的身体交谈,而不是与一台冰冷的电脑交谈,因而需要关注语音应答的多样性。
逐步披露是人机交互中常用的一种交互设计技术,通过减少混乱、混乱和认知工作量,帮助保持用户注意力的焦点。这通过只提供手头任务所需的最小数据来提高可用性。一般使用犹豫标记,或者增加短语询问。
给语音助理赋予人性化,可能需要一些因素:
经验的开放性,这可能包括对艺术、情感、冒险、不寻常的想法、好奇心和各种体验的欣赏。
责任心,可以是高效/有组织的,或者随和/无关紧要的态度。
外向倾向于表现为外向、健谈、精力充沛的行为,而内向则表现为较为保守和孤独的行为。
令人愉快的对话,体现善良、同情、合作、热情和体贴的个人行为特征。
神经质,可能是惊喜,也可能是惊吓。
模仿的行为可以与另一个人更相似,感知到的相似性可以作为基础。
基于语音的交互或语音检测依赖于一个设备,该设备有一个性能良好的麦克风来捕捉/记录用户的指令,可以参考过去一篇文字。
多方式交互的HCI
VUI与GUI成为人机交互规范的时候非常相似,设计人员需要清理混乱的逻辑,简化数据,并向用户提供更容易掌握的流程和解决方案。以电视遥控器为例,设备上有20-30个按钮时,操作起来就会非常困难,一个人很难理解所有按钮的作用。没有好的设计,技术就很难甚至不可能得到应用。
用户体验设计围绕着整个用户旅程展开,即回答用户对特定用例可以做什么,然后理解用户能够以无障碍和愉快的方式满足需求的最佳方式。
从一开始就不能决定只使用一个模态,但是设计者必须理解用户根据系统的输入和输出模态完成特定任务的需求。
对于具有图形用户界面的数字助理,当有动画选项时,这变得更有趣。在这里,助理会表现得像人一样;会倾听你的问题,思考,回答,开个玩笑,唱歌,表达悲伤和愤怒,还有很多其他的情绪。
多交互方式并存,形成了人机交互的领域。人机交互(HCI)已经存在了相当长的一段时间了。在20世纪50年代初,用穿孔卡片存储数据和输入,随着个人电脑的引入而发生了颠覆性的变化。20世纪80年代后期,几乎使世界上的每个人都成为潜在的计算机用户,也暴露了关于可用性的问题。
HCI整合了认知心理学、人工智能和思维哲学,以阐明系统化和科学化的应用,称为认知工程。它使具有概念、技能和远见的人能够满足人机交互的实际需求。
交互设计的一些原则
HCI 的设计有很多的经验和原则,对于VUI同样有着参考意义。例如,Ben Shneiderman 关于界面设计的8条金规:
争取一致性
允许用户使用快捷方式
提供信息反馈
设计对话以实现闭环
提供错误预防和简单的错误处理
允许轻松逆转操作
支持内部控制点
减少短期内存负载
又例如,Donald Norman的七个设计原则:
在头脑中运用现实世界和知识
简化任务结构
使事物可见;缩小执行和评估之间的差距
正确绘制地图
利用自然和人工约束的力量
面向错误的设计
当所有其他方面都失败时,标准化
还有现在广泛使用的Nielsen启发式UI/UX设计原则:
系统状态的可视性
与系统和现实世界相匹配
用户控制和自由
一致性和标准
灵活性和效率
错误预防
错误报告、诊断和恢复
美学和极简设计
识别而不是回忆
帮助和文档
创建一个平滑无缝且自然的 VUI 对于使用的人工智能产品来说至关重要。对VUI而言,也有着自己的设计技巧:
了解智能引擎的背后,成功与否取决于真正为体验提供动力的内部架构。
构建自己的设计工具栈,Adobexd非常适合用于线框用户流程图,语音工具包括Walkie, Botframe 和 Mockabot等。
个性在设计中表现出来,而不是交给设备。个性表现在设计决策和独特的工作流程,坚持利益相关者的有效执行。
少即是多。设备所说的实际语言必须清楚地满足其用户的需求,剩下的才是措辞,句子结构,音调,甚至声音本身的音调变化等。
在配音的时候要专业一点。专业的录制最好有TTS的客户经验,为人工智能对话设计音频与制作音乐甚至是传统的配音有很大的不同。
在 VUI 之外保持角色的一致性。如果图形元素不能和谐地补充语音元素,那么创建一个杀手级的 VUI 将被证明是徒劳的。
让语音设备保持亲密状态。有竞争力的产品是需要尽可能多地挖掘 。
鼓励尝试。场测和错误验证,再加上可靠的用户研究,无论多么细致,都不会让你成功地将最微妙的特质融入到你的语音交互体验中。
一切都是达到目的的手段。归结为一件事,数据是人工智能的全部。个设计良好的 VUI 应该通过成为习惯的具有启发性的交互体验来补充这个过程。
设计的分享。目标、需求、最佳实践、技术、技术、工具集和行业每天都在不断变化。知识和经验的扩散是揭开人工智能个性设计的神秘面纱并使之标准化的最佳途径。
然而,“大道易得,小术难求”。行胜于言,努力去学习和实践才能得到更多的理解和认识。
(本文图片来自网络,如有侵权,联系作者删除)
参考资料
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
http://www.speechtechmag.com/Articles/Editorial/Feature/Its-a-Persona-Not-a-Personality-36311.aspx
https://www.forbes.com/sites/mnewlands/2017/08/25/10-essential-tips-on-voice-user-interface-design-for-ai/#29f764dc2422
https://www.theatlantic.com/science/archive/2017/12/the-secret-lifeof-um/547961/
http://www.csun.edu/science/courses/671/bibliography/preece.html
Nielsen, 1995, https://www.nngroup.com/articles/ten-usability-heuristics/
语音交互设计的一点认知相关推荐
- 智能音箱来了,语音交互设计的一点认知
语音用户界面(或VUI)是一种交互模型,在该模型中,人与机器进行交互,并至少部分通过使用语音来执行一组任务. 实际上,这种方式的交互式语音应答(IVR)系统在银行业和旅游业中已经得到了广泛的应用.这些 ...
- AI时代取代手机:语音交互设计漫谈
文章翻译自Lyndon Cerejo发表于SMASHING MAGAZINE的Designing Voice Experiences,全文通过构建一个语音问答类的益智游戏来分享了作者关于语音体验设计的 ...
- 语音交互设计探究——以车载场景为例
从Siri .Amazon echo Alexa.google home .小冰.国内的叮咚.天猫精灵.小爱同学以及各种你听说过的,没听说过的.然而,随着技术的进步,语音交互将运用到越来越多的场景: ...
- html5制作语音交互功能,语音交互设计(1):设计流程
文章是作者根据Alexa官方所译,希望能够给你带来些参考和帮助. 会话体验设计中的思考流程 以下内容均来自Alexa官方,本着通俗易懂的原则,在翻译过程中不免有不严谨.错误之处,请各位看官及时批评指正 ...
- 面向NLP的AI产品方法论——寻找语音交互的业务场景
本系列文字是一位创业者的投稿<面向NLP的AI产品方法论>,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第一篇. 这是一个创业者的复盘,主要内容分为两个部分. 一个创业者成长的心路 ...
- 解构语音交互产品--VUI设计原则
语音交互作为对话式交互的一种,目前相对权威的VUI设计原则来自Google的对话式交互规范指南.阅读了<语音用户界面设计>和Slack公司的Amir Shevat写的<聊天机器人:对 ...
- 蓦然认知戴帅湘:用Mor撕开语音交互市场的口子,掀起“人机对话直达应用”革命丨Xtecher 封面
蓦然认知作为国内领先的一站式对话服务平台,回避行业竞争红海,选择语音交互决策引擎Mor为突破口,打造全语音服务闭环,并以此掀起"人机对话直达应用"的革命. 蓦然认知预计今年可实 ...
- 解构语音交互产品--如何设计对话产品
前面几篇文章中讲了语音产品的一些认知,产品的实现原理和VUI设计原理.本篇梳理设计对话产品的流程. 关联文章: 1.解构语音交互产品–认知篇 2.解构语音交互产品–人工智能AI技术 3.解构语音交互产 ...
- 语音交互框架设计-初始篇
一.目的 随着人工智能技术的不断发展,语音识别技术.图像识别技术.人机交互这几年越来越成为热门.作者从业于人工智能语音公司多年,简单聊聊设备端语音交互框架设计. 二.设计 一般语音交互类产品中会涉及到 ...
最新文章
- 2022-2028年中国羧基丁腈胶乳行业市场发展调研及投资前景分析报告
- linux使用opengl获取纹理id,opengl – 通过纹理id获取纹理目标
- Caffe自己修改训练方法
- filebeat 解析日志 并发送到Elasticsearch
- Python机器学习:PCA与梯度上升:007试手MNIST数据集
- 如何看出男朋友有没有潜力?
- 解决谷歌地图偏移问题
- java POST接口报错417
- 算法:合唱队形(最大上升子序列,线性DP)
- antv,图表和地图
- js base64 php,php中的base64decode 与js中的互相转换
- ABR与ASBR是什么?区别又是什么?
- LS1046nfs挂载文件系统
- 完蛋!面试官问我 InnoDB 的物理存储结构!
- 入行数据分析要知道什么是标准计分离差
- 固有频率约束下桁架优化的动态算术优化算法(Matlab代码实现)
- python 滚动字幕软件_文字跑马灯(滚动字幕)效果并指定速度
- LeetCde_571、超级洗衣机
- c++编写手机小游戏代码_C++记忆训练小游戏程序源代码
- ctfshow,misc4,5,6,
热门文章
- 家庭理财管理系统/家庭财务管理系统
- 聪明的数据结构和笨拙的逻辑代码
- java print快捷键_java输出语句快捷键是什么
- 如何向开源社区贡献代码
- 《如何阅读一本书》读书笔记2
- Pod控制器(一)ReplicaSet
- 基于PyTorch搭建CNN实现视频动作分类任务 有数据有代码 可直接运行
- deepfakes怎么用_如何使用 Deepfakes 换脸(示例代码)
- 1. 无法解析的外部符号 “__declspec(dllimport) const XXX::vftable“ ` 2. `无法定义 dllimport 实体`
- lcy mysql爆破_mysql