摘要:在智慧城市的建设中,政府也希望能够使用新技术来提供更好的服务。

最近去公积金中心办理逐月还贷的业务,由于害怕排队时间较长,还没到上班时间就早早排队去了。正当我等待得百无聊赖之时,坐旁边的一位小兄弟对着手机说:转1000块钱给我妈。我看他用手机人脸识别了一把,看样子是转账成功了,开心地继续刷手机。作为一名业内人士,对这位孝顺的小兄弟,我心生感(kui)慨(jiu)之余,立马想到,如果我能对着手机说:帮我办下公积金还贷业务,然后能很快办完,我就可以不用在这等而是去加班奋斗了。很可惜,我的愿望暂时不能实现。

好的消息是,随着目前智慧城市建设的推进,政府也希望能够借助数字化手段,提高政府治理能力,方便市民办理各项业务。这其中,采用语音作为交互方式的新兴应用也逐步出现。事实上,在一些发达国家,也能看到这类应用。比如在推行数字政府的新加坡,可以通过像LifeSG[[1]]这类应用用语音来获取政务服务。在2019年4月份,英国数字政府部门上线语音查询政府公开信息的服务,用户在家可以通过Google Home或者Amazon Alexa智能音箱直接查询http://GOV.UK网站上超过12,000项政府信息,市民可通过语音完成的任务范围逐渐扩大,从“国家最低工资标准”到“我如何申请一个新的护照”等等,并且陆续上线更多的查询服务,比如办理结婚手续的详细过程等[[2]]。

那为什么会出现很多基于语音的应用呢?我们注意到,尽管由于新冠疫情影响,全球智能音箱出货量在2020年增长了13%,在2019年第四季度出货量约为4900万台[[3]]。而早在2016年,谷歌号称,在谷歌app中有20%的搜索是通过语音来完成。这些事实说明,越来越多的家庭和个人习惯使用语音来进行交互,而且语音交互式未来的一个趋势。在智慧城市的建设中,政府也希望能够使用新技术来提供更好的服务。我们简单分析下语音交互应用(VUI)的优势。

VUI的优势

首先,说话是人最自然的沟通方式。如果系统能够提供一个用会话进行交互的接口,那么,用户不需要学习,只要提问题,就能获得系统的反馈。其次,说话比打字要快得多。大家经常用语音助手查天气,定闹钟,是因为比起打开几个APP页面,再搜索查询的城市或者拨选闹钟时间,直接通过简单的语音指令就能完成,后者更加快速。对于一些输入文字咨询问题的场景,语音输入也要比打字快得多。再者,说话的方式可以解放双手。现实生活中,有很多工作场景不方便使用手去操作屏幕,比如你在厨房做饭想查看菜谱,交警执勤时想查看路况信息,制造工人操作时想查看零件参数,忙着改良装备的钢铁侠想查看家门口的监控,等等。VUI提供了与系统交互的另外一个渠道,多渠道地交互,才能收获更自然顺畅的体验。由于这几个主要优势,VUI被看作是未来应用交互的趋势。除此之外,有些设备可能不具备显示屏,或者屏幕很小,VUI可能是更好或者唯一能选择的交互方式。

既然VUI具有这么多的有点,那么如何设计VUI呢?首先我们先看下VUI的设计原则。

VUI设计原则

在讨论设计原则之前,对VUI的设计,有几个前提:第一,语音交互过程通常要短,并保持最少的来回对话次数;第二,即使正处于忙时,并且没办法集中注意力时,用户仍然能够通过对话来完成任务;第三,完成同样的任务,VUI方式比使用GUI交互方式更顺畅[4]。然后我们来看下具体的设计原则:

1.理解用户的真实意图。

目前的对话应用,大多在任务型对话机器人领域取得一定的成功。一个意图通常对应一个具体的待执行任务,比如“我想把客厅的等关掉”,对应的就是一个简单的任务。然而,在设计VUI时,我们不应该假设用户的表述时很准确的,也就是用户对同一件事的表达多种多样。如何准确理解用户的意图,是VUI的关键。

更重要的是,如果想要获得更自然的交互方式,VUI系统需要理解很多背景知识。比如,当你说“我想处理下汽车违章事件”,你期望能够获得的响应是,“XX路的违章处理中心离你最近,你可以在17点前带上驾驶证、行车证前往办理”。这需要VUI系统能够了解办事的相关流程和地点,所需要的材料,以及相关部门的上班时间等等。相反,如果你得到的响应是一步接着一步向你确认信息,其中某一步很可能还出错,那么体验肯定是令人崩溃的。

最难的一点是,用户很多表述是非常模糊的,或者需要某种共识来理解对话的意图,比如“公积金管理中心是996上班吗?”,用户想要查询的是上班时间。对于这类问题,很多解决方案会借助知识图谱,来构建行业内的共享知识,以期望更加智能地交互。我们相信,随着技术的进步,机器理解对话的意图将会越来越准确。

2.理解上下文信息

理解对话过程中的上下文,再做出响应是非常体现“智能”的方面。这里的上下文包含几个方面:物理上下文,也就是感知用户所处的位置,用户正在做的事情;情感上下文:也就是当前用户的心情状态;对话上下文:也就是对话过程中,前面说的话包含的信息,以及理解话题是否已经转移。只有充分了解用户,才能给出最合适的答案,增强用户粘性。

3.协同方式回复

VUI是帮助我们同机器或者设备进行交互,完成某项任务或者获得某个答案,但值得注意的是,如果仅仅给个正确答案,会给人“冰冷”的感觉,更何况,由于很难理解用户意图和上下文信息,其实给出正确答案并不容易。这要求在设计VUI时,需要以协同的方式,与用户进行交互。有三种方法:1)如果用户的问题太模糊,那就询问更多的细节;2)如果答案是“否”,那么给出其它的可选建议,或者满足所说的意图的一种方式;3)给出比期望值更多的信息,当然不是要拉开对话的主题。比如,当用户询问: “我要办理户口迁移”,系统可能没办法执行这一任务,可以回复:“当前户口转移需要现场办理,您可以前往XXX地点办理。”

4.回复具有多样性

如果对同样情形,每次都是一样的答案,会显得比较单调。尽量设置几种不同的回复,来应对用户的同样的意图,然后随机选择。

5.关注隐私数据的处理

政务领域会涉及到很多敏感和隐私的数据,比如获取资产证明的官方文档,或者是查询人事信息等。在注重VUI提供操作遍历的同时,也需要关注对隐私数据的处理。

6.建立鉴权机制

权限机制是大多数应用都会考虑的问题,对于VUI应用,目前的技术手段很难通过声音识别身份,可能需要结合传统的鉴权机制。

有了VUI的设计原则后,我们来看下,在政务领域,VUI具有哪些应用场景。

G2C应用场景

G2C场景主要是指,政府提供面向市民的手机APP,或者小程序,以提供便捷的政务服务,市民可以用它来查询政府公开数据和信息,办理业务等。

有国外同行分析了在数字政府领域构建基于语音的应用的需求以及可能存在的机会点,通过访谈了多位政府工作人员以及具备VUI工程经验的工程师,探讨基于语音的应用场景[5],得到的结果如图Figure 1所示。这些场景,我们认为在国内智慧城市项目中,也具有可参考性。

Figure 1 G2C 语音助手场景分析

G2G应用场景

G2G场景主要是指,面向政府部门内部,提供数字化的手段,优化各部门间的协同办公流程,将一些重复流程自动化,提高日常办公效率等。

在政务办公内部,根据目前的调研,现有产品大都集中在Figure 2所示的场景。这些场景,从技术上来说,只是把对话机器人在其他领域的成功复制到了政务领域,当然,解决好这些场景的需求,也是很有价值的。单就语音查找文件来说,在政府推行无纸化办公的今天,如何快速方便地找到需要的文档,甚至能够理解文档里的内容,直接给出答案,是提高工作效率很有效的手段,这可能是融入到日常办公工作过程中的常用功能。

Figure 2 G2G场景语音助手场景分析

经过以上的分析,我们有了设计原则,也有了应用场景。如果我们再把VUI其中的技术元素再拆解开,将合适的元素与应用场景相结合,就有可能搞出一块创新性的应用。

VUI的技术元素拆解

语音助手的技术框架如Figure 3所示。借助目前深度学习在这一领域的发展,语音识别、自然语言理解等核心模块准确率很高,而且模型泛化性较强。在构建语音助手时,可以选择自己开发相关模型,也可以借助云服务。甚至,几家主要的云服务提供商都有自己的构建语音助手的框架,用户只需要关注行业语料以及业务对话流程,无需关注底层技术细节。比如华为云对话机器人服务[[6]]、百度云Unit平台[[7]],微软QnA Maker[[8]]以及Amazon Lex[[9]]等。

Figure 3 语音助手技术元素拆解

显然,对技术元素的拆解,还可以更细。本文就不再展开,有兴趣的读者,可以参考华为在这方面的技术进展总结[[10]]。

总结

语音交互技术在政务领域的数字化应用是一个不可忽略的趋势,本文分析了如何构建VUI的技术原则,并分析了在政务领域VUI的应用场景。试图通过VUI的技术分解,以及应用场景的结合,探索构建政务领域语音交互技术的应用。

[[1]]https://www.life.gov.sg/

[[2]] Government Digital Service: Government uses Alexa and Google Home to make

services easier to access. https://www.gov.uk/government/news/government-uses-

alexa-and-google-home-to-make-services-easier-to-access, accessed: 2021-01-05

[[3]] Global smart speaker Q4 2019, full year 2019 and forecasts https://www.canalys.com/newsroom/-global-smart-speaker-market-Q4-2019-forecasts-2020, accessed: 2021-01-05

[[4]] Dasgupta R . Voice User Interface Design: Moving from GUI to Mixed Modal Interaction[M]. 2018.

[[5]] Baldauf M, Zimmermann H D. Towards Conversational E-Government[C]//International Conference on Human-Computer Interaction. Springer, Cham, 2020: 3-14.

[[6]] https://support.huaweicloud.com/cbs/

[[7]] https://ai.baidu.com/unit/home

[[8]] https://www.qnamaker.ai/

[[9]] https://aws.amazon.com/cn/lex/

[[10]] 对话机器人70年:科幻与现实的交融  https://www.jianshu.com/p/e0f98f01b158

本文分享自华为云社区《语音交互技术在政务领域的应用》,原文作者:夕可石 。

点击关注,第一时间了解华为云新鲜技术~

探索语言交互技术在政务数字化的应用相关推荐

  1. 数字化转型进行时 | 区块链赋能政务数字化研讨会在零数科技举办

    原文发布时间 2021-01-29 原"能链科技"现已更名"零数科技" 2021年01月29日下午,在上海市经信委.上海浦东新区大数据中心.中国(上海)自由贸易 ...

  2. 沙龙报名 | 探索新零售时代的数字化创新

    沙龙报名 | 探索新零售时代的数字化创新 互联网技术正在重塑新零售的消费场景,使顾客消费思维发生改变.消费习惯由价格时代转为价值时代.同时,体验需求得到升级.新零售在"人.货.场" ...

  3. 政务数字化转型之探索

    转自电子政务智库 首先阐述本人对数字政务2.0和数字转型理解,再论新时代环境下的政务数据资源开发利用若干关键问题. 一.数字政府2.0及数字化转型 首先我们来理清下什么是"数字政府2.0及数 ...

  4. 泛微特色政务应用:对内协同办公、对外高效服务,推动政务数字化

    近年来,国家不断深入建设"数字化政府",政务服务"网上办"."掌上办"."一网通办"已经成为政务服务新方向. 泛微数字化 ...

  5. 从虚拟电厂在上海的实践探索看企业微电网数字化的意义

    作为典型的人口聚集.负荷密集区域,上海市具有外来电比例高.本地资源禀赋不足的特点.从发电侧角度来看,近年来上海风.光等新能源发电装机比例逐年提升,传统的火电逐渐成为调节性发电资源:从负荷侧角度来看上海 ...

  6. 构建中国云生态 | 华云数据与开江科技完成产品兼容互认证 携手赋能政务数字化建设

    ​随着我国数字化建设的高速发展,数字政务工作也在如火如荼地进行中,简化政务工作.打破信息孤岛.简化审批流程.全方位协同办公成为当前的主要工作任务. 近日,为进一步助力政府的数字化管理和协同,国产通用型 ...

  7. 第七代微软小冰发布:全双工语言交互技术已经通过车载设备完成测试

    昨日,微软(亚洲)互联网工程院 "第七代微软小冰"年度发布会在北京召开,微软的人工智能机器人小冰的大量新功能也在此次活动上正式宣布. 第七代微软小冰升级了微软小冰的部分核心技术,主 ...

  8. 数字化时代的探索,企业如何做好数字化转型?

    随着数字化成为时代的标志,各种相关技术.应用在各领域不断涌现,现代社会对于数字经济的重视不断提高.即使是传统的实体经济,在数字化时代的浪潮中,也开始了数字经济和实体经济的融合,尝试让实体经济在当前时代 ...

  9. 政务云灾备建设指南,助力政府数字化建设

    "一网通办""跨省通办""一件事一次办""证照分离""免审即享"- 如今,个人和企业在政府部门办理各 ...

最新文章

  1. HashMap遍历的两种方式,推荐使用entrySet()
  2. python基础练习(十)
  3. odoo开发笔记:前端显示强制换行
  4. 用 php写的条件语句-三种条件语句
  5. [leetcode] 53.最大子序和
  6. 7.33oracle安装不了,在RedHat7.0下安装Oracle的经历
  7. BZOJ3527:[ZJOI2014]力(FFT)
  8. WCF跨域 这可能是由于试图以跨域方式访问服务而又没有正确的跨域策略,或策略不适用于 SOAP...
  9. Web报表页面如何传递中文参数
  10. [Machine Learning Algorithm] 决策树与迭代决策树(GBDT)
  11. nginx https透明代理_五分钟看懂 Nginx 负载均衡
  12. HDU 1394 求逆序数(线段树)
  13. 将Excel数据导入到MySQL数据库
  14. 优秀的产品,离不开这4个 层面
  15. 类的静态成员与静态成员函数
  16. QSFP-DD封装有何优势?800G光模块是否会沿用QSFP-DD封装?
  17. gm修改爆率需要重启服务器吗,传奇GM教程 传奇私服如何调整爆率
  18. 集成学习-波士顿房价预测
  19. 怎么开启小米Note 3的root超级权限
  20. 蛋鸡问题,先有鸡还是先有蛋。顺便回答第一个编译器是怎么来的。(思考使人伟大)

热门文章

  1. C语言 输入成绩按成绩输出等级
  2. linux 软盘启动程序,Linux 引导过程及原理-从软盘启动GRUB
  3. 一个程序员的面试经历(一)
  4. java long 除_java中long型除法
  5. 75条笑死人的知乎神回复,用60行代码就爬完了
  6. Java高级---集合
  7. 正确加载MySQL驱动的语句_正确加载MySQL驱动的语句_____________________;_学小易找答案...
  8. FSCapture(截图录屏软件)
  9. 淘宝api,获取店铺所有商品接口
  10. 智能餐厅摆动手势点餐人脸识别支付