语音助手简介

语音助手这个产品的目的,是希望通过语音说话的方式,来实现闲聊陪伴、知识获取、设备控制等需求,对应的就有三种不同的助手类型:闲聊型、问答型、指令型。

闲聊型助手用于实现闲聊陪伴的目的,通过AI的技术来与用户进行对话,感知用户情绪,比如微软小冰。

问答型助手用于知识获取,通过对话的方式来获取知识,或者解决疑问,比较常见的应用则是各个平台的智能客服,比如京东、淘宝等都有对应的产品。

指令型助手用于设备控制,通过对话的方式来控制智能设备,实现某种操作,比较常见的应用有智能音响、IOT设备等,比如,语音控制:“打开空调,然后调成25度”。

而集成了这三个能力的语音助手,则是以一个集大成者的贴心助理的形式存在,比如vivo的Jovi语音助手、小米的小爱同学、IPhone的siri。

语音助手交互过程

1、首先,来了解一下从用户发出指令到设备端执行,一共经历了哪些流程:

         由上图可以看出,用户发出语音指令,经过语音识别(ASR)服务器转换为文本,然后经过网关进入自然语言理解(NLU)服务器进行语义理解,理解之后经由对话管理中控(DM)进入技能工具箱得到结构化的控制指令,然后经过语音转文字(TTS)服务将文本信息转为语音信息,进入手机端执行命令并且回复用户。

2、下面我们来简单说下各个模块的作用:

客户端:这里一般是指设备端,比如:手机、音响、智能设备等,用户通过该设备与语音助手进行交互,实现对话、控制设备等操作。

语音识别ASR:ASR实现的功能主要为将语音转换为文字,但其实这里还涉及很多其他技术,一个完整的ASR链路主要包括:语音唤醒、语音输入、静音检测(VAD)、信号处理、特征提取、模型转换等。

网关服务:网关服务顾名思义,是一个网络连接到另一个网络的“关口”,承担了一些请求鉴权、服务转发、配置下发、流量控制等能力。

语义理解NLU:语义理解的作用为根据文本信息理解句子的含义,这里包含了很多的模块和技术,一般主要分为query预处理和query理解两个部分,在query预处理中一般包含query纠错、问句改写等,在query理解中一般包含分词、依存句法分析、命名实体识别(NER)、场景识别、意图识别、槽位提取、情感分析等。

对话管理DM:DM控制着人机对话的状态,他的输入为当前的用户输入(经过语义理解之后的内容),输出为下一步的系统行为和更新后的状态。DM中一般需要负责:BOT的分发、BOT结果排序、对话状态维护(DST),多轮会话一般就是在这里控制的,后续的文章中会详细讲解DM和多轮对话的实现。

技能工具箱:这里存放着支持的各个技能,比如:播放音乐(play_music)、查询天气(weather_forecast)、闹钟操作(operate_alarm)等,这里的技能指的是客户端可以执行的内容,是语义内容经过技能封装、知识填充、知识校验等操作后生成的结构化的数据,客户端拿到后可以直接执行。

语音助手——简介与交互过程相关推荐

  1. python3基于百度开放平台和图灵机器人的语音助手

    python3基于百度开放平台和图灵机器人的语音助手 简介:刚刚接触python,作为一个小白,想搞一个方便自己日常生活的助手,功能肯定不多,但是满足我的基本要求. (我用的是pycharm) 本de ...

  2. 黑客可利用超声波秘密控制语音助手设备

    聚焦源代码安全,网罗国内外最新资讯! 作者:Ravie Lakshmanan 编译:奇安信代码卫士团队 密歇根州立大学.华盛顿大学.中国科学院和内布拉斯加林肯大学的研究人员发现了通过超声波攻击声控设备 ...

  3. android 转语音助手,多言文字转语音助手

    多言文字转语音助手是一款安卓手机多功能文字转语音工具,可以帮助用户输入文字内容转换成音频内容,支持多国文字输入,一键即可将文本转换成语音,还有各种音频素材可以进行合成配音,支持线上试听服务,适合多场景 ...

  4. 爆肝一周,用Python在物联网设备上写了个智能语音助手-阿里云智能语音交互

    基于HaaS云端一体框架,用Python打造HaaS EDU K1智能语音助手的过程中需要用到云端能力.本篇文章介绍如何开通阿里云智能语音交互,并创建配置语音识别及语音合成项目,获取Appkey.请参 ...

  5. SSH基本简介及连接交互过程

    简介: SSH(Secure+SHell):是一种网络协议,顾名思义,就是非常安全的shell,主要用于计算机间的加密传输. SSH服务基于非对称加密(public-key cryptograthy, ...

  6. 语音交互设备 前端信号处理技术和语音交互过程介绍

    一.前端信号处理 1. 语音检测(VAD) 语音检测(英文一般称为 Voice Activity Detection,VAD)的目标是,准确的检测出音频信号的语音段起始位置,从而分离出语音段和非语音段 ...

  7. 同行者语音助手车载版_从软件许可到按需服务,车载语音交互的“连通性”革命GGAI头条...

    加入高工智能汽车专业行业群(自动驾驶5群,车联网智能座舱3群,智能网联商用车2群),加微信:17157613659,出示名片,仅限智能网联汽车软硬件供应商及OEM厂商. 在过去的20年时间里,车载语音 ...

  8. vivo分屏_vivo分屏+Jovi语音助手!让你找到解题新思路

    学习,可以说是贯穿每个人一生的事情.它无关乎我们的年龄,无关乎我们所涉及的领域,只要我们在汲取知识,都是在向着更加广阔的领域前行.随着时间的推进,我们的学习方式也渐渐脱离了书本这单一的形式,网络查询. ...

  9. android 语音助手官网,breeno语音助手最新版

    breeno语音助手最新版是一款手机中的导航软件,在这款软件中你能享受到非常方便的导航体验,这款软件中的指令不需要用户手动去输入,现在只需要你使用的语音就直接能对其进行操控了.感兴趣的用户就来去我下载 ...

  10. 从产品经理的角度,看手机端语音助手

    从产品经理的角度,看手机端语音助手 本文从PM的角度对手机端语音助手进行了思考,包括当前市场情况.PM在设计产品时的思路等. 一.手机端语音助手的现状 苹果siri的出现,带动了手机端智能助手的发展, ...

最新文章

  1. 打开python的步骤_python RE 常见的打开方法
  2. Block Token 原理分析
  3. linux ugo 权限 ugo即user group other
  4. sublime text常用快捷键
  5. 【297天】我爱刷题系列056(2017.11.29)
  6. 面向对象的程序设计之原型模式
  7. 求助!!css选择器为什么有很多标签查不到
  8. Three Integers CodeForces - 1311D(思维+暴力)
  9. JDBC和servlet设计思路、DAO模式思路、MVC思路粗略总结
  10. java防御性编程_代码防御性编程的十条技巧
  11. java json float_java – Json解析问题(值自动更改为float)
  12. MongoDB 数据集合导出 与 导入
  13. Mac book 合并分区,报错文件系统验证失败的解决办法
  14. 线程的状态及状态转换
  15. ERROR: Cannot uninstall ‘PyYAML‘. It is a distutils installed project and thus we cannot...
  16. 英语怎么形容“漂亮女孩”(转)
  17. Boost在Windows XP运行的编译方法
  18. 【深圳】工作5年,欠款1万5,是否还有必要待下去呢?
  19. 未找到导入的项目 .wpp.targets。请确认 Import 声明中的路径正确,且磁盘上存在该文件
  20. Web网页开发之问卷调查

热门文章

  1. 联想Lenovo手机平板安装谷歌服务框架Google, Play商店,安装套件GMS
  2. 【精彩文章】数学家论数学——数学的本质
  3. 拼音加加在双拼状态下在输入数字后的标点不正常的解决方式
  4. 使用H-lua框架制作魔兽争霸地图(7-物编-物品合成篇)
  5. Ubuntu安装sqliteman遇到的问题
  6. 繁体转简体 java_【Java】简体中文、繁体中文转换
  7. gg修改器免root下载
  8. MOEA/D论文+代码
  9. jenkins+docker进行coverity检查自动构建
  10. Java练习题2-基础(含解析)