机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。语音交互是未来的方向,而智能音箱则是语音交互落地的第一代产品。

一、语音交互流程简介

AI 对话所需要的技术模块有 4 个部分,分别为:

  • 自动语音识别(Automatic Speech Recognition, ASR)

  • 自然语言理解(Natural Language Understanding, NLU)

  • 自然语言生成(Natural Language Generation, NLG)

  • 文字转语音(Text to Speech, TTS)

以叮咚开发文档中的语音交互流程图来看Ai 对话技术的主要路径:

从上图中可以看到,用户与设备之间的交互,主要是采用语音方式处理和完成的。

二、语音交互流程设计

一次完整的语音交互流程,成功的语音对话,通常是有以下几个阶段。

1.交互流程的核心—意图

所谓意图,表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。

如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户;如果应用无法识别用户意图,则需要给用户友好的提示,指导用户使用。

用户:七星彩的开奖时间是什么时候?
Ai:体育彩票七星彩每周二、周四和周日开奖。

2. 如何识别意图—语义解析

对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。

用户:我要{听} {周杰伦}的{稻香}
Ai:稻香.mp3

3.如何处理意图—云端交互

调用意图的结构化请求,向服务器请求处理后做出反馈响应。 通俗来讲该流程主要处理用户的请求,解决用户问题的答案。

4.上下文意图的处理-对话管理

在用户进行自然对话时,可能会因为表达事情的复杂度、时间、地点、效率等,产生具有脉络的对话过程,所有的对话元素会编织在一个连贯的线性对话中。

用户:明天北京天气如何?
Ai:明天北京天气晴,温度16到23度
用户:后天呢?{后天北京天气如何?}
Ai:后天北京天气晴,温度17到28度

5、语言合成模块 – 组织语言

根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。 同时将生成模块生成的句子转换成语音输出。(把回答的机器语言再转换成 口语语言)

三、 中文自然语言处理的关键技术

1、词法分析

词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。

2、句法分析

句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

3、语义分析

语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。

4、语用分析

语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。

5、语境分析

语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。

四、 Ai对话目前存在的问题

人机对话过程中,用户难免会出现表达失误的情况,导致机器对用户语言理解出现偏差,在这时, 纠错机制对机器而言则非常重要,如缺少这个机制,用户需要花费相当长的时间将其意图解释清楚,相应的用户体验也会十分糟糕。另一方面,虽然可以很好的识别语音,但是却不能理解你的对话目的, 语义理解上有偏差。

当前,包括Alexa在内的国内外智能音箱之所以没有表现的那么智能,出现了“人工智障”的嘲笑也是因为在以上两方面没有处理太好。

因此语音交互最终需要解决的关键问题是 歧义消解问题,和 未知语言现象的处理问题。

五、 智能语音助手背后的生态服务

Amazon Echo 的胜利在于其语音助手 Alexa 掌握的无数技能,Google Assistant 以及Google Home之所以被人看好是在于其 Android 后发优势所具备的开放性。

智能语音助手类的产品要想在中国落地开花,它不仅仅是简单的语音识别那么简单,还有集成服务,一整套的中文生态、内容、服务等配套设施,是一种涵盖很多基础能力的生态系统。

未来基于语音交互的语义技能,必须要能够达到几万、几十万甚至上百万种的时候,才能促使语音交互时代操作系统真正走向成熟,未来语音交互产品的形态和样式也将越来越丰富。

让我们期待未来Ai语音交互的蓬勃发展,期待未来对技术的无限挑战!

干货丨AI语音二三事:你需要了解这些AI 语音对话技术相关推荐

  1. 干货丨加密数据迁移二三事

    随着应用系统以及数据库的迭代更新,新旧系统之间往往需要进行大量的数据迁移.与此同时,在数据库中,越来越多的敏感数据是以加密的方式进行存储的.市场上不同的数据库产品之间关于数据加解密的接口实现以及使用上 ...

  2. AI时代的神马搜索!神马智能对话技术深度解读

    智能对话是搜索引擎的未来形态,神马搜索在发展全网搜索.国内信息流.国际信息流等大数据业务的同时,智能对话的探索和沉淀也逐渐浮出水面.过去一年基于搜索推荐多年的积累,我们完成了平台架构.生产体系.算法体 ...

  3. 干货丨致研究者:2018 AI 研究趋势

    2017 年是机器学习领域最有成效.最具创意的一年.现在已经有很多博文以及官方报道总结了学界和业界的重大突破.本文略有不同,Alex Honchar在Medium发文,从研究者的角度分享机器学习明年发 ...

  4. 干货丨2017年AI与深度学习要点大全

    2017已经正式离我们远去~ ~ ~ 博客WILDML的作者.曾在Google Brain做了一年Resident的Denny Britz,就把他眼中的2017年AI和深度学习的大事,进行了一番梳理汇 ...

  5. 干货丨【看图识算法】这是你见过最简单的 “算法说明书”

    文章来源:新智元 [导读]像阅读宜家的安装说明书一样学习算法,是怎样的体验?不伦瑞克工业大学的三名研究者制作了这份"算法说明书",简明传神地解释了一些基本算法,一起来看图说话. Q ...

  6. 干货丨先搞懂这八大基础概念,再谈机器学习入门

    翻译 | AI科技大本营 参与 | 林椿眄 准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题. 这些机器学习的专业术语能 ...

  7. 深度丨110亿美金还不够,阿里使用这种AI手段创造更多广告收入

    深度丨110亿美金还不够,阿里使用这种AI手段创造更多广告收入(附PPT)丨CCF-GAIR 2017 本文作者:李秀琴 2017-07-19 23:09 专题:GAIR 2017 导语:不明白分片线 ...

  8. 百度世界2020大会技术干货硬核来袭,百度大脑6.0跃升AI新型基础设施

    点击左上方蓝字关注我们 9月15日,科技界年度盛会"百度世界2020"线上开幕.今年的百度世界大会由百度与"央视新闻"联合呈现,上午刚刚结束的主论坛精彩纷呈,反 ...

  9. 深度丨MIT重磅报告:一文看清AI商业化现状与未来

    "本文旨在为读者呈现出全球企业在 AI 方面的发展计划和现状.当然,这份报告不是通过猜想和预测,而是建立在可靠的调查数据之上,麻省理工斯隆学院对全球各行业超过 3000 名高管和分析人员,以 ...

最新文章

  1. vue 写兼容ios的毫秒级刷新时间戳
  2. centos7 使用无线wifi连接
  3. 【Flutter】Flutter 混合开发 ( Flutter 与 Native 通信 | Android 端实现 MethodChannel 通信 )
  4. arm下如何烧写指定分区大小的内核和文件系统
  5. Eclipse配置详解(包括智能提示设置、智能提示插件修改,修改空格自动上屏、JDK配置、各种快捷键列表……)...
  6. Java培训教程之this关键字讲解
  7. 模拟赛 sutoringu
  8. IntelliJ IDEA打开错误 _CGContextSetAllowsAcceleration
  9. angular做的简单购物车
  10. 公司招聘中不能说的秘密,简历只有这么发才有希望
  11. Arduino 测量交流电流
  12. UVA - 11137 Ingenuous Cubrency
  13. oracle查找隐藏字符串,oracle chr(0) 隐藏字符串
  14. 荆棘遍地,鲜花满开(随笔二)
  15. 邻接矩阵的存储方式实现图的广度和深度优先遍历
  16. 快速学习Java8新特性第七讲——Optional类
  17. 大学在校 计算机考试,大学必考证书 | 计算机考试报名要开始啦!
  18. 课上——HTML 表格 学生成绩表
  19. python操作Excel、Word、PDF集合大全
  20. 5.1立体声道如何用Vegas设置

热门文章

  1. 吴琦:AI研究一路走到“黑”, 从VQA到VLN
  2. 活动报名 | 因果科学与Casual AI读书会
  3. 如何设计一款暗度陈仓的反爬虫
  4. 同是程序员,为什么别人可以事半功倍?
  5. 推荐给Android开发者的抢手书单
  6. 不能跳过的《程序员的职业素养》(The Clean Coder)中的一个章节
  7. 【CNN基础】常见的loss函数及其实现(一)——TV Loss
  8. 语音合成系统之pyWORLD,WORLD使用简介
  9. 教您用CT数据和桌面3D打印机打印自己的器官模型
  10. 基于瞳孔检测,湖北中学推出人脸支付!网友提出安全投诉,学校:符合法规,无风险...