智能音箱工作原理

→1、识别人说的话(ASR ,Automatic Speech Recognition 自动语音识别技术)

→2、对识别的内容提取信息并处理(NLP,Natural Language Processing自然语言处理 )

→3、把处理结果发出声音给人(TTS,TextToSpeech 从文本到语音技术)

下面对三步流程中的技术的ASR、NLP、TTS做下概念普及

  • ASR:自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。语音识别系统的性能大致取决于以下4类因素:

    1. 识别词汇表的大小和语音的复杂性

    2. 语音信号的质量

    3. 单个说话人还是多说话人

    4. 硬件

  • NLP: 自然语言处理(NLP,Natural Language Processing) 是研究人与计算机交互的语言问题的一门学科一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

    按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。

    1. 简单匹配式辅导答疑系统主要通过简单的关键字匹配技术来实现对学生提出问题与答案库中相关应答条目的匹配,从而做到自动回答问题或进行相关辅导。

    2. 模糊匹配式辅导答疑系统则在此基础上増加了同义词和反义词的匹配。

    3. 段落理解式辅导答疑系统是最理想的、也是真正智能化的辅导答疑系统对于汉语来说,这种理解涉及自动分词、词性分析、句法分析和语义分析等NLP领域的多种复杂技术,所以实现难度很大。

  • TTS: 从文本到语音(TextToSpeech)

    它是同时运用语言学和心理学的杰出之作,在内置芯片的支持下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。

    TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS文语转换用途很广,包括电子邮件的阅读、IVR(交互式语音应答系统)系统的语音提示等等,TTS所用的关键技术就是语音合成(SpeechSynthesis)。

    IVR在软件处理上一般分为三步

    1. 文本分析-对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。

    2. 语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形。

    3. 韵律处理-合成音质(Qualityof Synthetic Speech)是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价.

    另外在自然语言处理上看到一段NLP的思维逻辑层次, 用于分析语言使用。

    理解层次早期被称为Neuro-Logical Levels,最初由格雷戈里·贝特森发展出来,后由罗伯特·迪尔茨(Robert Dilts)整理,在1991年推出。理解层次是一套模式(Pattern),因为它可以用来解释社会上出现的很多事情。通常低层次的问题高一个层次就能轻易找到方法,可倘若在同层次或其低层次来寻找方法,效果往往不尽如人意或者消耗精力过大。

    NLP的六个思维逻辑层次

    1. 精神层次

    2. 身份层次

    3. 信念系统、价值

    4. 能力层次

    5. 行为层次

    6. 环境层次


    各层解释如下表:


    应用NLP分析对话:

    例(3)一个主妇对婚辅导员的话

    • 精神

      我渴望有和睦的家庭、快乐的人生。

    • 身份

    1. 我们天生一对。

    2. 我是一个很坚持原则的人,而他刚好相反。

    3. 他很自私!

    • 信念,价值
    1. 为了孩子,我们必须继续下去。

    2. 这段婚姻再没有什么意义可言。

    • 能力
    1. 我可以离家出来,也考虑过找个男朋友。

    2. 我无法和他沟通。

    • 行为
    1. 我们一天也说不上三句话。

    2. 每天下班这么晚,回到家中已经筋疲力尽。

    • 环境
    1. 这份工作增加了我俩之间的问题。

    2. 他在外面有个女朋友。

    以上的例子,抽出当事人的话来分析属于哪个层次。一般从环境层次看起,每一个高层次的话出现,都盖过了低一层的意思。

音箱语音交互流程


一次完整的语音交互流程,成功的语音对话,通常是有以下几个阶段。

  • 交互流程的核心—意图

    所谓意图,表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。

    如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户;如果应用无法识别用户意图,则需要给用户友好的提示,指导用户使用。

    用户:七星彩的开奖时间是什么时候?
    Ai:体育彩票七星彩每周二、周四和周日开奖。

  • 如何识别意图—语义解析

    对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。

    用户:我要{听} {周杰伦}的{稻香}
    Ai:稻香.mp3

  • 如何处理意图—云端交互

    调用意图的结构化请求,向服务器请求处理后做出反馈响应。 通俗来讲该流程主要处理用户的请求,解决用户问题的答案。

  • 上下文意图的处理-对话管理

    在用户进行自然对话时,可能会因为表达事情的复杂度、时间、地点、效率等,产生具有脉络的对话过程,所有的对话元素会编织在一个连贯的线性对话中。

    用户:明天北京天气如何?
    Ai:明天北京天气晴,温度16到23度
    用户:后天呢?{后天北京天气如何?}
    Ai:后天北京天气晴,温度17到28度

  • 语言合成模块 – 组织语言

    根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。 同时将生成模块生成的句子转换成语音输出。(把回答的机器语言再转换成 口语语言)

中文自然语言处理的关键技术

  • 词法分析

    词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。

  • 句法分析

    句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

  • 语义分析

    语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。

  • 语用分析

    语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。

  • 语境分析

    语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。

AI对话目前存在的问题

人机对话过程中,用户难免会出现表达失误的情况,导致机器对用户语言理解出现偏差,在这时,纠错机制对机器而言则非常重要,如缺少这个机制,用户需要花费相当长的时间将其意图解释清楚,相应的用户体验也会十分糟糕。另一方面,虽然可以很好的识别语音,但是却不能理解你的对话目的,语义理解上有偏差。

当前,包括Alexa在内的国内外智能音箱之所以没有表现的那么智能,出现了“人工智障”的嘲笑也是因为在以上两方面没有处理太好。

因此语音交互最终需要解决的关键问题是歧义消解问题,和未知语言现象的处理问题。

智能语音助手背后的生态服务

Amazon Echo 的胜利在于其语音助手 Alexa 掌握的无数技能,Google Assistant 以及Google Home之所以被人看好是在于其 Android 后发优势所具备的开放性。

智能语音助手类的产品要想在中国落地开花,它不仅仅是简单的语音识别那么简单,还有集成服务,一整套的中文生态、内容、服务等配套设施,是一种涵盖很多基础能力的生态系统。

未来基于语音交互的语义技能,必须要能够达到几万、几十万甚至上百万种的时候,才能促使语音交互时代操作系统真正走向成熟,未来语音交互产品的形态和样式也将越来越丰富。

AI音箱工作原理浅析相关推荐

  1. AI音箱的原理,小爱同学、天猫精灵、siri。

    AI音箱的原理 简单的说,音箱工作的时,麦列始终处于拾音状态(对声音进行采样,量化).进过基本的信号处理(静音检测.降噪等),唤醒模块会判断是否出现唤醒词,是的话就进行更复杂的语音信号处理,开始真正的 ...

  2. SPI及其工作原理浅析

    说明.文章摘自:SPI协议及其工作原理浅析 http://bbs.chinaunix.net/thread-1916003-1-1.html 一.概述. SPI, Serial Perripheral ...

  3. NZT 扑克 Poker AI 的工作原理解析

    NZT AI 的工作原理? 简单地讲是GTO打法结合了剥削打法. GTO打法: 基于GTO最优纳什均衡的理论,用Solver解算器计算出来的决策树方案为基础,将方案储存在云端服务器,每次根据当前牌局的 ...

  4. AI智能音箱工作原理中应用的数字功放芯片

    AI智能音箱是一个音箱升级的产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲.上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘.设置冰箱温度.提前让热水器升温等. 智能 ...

  5. Kubernetes NetworkPolicy 工作原理浅析

    女主宣言 Kubernetes能够把集群中不同Node节点上的Pod连接起来,并且默认情况下,每个Pod之间是可以相互访问的.但在某些场景中,不同的Pod不应该互通,这个时候就需要进行访问控制.那么如 ...

  6. 开关电源工作原理浅析

    随着全球对能源问题的重视,电子产品的耗能问题将愈来愈突出,如何降低其待机功耗,提高供电效率成为一个急待解决的问题.传统的线性稳压电源虽然电路结构简单.工作可靠,但它存在着效率低(只有40% -50%) ...

  7. 舵机内部结及工作原理浅析

    一.舵机实物图 就像上面这张照片,相信大家都不会陌生,我们常见到的舵机就是这个模样,一般是塑料外壳,当然很少见的也有金属外壳的舵机,因为涉及到控制信号,所以一般有三条引出线. 像上图所示的样子,舵机有 ...

  8. 一个故事看懂AI神经网络工作原理

    我是一个AI神经元 我是一个AI神经元,刚刚来到这个世界上,一切对我来说都特别新奇. 之所以叫这个名字,是因为我的工作有点像人类身体中的神经元. 人体中的神经元可以传递生物信号,给它输入一个信号,它经 ...

  9. Hadoop工作原理浅析

    Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统.最核心的模块包括Hadoop Common.HDFS与MapReduce. HDFS HDFS是Hadoop分布式文件系统(H ...

  10. CPU处理器架构和工作原理浅析

    汇编语言是学习计算机如何工作的很好的工具,它需要我们具备计算机硬件的工作知识. 基本微机设计 下图给出了假想机的基本设计.中央处理单元(CPU)是进行算术和逻辑操作的部件,包含了有限数量的存储位置-- ...

最新文章

  1. Androidstudio高效管理第三方API的KEY及Gradle版本管理
  2. 《结对-结对编项目作业名称-开发环境搭建过程》
  3. JAVA File方法各类文件复制操作
  4. java 将一段时间分割为两个连续的时间
  5. 第六章扩展——VMA
  6. 诗与远方:无题(五十七)
  7. 【QT】QT从零入门教程(五):图像文件操作 [新建打开保存]
  8. DNS劫持和HTTP劫持有何区别
  9. C++ const总结
  10. 动态规划 TSP 问题
  11. 第十一期_MSF 后渗透《Metasploit Unleashed Simplified Chinese version(Metasploit官方文档教程中文版)》
  12. ARM Aarch32 中 A32 和 T32 的汇编编程的例子(call return stack 结构相关的指令)
  13. mysql 检索结果排序方式_MySQL--排序检索数据(ORDER BY)
  14. 设置默认打印机出现错误。提示无法完成,错误是0x00000709
  15. 安卓手机开机动画bootanimation.zip文件制作以及注意事项
  16. Java基础语法-数据类型与idea配置
  17. 安卓APP开发发展趋势与前景
  18. 计算机系大二学期计划范文,大二学期学习计划范文6篇
  19. p8刷原生android,【EMUI3.1全局】原生Android M + IOS 7完美结合,听说跟P8更配哦
  20. 计算机专业写不出程序,计算机专业的同学总说在编写程序,他们究竟在编什

热门文章

  1. python flink kafka_Flink Kafka 端到端 Exactly-Once 分析
  2. 数据分析-学术前沿趋势分析-论⽂数据统计
  3. 流程框图——各方框含义
  4. Vmware虚拟机 黑苹果 MacOS初体验!(疫情期间在家学习ios开发,自己安装了虚拟机黑苹果、Xcode)
  5. 产品更新|用于语音压缩的新型极低比特率编解码器,Lyra 长什么样?
  6. 山西台达plc可编程控制器_可编程控制器10(PLC)基本指令系统
  7. 搜狗浏览器查看账号密码
  8. 微信群控,微信云控系统源码之uiautomator框架介绍
  9. 华为存储iscsi配置_使用华为存储配置ISCSI存储方法和iSCSI建立连接提示目标错误...
  10. 电脑版微信多开的三种方法