AI-语音处理理论和应用-语音识别、语音合成

学习目标
   • 了解语音处理的基础知识及应用
   • 掌握语音处理的基本步骤
   • 掌握语音处理的主要技术
   • 了解语音处理的难点与展望

语音识别
   什么是语音识别技术
      • 语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。
      • 语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

   语音识别发展史
      • 1952年，贝尔研究所研究成功了世界上第一个能识别10个英文数字发音的试验系统；
      • 1970年以后，在小词汇和孤立词的识别方面取得了实质性进展；
      • 1980年以后，孤立词转向连接词(识别一句话)识别；
      • 1987年12月，李开复开发出世界上第一个“非特定人连续语音识别系统”，用统计方法提升了语音识别率；
      • 1990年以后，大词汇量连续语音识别得到优化；
      • 1997年，IBM Viavoice首个语音听写产品问世；
      • 2010年，Google Voive Action支持语音操作与搜索；
      • 2011年初，微软的DNN在语音搜索任务上取得成功，科大讯飞将DNN首次成功应用到中文语音识别领域；
      • 2011年10月，苹果iPhone 4S自带的语音助手Siri一炮走红；
      • 2013年，Google发布Google Glass，苹果发布iWatch都嵌入语音交互功能；
      • 趋势:
         • 语音识别任务越来越复杂
         • 用到的模型越来越复杂
         • 技术从实验室走入生活
   语音识别任务处理流程

      1.得到语音文件(mp3、wav……)
      2.将语音文件进行还原
      3.还原后进行预处理，满足一定数据要求
      4.通过声学模型、分帧、声学特征提取得到语言模型、单词、文本文件
      5.对于现代的语音识别的任务来说，有些过程是合并在一起的，成为一个end-to-end的形式
   语音识别的应用
      • 语音打字机：说一句话快速翻译出来；搜狗听写
      • 语音搜索：购物网站购物可以通过语音搜索
      • 语音拨号
      • 语音助手

语音合成
   什么是语音合成
      • 语音合成，又称文语转换（Text-To-Speech TTS）技术，能将任意文字信息转化为相应语音朗读出来。
      • 语音合成涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术。
      • 为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。
   语音合成应用场景
      大部分都和语音识别相结合，语音识别通过人向机器传输信息，语音合成通过机器向人传输信息；比如：
      • 服务机器人
      • 客服系统
      • 智慧家具
      • 出行导航
      • 阅读软件
   语音合成系统
      • 一个完整的语音合成系统过程是先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形。其中：
      • 第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的音律控制规则；
      • 第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。
      • 语音合成技术的研究已有两百多年的历史，但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能够产生高清晰度、高自然度的连续语音。
   语音合成处理流程

      1.拿到文本文件
      2.对文本进行分析
         文本归一化：把缩写的词完整化
         语音分析：分词
         韵律分析：这句话代表什么情绪、代表什么角色
      3.语音内部表示
      4.波形合成
      5.形成完整的波形文件
      6.对波形文件进行评估看是否满足需求
   文本分析
      • 语音识别中的文本分析主要的工作是把文本数据转换成语音内部表示（Phonemic Internal Representation）。具体内容包括：
      • 文本归一化：对形形色色的自然文本数据进行预处理或者归一化，包括句子的词例还原，非标准词，同形异义词排歧等；
      • 语音分析：文本归一化之后的下一步就是语音分析，具体方法包括通过大规模发音词典，字位-音位转换规则；
      • 韵律分析：分析文本中的平仄格式和押韵规则，这里主要包含三方面的内容，包括：韵律的机构，韵律的突显度，音调。
   语音合成方法
      • 在语音合成技术的发展过程中，早期的研究主要是采用参数合成方法，后来随着计算机技术的发展又出现了波形拼接的合成方法。
      • 参数合成
         • 在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器（1973）和Klatt的串/并联共振峰合成器（1980），只要精心调整参数，这两个合成器都能合成出非常自然的语音。但准确提取共振峰参数比较困难，合成语音的音质难以达到实用要求。
      • 波形拼接
         • 自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加（PSOLA）方法的提出（1990），使基于时域波形拼接方法合成的语音的音色和自然度大大提高，自然度比以前基于LPC方法或共振峰合成器的自然度要高，并且基于PSOLA方法的合成器结构简单，易于实时实现，有很大的商用前景。

AI-语音处理理论和应用-语音识别、语音合成相关推荐

HCIP-AI语音处理理论、应用
语音处理理论.应用 1.语音处理介绍 1.1.语音处理 1.1.1.语音处理的简介 1.1.2.语言学 1.1.3.语音学 1.1.4.语音特征 1.1.5.语音信号预处理 1.1.5.1.预加重 1 ...
AI：基于计算机视觉和语音识别案例项目打包过程记录20181226-19
AI:基于计算机视觉和语音识别案例项目打包过程记录20181226-19 基于计算机视觉和语音识别案例项目打包过程 521 INFO: PyInstaller: 3.3.1 521 INFO: Pyt ...
百度AI学习：一、语音识别
近期用下班之余学习了百度AI 下面的第一步语音识别特此整理以后查阅 1.申请百度AI账号创建应用 2.查看文档 http://ai.baidu.com/docs#/ASR-Online-J ...
语音识别+语音合成+同声传译微信小程序
语音识别+语音合成+同声传译微信小程序代码库链接为:https://github.com/Resulte/SpeechProcessMiniProgram (希望您去Github的时候顺便给个St ...
【AI】PaddlePaddle实现自动语音识别
文章目录文档背景安装环境 Python版本 pip环境安装模型需要的环境项目目录结构数据准备生成数据字典数据预处理训练模型创建模型构建模型的目的模型黑盒在模型中充当什么角色解码 ...
Talk to AI，揭秘背后的语音识别数据
语音识别正在进入我们日常生活的方方面面.它内置在我们的手机.游戏机或智能手表中,只需呼唤它的名字,就可以帮你订外卖.播报天气等等.经过几十年的发展,深度学习使得语音识别技术可以应用到更多的实际场景中. ...
AI技术驱动下的语音识别：让语音交互更加自然、智能
JavaScript的语音识别是一种将语音转换为文本的技术.它可以应用于许多领域,包括智能家居.智能助手和自然语言处理等. 语音识别的基本原理是将语音信号转换为可以被计算机理解的文本.这个过程可以分为 ...
【Demo】iOS平台上的讯飞语音识别语音合成开发
官方文档:http://www.xfyun.cn/doccenter/iOS 目前开放的服务: 准备工作需要到讯飞官网注册一个开发账号,注册后登录并创建一个新的应用,添加需要的服务(语音听写.语音合 ...
08-百度ai语音合成
网址:http://ai.baidu.com/ 百度AI实现的爬虫功能: 图像识别语音识别/语音合成自然语言处理使用流程点击控制台登录选择想要的功能在功能下创建一个app 选择对应的pyt ...
百度AI 开放平台语音合成
一.前言继上一篇介绍如何使用百度语音识别API 的博客<树莓派 >>> 接入百度AI 开放平台实现智能语音识别>后,今天我们来看看如何使用百度语音合成,有了这一听一说, ...

AI-语音处理理论和应用-语音识别、语音合成

AI-语音处理理论和应用-语音识别、语音合成相关推荐

最新文章

热门文章