基础理论

  • 对话式AI的理解与其子任务的介绍
  • ASR自动语音识别
    • 简史和发展历程
    • 工作流程及原理
      • ASR自动语音识别简介
      • ASR自动语音识别应用场景
      • ASR自动语音识别理论
  • 自动语音识别工具包的简介及设计架构
  • 使用先进的ASR工具快速实现第一个语音识别应用

对话式AI的理解与其子任务的介绍


ASR自动语音识别

简史和发展历程


工作流程及原理

ASR自动语音识别简介

ASR(Automatic Speech Recognition)自动语音识别是计算机科学和计算语言学的一个跨学科子领域,其开发的方法和技术使计算机可以将口语识别并翻译成文本。它也被称为计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。

ASR自动语音识别应用场景

ASR自动语音识别理论


  • 声音讯号参数:
    振幅:振幅是指空气分子从静止位置的最大位移。
    波峰和波谷:波峰是声波中的最高点,波谷是最低点。
    波长:2个连续波峰或波谷之间的距离称为波长。
    周期:每个音频信号都以周期的形式遍历。信号的完整向上移动和向下移动形成一个循环。
    频率:频率是指信号在一段时间内变化的速度。
  • 把声音转化成计算机可以识别的数据
  • 声波的数字化表达
  • 傅里叶变换为频谱
  • 完整的频谱图
    我们将hello语言中的20毫秒声音片段通过傅里叶变换拿到转换后对应的频谱图如下:

    我们对每20 毫秒的小声音片段连续经过傅里叶变换的过程直到结束,最终会得到hello语音一个完整的频谱图
  • 声学模型
    我们将频谱图中每个小音频片段,连续的输入给声学模型中去,它将找出与当前正在说出的声音相对应的字母。
  • 映射
    当跑完的整个音频(一次一个小音频片段)之后,我们将最终得到一份对照表(映射mapping),其中标明了每个音频块和其最有可能对应的字母。这是我说那句「Hello」所对应的映射的大致图案
  • 折叠删除
    我们将重复字符折叠: HHHEE_LL_LLLOOO => HE_L_LO,然后我们删除空格符: HE_L_LO becomes => HELLO

自动语音识别工具包的简介及设计架构

使用先进的ASR工具快速实现第一个语音识别应用


(注:内容来源于NVADA的讲座)

ASR自动语音识别基础理论相关推荐

  1. html语音转asr,呼叫中心ASR自动语音识别详解

    ASR即自动语音识别.此项技术的目标是让计算机能够"听写"出不同人所说出的连续语音,也就是俗称的"语音听写机",是实现"声音"到" ...

  2. ASR自动语音识别技术

    自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术.语音识别是一个多学科交叉的领域,它与声学.语音学.语言学.数字信号处理理论.信息论.计算机 ...

  3. NVIDIA Riva中文手册 (四) —— Riva ASR自动语音识别API的使用

    如何通过Riva ASR API 与开箱即用的语音识别模型一起使用? 本节将引导您了解 Riva Speech Skills ASR 服务的基础知识,特别介绍如何将 Riva ASR API 与开箱即 ...

  4. html语音转asr,自动语音识别(ASR)在呼叫中心系统中的应用

    自动语音识别(ASR)在呼叫中心系统中的应用 自动语音识别(AutomaticSpeechRecognition简称"ASR")技术的目标是让计算机能够"听写" ...

  5. ASR自动语音识别代码操作

    JupyterLab 语音识别操作流程 录制语音文件 合并为单声道文件 导入nemo工具包及asr工具类 加载Quartznet中文版预训练模型 测试模型识别效果 语音识别操作流程 使用音频软件或手机 ...

  6. 对于谷歌应用传统的自动语音识别(ASR)系统的解析

    目前,谷歌的各种语音搜索应用还在使用传统的自动语音识别(ASR)系统,它包括一个包括声学模型(AM ).一个发音模型(PM)和一个语言模型(LM),它们都是彼此独立训练的,而且需要研究人员在不同数据集 ...

  7. 自动语音识别(ASR)研究综述

    自动语音识别ASR研究综述 一.语言识别基础知识 从语音系统识别构成来讲,一套完整的语音识别系统包括:预处理.特征提取.声学模型.语言模型.以及搜索算法等模块,具体结构示意图如下所示: 特征提取(MF ...

  8. 自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

    自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用 RDTE OF CAI FOR THE DEAF&DUMB CHILDREN BASED ON ASR   一.        ...

  9. 电话机器人核心技术之ASR(自动语音识别)

    语音识别技术,也被称为自动语音识别(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编码或者字符序列.与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人 ...

最新文章

  1. 【进阶版九宫格背景图片】如何仅仅依靠background的几个属性组合搭配出酷炫的背景图片效果,并自适应任何宽高效果?
  2. 绑定服务调用本地服务中的方法
  3. Android Studio升级后报 method not found: 'runProguard'的错误
  4. 3.3 参数估计:贝叶斯估计
  5. Python3 函数注释: 参数 中 的 冒号 与 箭头
  6. python画矩形函数drawrectangle_Python3 tkinter基础 Canvas create_rectangle 画矩形
  7. 怎么把东西去掉修图_很多人花几千块学习商业修图,其实跟把钱扔了一样。?...
  8. mysql中和compute同等作用的_MYSQL中Group By的原理和用法
  9. springboot入门书籍推荐,“最粉嫩
  10. Dockerfile最佳实践(二)
  11. 如何判断对方列表里是不是好友_QQ怎么知道自己是不是对方好友
  12. [渝粤教育] 西南科技大学 财务会计 在线考试复习资料(3)
  13. python3项目源代码下载_资源整理 | 36个惊人的Python开源项目,都在这了
  14. 罗振宇2021跨年演讲3:谁能跳出数字化系统困境?
  15. 谷歌正式放弃与雅虎的广告合作计划
  16. java包是什么意思_java中的“包”到底是什么意思?
  17. 跨部门不配合工作_跨部门对接很难?同事不配合你?来,我教你怎么搞定!
  18. 最短路构造最短路95 C. Volleyball
  19. c语言注释两种,C语言有几种注释方式
  20. 计算机应用决策支持系统,决策支持系统

热门文章

  1. 什么是DDOS高防IP
  2. 使用vue和高德地图,仿58地图找房pc端,且解决marker过多卡顿
  3. 【语音信号处理二】共振峰
  4. 使用 openpyxl 处理 Excel 电子表格
  5. 安装 TeX 及其必要的依赖
  6. Linux 系统常用命令速查手册,值得收藏!
  7. Lotus Notes简介
  8. 电话号码区号插件vue-country-diacode-selector
  9. open source HTML 5移动应用 -Exlive 人员定位客户端(BlackBerry 10, Android, iPhone)
  10. ad15原理图中变压器种类_最简单的变压电路图大全(十一款最简单的变压电路设计原理图详解)...