简介

asr的实现可分为pipeline或者end2end思路,其中主要区别在于声学模型的识别单元上:

词模型

字发音模型

半音节模型

音素模型

模型识别单元大小(词发音模型、字发音模型、 半音节模型或音素模型)对语音训练数据量大小、 语音识别率,以及灵活性有较大的影响。对中等词汇量以上的语音识别系统来说,识别单元小,则计算量也小,所需的模型存储量也小,要求的训练数据量相对也小,所需的模型存储量也小,要求的训练数据量相对也少,但带来的问题是对应语音段的定位和分割困难,以及更复杂的识别模型规则。通常大的识别单元易于包括协同发音在模型中,这有利于提高系统的识别率,但要求的训练数据相对增加,当然,对于现在大数据处理技术来说,训练数据的增多问题不大。

传统方法最为常见的是音素级别,其次到字发音模型,词级别模型由于每个词都有足够多的训练样本,这往往难以做到,尤其是对于大词汇量语音识别比较少见。在深度学习中由于建模能力的加强,会偏向于使用拼音、字、词或者wordpiece模型,但也对数据产生较大的依赖。

模型

从目前ASR的发展来看,建议采用end2end的模型,其中有CTC、FSMN、encode-decode,甚至transformer。可以说涉及编码解码的模型都可以用来进行语音模型搭建。

简单说下怎么采用transformer做ASR,尤其我本身是做NLP的,所以对transformer比较熟悉,这里也推荐大家尝试采用transformer建模,其并行的训练优势确实比RNN要舒服得多,且性能也比RNN要好。那么怎么采用transformer做ASR呢,基本框架是保持不变,只需要将输入从文本切换成语音特征,较为常用的log mel-fbank,这样的话encode的词向量就是不需要的了,decode还是跟原transformer一样做文本输出,目前我采用transformer在中文ASR上能达到95%的准确率。详情大家也可以参考下这篇paper:

数据集

公开的中文数据集有:

thchs30

ST-CMDS-20170001_1-OS

Aishell-1

Primewords Chinese Corpus Set

特征

目前语音识别的常用的特征有:

fft

log mel-fbank

mfcc

数据增强

通过0.9、1.1的速度扰动对数据进行增强处理

相关paper

ASR识别(自动语音识别)相关推荐

  1. 电话机器人核心技术之ASR(自动语音识别)

    语音识别技术,也被称为自动语音识别(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编码或者字符序列.与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人 ...

  2. html语音转asr,呼叫中心ASR自动语音识别详解

    ASR即自动语音识别.此项技术的目标是让计算机能够"听写"出不同人所说出的连续语音,也就是俗称的"语音听写机",是实现"声音"到" ...

  3. 2019年,这8款自动语音识别方案你应该了解!

    2019年,这8款自动语音识别方案你应该了解! 原创: AI前线小组 译 AI前线 1周前 作者 | Derrick Mwiti翻译 | 核子可乐编辑 | LindaAI 前线导读: 基于计算机的人类 ...

  4. ASR自动语音识别技术

    自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术.语音识别是一个多学科交叉的领域,它与声学.语音学.语言学.数字信号处理理论.信息论.计算机 ...

  5. 自动语音识别(ASR)研究综述

    自动语音识别ASR研究综述 一.语言识别基础知识 从语音系统识别构成来讲,一套完整的语音识别系统包括:预处理.特征提取.声学模型.语言模型.以及搜索算法等模块,具体结构示意图如下所示: 特征提取(MF ...

  6. ASR自动语音识别基础理论

    基础理论 对话式AI的理解与其子任务的介绍 ASR自动语音识别 简史和发展历程 工作流程及原理 ASR自动语音识别简介 ASR自动语音识别应用场景 ASR自动语音识别理论 自动语音识别工具包的简介及设 ...

  7. NVIDIA Riva中文手册 (四) —— Riva ASR自动语音识别API的使用

    如何通过Riva ASR API 与开箱即用的语音识别模型一起使用? 本节将引导您了解 Riva Speech Skills ASR 服务的基础知识,特别介绍如何将 Riva ASR API 与开箱即 ...

  8. 自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

    自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用 RDTE OF CAI FOR THE DEAF&DUMB CHILDREN BASED ON ASR   一.        ...

  9. 【语音识别】自动语音识别(ASR)研究综述

    自动语音识别(ASR)研究综述 Note: 正文内容绝大部分取自 语音识别研究综述 WeNet的部署参考该Blog WeNet平台搭建 文章目录 自动语音识别(ASR)研究综述 零.参考资料 1.参考 ...

  10. html语音转asr,自动语音识别(ASR)在呼叫中心系统中的应用

    自动语音识别(ASR)在呼叫中心系统中的应用 自动语音识别(AutomaticSpeechRecognition简称"ASR")技术的目标是让计算机能够"听写" ...

最新文章

  1. nginx location 匹配 多个规则_你需要知道的Nginx配置二三事
  2. python数据标准化1002无标题,Scikit标准化互信息学习给我错误的值
  3. PHP 在线 编辑 解析
  4. 亚马逊上海人工智能研究院:深度图模型实习生
  5. 当 Windows 11 宕机时:从蓝屏死机变成“黑屏死机”!
  6. android重要的对象
  7. 理解x86架构的捷径
  8. macOS下R语言入门操作教程
  9. latex怎么看论文字数_如何确定latex文档字数
  10. 新浪博客服务器是不是在维护,新浪博客是不是又在升级了?
  11. Axure 安装教程
  12. 【农业物联网】智慧农业模型应用多案例分享
  13. php面向过程求圆 三角形 长方形计算,求,圆,三角形,长方形,梯形的面积,周长公式...
  14. C++中UTF-8, Unicode, GB2312转换及有无BOM相关问题
  15. 【以太坊】雷电网络的101网络原理概述
  16. UE4 Matinee的动画倒播
  17. 在Raspberry PI上搭建LMS服务器/Squeeze lite 播放器
  18. 【Adams-Car】专栏目录汇总
  19. 计算机电子电路原理图,学看电路原理图入门知识积累
  20. 可精确到小数点后三位的光电测径仪

热门文章

  1. bzoj 2428: [HAOI2006]均分数据
  2. 第二节 显示页面标题
  3. zabbix中文乱码的解决办法
  4. phpstrom+xdebug调试远程服务器代码
  5. Bailian1183 POJ1183 反正切函数的应用【迭代计算】
  6. POJ1029 UVA158 Calendar题解
  7. UVA1584 UVALive3225 Circular Sequence【水题】
  8. 语言学 —— 中文的构词与规律
  9. 踏雪寻梅 —— 日志打印
  10. 经济学的概念、术语与常识