ASR识别（自动语音识别）

简介

asr的实现可分为pipeline或者end2end思路，其中主要区别在于声学模型的识别单元上：

词模型

字发音模型

半音节模型

音素模型

模型识别单元大小(词发音模型、字发音模型、半音节模型或音素模型)对语音训练数据量大小、语音识别率，以及灵活性有较大的影响。对中等词汇量以上的语音识别系统来说，识别单元小，则计算量也小，所需的模型存储量也小，要求的训练数据量相对也小，所需的模型存储量也小，要求的训练数据量相对也少，但带来的问题是对应语音段的定位和分割困难，以及更复杂的识别模型规则。通常大的识别单元易于包括协同发音在模型中，这有利于提高系统的识别率，但要求的训练数据相对增加，当然，对于现在大数据处理技术来说，训练数据的增多问题不大。

传统方法最为常见的是音素级别，其次到字发音模型，词级别模型由于每个词都有足够多的训练样本，这往往难以做到，尤其是对于大词汇量语音识别比较少见。在深度学习中由于建模能力的加强，会偏向于使用拼音、字、词或者wordpiece模型，但也对数据产生较大的依赖。

模型

从目前ASR的发展来看，建议采用end2end的模型，其中有CTC、FSMN、encode-decode，甚至transformer。可以说涉及编码解码的模型都可以用来进行语音模型搭建。

简单说下怎么采用transformer做ASR，尤其我本身是做NLP的，所以对transformer比较熟悉，这里也推荐大家尝试采用transformer建模，其并行的训练优势确实比RNN要舒服得多，且性能也比RNN要好。那么怎么采用transformer做ASR呢，基本框架是保持不变，只需要将输入从文本切换成语音特征，较为常用的log mel-fbank，这样的话encode的词向量就是不需要的了，decode还是跟原transformer一样做文本输出，目前我采用transformer在中文ASR上能达到95%的准确率。详情大家也可以参考下这篇paper：

数据集

公开的中文数据集有：

thchs30

ST-CMDS-20170001_1-OS

Aishell-1

Primewords Chinese Corpus Set

特征

目前语音识别的常用的特征有：

fft

log mel-fbank

mfcc

数据增强

通过0.9、1.1的速度扰动对数据进行增强处理

ASR识别（自动语音识别）相关推荐

电话机器人核心技术之ASR（自动语音识别）
语音识别技术,也被称为自动语音识别(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编码或者字符序列.与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人 ...
html语音转asr,呼叫中心ASR自动语音识别详解
ASR即自动语音识别.此项技术的目标是让计算机能够"听写"出不同人所说出的连续语音,也就是俗称的"语音听写机",是实现"声音"到" ...
2019年，这8款自动语音识别方案你应该了解！
2019年,这8款自动语音识别方案你应该了解! 原创: AI前线小组译 AI前线 1周前作者 | Derrick Mwiti翻译 | 核子可乐编辑 | LindaAI 前线导读: 基于计算机的人类 ...
ASR自动语音识别技术
自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术.语音识别是一个多学科交叉的领域,它与声学.语音学.语言学.数字信号处理理论.信息论.计算机 ...
自动语音识别（ASR）研究综述
自动语音识别ASR研究综述一.语言识别基础知识从语音系统识别构成来讲,一套完整的语音识别系统包括:预处理.特征提取.声学模型.语言模型.以及搜索算法等模块,具体结构示意图如下所示: 特征提取(MF ...
ASR自动语音识别基础理论
基础理论对话式AI的理解与其子任务的介绍 ASR自动语音识别简史和发展历程工作流程及原理 ASR自动语音识别简介 ASR自动语音识别应用场景 ASR自动语音识别理论自动语音识别工具包的简介及设 ...
NVIDIA Riva中文手册 (四) —— Riva ASR自动语音识别API的使用
如何通过Riva ASR API 与开箱即用的语音识别模型一起使用? 本节将引导您了解 Riva Speech Skills ASR 服务的基础知识,特别介绍如何将 Riva ASR API 与开箱即 ...
自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用
自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用 RDTE OF CAI FOR THE DEAF&DUMB CHILDREN BASED ON ASR 一. ...
【语音识别】自动语音识别（ASR）研究综述
自动语音识别(ASR)研究综述 Note: 正文内容绝大部分取自语音识别研究综述 WeNet的部署参考该Blog WeNet平台搭建文章目录自动语音识别(ASR)研究综述零.参考资料 1.参考 ...
html语音转asr,自动语音识别(ASR)在呼叫中心系统中的应用
自动语音识别(ASR)在呼叫中心系统中的应用自动语音识别(AutomaticSpeechRecognition简称"ASR")技术的目标是让计算机能够"听写" ...

ASR识别（自动语音识别）

ASR识别（自动语音识别）相关推荐

最新文章

热门文章