ASR识别(自动语音识别)
简介
asr的实现可分为pipeline或者end2end思路,其中主要区别在于声学模型的识别单元上:
词模型
字发音模型
半音节模型
音素模型
模型识别单元大小(词发音模型、字发音模型、 半音节模型或音素模型)对语音训练数据量大小、 语音识别率,以及灵活性有较大的影响。对中等词汇量以上的语音识别系统来说,识别单元小,则计算量也小,所需的模型存储量也小,要求的训练数据量相对也小,所需的模型存储量也小,要求的训练数据量相对也少,但带来的问题是对应语音段的定位和分割困难,以及更复杂的识别模型规则。通常大的识别单元易于包括协同发音在模型中,这有利于提高系统的识别率,但要求的训练数据相对增加,当然,对于现在大数据处理技术来说,训练数据的增多问题不大。
传统方法最为常见的是音素级别,其次到字发音模型,词级别模型由于每个词都有足够多的训练样本,这往往难以做到,尤其是对于大词汇量语音识别比较少见。在深度学习中由于建模能力的加强,会偏向于使用拼音、字、词或者wordpiece模型,但也对数据产生较大的依赖。
模型
从目前ASR的发展来看,建议采用end2end的模型,其中有CTC、FSMN、encode-decode,甚至transformer。可以说涉及编码解码的模型都可以用来进行语音模型搭建。
简单说下怎么采用transformer做ASR,尤其我本身是做NLP的,所以对transformer比较熟悉,这里也推荐大家尝试采用transformer建模,其并行的训练优势确实比RNN要舒服得多,且性能也比RNN要好。那么怎么采用transformer做ASR呢,基本框架是保持不变,只需要将输入从文本切换成语音特征,较为常用的log mel-fbank,这样的话encode的词向量就是不需要的了,decode还是跟原transformer一样做文本输出,目前我采用transformer在中文ASR上能达到95%的准确率。详情大家也可以参考下这篇paper:
数据集
公开的中文数据集有:
thchs30
ST-CMDS-20170001_1-OS
Aishell-1
Primewords Chinese Corpus Set
特征
目前语音识别的常用的特征有:
fft
log mel-fbank
mfcc
数据增强
通过0.9、1.1的速度扰动对数据进行增强处理
相关paper
ASR识别(自动语音识别)相关推荐
- 电话机器人核心技术之ASR(自动语音识别)
语音识别技术,也被称为自动语音识别(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编码或者字符序列.与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人 ...
- html语音转asr,呼叫中心ASR自动语音识别详解
ASR即自动语音识别.此项技术的目标是让计算机能够"听写"出不同人所说出的连续语音,也就是俗称的"语音听写机",是实现"声音"到" ...
- 2019年,这8款自动语音识别方案你应该了解!
2019年,这8款自动语音识别方案你应该了解! 原创: AI前线小组 译 AI前线 1周前 作者 | Derrick Mwiti翻译 | 核子可乐编辑 | LindaAI 前线导读: 基于计算机的人类 ...
- ASR自动语音识别技术
自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术.语音识别是一个多学科交叉的领域,它与声学.语音学.语言学.数字信号处理理论.信息论.计算机 ...
- 自动语音识别(ASR)研究综述
自动语音识别ASR研究综述 一.语言识别基础知识 从语音系统识别构成来讲,一套完整的语音识别系统包括:预处理.特征提取.声学模型.语言模型.以及搜索算法等模块,具体结构示意图如下所示: 特征提取(MF ...
- ASR自动语音识别基础理论
基础理论 对话式AI的理解与其子任务的介绍 ASR自动语音识别 简史和发展历程 工作流程及原理 ASR自动语音识别简介 ASR自动语音识别应用场景 ASR自动语音识别理论 自动语音识别工具包的简介及设 ...
- NVIDIA Riva中文手册 (四) —— Riva ASR自动语音识别API的使用
如何通过Riva ASR API 与开箱即用的语音识别模型一起使用? 本节将引导您了解 Riva Speech Skills ASR 服务的基础知识,特别介绍如何将 Riva ASR API 与开箱即 ...
- 自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用
自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用 RDTE OF CAI FOR THE DEAF&DUMB CHILDREN BASED ON ASR 一. ...
- 【语音识别】自动语音识别(ASR)研究综述
自动语音识别(ASR)研究综述 Note: 正文内容绝大部分取自 语音识别研究综述 WeNet的部署参考该Blog WeNet平台搭建 文章目录 自动语音识别(ASR)研究综述 零.参考资料 1.参考 ...
- html语音转asr,自动语音识别(ASR)在呼叫中心系统中的应用
自动语音识别(ASR)在呼叫中心系统中的应用 自动语音识别(AutomaticSpeechRecognition简称"ASR")技术的目标是让计算机能够"听写" ...
最新文章
- nginx location 匹配 多个规则_你需要知道的Nginx配置二三事
- python数据标准化1002无标题,Scikit标准化互信息学习给我错误的值
- PHP 在线 编辑 解析
- 亚马逊上海人工智能研究院:深度图模型实习生
- 当 Windows 11 宕机时:从蓝屏死机变成“黑屏死机”!
- android重要的对象
- 理解x86架构的捷径
- macOS下R语言入门操作教程
- latex怎么看论文字数_如何确定latex文档字数
- 新浪博客服务器是不是在维护,新浪博客是不是又在升级了?
- Axure 安装教程
- 【农业物联网】智慧农业模型应用多案例分享
- php面向过程求圆 三角形 长方形计算,求,圆,三角形,长方形,梯形的面积,周长公式...
- C++中UTF-8, Unicode, GB2312转换及有无BOM相关问题
- 【以太坊】雷电网络的101网络原理概述
- UE4 Matinee的动画倒播
- 在Raspberry PI上搭建LMS服务器/Squeeze lite 播放器
- 【Adams-Car】专栏目录汇总
- 计算机电子电路原理图,学看电路原理图入门知识积累
- 可精确到小数点后三位的光电测径仪