普通话/汉语的语音识别：DFSMN-CTC-SMBR模型

2024-06-04 02:57:36

1 简介

本文根据《Investigation of Modeling Units for Mandarin Speech Recognition Using Dfsmn-ctc-smbr》翻译总结。采用DFSMN-CTC-SMBR进行普通话语音识别。

一般一个声学模型包括3个关键部分，分别是：神经网络、声学模型单元、优化目标函数。

本文采用DFSMN-CTC-SMBR，即神经网络是DFSMN，目标函数是CTC与SMBR。声学模型采用的是hybrid Character-Syllable，包括常见的中文字符和音节。

DFSMN之前，经常用的神经网络是LSTM-RNN。

2 DFSMN-CTC-SMBR

2.1 DFSMN

DFSMN是FSMN的改进，引入的skip连接和记忆跨越。如下图红色虚线部分。

2.2 CTC

Connectionist temporal classification (CTC)

可参考我以前的博客CTC

2.3 SMBR

CTC是帧级别的识别训练标准，它对于单词级别错误率（WER，word error rate）最小化是次优的。

在CTC训练的模型基础上，可以用序列级别（sequence-level discriminative）的识别训练进一步优化，比如sMBR（state-level minimum Bayes risk）。

帧级别：cross-entropy (CE) 。
序列级别：maximum mutual information (MMI)

3 普通话的声学模型单元

声学模型单元的选择对于普通话的识别是重要的。普通话也是音节语言，每一个中文字符都可以用一个音节（syllable）表示。而且，每个中文音节也有Initial/Final (IF)结构。我们实验用了1319个音调音节（tonal syllable）。我们实验用的一些声学模型如下：

4 实验结果

如下表，可以看到DFSMN-CTC-SMBR模型效果很好。
latency-controlled BLSTM (LCBLSTM)。
character error rate (CER in %)：字符错误率。

采用更长时间的帧的结果如下，虽然CER有所上升，但RTF变小了。

实时率（RTF，real time factor）是一个常用于度量自动语音识别系统解码速度的值。如果处理一段长度为a的音频信号需要花费时间b，则实时率为b/a。比方说如果处理一段长度为2小时的音频花了8个小时，则实时率为8/2=4。当实时率等于或小于1时我们说该处理是实时的。

普通话/汉语的语音识别：DFSMN-CTC-SMBR模型相关推荐

孤立汉语数字语音识别系统
摘要:本文通过提取声音信号的Mel倒谱系数作为特征,利用动态时间规整技术实现匹配算法,实现了特定人孤立汉语数字语音的识别,并利用Matlab编写了简单的图形用户界面. 关键词:语音识别:MFCC:DT ...
Kaldi 使用 DFSMN 训练语音模型
阿里巴巴 2018 年开源的语音识别模型 DFSMN,将全球语音识别准确率纪录提高至 96.04%.DFSMN 模型,是阿里巴巴的高效工业级实现,相对于传统的 LSTM.BLSTM 等声学模型,该模型 ...
【深度学习】语音识别之CTC算法原理解释与公式推导
不搞语音识别得人开这个论文确实有点费劲,结合上图,思考一下语音识别的场景,输入是一段录音,输出是识别的音素, 输入的语音文件的长度和输出的音素个数之间没有一一对应关系,通常将语音文件「分片」之后,会出 ...
语音识别端到端模型解读：FSMN及其变体模型
摘要:在很长一段时间内,语音识别领域最常用的模型是GMM-HMM.但近年来随着深度学习的发展,出现了越来越多基于神经网络的语音识别模型. 一.概述在很长一段时间内,语音识别领域最常用的模型是GMM- ...
学术|浅谈语音识别、匹配算法和模型
1.如何描述语音 2.如何理解语音的构成 3.语音如何识别语音的基本概念语音是一个复杂的现象.我们基本上不知道它是如何产生和被感知的.我们最基础的认识就是语音是由单词来构成的,然后每个单词是由音素 ...
基于深度学习的语音识别研究-CTC理论推导（四）
有时候学习真的得循序渐进,并没有速成的方法,本小白在经历了大约一个月终于把CTC的从头到尾大致看完了,下面讲一下我的理解,欢迎各位朋友批评指正. 首先,我们得知道为什么要引入CTC,前面博客讲到,之前 ...
语音识别-基于CTC-BiLSTM联合模型的英语语音识别系统
本博客旨在学习和记录关于语音识别的相关资料,也参考网上大神(链接),在此表示感谢.话不多说,下面进入正题. 1 概要本博客偏向实践,以LibriSpeech公开英语语料数据集作为训练语料,搭建了基于 ...
C++实现语音识别词典内存存储模型
对于给定的词典,如下一 ii i1 一一 ii i1 ii i1 一一一 ii i1 ii i1 ii i1 一一一一 ii i4 ii i1 ii i4 ii i1 一一一七 ii i1 ii i ...
c++ 文字识别_AI算法测试——语音识别（ASR）模型评估指标探索
如上图,我们通过微信发送了一段语音,在对语音进行转文字时.语音识别引擎首先会将把这段语音进行分帧(切分成若干小段),然后利用声学模型将提取的每一帧的声学特征识别为一个个"状态",多 ...
普通话/汉语发音口型大全
文章目录一.22 个韵母二.21 个声母一.22 个韵母 (一)a:发音时,嘴唇自然张大,舌放平,舌头中间微隆,声带颤动. (二)o:发音时,嘴唇成圆形,微翘起,舌头向后缩,舌面后部隆起,舌居中 ...

最新文章

热门文章