原文链接

文章基本信息：题目，作者，作者机构，发表刊物或会议，年份，期刊会议等级（CCF）

题目，Multi-mode Transformer Transducer with Stochastic Future Context

作者，Kwangyoun Kim1, Felix Wu1, Prashant Sridhar1, Kyu J. Han1, Shinji Watanabe2

作者机构，1ASAPP , USA 2Carnegie Mellon University, USA

发表刊物或会议，INTERSPEECH

年份，2021

期刊会议等级（CCF）：C类

本文背景及提出的问题

背景：

ASR
Sequence Transducers
Dual-mode ASR
Transformer Transducer

提出问题：

自动语音识别(ASR)模型在较多的周围语音信息作为上下文呈现时，出错率会更低。但较多的未来上下文将导致更高的延迟。

为了适应不同的延迟需求，人们必须存储多个模型，并在约束条件下选择最好的一个。

本文提出的思路、模型、实验方法

提出思路：

拥有一个可以根据不同约束动态调整其延迟的单一模型---多模式ASR。

多模ASR模型：可以满足在推理中各种延迟需求，模型可以更少依赖未来的上下文,但仍实现可靠的精度。

改文章提出了随机未来上下文Stochastic Future Context的训练程序，在每个迭代中采样一个流配置。

模型：multi-mode ASR

实验方法：

使用ESPnet对模型进行训练和测试。几个相关的部分已经在内部实现或与Fairseq集成。

使用了O2的NVIDIA Apex AMP(自动混合精度)

Transformer Transducer 模型有12个音频编码器和2个标签编码器层。

每个Transformer层有一个512-dim embedding，一个隐含层大小为2048的前馈，8个自注意头，注意丢失率为0.1。

在前馈模块中使用GELU激活。

音频编码器底部应用了两个2D strided convolution layers，每个卷积层有32个通道(3×3) kernel和(2×2) stride。联合网络的隐藏层大小为256。

在25ms窗口和10ms偏移上计算的80-dim filterbank features作为输入。

所有实验中都使用自适应SpecAugment。

使用了两种随机分布来进行多模ASR训练，即离散均匀分布和正态分布。

得到的结果

模型结构

RNN/Transformer Transducer architecture

sequence transducer ASR 模型

由音频编码器、自回归标签编码器和联合网络三个模块组成。

双模式ASR

双模式ASR的损失

本文介绍了一个结合在线和离线模型的unified ASR system统一ASR系统，该系统使用一种称为动态延迟训练(Dynamic Latency Training, DLT)的方法来训练系统。

在音频编码器中使用一个小的未来上下文C，虽增加了流模式的延迟，但显著减少了错误。

为了启用多模式ASR，提出随机未来上下文(Stochastic Future Context)——流模式的未来上下文大小C不是使用固定值，而是在训练过程中从随机分布中提取。

多模式ASR模型的训练目标如下:

其中，pc是具有随机未来上下文大小的流模式的输出概率。

为了将随机尺寸应用到模型的Transformer中，主要采用了三种不同的方法。

Tied Mask across Layers

C = c · L

c : 所有层的未来上下文大小

L：Transformer编码器中自我注意层的数量

C：未来上下文的总大小

Untied Mask across Layers

cl：对于每一层l，独立地采样未来的上下文大小。

Untied Mask under a Constraint

在lUntied Mask across Layers方法上添加了一个未来上下文总大小的约束。在约束下，迭代采样每一层的未来上下文大小。

约束：未来上下文的总大小总是低于C（预定义的）。

cl使用均匀分布的采样。

R：约束下剩余的未来上下文大小

d：调优参数。

本文使用的数据集

AISHELL-1：是一个开源的汉语语音识别语料库。它包含150h、10h和5h的音频，分别用于培训、开发和测试。

地址：http://www.openslr.org/33/

LibriSpeech：是一个从有声读物中提取的开源英语语音识别语料库。它包含960h的训练音频和一个800M单词标记的分离文本语料库，用于语言模型训练。它有两个开发集和两个测试集:dev-clean、dev-other、test-clean和test-other。每个都有大约5小时的音频。

地址：http://www.openslr.org/12/

其他补充

J. Y u, W. Han, A. Gulati, C.-C. Chiu, B. Li, T. N. Sainath, Y . Wu,and R. Pang, “Dual-mode asr: Unify and improve streaming asr with full-context modeling,” Proceedings of ICLR, 2021.

Q. Zhang, H. Lu, H. Sak, A. Tripathi, E. McDermott, S. Koo, and S. Kumar, “Transformer transducer: A streamable speech recognition model with transformer encoders and rnn-t loss,” ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7829–7833, 2020.

【学习笔记】：Multi-mode Transformer Transducer with Stochastic Future Context相关推荐

计算机视觉算法——Transformer学习笔记
算机视觉算法--Transformer学习笔记计算机视觉算法--Transformer学习笔记 1. Vision Transformer 1.1 网络结构 1.2 关键知识点 1.2.1 Self ...
Programming Entity Framework-dbContext 学习笔记第五章
### Programming Entity Framework-dbContext 学习笔记第五章将图表添加到Context中的方式及容易出现的错误方法结果警告 Add Root 图标中的 ...
【Machine Learning 学习笔记】Stochastic Dual Coordinate Ascent for SVM 代码实现
[Machine Learning 学习笔记]Stochastic Dual Coordinate Ascent for SVM 代码实现通过本篇博客记录一下Stochastic Dual Coor ...
神经网络学习笔记3——Transformer、VIT与BoTNet网络
系列文章目录神经网络学习笔记1--ResNet残差网络.Batch Normalization理解与代码神经网络学习笔记2--VGGNet神经网络结构与感受野理解与代码文章目录系列文章目录 A ...
transformer模型的奥秘-学习笔记
本文主要介绍了transformer模型的大概原理及模型结构.这篇学习笔记的学习资料主要是<Attention is All you Need>这篇神作,还有两位大神的指点(见 ...
ElasticSearch 学习笔记：Multi Search
本文目录 1 简介 2 格式 3 header格式 4 body格式 5 返回格式 6 性能 7 相关文章 1 简介批量查询接口(Multi Search API)允许在一次请求中执行多个查询操作, ...
吴恩达机器学习视频学习笔记
吴恩达机器学习视频笔记介绍 Introduction 线性回归 Linear Regression 单变量 One Variable 多变量 Multiple Variables 多项式回归 Pol ...
cognos学习笔记
cognos学习笔记第一部分准备知识概述 (p1) 业务智能(Business Intelligence) 近年来业务智能的话题开始在国内热起来. 业务智能是在计算机应用水平达到一 ...
Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...

【学习笔记】：Multi-mode Transformer Transducer with Stochastic Future Context