【学习笔记】:Multi-mode Transformer Transducer with Stochastic Future Context
原文链接
文章基本信息:题目,作者,作者机构,发表刊物或会议,年份,期刊会议等级(CCF)
题目,Multi-mode Transformer Transducer with Stochastic Future Context
作者,Kwangyoun Kim1, Felix Wu1, Prashant Sridhar1, Kyu J. Han1, Shinji Watanabe2
作者机构,1ASAPP , USA 2Carnegie Mellon University, USA
发表刊物或会议,INTERSPEECH
年份,2021
期刊会议等级(CCF):C类
本文背景及提出的问题
背景:
- ASR
- Sequence Transducers
- Dual-mode ASR
- Transformer Transducer
提出问题:
自动语音识别(ASR)模型在较多的周围语音信息作为上下文呈现时,出错率会更低。但较多的未来上下文将导致更高的延迟。
为了适应不同的延迟需求,人们必须存储多个模型,并在约束条件下选择最好的一个。
本文提出的思路、模型、实验方法
提出思路:
拥有一个可以根据不同约束动态调整其延迟的单一模型---多模式ASR。
多模ASR模型:可以满足在推理中各种延迟需求,模型可以更少依赖未来的上下文,但仍实现可靠的精度。
改文章提出了随机未来上下文Stochastic Future Context的训练程序,在每个迭代中采样一个流配置。
模型:multi-mode ASR
实验方法:
使用ESPnet对模型进行训练和测试。几个相关的部分已经在内部实现或与Fairseq集成。
使用了O2的NVIDIA Apex AMP(自动混合精度)
Transformer Transducer 模型有12个音频编码器和2个标签编码器层。
每个Transformer层有一个512-dim embedding,一个隐含层大小为2048的前馈,8个自注意头,注意丢失率为0.1。
在前馈模块中使用GELU激活。
音频编码器底部应用了两个2D strided convolution layers,每个卷积层有32个通道(3×3) kernel和(2×2) stride。联合网络的隐藏层大小为256。
在25ms窗口和10ms偏移上计算的80-dim filterbank features作为输入。
所有实验中都使用自适应SpecAugment。
使用了两种随机分布来进行多模ASR训练,即离散均匀分布和正态分布。
得到的结果
模型结构
RNN/Transformer Transducer architecture
sequence transducer ASR 模型
由音频编码器、自回归标签编码器和联合网络三个模块组成。
双模式ASR
双模式ASR的损失
本文介绍了一个结合在线和离线模型的unified ASR system统一ASR系统,该系统使用一种称为动态延迟训练(Dynamic Latency Training, DLT)的方法来训练系统。
在音频编码器中使用一个小的未来上下文C,虽增加了流模式的延迟,但显著减少了错误。
为了启用多模式ASR,提出随机未来上下文(Stochastic Future Context)——流模式的未来上下文大小C不是使用固定值,而是在训练过程中从随机分布中提取。
多模式ASR模型的训练目标如下:
其中,pc是具有随机未来上下文大小的流模式的输出概率。
为了将随机尺寸应用到模型的Transformer中,主要采用了三种不同的方法。
- Tied Mask across Layers
C = c · L
c : 所有层的未来上下文大小
L:Transformer编码器中自我注意层的数量
C:未来上下文的总大小
- Untied Mask across Layers
cl:对于每一层l,独立地采样未来的上下文大小。
- Untied Mask under a Constraint
在lUntied Mask across Layers方法上添加了一个未来上下文总大小的约束。在约束下,迭代采样每一层的未来上下文大小。
约束:未来上下文的总大小总是低于C(预定义的)。
cl使用均匀分布的采样。
R:约束下剩余的未来上下文大小
d:调优参数。
本文使用的数据集
AISHELL-1:是一个开源的汉语语音识别语料库。它包含150h、10h和5h的音频,分别用于培训、开发和测试。
地址:http://www.openslr.org/33/
LibriSpeech:是一个从有声读物中提取的开源英语语音识别语料库。它包含960h的训练音频和一个800M单词标记的分离文本语料库,用于语言模型训练。它有两个开发集和两个测试集:dev-clean、dev-other、test-clean和test-other。每个都有大约5小时的音频。
地址:http://www.openslr.org/12/
其他补充
J. Y u, W. Han, A. Gulati, C.-C. Chiu, B. Li, T. N. Sainath, Y . Wu,and R. Pang, “Dual-mode asr: Unify and improve streaming asr with full-context modeling,” Proceedings of ICLR, 2021.
Q. Zhang, H. Lu, H. Sak, A. Tripathi, E. McDermott, S. Koo, and S. Kumar, “Transformer transducer: A streamable speech recognition model with transformer encoders and rnn-t loss,” ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7829–7833, 2020.
【学习笔记】:Multi-mode Transformer Transducer with Stochastic Future Context相关推荐
- 计算机视觉算法——Transformer学习笔记
算机视觉算法--Transformer学习笔记 计算机视觉算法--Transformer学习笔记 1. Vision Transformer 1.1 网络结构 1.2 关键知识点 1.2.1 Self ...
- Programming Entity Framework-dbContext 学习笔记第五章
### Programming Entity Framework-dbContext 学习笔记 第五章 将图表添加到Context中的方式及容易出现的错误 方法 结果 警告 Add Root 图标中的 ...
- 【Machine Learning 学习笔记】Stochastic Dual Coordinate Ascent for SVM 代码实现
[Machine Learning 学习笔记]Stochastic Dual Coordinate Ascent for SVM 代码实现 通过本篇博客记录一下Stochastic Dual Coor ...
- 神经网络学习笔记3——Transformer、VIT与BoTNet网络
系列文章目录 神经网络学习笔记1--ResNet残差网络.Batch Normalization理解与代码 神经网络学习笔记2--VGGNet神经网络结构与感受野理解与代码 文章目录 系列文章目录 A ...
- transformer模型的奥秘-学习笔记
本文主要介绍了transformer模型的大概原理及模型结构.这篇学习笔记的学习资料主要是<Attention is All you Need>这篇神作,还有两位大神的指点(见 ...
- ElasticSearch 学习笔记:Multi Search
本文目录 1 简介 2 格式 3 header格式 4 body格式 5 返回格式 6 性能 7 相关文章 1 简介 批量查询接口(Multi Search API)允许在一次请求中执行多个查询操作, ...
- 吴恩达机器学习视频学习笔记
吴恩达机器学习视频笔记 介绍 Introduction 线性回归 Linear Regression 单变量 One Variable 多变量 Multiple Variables 多项式回归 Pol ...
- cognos学习笔记
cognos学习笔记 第一部分 准备知识 概述 (p1) 业务智能(Business Intelligence) 近年来业务智能的话题开始在国内热起来. 业务智能是在计算机应用水平达到一 ...
- Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...
最新文章
- Kinesis、Streams and Firehose
- 看漫画学python 豆瓣_各种表示“看”的词语
- .net快速入门方法,转csdn
- python做自动化控制postman_使用postman+newman+python做接口自动化测试
- 【miscellaneous】北斗短报文
- LeetCode 1133. 最大唯一数
- 【Java基础】3、Java 位运算(移位、位与、或、异或、非)
- linux下使用gpio控制代码,zynq linux 下控制gpio的c代码
- [转载] python并行处理任务_Python 并行任务技巧
- ubuntu update和install失败,一种可以能的解决方法
- c++ 迭代器++和+1_C ++中的迭代器简介
- bin文件查看器app_鸿蒙系统编译第一个APP:hello
- javaSE基础篇之char
- MongoDB学习(黑马教程)-3-数据库MongoDB的删除文档操作
- mysql系统表查询sql server_sql server查看所有数据库
- ImageJ批量操作时常见报错及其原因
- Scratch二次开发7:Scratch3.0作品的生命周期(各类状态)分析讲解
- 配置内网windows域教程,模拟公司内网架构
- 华为手机usb连接计算机,华为手机USB为什么连接不上电脑(3个方法彻底解决)...
- 《数值分析》-- 复化求积公式
热门文章
- Android根据图片名字获取图片ID
- R语言ggplot2可视化:使用ggpubr包的text_grob函数和as_ggplot函数可视化文本段落(将指定文本段落可视化出来、指定文本段可视化为图像)
- LDC1000 AD原件封装分享
- 关于模型的过拟合与欠拟合
- 在…视域下是什么意思_视阈是什么意思论文范文 有关教师在社会视域中的角色认知毕业论文写作资料...
- 设计模式普及之抽象工厂模式
- Yo(Yeoman)
- b2b2c商城系统开发
- (附源码)ssm教学督导管理系统 毕业设计 292346
- (附源码)node.js游戏网站 毕业设计 031726