原文链接

文章基本信息:题目,作者,作者机构,发表刊物或会议,年份,期刊会议等级(CCF)

题目,Multi-mode Transformer Transducer with Stochastic Future Context

作者,Kwangyoun Kim1, Felix Wu1, Prashant Sridhar1, Kyu J. Han1, Shinji Watanabe2

作者机构,1ASAPP , USA 2Carnegie Mellon University, USA

发表刊物或会议,INTERSPEECH

年份,2021

期刊会议等级(CCF):C类

本文背景及提出的问题

背景:

  1. ASR
  2. Sequence Transducers
  3. Dual-mode ASR
  4. Transformer Transducer

提出问题:

自动语音识别(ASR)模型在较多的周围语音信息作为上下文呈现时,出错率会更低。但较多的未来上下文将导致更高的延迟。

为了适应不同的延迟需求,人们必须存储多个模型,并在约束条件下选择最好的一个。

本文提出的思路、模型、实验方法

提出思路:

拥有一个可以根据不同约束动态调整其延迟的单一模型---多模式ASR

多模ASR模型:可以满足在推理中各种延迟需求,模型可以更少依赖未来的上下文,但仍实现可靠的精度。

改文章提出了随机未来上下文Stochastic Future Context的训练程序,在每个迭代中采样一个流配置。

模型:multi-mode ASR

实验方法:

使用ESPnet对模型进行训练和测试。几个相关的部分已经在内部实现或与Fairseq集成。

使用了O2的NVIDIA Apex AMP(自动混合精度)

Transformer Transducer 模型有12个音频编码器和2个标签编码器层。

每个Transformer层有一个512-dim embedding,一个隐含层大小为2048的前馈,8个自注意头,注意丢失率为0.1。

在前馈模块中使用GELU激活。

音频编码器底部应用了两个2D strided convolution layers,每个卷积层有32个通道(3×3) kernel和(2×2) stride。联合网络的隐藏层大小为256。

在25ms窗口和10ms偏移上计算的80-dim filterbank features作为输入。

所有实验中都使用自适应SpecAugment。

使用了两种随机分布来进行多模ASR训练,即离散均匀分布和正态分布。

得到的结果

模型结构

RNN/Transformer Transducer architecture

sequence transducer ASR 模型

        由音频编码器、自回归标签编码器和联合网络三个模块组成。

双模式ASR

双模式ASR的损失

本文介绍了一个结合在线和离线模型的unified ASR system统一ASR系统,该系统使用一种称为动态延迟训练(Dynamic Latency Training, DLT)的方法来训练系统。

在音频编码器中使用一个小的未来上下文C,虽增加了流模式的延迟,但显著减少了错误。

为了启用多模式ASR,提出随机未来上下文(Stochastic Future Context)——流模式的未来上下文大小C不是使用固定值,而是在训练过程中从随机分布中提取。

多模式ASR模型的训练目标如下:

其中,pc是具有随机未来上下文大小的流模式的输出概率。

为了将随机尺寸应用到模型的Transformer中,主要采用了三种不同的方法。

  • Tied Mask across Layers

C  =  c · L

c : 所有层的未来上下文大小

L:Transformer编码器中自我注意层的数量

C:未来上下文的总大小

  • Untied Mask across Layers

cl:对于每一层l,独立地采样未来的上下文大小。

  • Untied Mask under a Constraint

在lUntied Mask across Layers方法上添加了一个未来上下文总大小的约束。在约束下,迭代采样每一层的未来上下文大小。

约束:未来上下文的总大小总是低于C(预定义的)。

cl使用均匀分布的采样。

R:约束下剩余的未来上下文大小

d:调优参数。

本文使用的数据集

 AISHELL-1:是一个开源的汉语语音识别语料库。它包含150h、10h和5h的音频,分别用于培训、开发和测试。

地址:http://www.openslr.org/33/

 LibriSpeech:是一个从有声读物中提取的开源英语语音识别语料库。它包含960h的训练音频和一个800M单词标记的分离文本语料库,用于语言模型训练。它有两个开发集和两个测试集:dev-clean、dev-other、test-clean和test-other。每个都有大约5小时的音频。

地址:http://www.openslr.org/12/

其他补充

J. Y u, W. Han, A. Gulati, C.-C. Chiu, B. Li, T. N. Sainath, Y . Wu,and R. Pang, “Dual-mode asr: Unify and improve streaming asr with full-context modeling,” Proceedings of ICLR, 2021.

Q. Zhang, H. Lu, H. Sak, A. Tripathi, E. McDermott, S. Koo, and S. Kumar, “Transformer transducer: A streamable speech recognition model with transformer encoders and rnn-t loss,” ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7829–7833, 2020.

【学习笔记】:Multi-mode Transformer Transducer with Stochastic Future Context相关推荐

  1. 计算机视觉算法——Transformer学习笔记

    算机视觉算法--Transformer学习笔记 计算机视觉算法--Transformer学习笔记 1. Vision Transformer 1.1 网络结构 1.2 关键知识点 1.2.1 Self ...

  2. Programming Entity Framework-dbContext 学习笔记第五章

    ### Programming Entity Framework-dbContext 学习笔记 第五章 将图表添加到Context中的方式及容易出现的错误 方法 结果 警告 Add Root 图标中的 ...

  3. 【Machine Learning 学习笔记】Stochastic Dual Coordinate Ascent for SVM 代码实现

    [Machine Learning 学习笔记]Stochastic Dual Coordinate Ascent for SVM 代码实现 通过本篇博客记录一下Stochastic Dual Coor ...

  4. 神经网络学习笔记3——Transformer、VIT与BoTNet网络

    系列文章目录 神经网络学习笔记1--ResNet残差网络.Batch Normalization理解与代码 神经网络学习笔记2--VGGNet神经网络结构与感受野理解与代码 文章目录 系列文章目录 A ...

  5. transformer模型的奥秘-学习笔记

          本文主要介绍了transformer模型的大概原理及模型结构.这篇学习笔记的学习资料主要是<Attention is All you Need>这篇神作,还有两位大神的指点(见 ...

  6. ElasticSearch 学习笔记:Multi Search

    本文目录 1 简介 2 格式 3 header格式 4 body格式 5 返回格式 6 性能 7 相关文章 1 简介 批量查询接口(Multi Search API)允许在一次请求中执行多个查询操作, ...

  7. 吴恩达机器学习视频学习笔记

    吴恩达机器学习视频笔记 介绍 Introduction 线性回归 Linear Regression 单变量 One Variable 多变量 Multiple Variables 多项式回归 Pol ...

  8. cognos学习笔记

    cognos学习笔记 第一部分 准备知识  概述 (p1)     业务智能(Business Intelligence)  近年来业务智能的话题开始在国内热起来.  业务智能是在计算机应用水平达到一 ...

  9. Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》

    本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...

最新文章

  1. Kinesis、Streams and Firehose
  2. 看漫画学python 豆瓣_各种表示“看”的词语
  3. .net快速入门方法,转csdn
  4. python做自动化控制postman_使用postman+newman+python做接口自动化测试
  5. 【miscellaneous】北斗短报文
  6. LeetCode 1133. 最大唯一数
  7. 【Java基础】3、Java 位运算(移位、位与、或、异或、非)
  8. linux下使用gpio控制代码,zynq linux 下控制gpio的c代码
  9. [转载] python并行处理任务_Python 并行任务技巧
  10. ubuntu update和install失败,一种可以能的解决方法
  11. c++ 迭代器++和+1_C ++中的迭代器简介
  12. bin文件查看器app_鸿蒙系统编译第一个APP:hello
  13. javaSE基础篇之char
  14. MongoDB学习(黑马教程)-3-数据库MongoDB的删除文档操作
  15. mysql系统表查询sql server_sql server查看所有数据库
  16. ImageJ批量操作时常见报错及其原因
  17. Scratch二次开发7:Scratch3.0作品的生命周期(各类状态)分析讲解
  18. 配置内网windows域教程,模拟公司内网架构
  19. 华为手机usb连接计算机,华为手机USB为什么连接不上电脑(3个方法彻底解决)...
  20. 《数值分析》-- 复化求积公式

热门文章

  1. Android根据图片名字获取图片ID
  2. R语言ggplot2可视化:使用ggpubr包的text_grob函数和as_ggplot函数可视化文本段落(将指定文本段落可视化出来、指定文本段可视化为图像)
  3. LDC1000 AD原件封装分享
  4. 关于模型的过拟合与欠拟合
  5. 在…视域下是什么意思_视阈是什么意思论文范文 有关教师在社会视域中的角色认知毕业论文写作资料...
  6. 设计模式普及之抽象工厂模式
  7. Yo(Yeoman)
  8. b2b2c商城系统开发
  9. (附源码)ssm教学督导管理系统 毕业设计 292346
  10. (附源码)node.js游戏网站 毕业设计 031726