TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION

1.论文摘要

(1)使用VGGNet 的因果卷积结合位置信息来对输入进行下采样来保证推理的效率。(2)使用截断自注意力机制来保证transormer的流式处理从而减少计算复杂度。取得了在LibriSPeech test-clean 6.37%的字错率,在test other上15.3%, 计算复杂度为O(T), T为输入序列长度。

2.模型结构

  • 使用因果卷积的上下文建模

    对于因果卷积,NxK 的kernel 卷积cover的位置为X(i−N+1,j−k−12)X(i-N+1,j-\frac{k-1}2)X(i−N+1,j−2k−1​) to X(i,j+k−12)X(i,j+\frac{k-1}2)X(i,j+2k−1​)(在代码中,只对序列的起始位置处进行padding), 避免了卷积时后面的内容看到前面的内容。
  • 截断的self-attention

    unlimited self attention 的缺点:必须知道整个输入才能预测label, 无法处理流式数据;计算复杂度为O(T^2).
    Truncated self attention: output ht 只依赖(xt−L...xt+R)(x_{t-L}...x_{t+R})(xt−L​...xt+R​), 计算复杂度变为O(T) 但是是去部分模型效果。

3.实验结果

实验配置:encoder(1)BLSTM 4x640 ; (2)LSTM 5x1024: (3) Transformer 12x: 2VGGNets , 12 层transformer encoder layers

BLSTM 作为encoder 强于LSTM,VGG transfomer 又优于BLSTM, 但两者均为非流式的计算手段。decoder 端, LSTM效果好于Transformer 且计算效率更高。

对于截断attention长度的对比实验。其中,R长度对于识别的准确率影响较大,当encoder中步数L inf, 随着R的增大,准确率逐渐恢复,并在R=8 时基本和unlimited 情况差不多。对于L,当取(L,R)=(16,4)组合时,就已经超过了LSTM/BLSTM的基线了,(L,R)=(32,4)时,仅损失了4.7%的识别精度就实现了streamable 和计算复杂度O(T)。

TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION相关推荐

  1. Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》

    本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...

  2. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  3. 【学习笔记】:Multi-mode Transformer Transducer with Stochastic Future Context

    原文链接 文章基本信息:题目,作者,作者机构,发表刊物或会议,年份,期刊会议等级(CCF) 题目,Multi-mode Transformer Transducer with Stochastic F ...

  4. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  5. Deep Audio-Visual Speech Recognition翻译

    原文链接:https://arxiv.org/pdf/1809.02108.pdf 这是一篇较为系统的介绍音视频融合的语音识别文章.翻译参考博客园一篇翻译,进行了大量修正和增补. 摘要 本文的目的是基 ...

  6. Kaldi学习笔记——The Kaldi Speech Recognition Toolkit(Kaldi语音识别工具箱)(上)

    最近看了有关KALDI的论文,在这里介绍一下. Abstract: We describe the design of Kaldi, a free, open-source toolkit for s ...

  7. 语音识别(Speech Recognition)综述

    文章目录 1. 语音识别的基本单位 1.1 Phoneme(音位,音素) 1.2 Grapheme(字位) 1.3 Word(词) 1.4 Morpheme(词素) 1.5 bytes 2. 获取语音 ...

  8. (ICASSP 19)Streaming End-to-end Speech Recognition for Mobile Devices

    会议:ICASSP 2019 论文:Streaming End-to-end Speech Recognition for Mobile Devices 作者:Yanzhang He, Tara N. ...

  9. 用SAPI实现Speech Recognition(SR) - 命令控制模式

    微软的语音识别,在这里我们简称它为SR(speech recognition),SR分为两种模式的监听:第一种模式:听写模式,即随意输入语音,监听对象将最为接近的字或者词,句反馈出来:第二种模式:命令 ...

  10. 用SAPI实现Speech Recognition(SR) - 听写模式

    摘选自:"北极悠蓝"的博客<C++使用SAPI实现语音合成和语音识别的方法和代码> 微软的语音识别,在这里我们简称它为SR(speech recognition),SR ...

最新文章

  1. Tree Operations 打印出有向图中的环
  2. Linux Centos7.x 安装部署Mysql5.7几种方式的操作手册
  3. java代码中添加事务_C#和JAVA中编写事务代码
  4. iOS统计项目的代码总行数
  5. 关于telnet: connect to address 190.168.6.6: No route to host 报错处理
  6. 技术实操丨SoundNet迁移学习之由声音分类到语音情感识别
  7. 还不懂!软件测试(功能、接口、性能、自动化)详解
  8. 360浏览器没有声音_你用的浏览器好用吗?该国产电脑浏览器,极速、安全,值得使用...
  9. mac 源码编译yar遇见的坑
  10. 火星人学习第二周——虚幻引擎蓝图应用与开发
  11. 微信小程序收款手续费_为什么有人做的小程序交易手续费是0.38%而不是0.6%?
  12. Qt+FFmpeg录屏
  13. 晨星、银河基金业绩排行榜数据转换工具
  14. 自学用——html+css(要点)
  15. LyX使用小记之三 公式编辑
  16. Linux常用命令介绍(20个)——《鸟哥的Linux的私房菜》
  17. 华为设备vlan配置命令
  18. three.js旋转,材质,灯光使用 —— 太阳地球月亮运动
  19. dropbox文件_获取通过电子邮件或网页发送到Dropbox的文件
  20. 培训计算机安排工作岗位,计算机岗位实习报告

热门文章

  1. 北航计算机学院好气派,2017年北京航空航天大学国内排名第几
  2. 如何快速将CAD图纸转换成PDF文件?
  3. 旧手机改电脑外挂,文本补充
  4. 疫情背后,零售变革正在酝酿,手机行业或迎来线下大洗牌
  5. OSChina 周六乱弹 ——什么是村支书不可推卸的责任!
  6. Processing鼠标键盘
  7. Processing学习笔记
  8. C# Skip和Take的简单用法
  9. Fedora core 5.0加载ntfs分区(yum方法)
  10. modbus软件开发linux,Linux C开发之用modbus实现串口通讯