TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION
TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION
1.论文摘要
(1)使用VGGNet 的因果卷积结合位置信息来对输入进行下采样来保证推理的效率。(2)使用截断自注意力机制来保证transormer的流式处理从而减少计算复杂度。取得了在LibriSPeech test-clean 6.37%的字错率,在test other上15.3%, 计算复杂度为O(T), T为输入序列长度。
2.模型结构
- 使用因果卷积的上下文建模
对于因果卷积,NxK 的kernel 卷积cover的位置为X(i−N+1,j−k−12)X(i-N+1,j-\frac{k-1}2)X(i−N+1,j−2k−1) to X(i,j+k−12)X(i,j+\frac{k-1}2)X(i,j+2k−1)(在代码中,只对序列的起始位置处进行padding), 避免了卷积时后面的内容看到前面的内容。 - 截断的self-attention
unlimited self attention 的缺点:必须知道整个输入才能预测label, 无法处理流式数据;计算复杂度为O(T^2).
Truncated self attention: output ht 只依赖(xt−L...xt+R)(x_{t-L}...x_{t+R})(xt−L...xt+R), 计算复杂度变为O(T) 但是是去部分模型效果。
3.实验结果
实验配置:encoder(1)BLSTM 4x640 ; (2)LSTM 5x1024: (3) Transformer 12x: 2VGGNets , 12 层transformer encoder layers
BLSTM 作为encoder 强于LSTM,VGG transfomer 又优于BLSTM, 但两者均为非流式的计算手段。decoder 端, LSTM效果好于Transformer 且计算效率更高。
对于截断attention长度的对比实验。其中,R长度对于识别的准确率影响较大,当encoder中步数L inf, 随着R的增大,准确率逐渐恢复,并在R=8 时基本和unlimited 情况差不多。对于L,当取(L,R)=(16,4)组合时,就已经超过了LSTM/BLSTM的基线了,(L,R)=(32,4)时,仅损失了4.7%的识别精度就实现了streamable 和计算复杂度O(T)。
TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION相关推荐
- Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...
- 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 【学习笔记】:Multi-mode Transformer Transducer with Stochastic Future Context
原文链接 文章基本信息:题目,作者,作者机构,发表刊物或会议,年份,期刊会议等级(CCF) 题目,Multi-mode Transformer Transducer with Stochastic F ...
- 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- Deep Audio-Visual Speech Recognition翻译
原文链接:https://arxiv.org/pdf/1809.02108.pdf 这是一篇较为系统的介绍音视频融合的语音识别文章.翻译参考博客园一篇翻译,进行了大量修正和增补. 摘要 本文的目的是基 ...
- Kaldi学习笔记——The Kaldi Speech Recognition Toolkit(Kaldi语音识别工具箱)(上)
最近看了有关KALDI的论文,在这里介绍一下. Abstract: We describe the design of Kaldi, a free, open-source toolkit for s ...
- 语音识别(Speech Recognition)综述
文章目录 1. 语音识别的基本单位 1.1 Phoneme(音位,音素) 1.2 Grapheme(字位) 1.3 Word(词) 1.4 Morpheme(词素) 1.5 bytes 2. 获取语音 ...
- (ICASSP 19)Streaming End-to-end Speech Recognition for Mobile Devices
会议:ICASSP 2019 论文:Streaming End-to-end Speech Recognition for Mobile Devices 作者:Yanzhang He, Tara N. ...
- 用SAPI实现Speech Recognition(SR) - 命令控制模式
微软的语音识别,在这里我们简称它为SR(speech recognition),SR分为两种模式的监听:第一种模式:听写模式,即随意输入语音,监听对象将最为接近的字或者词,句反馈出来:第二种模式:命令 ...
- 用SAPI实现Speech Recognition(SR) - 听写模式
摘选自:"北极悠蓝"的博客<C++使用SAPI实现语音合成和语音识别的方法和代码> 微软的语音识别,在这里我们简称它为SR(speech recognition),SR ...
最新文章
- Tree Operations 打印出有向图中的环
- Linux Centos7.x 安装部署Mysql5.7几种方式的操作手册
- java代码中添加事务_C#和JAVA中编写事务代码
- iOS统计项目的代码总行数
- 关于telnet: connect to address 190.168.6.6: No route to host 报错处理
- 技术实操丨SoundNet迁移学习之由声音分类到语音情感识别
- 还不懂!软件测试(功能、接口、性能、自动化)详解
- 360浏览器没有声音_你用的浏览器好用吗?该国产电脑浏览器,极速、安全,值得使用...
- mac 源码编译yar遇见的坑
- 火星人学习第二周——虚幻引擎蓝图应用与开发
- 微信小程序收款手续费_为什么有人做的小程序交易手续费是0.38%而不是0.6%?
- Qt+FFmpeg录屏
- 晨星、银河基金业绩排行榜数据转换工具
- 自学用——html+css(要点)
- LyX使用小记之三 公式编辑
- Linux常用命令介绍(20个)——《鸟哥的Linux的私房菜》
- 华为设备vlan配置命令
- three.js旋转,材质,灯光使用 —— 太阳地球月亮运动
- dropbox文件_获取通过电子邮件或网页发送到Dropbox的文件
- 培训计算机安排工作岗位,计算机岗位实习报告