TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION

2024-04-18 07:12:17

TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION

1.论文摘要

（1）使用VGGNet 的因果卷积结合位置信息来对输入进行下采样来保证推理的效率。（2）使用截断自注意力机制来保证transormer的流式处理从而减少计算复杂度。取得了在LibriSPeech test-clean 6.37%的字错率，在test other上15.3%，计算复杂度为O(T)， T为输入序列长度。

2.模型结构

使用因果卷积的上下文建模

对于因果卷积，NxK 的kernel 卷积cover的位置为X(i−N+1,j−k−12)X(i-N+1,j-\frac{k-1}2)X(i−N+1,j−2k−1) to X(i,j+k−12)X(i,j+\frac{k-1}2)X(i,j+2k−1)(在代码中，只对序列的起始位置处进行padding），避免了卷积时后面的内容看到前面的内容。
截断的self-attention

unlimited self attention 的缺点：必须知道整个输入才能预测label, 无法处理流式数据；计算复杂度为O(T^2).
Truncated self attention: output ht 只依赖(xt−L...xt+R)(x_{t-L}...x_{t+R})(xt−L...xt+R), 计算复杂度变为O(T) 但是是去部分模型效果。

3.实验结果

实验配置：encoder（1）BLSTM 4x640 ; (2)LSTM 5x1024: (3) Transformer 12x: 2VGGNets , 12 层transformer encoder layers

BLSTM 作为encoder 强于LSTM，VGG transfomer 又优于BLSTM, 但两者均为非流式的计算手段。decoder 端， LSTM效果好于Transformer 且计算效率更高。

对于截断attention长度的对比实验。其中，R长度对于识别的准确率影响较大，当encoder中步数L inf, 随着R的增大，准确率逐渐恢复，并在R=8 时基本和unlimited 情况差不多。对于L，当取(L,R)=(16,4)组合时，就已经超过了LSTM/BLSTM的基线了，(L,R)=(32,4)时，仅损失了4.7%的识别精度就实现了streamable 和计算复杂度O(T)。

TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION相关推荐

Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...
语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
【学习笔记】：Multi-mode Transformer Transducer with Stochastic Future Context
原文链接文章基本信息:题目,作者,作者机构,发表刊物或会议,年份,期刊会议等级(CCF) 题目,Multi-mode Transformer Transducer with Stochastic F ...
语音识别(ASR)论文优选：Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
Deep Audio-Visual Speech Recognition翻译
原文链接:https://arxiv.org/pdf/1809.02108.pdf 这是一篇较为系统的介绍音视频融合的语音识别文章.翻译参考博客园一篇翻译,进行了大量修正和增补. 摘要本文的目的是基 ...
Kaldi学习笔记——The Kaldi Speech Recognition Toolkit（Kaldi语音识别工具箱）（上）
最近看了有关KALDI的论文,在这里介绍一下. Abstract: We describe the design of Kaldi, a free, open-source toolkit for s ...
语音识别(Speech Recognition)综述
文章目录 1. 语音识别的基本单位 1.1 Phoneme(音位,音素) 1.2 Grapheme(字位) 1.3 Word(词) 1.4 Morpheme(词素) 1.5 bytes 2. 获取语音 ...
（ICASSP 19）Streaming End-to-end Speech Recognition for Mobile Devices
会议:ICASSP 2019 论文:Streaming End-to-end Speech Recognition for Mobile Devices 作者:Yanzhang He, Tara N. ...
用SAPI实现Speech Recognition（SR） - 命令控制模式
微软的语音识别,在这里我们简称它为SR(speech recognition),SR分为两种模式的监听:第一种模式:听写模式,即随意输入语音,监听对象将最为接近的字或者词,句反馈出来:第二种模式:命令 ...
用SAPI实现Speech Recognition（SR） - 听写模式
摘选自:"北极悠蓝"的博客<C++使用SAPI实现语音合成和语音识别的方法和代码> 微软的语音识别,在这里我们简称它为SR(speech recognition),SR ...

最新文章

热门文章