端到端的语音识别模型

端到端的语音识别模型CTC（李宏毅深度学习HLP课程笔记）

一、CTC

1、模型介绍

CTC可以用于在线流式语音识别，因此encoder部分需要选择uni-directional RNN，模型结构图如下，输入的语音信号经过encoder逐一转换成语音表征，再经过一个线性分类器得到每个时刻输出类别的概率，假设所有的类别个数为V：

一般来说，假设输入的语音长度a，对应的输出label长度为b，则由于语音帧比较长，识别出来的文字序列相对来说较短，所以b << a。在CTC模型中，为了解决alignment问题，在token中增加一个blank(∅\varnothing∅)，可以向输出的label中随机添加blank，使得长度对齐，因此输出的类别总个数为V+1。这样一来在处理输出的token时，需要合并所有相邻的相同token，并移除blank。
比如∅\varnothing∅∅\varnothing∅dd∅\varnothing∅e∅\varnothing∅e∅\varnothing∅pp，处理之后的输出为deep。

2、存在的问题

如果把CTC的linear classifier想象成decoder，则decoder每输入进一个vector，就要对应生成一个输出，并且每个输出都是独立的，并不能有效利用上下文信息（尽管encoder有可能学到上下文信息）。

二、Recurrent Neural Aligner，RNA

针对CTC存在的问题，即linear classifier的每一个输出之间都是独立的，RNA将linear classifier换成RNN/LSTM就解决了这个问题，转换后的结构大致如下图所示。

三、RNN-T

有时一个发音可以对应输出一串token，但是CTC和RNA都是每输入一个vector，对应只输出一个token。对于这个问题，RNN-T可以针对一个vector输出多个token，直到没有token，输出∅\varnothing∅，代表需要接收下一个vector，模型结构图如下所示。（如果一共有t个语音feature，则一共输出t个∅\varnothing∅）

实际上，RNN-T并不是简单的地把linear classifier替换成RNN/LSTM，而是在之前linear classifier的基础上额外增加了RNN，这种方法的优势是额外的RNN可以看作language model，因此它不用语音数据，只需要大量文本数据（也不需要∅\varnothing∅）就可以进行训练。

四、Neural Transducer

CTC、RNA、RNN-T每次都只读一个feature，Neural Transducer每次可以读多个feature，并对它们作attention之后作为输入，模型结构如下图所示，

五、Monotonic Chunkwise Attention，MoChA

Neural Transducer中window每次移动的距离都是相同的，MoChA可以动态移动窗口。

六、总结