【论文随笔5】Context-Aware Transformer Transducer for Speech Recognition

原文链接：【论文随笔5】Context-Aware Transformer Transducer for Speech Recognition - 知乎（封面来自Gent灯光节的Museum of the Moon，灯光节简介 Lichtfestival | Home）背景为了提高端到端的语音识别模型对于不常见单词识别的准确率，此文提出了一种上下文语境感知网络，可基于上下文信息提高语音识别…https://zhuanlan.zhihu.com/p/432320463

背景

为了提高端到端的语音识别模型对于不常见单词识别的准确率，此文提出了一种上下文语境感知网络，可基于上下文信息提高语音识别的准确率。本文采用了RNN-Transducer的框架，并测试了两种不同的context embedding模型：BLSTM和BERT。但这些并非本文的核心，核心在于提出context embedding并将其融合到RNN-T框架的思路。

原文链接：Context-Aware Transformer Transducer for Speech Recognition

https://arxiv.org/pdf/2111.03250.pdfarxiv.org/pdf/2111.03250.pdf

正文

０. 摘要（Abstract）

端到端的语音识别系统（ASR），对于训练集数据集常见的字的识别，常常存在困难。一个有前景的提高对于罕见字的识别的方法是，基于上下文信息的推理。此文介绍了一种新颖的上下文语境感知的transformer transducer网络（CATT，context-aware transformer transducer network），基于上下文信息以提高语音识别的准确率。具体来说，此文提出了一个基于多头注意力的语境偏置网络，这个网络可以于其余的ASR自网络联合训练。此文探索了不同的上下文数据编码方法，以创建最终的注意力语境向量。此文还利用了基于BLSTM和预训练的BERT模型来对语境数据进行编码，以指导网络的训练。基于室内远场数据集的实验表明，这个方法是有效的。

1. 引言（Introduction）

端到端的ASR系统，例如connectionist temporal classification (CTC), listen-attend-spell (LAS), recurrent neural network transducer (RNN-T) and transformer 等，在训练数据足够的情况下，都显示出了远超HMM-DNN混合模型的卓越表现。混合模型独立优化声学模型 (AM)、发音模型 (PM) 和语言模型 (LM)，而端到端的模型隐式的包含了这些模型，并联合优化它们以直接基于给定的输入序列来输出单词序列。此外，端到端的模型在没有外部对齐模块和语言模型的情况下，简化了推理途径，这使得它们更适合在设别上部署。

然而，端到端的ASR系统的一个主要缺陷在于，它无法准确识别在训练数据中很少出现的单词。为了解决这个问题，之前的研究工作利用了稀有词出现得更频繁的上下文语境信息，或者与之相关的权重，例如：the weighted finite-state transducer (WFST) [12] constructed from the speaker’s context [13], domain [14], text metadata of video [15, 16], dialogue state, location, or personalized information about the speaker (e.g., personalized device names or contact names) [9, 17]，等等。

一般来说，将语境信息融合进ASR系统的方法可分为两种：训练后融合；和训练中融合。前者只应用于推理阶段，而后者作用于训练和推理阶段。训练后的融合可分为：潜层融合；和深度融合。然而，训练后融合方法的一个主要缺点，是它需要外部的语言模型来重新评分ASR模型的输出，并且，它对重新评分的权重很敏感。

在训练中融合的类别下，与此文最相关的工作是语境LAS，其在LAS的基础上，提出了具有位置感知注意力机制的额外的偏置编码器，以便在训练和推理阶段中，使用标签embeddings来恢复个性化的单词。同样的，上下文RNN-T应用了相同的注意力机制，但是使用的是RNN-T模型。

Transformer及其变体的transformer transducer，已成为ASR中表现最好的模型。此文提出了一个新颖的Context-Aware Transformer Transducer (CATT) network，使得transformer transducer可以在训练和推理阶段使用上下文信息，以提高ASR的准确率。

与C-LAS和C-RNN-T不同的是，此文不只是用BLSTM来编码上下文语境数据，还使用了一个预训练的BERT，这个预训练模型携带有很强的语义知识，可以来指导网络的学习。此外，此文提出了一种基于多头注意力的语境偏置模块，以衡量上下文短语的重要性。此文单独使用音频embeddings或者一起使用音频和标签的embeddings，来衡量上下文的重要性，从而创建对应的上下文语境向量。语境向量被逐帧输入ASR中，以帮助模型学习更好地对齐。

2. 方法（Proposed approach）

2.1. Transformer Transducer

图1（a）: Transformer Transducer 的结构

上图1（a）显示了Transformer Transducer的结构，其基于输入音频帧x，输出序列y的概率分布。Transformer Transducer由三部分组成：音频编码器，音频编码器，和联合网络。

音频编码器由Transformer中堆叠的self-attention层组成，其在以第t帧为中心的预定义窗长 $[t-L_2:t+R]$ 内，产生第t帧的embedding $h_{t}^{AE}$ : $h_{t}^{AE}=f^{enc}(x_{t-L_2:t+R})$ ，这里的 $f^{enc}$ 的角色与混和ASR系统中的声学模型的角色很相似。

标签编码器也是由Transformer中堆叠的self-attention层组成，其利用前 $L_1$ 个非空白的tokens $y$ 产生标签的embedding $h_{u}^{LE}$ : $h_{u}^{LE}=f^{pred}(y_{u-L_1:u})$ ，其中 $u$ 应该是当前位置对应的token的索引，这里的 $f^{pred}$ 的角色与混和ASR系统中的语言模型的角色很相似。此文使用子词（subwords）作为tokens。

联合网络将音频编码器和标签编码器的输出结合在一起，产生新的embedding，，其中 $U，V，b_1$ 都是可学习的参数，其将音频和标签的embeddings映射到同一维度。 $\phi$ 是非线性函数，此文中选中的是tanh。 $z_{t,u}$ 被输入到线性层和softmax层，以产生输出标签加额外的空白标签的概率分布 $p(y|t,u)$ ,

（下来这部分属于RNN-T loss的计算，在图中无体现）当联合网络预测到一个空白符号时，模型会进入下一个时间帧的音频编码器的输出；而当预测到非空白符号时，标签编码器的输出会被更新。这样，就产生了各种对齐路径，它们的概率之和则为给定输入序列时，（具有非空白输出的）输出序列的概率。

2.2. Context-Aware Transformer Transducer (CATT)

为了给模型注入上下文语境信息，此为修改了2.1中描述的Transformer Transducer，并添加了两个额外的组件：1）一个上下文编码器（在图1（c）(d)中）；2）一个基于多头注意力的语境偏置层，如下图1（b）所示。

上下文编码器（Context Encoder）

此文中采用的语境包含了由说话人提供的个性化信息，如说话者定义的设备名称、设备设置和设备位置等，如表1所示。每个语境单词或者短语首先被表示为子词，然后被送入语境编码器 $f^{context}$ ，以产生固定维度的向量表示。 $h_k^{CE}=f^{context}(w_k)$ 。

特别的，本文研究了两种语境编码器：基于BLSTM的语境编码器；和基于预训练模型BERT的语境编码器。BLSTM的编码器是和网络的其余部分一起训练的，而由于预训练模型BERT含有很强的先验语义信息，所以此文还测试了冻结住BERT部分的参数，只训练网络其余部分参数的结果。

2.1小节中的transformer transducer只基于音频编码器和标签编码器的结果，来产生令牌的概率

相比之下，此文提出的语音感知的transformer transducer，其输出概率也有条件地依赖于语境数据。即变成了

基于多头注意力的语境偏置层（Multi-Head Attention based Context Biasing Layer）

图1（b）：基于多头注意力的语境偏置层，Q可选取为音频或者标签embedding

该模块旨在学习语境短语与话语的相关性。通过这种方式，模型可以更加关注与实体名称或者个性化的词汇对应的帧，以助于提高其预测精度。由于此文是基于transformer搭建的，所以多头注意力成为了学习语境embeddings和话语embedding之间关系的自然选择。

由于此文使用的音频编码器是一个双向的transformer，其比标签编码器含有更多的关于输入话语的信息，所以此文首先尝试了将音频embeddings作为查询的queries以参与到语境中，如图1（c）所示。此文也尝试了使用音频和标签的embeddings作为queries以参与到语境信息中，如图1（d）所示。

图 1 （c）(d)

至此，本文的创新点及模型部分结束。

3. 结论（Conclusion）

此文提出了一种新颖的CATT模型，使得基于transformer transducer的ASR模型，可以在训练和推理中使用上下文语境的数据。其中上下文语境的相关性，是通过提出的多头注意力机制基于单独或与标签一同输入的音频embeddings测量的。

参考

^语音识别中的End2End模型: CTC, RNN-T与LAS - 知乎
^深度学习与人类语言处理-语音识别(part3) - 鱼与鱼 - 博客园
^CTC,RNN-Transducer, LAS_一花一世界一叶一菩提-CSDN博客