【论文随笔5】Context-Aware Transformer Transducer for Speech Recognition
原文链接:【论文随笔5】Context-Aware Transformer Transducer for Speech Recognition - 知乎(封面来自Gent灯光节的Museum of the Moon,灯光节简介 Lichtfestival | Home)背景为了提高端到端的语音识别模型对于不常见单词识别的准确率,此文提出了一种上下文语境感知网络,可基于上下文信息提高语音识别…https://zhuanlan.zhihu.com/p/432320463
背景
为了提高端到端的语音识别模型对于不常见单词识别的准确率,此文提出了一种上下文语境感知网络,可基于上下文信息提高语音识别的准确率。本文采用了RNN-Transducer的框架,并测试了两种不同的context embedding模型:BLSTM和BERT。但这些并非本文的核心,核心在于提出context embedding并将其融合到RNN-T框架的思路。
原文链接:Context-Aware Transformer Transducer for Speech Recognition
https://arxiv.org/pdf/2111.03250.pdfarxiv.org/pdf/2111.03250.pdf
相关资料
RNN-T全称是Recurrent Neural Network Transducer,是在CTC的基础上改进的。CTC的缺点是它没有考虑输出之间的dependency,即与之前帧的没有任何关联,而RNN-T则在CTC模型的Encoder基础上,又加入了将之前的输出作为输入的一个RNN,称为Prediction Network,再将其输出的隐藏向量与encoder得到的放到一个joint network中,得到输出logit再将其传到softmax layer得到对应的class的概率。[1]
RNN-Transducer是一种序列到序列的模型。但不同于类似CTC的输入一整条音频,输出一个句子的序列模型。RNN-Transducer可以持续不断地输入样本,然后输出对应符号[2]。更多详细的资料,请参见李宏毅老师的视频.
一个网上找的实现:
https://github.com/sooftware/RNN-Transducer/tree/8ac134727440b0c7903c56d53a75ecfd543ef3dfgithub.com/sooftware/RNN-Transducer/tree/8ac134727440b0c7903c56d53a75ecfd543ef3df
一个更容易理解的网络结构[3]:
相信经常训练模型的朋友一看到这个网络参数结构图,就明白RNN-Transducer的工作原理了。同时,借助于此图,也会更好地理解下面正文中介绍的文章的创新点。
正文
0. 摘要(Abstract)
端到端的语音识别系统(ASR),对于训练集数据集常见的字的识别,常常存在困难。一个有前景的提高对于罕见字的识别的方法是,基于上下文信息的推理。此文介绍了一种新颖的上下文语境感知的transformer transducer网络(CATT,context-aware transformer transducer network),基于上下文信息以提高语音识别的准确率。具体来说,此文提出了一个基于多头注意力的语境偏置网络,这个网络可以于其余的ASR自网络联合训练。此文探索了不同的上下文数据编码方法,以创建最终的注意力语境向量。此文还利用了基于BLSTM和预训练的BERT模型来对语境数据进行编码,以指导网络的训练。基于室内远场数据集的实验表明,这个方法是有效的。
1. 引言(Introduction)
端到端的ASR系统,例如connectionist temporal classification (CTC), listen-attend-spell (LAS), recurrent neural network transducer (RNN-T) and transformer 等,在训练数据足够的情况下,都显示出了远超HMM-DNN混合模型的卓越表现。混合模型独立优化声学模型 (AM)、发音模型 (PM) 和语言模型 (LM),而端到端的模型隐式的包含了这些模型,并联合优化它们以直接基于给定的输入序列来输出单词序列。此外,端到端的模型在没有外部对齐模块和语言模型的情况下,简化了推理途径,这使得它们更适合在设别上部署。
然而,端到端的ASR系统的一个主要缺陷在于,它无法准确识别在训练数据中很少出现的单词。为了解决这个问题,之前的研究工作利用了稀有词出现得更频繁的上下文语境信息,或者与之相关的权重,例如:the weighted finite-state transducer (WFST) [12] constructed from the speaker’s context [13], domain [14], text metadata of video [15, 16], dialogue state, location, or personalized information about the speaker (e.g., personalized device names or contact names) [9, 17],等等。
一般来说,将语境信息融合进ASR系统的方法可分为两种:训练后融合;和训练中融合。前者只应用于推理阶段,而后者作用于训练和推理阶段。训练后的融合可分为:潜层融合;和深度融合。然而,训练后融合方法的一个主要缺点,是它需要外部的语言模型来重新评分ASR模型的输出,并且,它对重新评分的权重很敏感。
在训练中融合的类别下,与此文最相关的工作是语境LAS,其在LAS的基础上,提出了具有位置感知注意力机制的额外的偏置编码器,以便在训练和推理阶段中,使用标签embeddings来恢复个性化的单词。同样的,上下文RNN-T应用了相同的注意力机制,但是使用的是RNN-T模型。
Transformer及其变体的transformer transducer,已成为ASR中表现最好的模型。此文提出了一个新颖的Context-Aware Transformer Transducer (CATT) network,使得transformer transducer可以在训练和推理阶段使用上下文信息,以提高ASR的准确率。
与C-LAS和C-RNN-T不同的是,此文不只是用BLSTM来编码上下文语境数据,还使用了一个预训练的BERT,这个预训练模型携带有很强的语义知识,可以来指导网络的学习。此外,此文提出了一种基于多头注意力的语境偏置模块,以衡量上下文短语的重要性。此文单独使用音频embeddings或者一起使用音频和标签的embeddings,来衡量上下文的重要性,从而创建对应的上下文语境向量。语境向量被逐帧输入ASR中,以帮助模型学习更好地对齐。
2. 方法(Proposed approach)
2.1. Transformer Transducer
图1(a): Transformer Transducer 的结构
上图1(a)显示了Transformer Transducer的结构,其基于输入音频帧x,输出序列y的概率分布。Transformer Transducer由三部分组成:音频编码器,音频编码器,和联合网络。
音频编码器 由Transformer中堆叠的self-attention层组成,其在以第t帧为中心的预定义窗长 内,产生第t帧的embedding : ,这里的 的角色与混和ASR系统中的声学模型的角色很相似。
标签编码器 也是由Transformer中堆叠的self-attention层组成,其利用前 个非空白的tokens 产生标签的embedding : ,其中 应该是当前位置对应的token的索引,这里的 的角色与混和ASR系统中的语言模型的角色很相似。此文使用子词(subwords)作为tokens。
联合网络将音频编码器和标签编码器的输出结合在一起,产生新的embedding, ,其中 都是可学习的参数,其将音频和标签的embeddings映射到同一维度。 是非线性函数,此文中选中的是tanh。 被输入到线性层和softmax层,以产生输出标签加额外的空白标签的概率分布 ,
(下来这部分属于RNN-T loss的计算,在图中无体现)当联合网络预测到一个空白符号时,模型会进入下一个时间帧的音频编码器的输出;而当预测到非空白符号时,标签编码器的输出会被更新。这样,就产生了各种对齐路径,它们的概率之和则为给定输入序列时,(具有非空白输出的)输出序列的概率。
2.2. Context-Aware Transformer Transducer (CATT)
为了给模型注入上下文语境信息,此为修改了2.1中描述的Transformer Transducer,并添加了两个额外的组件:1)一个上下文编码器(在图1(c)(d)中);2)一个基于多头注意力的语境偏置层,如下图1(b)所示。
上下文编码器(Context Encoder)
此文中采用的语境包含了由说话人提供的个性化信息,如说话者定义的设备名称、设备设置和设备位置等,如表1所示。每个语境单词或者短语 首先被表示为子词,然后被送入语境编码器 ,以产生固定维度的向量表示。 。
特别的,本文研究了两种语境编码器:基于BLSTM的语境编码器;和基于预训练模型BERT的语境编码器。BLSTM的编码器是和网络的其余部分一起训练的,而由于预训练模型BERT含有很强的先验语义信息,所以此文还测试了冻结住BERT部分的参数,只训练网络其余部分参数的结果。
2.1小节中的transformer transducer只基于音频编码器和标签编码器的结果,来产生令牌的概率
相比之下,此文提出的语音感知的transformer transducer,其输出概率也有条件地依赖于语境数据。即 变成了
基于多头注意力的语境偏置层(Multi-Head Attention based Context Biasing Layer)
图1(b):基于多头注意力的语境偏置层,Q可选取为音频或者标签embedding
该模块旨在学习语境短语与话语的相关性。通过这种方式,模型可以更加关注与实体名称或者个性化的词汇对应的帧,以助于提高其预测精度。由于此文是基于transformer搭建的,所以多头注意力成为了学习语境embeddings和话语embedding之间关系的自然选择。
由于此文使用的音频编码器是一个双向的transformer,其比标签编码器含有更多的关于输入话语的信息,所以此文首先尝试了将音频embeddings作为查询的queries以参与到语境中,如图1(c)所示。此文也尝试了使用音频和标签的embeddings作为queries以参与到语境信息中,如图1(d)所示。
图 1 (c)(d)
至此,本文的创新点及模型部分结束。
3. 结论(Conclusion)
此文提出了一种新颖的CATT模型,使得基于transformer transducer的ASR模型,可以在训练和推理中使用上下文语境的数据。其中上下文语境的相关性,是通过提出的多头注意力机制基于单独或与标签一同输入的音频embeddings测量的。
参考
- ^语音识别中的End2End模型: CTC, RNN-T与LAS - 知乎
- ^深度学习与人类语言处理-语音识别(part3) - 鱼与鱼 - 博客园
- ^CTC,RNN-Transducer, LAS_一花一世界 一叶一菩提-CSDN博客
【论文随笔5】Context-Aware Transformer Transducer for Speech Recognition相关推荐
- Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...
- 【论文笔记】TransFG: A Transformer Architecture for Fine-Grained Recognition
TransFG 简介 与基于CNN的模型在细粒度任务上的对比 disadvantages of CNN advantage of Transformer 整体结构 改进点 1.overlapping ...
- 语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- SIEVE: Secure In-Vehicle Automatic Speech Recognition Systems 论文报告
一.论文信息 标题:SIEVE: Secure In-Vehicle Automatic Speech Recognition Systems 作者:Shu Wang, Jiahao Cao, Kun ...
- 【学习笔记】:Multi-mode Transformer Transducer with Stochastic Future Context
原文链接 文章基本信息:题目,作者,作者机构,发表刊物或会议,年份,期刊会议等级(CCF) 题目,Multi-mode Transformer Transducer with Stochastic F ...
- 目标检测--Object Detection via Aspect Ratio and Context Aware
Object Detection via Aspect Ratio and Context Aware Region-based Convolutional Networks https://arxi ...
- 【论文随笔2】COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations
原文链接:[论文随笔2]COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations ...
- Contextual Transformer Networks for Visual Recognition论文以及代码解析
Contextual Transformer Networks for Visual Recognition 1. Abstract 2. Introduction 3. Approach 3.1. ...
- ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型
本次分享华南理工大学.优必选研究院等合作在ICASSP2023会议发表的论文<DST: Deformable Speech Transformer for Emotion Recognition ...
- 论文阅读笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文阅读笔记:Swin Transformer 摘要 1 简介 2 相关工作 3 方法论 3.1 总览 Swin Transformer block 3.2 shifted window-based ...
最新文章
- Mac上Chrome浏览器跨域解决方案
- Python中sort和sorted的用法与区别
- Mysql京东的一道面试题目 比较综合
- JsonPath的使用
- Swift傻傻分不清楚系列(五) 字符串和字符
- .NET Core Tools 1.0 版本
- centOS6.5如何从启动界面直接进入命令行界面和如何从图形界面进入命令行界面
- 怎么取消苹果手机自动续费_知乎会员怎样取消自动续费
- 三个变量中怎么找出中间值_scratch图形化编程基础练习-变量交换
- 我们这些中年人,多处在管理层面
- c++两个数组对比去掉重复的元素_每日一道 LeetCode (8):删除排序数组中的重复项和移除元素...
- 浅谈算法——莫比乌斯反演
- [Docker] Docker安装和简单指令
- poster模板_高分北斗大赛报名进行中,ppt、poster展示模板推送
- css行内样式的属性设置,css的外部样式的设置
- Mac开发-脚本打包DMG
- 什么流读取MultipartFile_IO流 - ShelterY
- CCRC信息安全服务资质审核费用是多少?
- 乐鑫esp8266学习rtos3.0笔记第9篇:整理分享那些我在项目中常用的esp8266 rtos3.0版本的常见驱动,Button按键长短按、PWM平滑调光等。(附带demo)
- 计算机基础结构化程序设计,《计算机程序设计基础》教学课件:8_2~8_3_结构化程序设计...
热门文章
- CINTA拉格朗日定理
- android短信验证码登录,Android注册登录实时自动获取短信验证码
- Window 打开新窗口的几种方式 window.location.href、window.open、window.showModalDialog
- 新华社痛批铁道部封抢票软件:自己傻就怨别人太聪明
- 黑客主要学习python的什么_黑客最常用的黑客语言——Python!
- 致那些正在入坑或纠结要不要入坑数学建模的小白们:来自一名大三狗的心路历程——愿你们少走些弯路,多取得些成绩
- java append()_append()方法的坑
- 如何烧写Bubblegum-96 board
- 极狐阿尔法S 全新HI版在上海率先推送城区NCA
- java操作k8s api报错:SSLHandshakeException: should not be presented in certificate_request