ST:speech translation,语音翻译
ASR:automatic speech recognition,自动语音识别
MT:machine translation,机器翻译
TCEN:Tandem Connectionist Encoding Network, 串联编码网络

摘要

在端到端的语义翻译中,预训练和微调的方法被广泛使用,但两个环节不能很好的进行衔接。文章提出了串联编码网络,是参与语音翻译任务的两个子网络都能够被预训练,且预训练中学到的参数都将在微调过程中使用,从而显著提升语音翻译模型性能。

问题

端到端语音翻译:是指将一段源语言语音直接翻译为目标预言的文本,而不产生任何中间表示(源语言文本)。已有工作表明预训练和多任务训练可以显著提升端到端语音翻译的效果,通常的做法是分别在语音识别任务和机器翻译任务上训练一个编码器-解码器模型,然后将前者的语音编码和后者的文本解码器组合起来,在语音翻译的任务上进行微调。

然而这使得预训练和微调过程存在以下3个问题:

  • 网络参数浪费,即机器翻译模型中文本编码器学到的的源语言的语法语义知识并没有在后续微调过程中使用,而这部分知识对于翻译任务而言至关重要。
  • 网络功能不匹配,语音编码器在预训练中只需要学习语音特征,而在后续任务中则需要学习语法语义知识,任务难度显著增加。
  • 端到端语音模型中的注意力机制无法参与预训练。
问题的解决

提出一种新的模型结构-串联编码网络。这种结构能够使参与语音翻译任务的每个子网络都能够被预训练,且训练中学到的参数都将在微调中使用。与传统的预训练、多任务学习模式相比,该网络结构和训练方法可以显著提升语音翻译模型的性能。

参考:https://www.msra.cn/zh-cn/news/features/aaai-2020-tcen

端到端语音翻译中预训练和微调的衔接方法相关推荐

  1. 从轨迹中预训练情境时间感知的、用于用户位置预测的地点嵌入

    对轨迹数据进行预训练地点嵌入能够用于用户下一个地点预测任务.现有的基于轨迹数据预训练的地点嵌入方法,将一个地点用单一的向量表达.然而在现实世界中,一个地点通常在不同的场景下扮演不同的功能.如果轨迹中的 ...

  2. 有效扩展:来自预训练和微调变换器的见解、rct.ai训练出5亿参数的BERT-X模型

    预训练周刊 关于周刊 本期周刊,我们选择了14篇预训练相关的论文,涉及短语检索.网络结构.文本排序.架构扩展.对话选择.语言检测.模型微调.机器翻译.属性注入.阅读理解.蛋白序列学习.蛋白质预测.蛋白 ...

  3. 《预训练周刊》第26期:有效扩展:来自预训练和微调变换器的见解、rct.ai训练出5亿参数的BERT-X模型...

    No.26 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了14篇预训练相关的论文,涉及短语检索.网络结构.文本排序.架构扩展.对话选择.语言检测.模型微调.机器 ...

  4. Tensorflow【实战Google深度学习框架】预训练与微调含代码(看不懂你来打我)

    文章目录 1.前言 2.什么是预训练和微调 3.预训练和微调的作用 4.在一个新任务上微调一个预训练的模型代码实现 1.前言 预训练(pre-training/trained)和微调(fine tun ...

  5. 直播 | AAAI 2021:如何缓解GNN预训练和微调之间的优化误差?

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. NAACL 2022 | FACTPEGASUS:抽象摘要的真实性感知预训练和微调

    ©作者 | 董冠霆 单位 | 北京邮电大学 研究方向 | 自然语言理解 论文标题: FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning ...

  7. 天池零基础入门NLP竞赛实战:Task4-基于深度学习的文本分类3-基于Bert预训练和微调进行文本分类

    Task4-基于深度学习的文本分类3-基于Bert预训练和微调进行文本分类 因为天池这个比赛的数据集是脱敏的,无法利用其它已经预训练好的模型,所以需要针对这个数据集自己从头预训练一个模型. 我们利用H ...

  8. matlab里newff,新版matlab中神经网络训练函数newff的使用方法

    新版matlab中神经网络训练函数newff的使用方法 新版 Matlab 中神经网络训练函数 Newff 的使用方法一. 介绍新版 newffSyntax net = newff(P,T,[S1 ...

  9. ChatGPT使用拓展资料:BERT 带你见证预训练和微调的奇迹

    ChatGPT 拓展资料:BERT 带你见证预训练和微调的奇迹 SQuAD数据集: {"version":

最新文章

  1. 综合技术 --myBatis理解
  2. flutter设置文本最大宽度
  3. python中 __name__及__main()__的妙处02
  4. HDU-2688 Rotate
  5. Mysql的coalesce
  6. 【渝粤教育】国家开放大学2018年秋季 2322T物流信息技术 参考试题
  7. 面试问题整理笔记系列 一 Java容器类
  8. JDOM与DOM的相互转换
  9. 小程序模拟请求本地json数据文章合集
  10. getopt两个模块getopt 和gun_getopt 的异同
  11. 阿里云弹性计算,等您来!
  12. JSON 在线工具 BeJson
  13. Kiwi browser 手机谷歌浏览器如何同步谷歌扩展插件
  14. wpf 鼠标拖动绘制几何图形
  15. 常用计量单位及其换算
  16. 2、如何搭建百度离线地图服务
  17. 快捷键没有响应的处理办法
  18. ISCC2021wp
  19. SQL server登录密码重置(忘记密码)
  20. Android Studio 在library中引用本地arr的办法

热门文章

  1. 使用merge into进行大数据量优化
  2. ubuntu下安装软件的三种方式
  3. Win8,打败你的不是天真是' 无邪‘
  4. 【数据结构】双向链表实现
  5. UML基础(附绘制教程)
  6. 【Python】类 - (Dog类)
  7. 职场饭局,不要过于随便应付
  8. 【程序33】学习gotoxy()与clrscr()函数(TC实现版本)
  9. 惊人!截至6月10日全球COVID-19疫情玫瑰图,这些国家最危险
  10. wireshark抓取接入游戏盾的APP真实IP实例