©PaperWeekly 原创 · 作者 | 张一帆

学校 | 华南理工大学本科生

研究方向 | CV,Causality

本文针对非自回归翻译模型提出了一个新的损失函数:order-agnostic cross entropy(OAXE),这种交叉熵损失函数忽略了词与词的顺序,将 NAT 看成了一个集合预测的问题,基于模型预测和目标标签之间的最佳可能对齐计算交叉熵损失。

为了解决由于次序忽略带来的问题,文中提出了使用交叉熵损失 pretrain 模型再使用 OAXE finetune 以及对 confidence 较小的预测进行截断两种正则化的策略,极大的提高了翻译的性能。

论文标题:

Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation

论文链接:

https://arxiv.org/abs/2106.05093

代码链接:

https://github.com/tencent-ailab/ICML21_OAXE

Methodology

先来直观的看一下本文的损失函数和已有的 loss 有什么本质的区别。传统的交叉熵损失对每一个错误的词序都会引入惩罚,之前的工作AXE会对词进行单调的对齐,而本文直接找最优的对齐方式。

那么我们将传统的交叉熵损失写为:

本文提出的 loss 其实很简单:

其中 是我们的排序空间, 是其中一种对预测词排序的策略,对于一个长度为 的预测,可以找到 种不同的排序,因此如何计算这个损失是个问题。在本文种,作者将该问题简化为了二分图匹配,对预测出的每个位置和目标词汇之间进行二分图匹配。

Training

2.1 Avoiding Invalid Orderings via XE Initialization

如果我们直接使用 OAXE loss 进行训练,那么显然会丢失掉词序信息,文中有两种策略缓解这个问题:

  1. 我们先使用 XE loss 训练一个模型,然后使用 OAXE 进行微调,这样 XE loss 其实已经学到了不错的词序信息。

  2. 第二种方法是将 XE 和 OAXE 根据一个加权因子进行结合,这个权重随着时间变化逐渐趋于 0。

2.2 Dropping Invalid Predictions via Loss Truncation

即使使用 XE 来初始化,也还是会产生一些例如“I apple have”之类的语句,作者根据置信度进行截断,其中截断参数 是根据验证集进行寻找的。

只反向传播概率高于 margin 的词,这使得模型倾向于只学习有信心的预测。

Experiments

作者在 6 个数据集上进行了实验,均采取了句子级别的 distillation,baseline 为 CMLM。

3.1 不同的OAXE引入策略

上述提到了两种防止次序信息丢失的方法,从实验中可以得到,从 XE 预训练的模型开始引入 OAXE 得到的效果最好。

3.2 与SOTA的比较

CMLM 是之前的 SOTA,如果在输出端经过足够多次数的 refinement,CMLM 可以在 WMT14 EN-DE 上得到 27 左右的 BLUE,只有一次 refinement 的话只有 18.3,但是通过 OAXE 进行 fine-tune,可以使得其获得超过 7 个点的提升。

3.3 Raw Data

上面说到了,现在 NAT 都采用了句子级别的 distillation 来减少训练数据的多样性,从而提升模型的性能。在 raw data 上,OAXE 带来了更大的提升,即使使用raw data,其也比 cmlm 强。

除此之外文章还做了对于多样性,词序和句子长度相关的实验,相比于 XE,OAXE 在文中涉及的所有 metric 种均带来了巨大的提升。

Conclusion

XE 是一个典型的 token-level 的损失函数,相比较而言,OAXE 虽然依然是交叉熵,但是更像是 sentence-level 的损失函数,因此他已经和单个词的位置没有关系了,更多的 focus 在句子的语义上。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

​ICML 2021 Long Oral | 顺序不可知的交叉熵函数相关推荐

  1. ICML 2021 (Long Oral) | 深入研究不平衡回归问题

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Yuzhe Yang@知乎(已授权) 来源丨https://z ...

  2. 「彩票假说」要修正?王言治团队:神经网络要「中奖」,秘密在于学习率!|ICML 2021...

     视学算法报道   作者:刘宁 编辑:好困 [新智元导读]「彩票假说」指出神经网络可能存在准确率和原始网络相近的子网络.然而,这种中奖特性在许多情况中很难被观测到.最近,王言治教团队发现并揭示了中奖特 ...

  3. 【时间序列】ICML 2021丨时间序列相关研究汇总

    ICML(International Conference on Machine Learning, ICML)是由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,是推动机器学习领域发展的 ...

  4. ICML 2021:矩阵乘法无需相乘,速度提升100倍,MIT开源最新近似算法

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在不做乘 ...

  5. ICML 2021杰出论文奖“临时更换”,上海交大校友田渊栋陆昱成等获提名

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 今天,I ...

  6. ICML 2021刚刚做出了一个「艰难的决定」:将论文接收率直接砍掉10%

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 年初投过 ICML 2021 ...

  7. ICML 2021论文接收大排行!谷歌霸榜,国内北大第一、清华第二,华人学者表现亮眼.........

    来源:AI科技评论本文约2000字,建议阅读5分钟本文介绍了ICML2021的论文接受情况. 在一个月之前,ICML 2021的论文接收结果已经公布,今年一共有5513篇有效投稿,其中1184篇论文被 ...

  8. 多大、谷歌大脑获ICML 2021杰出论文奖,田渊栋、陆昱成获荣誉提名!

    转自:机器之心 刚刚,ICML 2021揭晓了本届杰出论文奖和杰出论文荣誉提名奖,来自多伦多大学.谷歌大脑的研究获得了杰出论文奖,包括田渊栋.陆昱成在内的多位学者获得了杰出论文荣誉提名奖.此外,高通副 ...

  9. ICML 2021论文数据分析:谷歌第一,国内北大论文最多

    转自:机器之心 ICML 2021 官方公布了接收论文结果,共有 5513 篇论文投稿,共有 1184 篇被接收(包括 1018 篇短论文和 166 篇长论文),接受率 21.48%. 这应该是 IC ...

最新文章

  1. 负载分析及问题排查极简教程
  2. layui中监听select下拉框改变事件
  3. CentOS+Nginx+PHP+Mysql(3)(转)
  4. 怎么不让html网页自动跳转,javascript怎么禁止跳转页面?
  5. css 背景效果_css基础篇06--背景样式
  6. Spark记录-Scala基础语法
  7. 备份mysql数据库以及文件--脚本
  8. 阿里开发者招聘节 | 2019阿里巴巴技术面试题分享:20位专家28道题
  9. Python面向对象-概念、类、实例
  10. 【ArcGIS风暴】ArcGIS求一个矢量图层中多个图斑的“四至点”坐标案例教程
  11. [渝粤教育] 中国地质大学 企业文化建设与管理 复习题
  12. Linux declare命令、Linux tail 命令
  13. 傲游浏览器linux傲游源,Ubuntu下安装遨游浏览器
  14. logback日志pattern_003、Spring Boot使用slf4j进行日志记录
  15. jstack简单使用,定位死循环、线程阻塞、死锁等问题
  16. 分布式 id 生成系统 滴滴 Tinyid 快速入门
  17. 比对字段判断字段是否为空,合并列字段(合并多列)
  18. Python基础与大数据应用(三)
  19. 基于大数据的资金流量分析:思路与应用前景设想
  20. java后端应届生面试题,附答案解析

热门文章

  1. 广东计算机好的2a学校,广东专插本2A院校排名情况
  2. 如何读群晖硬盘_更新教程:群晖下直接挂载WINDOWS的NTFS格式硬盘,试验通过......
  3. vant-image本地图片无法显示
  4. vue elementui 切换语言
  5. usb转pci_IT-GO PCI-E转USB转接卡台式机pcie转2口usb3.0扩展卡后置集线卡
  6. JS 星号 * 处理手机号和名称
  7. AOSP 源码整编单编
  8. 理解Tomcat架构、启动流程及其性能优化
  9. hdoj1242(dfs 剪枝 解法)
  10. 从基础末尾:CSS适用教程