ICML 2021 Long Oral | 顺序不可知的交叉熵函数
©PaperWeekly 原创 · 作者 | 张一帆
学校 | 华南理工大学本科生
研究方向 | CV,Causality
本文针对非自回归翻译模型提出了一个新的损失函数:order-agnostic cross entropy(OAXE),这种交叉熵损失函数忽略了词与词的顺序,将 NAT 看成了一个集合预测的问题,基于模型预测和目标标签之间的最佳可能对齐计算交叉熵损失。
为了解决由于次序忽略带来的问题,文中提出了使用交叉熵损失 pretrain 模型再使用 OAXE finetune 以及对 confidence 较小的预测进行截断两种正则化的策略,极大的提高了翻译的性能。
论文标题:
Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation
论文链接:
https://arxiv.org/abs/2106.05093
代码链接:
https://github.com/tencent-ailab/ICML21_OAXE
Methodology
先来直观的看一下本文的损失函数和已有的 loss 有什么本质的区别。传统的交叉熵损失对每一个错误的词序都会引入惩罚,之前的工作AXE会对词进行单调的对齐,而本文直接找最优的对齐方式。
那么我们将传统的交叉熵损失写为:
本文提出的 loss 其实很简单:
其中 是我们的排序空间, 是其中一种对预测词排序的策略,对于一个长度为 的预测,可以找到 种不同的排序,因此如何计算这个损失是个问题。在本文种,作者将该问题简化为了二分图匹配,对预测出的每个位置和目标词汇之间进行二分图匹配。
Training
2.1 Avoiding Invalid Orderings via XE Initialization
如果我们直接使用 OAXE loss 进行训练,那么显然会丢失掉词序信息,文中有两种策略缓解这个问题:
我们先使用 XE loss 训练一个模型,然后使用 OAXE 进行微调,这样 XE loss 其实已经学到了不错的词序信息。
第二种方法是将 XE 和 OAXE 根据一个加权因子进行结合,这个权重随着时间变化逐渐趋于 0。
2.2 Dropping Invalid Predictions via Loss Truncation
即使使用 XE 来初始化,也还是会产生一些例如“I apple have”之类的语句,作者根据置信度进行截断,其中截断参数 是根据验证集进行寻找的。
只反向传播概率高于 margin 的词,这使得模型倾向于只学习有信心的预测。
Experiments
作者在 6 个数据集上进行了实验,均采取了句子级别的 distillation,baseline 为 CMLM。
3.1 不同的OAXE引入策略
上述提到了两种防止次序信息丢失的方法,从实验中可以得到,从 XE 预训练的模型开始引入 OAXE 得到的效果最好。
3.2 与SOTA的比较
CMLM 是之前的 SOTA,如果在输出端经过足够多次数的 refinement,CMLM 可以在 WMT14 EN-DE 上得到 27 左右的 BLUE,只有一次 refinement 的话只有 18.3,但是通过 OAXE 进行 fine-tune,可以使得其获得超过 7 个点的提升。
3.3 Raw Data
上面说到了,现在 NAT 都采用了句子级别的 distillation 来减少训练数据的多样性,从而提升模型的性能。在 raw data 上,OAXE 带来了更大的提升,即使使用raw data,其也比 cmlm 强。
除此之外文章还做了对于多样性,词序和句子长度相关的实验,相比于 XE,OAXE 在文中涉及的所有 metric 种均带来了巨大的提升。
Conclusion
XE 是一个典型的 token-level 的损失函数,相比较而言,OAXE 虽然依然是交叉熵,但是更像是 sentence-level 的损失函数,因此他已经和单个词的位置没有关系了,更多的 focus 在句子的语义上。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
???? 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
???? 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
ICML 2021 Long Oral | 顺序不可知的交叉熵函数相关推荐
- ICML 2021 (Long Oral) | 深入研究不平衡回归问题
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Yuzhe Yang@知乎(已授权) 来源丨https://z ...
- 「彩票假说」要修正?王言治团队:神经网络要「中奖」,秘密在于学习率!|ICML 2021...
视学算法报道 作者:刘宁 编辑:好困 [新智元导读]「彩票假说」指出神经网络可能存在准确率和原始网络相近的子网络.然而,这种中奖特性在许多情况中很难被观测到.最近,王言治教团队发现并揭示了中奖特 ...
- 【时间序列】ICML 2021丨时间序列相关研究汇总
ICML(International Conference on Machine Learning, ICML)是由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,是推动机器学习领域发展的 ...
- ICML 2021:矩阵乘法无需相乘,速度提升100倍,MIT开源最新近似算法
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在不做乘 ...
- ICML 2021杰出论文奖“临时更换”,上海交大校友田渊栋陆昱成等获提名
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 今天,I ...
- ICML 2021刚刚做出了一个「艰难的决定」:将论文接收率直接砍掉10%
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 年初投过 ICML 2021 ...
- ICML 2021论文接收大排行!谷歌霸榜,国内北大第一、清华第二,华人学者表现亮眼.........
来源:AI科技评论本文约2000字,建议阅读5分钟本文介绍了ICML2021的论文接受情况. 在一个月之前,ICML 2021的论文接收结果已经公布,今年一共有5513篇有效投稿,其中1184篇论文被 ...
- 多大、谷歌大脑获ICML 2021杰出论文奖,田渊栋、陆昱成获荣誉提名!
转自:机器之心 刚刚,ICML 2021揭晓了本届杰出论文奖和杰出论文荣誉提名奖,来自多伦多大学.谷歌大脑的研究获得了杰出论文奖,包括田渊栋.陆昱成在内的多位学者获得了杰出论文荣誉提名奖.此外,高通副 ...
- ICML 2021论文数据分析:谷歌第一,国内北大论文最多
转自:机器之心 ICML 2021 官方公布了接收论文结果,共有 5513 篇论文投稿,共有 1184 篇被接收(包括 1018 篇短论文和 166 篇长论文),接受率 21.48%. 这应该是 IC ...
最新文章
- 负载分析及问题排查极简教程
- layui中监听select下拉框改变事件
- CentOS+Nginx+PHP+Mysql(3)(转)
- 怎么不让html网页自动跳转,javascript怎么禁止跳转页面?
- css 背景效果_css基础篇06--背景样式
- Spark记录-Scala基础语法
- 备份mysql数据库以及文件--脚本
- 阿里开发者招聘节 | 2019阿里巴巴技术面试题分享:20位专家28道题
- Python面向对象-概念、类、实例
- 【ArcGIS风暴】ArcGIS求一个矢量图层中多个图斑的“四至点”坐标案例教程
- [渝粤教育] 中国地质大学 企业文化建设与管理 复习题
- Linux declare命令、Linux tail 命令
- 傲游浏览器linux傲游源,Ubuntu下安装遨游浏览器
- logback日志pattern_003、Spring Boot使用slf4j进行日志记录
- jstack简单使用,定位死循环、线程阻塞、死锁等问题
- 分布式 id 生成系统 滴滴 Tinyid 快速入门
- 比对字段判断字段是否为空,合并列字段(合并多列)
- Python基础与大数据应用(三)
- 基于大数据的资金流量分析:思路与应用前景设想
- java后端应届生面试题,附答案解析
热门文章
- 广东计算机好的2a学校,广东专插本2A院校排名情况
- 如何读群晖硬盘_更新教程:群晖下直接挂载WINDOWS的NTFS格式硬盘,试验通过......
- vant-image本地图片无法显示
- vue elementui 切换语言
- usb转pci_IT-GO PCI-E转USB转接卡台式机pcie转2口usb3.0扩展卡后置集线卡
- JS 星号 * 处理手机号和名称
- AOSP 源码整编单编
- 理解Tomcat架构、启动流程及其性能优化
- hdoj1242(dfs 剪枝 解法)
- 从基础末尾:CSS适用教程