ACL最佳论文提出最新NLP模型测试方法，最佳论文提名也不可小觑

译者 | 刘畅

出品 | AI科技大本营（ID:rgznai100）

导读：近日，ACL 2020公布了最佳论文奖，另有两篇最佳论文荣誉提名奖也各自提出了解决NLP领域问题的创新方法。

最佳论文：Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

论文链接：https://arxiv.org/abs/2005.04118

作者：来自微软、华盛顿大学、加州大学尔湾分校

尽管测量模型的准确性一直是评估模型泛化能力的主要方法，但它通常会高估NLP模型的性能。而评估模型的替代方法则着重于关注单个任务或特定行为。本文受软件工程中行为测试原理的启发，作者引入了一种与任务无关的测试NLP模型的方法--CheckList。CheckList包含有助于全面测试的通用语言功能和测试类型矩阵，以及用于快速生成大量不同测试案例的软件工具。本文通过测试三个任务说明了CheckList的实用性，鉴别出了商业模型和SOTA模型中的关键问题。例如，在用户研究中，负责商业化情绪分析模型的团队经过广泛的测试，发现了模型中新的可操作的错误。在另一项用户研究中，使用CheckList的NLP从业人员创建了两倍的测试用例，发现的错误几乎是没有使用它的三倍。

最佳论文荣誉提名：Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

论文链接：https://arxiv.org/abs/2006.06264

作者：墨尔本大学计算与信息系统学院

自动化指标是开发和评估机器翻译系统的基础。判断自动化度量标准是否与人类评估的黄金标准相一致不是一个简单的问题。本文表明，当前的指标评估方法对用于评估的翻译系统非常敏感，尤其是存在异常值时，这通常会导致对评价效果产生错误的自信判断。

最终，本文研究了成对系统排名方法，开发了一种在自动度量标准下以人为判断为阈值提高性能的方法，该方法可以量化所引起的I型错误与II型错误，即可以接受的人类评判质量差异，以及不能接受的人类评判差异。总之，这些发现对机器翻译中的度量评估和系统性能评估的协议进行了改进。

最佳论文荣誉提名：Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

论文链接：https://arxiv.org/abs/2004.10964

作者：西雅图Allen人工智能研究所、华盛顿大学Allen计算机科学与工程学院

对来源广泛的文本进行预训练的语言模型构建起了当今NLP的基础。由于这类模型的成功，本文研究了将预训练的模型定制为目标任务的领域是否仍然有帮助。本文提出了一项针对四个领域（生物医学和计算机科学出版物，新闻和评论）和八个分类任务的研究，结果表明在领域内进行预训练的第二阶段（域适应性预训练）可以在高和低两个计算资源条件下，提高模型的性能。此外，在进行域自适应的预训练之后，目标任务的未标记数据（任务自适应的预训练）也可以提高模型性能。

最后，本文表明，使用简单的数据选择策略是一种有效的用于扩充任务语料库的方法，尤其是在可能没有用于域自适应预训练时。总体而言，作者发现多阶段自适应预训练可大大提高任务性能。

推荐阅读

干货！仅有 100k 参数的高效显著性检测方法
阿里巴巴副总裁司罗：达摩院如何搭建NLP技术体系？
重磅！CSDN 发布「AI开源贡献奖Top5」「AI新锐公司奖Top10」「AI优秀案例奖Top30」三大榜单
马斯克、李彦宏、姚期智等云端纵论AI，他们都说了什么？
Python轻松搞定Excel中的20个常用操作
厉害！国内大学生计算机编程第一人，一人挑战一个队，百度最年轻 T10，现创业自动驾驶
Balancer因通缩代币STA遭遇闪电贷攻击，价值50万美元资产被黑

你点的每个“在看”，我都认真当成了AI

ACL最佳论文提出最新NLP模型测试方法，最佳论文提名也不可小觑相关推荐

Stanford NLP 解读 ACL 2018 论文——用于调试 NLP 模型的语义等价对立规则
Stanford NLP 解读 ACL 2018 论文--用于调试 NLP 模型的语义等价对立规则本文作者:王雪佩 2019-02-23 20:13 专题:ACL 2018 导语:新鲜出炉的论文解读 ...
谷歌的最新NLP模型，现在能陪你从诗词歌赋谈到人生哲学
继BERT之后,谷歌在NLP模型上又有大动作! 在今天的谷歌I/O大会上,一口气发布了2个新模型: LaMDA和MUM,均基于Transformer架构. LaMDA(对话应用程序的语言模型),相比B ...
一文详解Google最新NLP模型XLNet
本文介绍 XLNet 的基本原理,读者阅读前需要了解 BERT 等相关模型,不熟悉的读者建议学习 BERT 课程 [1]. 语言模型和BERT各自的优缺点排列(Permutation)语言模型 Tw ...
华人斩获最佳Demo论文，Bengio获时间检验奖，最佳论文突破NLP传统测试方法 | ACL 2020...
萧箫发自凹非寺量子位报道 | 公众号 QbitAI NLP领域顶会ACL 2020颁奖刚刚结束,今年的最佳论文奖也尘埃落定. 在昨天的议程中,共颁布了最佳论文奖.最佳Demo论文奖.最佳主题论 ...
NLP十大Baseline论文简述(一) - Word2vec
文章目录前言: 目录 1. Paper: 2.论文摘要: 3. 论文介绍: 4. 论文原理 4.1 CBOW模型: 4.2 Skip-gram模型: 4.3 降低复杂度 - Hierachical ...
不止最佳长论文，腾讯AI在ACL上还有这些NLP成果（附论文链接）
来源:授权自AI科技大本营(ID:rgznai100) 本文约4600字,建议阅读10分钟. 本文带你了解腾讯在今年的 ACL 会议上还有哪些研究论文被录取. [ 导读 ] 7 月 31 日晚,自然语 ...
从4篇最新论文详解NLP新范式——Continuous Prompt
©PaperWeekly 原创 · 作者 | 张一帆学校 | 中科院自动化所博士生研究方向 | 计算机视觉近几年,NLP 技术发展迅猛,特别是 BERT 的出现,开启了 NLP 领域新一轮的发展 ...
ICLR 2019最佳论文揭晓！NLP深度学习、神经网络压缩夺魁 | 技术头条
整理 | Linstansy 责编 | Jane 出品 | AI科技大本营(id:rgznai100) [导语]ICLR 是深度学习领域的顶级会议,素有深度学习顶会 "无冕之王" ...
最新Transformer模型大盘点，NLP学习必备，Google AI研究员出品丨资源
萧箫发自凹非寺量子位报道 | 公众号 QbitAI 可高效处理长文本的模型Longformer.和堪称"升级版"Transformer的BigBird模型,到底有什么区别? ...

ACL最佳论文提出最新NLP模型测试方法，最佳论文提名也不可小觑

ACL最佳论文提出最新NLP模型测试方法，最佳论文提名也不可小觑相关推荐

最新文章

热门文章