©PaperWeekly 原创 · 作者|张一帆

学校|华南理工大学本科生

研究方向|CV,Causality

论文标题:

Evaluating Models' Local Decision Boundaries via Contrast Sets

论文链接:

https://arxiv.org/abs/2004.02709

数据集:

https://allennlp.org/contrast-sets

Main Contribution:训练集与测试集 i.i.d 的假设使得模型很难泛化,文章提出了在原始测试集构建 contrast test set 的方法,可以真实的评估模型的语言能力。

Motivation

这里用了一个 toy example 和一个真实示例来表示作者想要提出并解决的问题。

Toy Example

考虑二维的情况,下图中的两分类问题需要一个非常复杂的 decision boundary。

但是在很多情况下,由于采样的 biased,我们很可能得到如下的数据集:

网络通过一个很简单的 decision boundary 就可以将它们分类,而由于训练测试数据集独立同分布,虽然这个 decision boundary 非常差,但它在测试集表现得非常好。理想情况下,如果我们完整采样整个数据集,所有问题都迎刃而解,但这显然是很难做到的。为了正确的测试模型的能力,作者提出了对测试集做 perturbation 的方法:对测试集的每一个实例,我们生成一系列与之类似的测试样本(Contrast Set:下图中的灰色圆圈)。

Complex NLP Task

我们很难用图把 NLP task 中存在的问题进行描述,但是有很多工作支撑了这一观点。比较有意思的示例为在 SNLI 数据集中,表明单词"睡觉","电视"和"猫"几乎从来没有同时出现数据中,但是它们经常出现在 contradiction 的例子中。所以 model 很容易的学到“同时出现'睡觉'和'猫'的句子都是 contradiction sentence,并且这一分类标准工作得很好”。

在初始数据收集过程中完全消除这些差距将是非常理想化的,在一个非常高维的空间中,语言有太多的可变性。相反,该文使用 Contrast Set 来填补测试数据中的空白,从而给出比原始数据提供的更全面的评估。

Contrast sets

假设我们现在为测试样本 构建 Contrast Set,有两个要点 (i) 构建样本距离与  小于某个阈值。(ii) Label 与 不一致。下图是在 NLVR2 数据集上的一些实例,在这里,句子和图像都通过一些很简单的方式进行修改(例如,通过改变句子中的一个词或找到一个相似但有区别的词),从而使输出标签发生变化。

我们需要注意,contrast set 和 adversarial examples 是不一样的,对抗样本的目的是对句子/图像做 perturbation,但是保持原标签不变。

不过文章中如何计算样本距离,阈值的确定,label 是否发生变化,都是由 expert 给出的。

How to Create Contrast Sets

作者用了三个数据集来展示 Contrast Sets 的构造过程。

DROP

DROP 是一个阅读理解数据集,旨在涵盖对段落中的数字进行组合推理,包括过滤、排序和计数,以及进行数值运算。数据主要来自 (i) Wikipedia (ii) 美国足球联赛的描述。(iii) 人口普查结果说明。(iv) 战争摘要。作者发现数据集中存在明显的 bias,比如一旦问题是"How many...",结果很多情况都是 2。关于事件顺序的问题通常遵循段落的线性顺序,而且大部分问题不需要理解。

作者从三个方面改进这个数据集:

  • 关于足球联赛的问题往往需要推理和比较(比如询问两场比赛得分的差值),但是其他类型的数据很少需要推理比较,因此作者为他们提供额外的需要推理比较的问题;

  • 将问题的部分语义颠倒,类似于 shortest 变为 longest, later 变为 earlier, How many countries 变为 which countries 等等;

  • 改变事件发生的顺序,使得与事件顺序相关的问题推理难度增加。

NLVR2

给模型一对图像与一个句子,判断这句话正确与否。这个数据集的特点在于 compositional reasoning,我们需要模型理解图像中的物体的属性,物体与物体的关系,物体与场景的关系。

我们通过修改句子或用网络搜索中获得自由许可的图片替换其中一张图片来构建 NLVR2 的 Contrast Set。

比如将句子"The leftimage contains twice the number of dogs as theright image"改为“The left image containsthree timesthe number of dogs as the right image”。或者对一个图像对,将原本 4 条狗的图像换成其他数目。也可以对一些量词比如"at least one"改为"exactly one",或者实体"dogs"改为"cats",或者属性"yellow"改为“red”。

UD  Parsing 

这是一个 dependency parsing 的数据集。作者想要通过这个数据集证明 Contrast set 不仅在 high-level 的 NLP 任务中有效,也在语义分析的任务中有效。具体方法可以查看原文。

可以看到,再加上 Contrast Set 之后,SOTA models 的性能都有了显著的下降。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

EMNLP 2020 | 通过Contrast Set评估模型的局部决策边界相关推荐

  1. ML之mlxtend:基于iris鸢尾花数据集利用逻辑回归LoR/随机森林RF/支持向量机SVM/集成学习算法结合mlxtend库实现模型可解释性(决策边界可视化)

    ML之mlxtend:基于iris鸢尾花数据集利用逻辑回归LoR/随机森林RF/支持向量机SVM/集成学习算法结合mlxtend库实现模型可解释性(决策边界可视化) 目录 相关文章 ML之mlxten ...

  2. 速览EMNLP 2020上录取的知识图谱相关论文

    文 | 泽宇 源 | 知乎 前不久,自然语言处理领域三大顶会之一的 EMNLP 2020 发布了论文录取的结果.在EMNLP 2020论文正式出版之前,泽宇搜集了目前Arxiv上已经发布出来的录取在E ...

  3. 2021年全球公有云终端用户支出将增长18% ;EMNLP 2020最佳论文:无声语音的数字发声...

    开发者社区技术周刊又和大家见面了,让我们一起看看,过去一周有哪些值得我们开发者关注的重要新闻吧. 2020 了,最流行的密码依旧是 123456 Chrome 87 发布,获多年来最大性能提升 Gar ...

  4. EMNLP 2020论文分析:知识图谱增强语言模型或是未来的发展趋势!

    在EMNLP 2020的论文投递中,知识图谱的研究热度不减,并成为继续推动NLP发展的重要动力之一. 在EMNLP 2020中,知识图谱领域有了哪些最新研究进展呢?作者从中选出了30篇文章,对未来2- ...

  5. 就算是戴上口罩,AI也知道你在说什么丨EMNLP 2020最佳论文

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 吃饭的时候,想要和对面聊聊天,然而周遭嘈杂的声音,让你根本不知道ta在说什么? 又或者,想与听障人士交流,然而对方听不见你的声音? 现在,检 ...

  6. 拯救“没常识”的GPT-3得靠它了,交大ACM班校友提出“Voken” 无监督学习 | EMNLP 2020...

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 纵使地表最强语言模型GPT-3学习了30亿个单词的英文维基百科,但是依然会犯低级错误. 如果你问它:太阳有几只眼睛? GPT-3会说&qu ...

  7. EMNLP 2020 | 基于Wasserstein距离的正则化序列表示

    ©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 论文标题: Wasserstein Distance Regularized Sequence Repre ...

  8. 本周阅读清单:从NeurIPS 2020到EMNLP 2020

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考.在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果.如果你也希望让自己的科研成果被更多人看到, ...

  9. 直播 | EMNLP 2020:用语义分割的思路解决不完整话语重写任务

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

最新文章

  1. 前端之css基础学习(更正版)
  2. linux操作系统2试题,RedHat Linux 9.0 操作系统测试题2
  3. ORB-SLAM2 窗口显示Viewer线程
  4. Bookmarks 各种技术 参考
  5. manjaro 安装搜狗拼音输入法
  6. 30A的MOS现在价格都下探到1块了,为什么你还在用继电器?
  7. 如何将照片设置为手机墙纸/桌面
  8. LPC1768 IAR环境下使用完整64K内存的方法_整理
  9. ubuntu 中安装 meld 的方式
  10. 视频系统 流媒体 rtsp hls h264 h265 aac 高并发 低延时 系统 设计 录像 视频合成 转发 点播 快进 快退 单步播放 分布式集群
  11. 【Excel】数据透视表—新增一列(字段)
  12. Qt解析XML相关(QDom方式)
  13. 分布、描述性统计和贡献度分析
  14. 大厂php笔试题,【大厂必备】2020超经典PHP面试题
  15. 杉德支付php代码实现_杉德ecshop,thinkphp,shopnc在线支付接口,支付插件(payment plugin含源码)...
  16. uniapp 使用sqlite存储聊天记录篇
  17. termux使用教程python-利用Termux超级终端在手机上运行Python开发环境
  18. 为何现在有的企业一般只招应届毕业生呢?
  19. 比较基因组学常用分析软件和分析方法
  20. excel 表格身份证校验和手机号校验 公式

热门文章

  1. mysql5.5源码包安装_mysql的源码包方式安装(mysql5.5)
  2. shell中获取本机ip地址
  3. jzoj100029. 【NOIP2017提高A组模拟7.8】陪审团(贪心,排序)
  4. ES6——class
  5. ActionBar设置自定义setCustomView()留有空白的问题
  6. Linux:如何获取打开文件和文件描述符数量
  7. HDU-2102 A计划 dfs
  8. Bootstrap初学(一)
  9. redhat linux 5.6安装图解
  10. 炸弹人游戏开发系列(6):实现碰撞检测,设置移动步长