©作者 | 牟宇滔

单位 | 北京邮电大学

研究方向 | 自然语言理解

论文标题:

A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space

文章来源:

ACL 2022

文章链接:

https://aclanthology.org/2022.acl-long.336/

Overview

聚焦的问题:近年来基于对比学习的句子表示学习研究取得了较大的进展,但是大多数方法都只关注如何挑选对比学习的正负样本对,而几乎没有人去关注对比学习目标函数本身。实际上,大家普遍使用的 NT-Xent 对比损失存在两个问题:1)判别能力不强,易受到噪声数据干扰;2)无法建模多个句子间的语义顺序。

▲ 这里展示了三个不同句子的表示可视化,不同颜色代表不同句子,每个句子经过BERT模型多次不同的dropout,因此表征具有一定的随机性(dropout可以看成一种噪声)。可以看出SimCSE得到的表征Sb和Sc不能很好地区分开。此外,我们可以看出Sa应该与Sb语义更相近,与Sc语义相对更远,这种关系没能建模。

提出的方法:本文提出一种 ArcSCE 方法,基本思想是将之前在欧氏空间中进行操作的 NT-Xent 目标函数转换到角度空间中,目的是强化成对判别性特征,并建模句子间的语义顺序关系。

Method

ArcCSE 框架分为两个部分,一是成对判别性建模;二是三元语义顺序建模。分别设计了两个对比学习损失函数进行联合优化。

▲ ArcCSE框架。对于左边的成对相似性建模,与SimCSE做法相同,都是将每句话dropout两次过编码器;对于右边的三元语义顺序建模,不做dropout操作,而是将同一句话mask两次,构造三元组。

2.1 Angular Margin based Contrastive Learning

这个模块的目的与 SimCSE 相同,都是为了让正样本拉近,负样本拉远,其中正样本是 dropout 增强的样本,负样本是 batch 内其他样本。如果像 SimCSE 一样使用如下传统的 NT-Xent 目标函数:

▲ 两个表征的相似性用余弦相似度计算

作者认为这样目标函数判别能力不够出色,并且容易受到噪声数据的影响。为了更好地理解这两个问题,我们可以做一个数学变换,将余弦相似度(欧氏空间度量指标)转换为角度(角度空间度量指标)。

▲ 将余弦相似度转换为角度,余弦相似度越大,角度越小

这样一来,我们就可以画出 NT-Xent 函数的判别边界如下:

▲ 这个图其实说明的是对于每个anchor,正样本和负样本的相似性度量之间的关系。橙色区域是优化的方向。

对于传统的 NT-Xent 目标函数,由于缺乏一个较大的决策 margin,因此决策边缘微小的扰动都可能错误决策。为了克服这个问题,作者提出了一个新的目标,即通过增加一个角度 margin 来得到更鲁棒的句子表示,新目标函数如下:

2.2 Modeling Entailment Relation of Triplet Sentences

为了让模型能够学习到多个句子间的语义相似性顺序关系,作者提出了一个新的预训练任务,建模三元句子对的蕴含关系。首先,通过对一句话按不同的 mask 比例做两次 mask,得到三元组句子对。

▲ 通过不同mask比例显示构造这三句话的语义顺序

然后用如下三元损失函数进行训练:

Experiments

3.1 主实验

本文聚焦的是句子表示学习,因此在两种句子相关的任务上进行了评估:一是 STS(文本语义相似性评估),二是 SentEval Transfer Tasks(将本文方法得到的句子表示用于各种下游任务中)。

▲ 在各种STS数据集上进行评估

▲ 将学习到的句子表示用于各种下游任务中

3.2 Alignment and Uniformity Analysis

对比学习有两个重要性质,Alignment 指的是希望相似实例能够产生尽可能相近的表征,Uniformity 指的是希望表征分布尽可能均匀,有利于保留最大的信息量。

作者在训练过程中每 10 个 epoch 计算一次两个指标,结果如下图所示。可以看出相比于 SimCSE,ArcCSE 可以得到更好的 alignment 性质,和相当的 uniformity 性质。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力相关推荐

  1. #今日论文推荐#ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力

    #今日论文推荐#ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力 聚焦的问题:近年来基于对比学习的句子表示学习研究取得了较大的进展,但是大多数方法都只关注如何挑选对比学 ...

  2. 直播预告 | AAAI 2022论文解读:基于对比学习的预训练语言模型剪枝压缩

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  3. 引入对抗训练的对比学习

    目录 一.Simple Contrastive Representation Adversarial Learning for NLP Tasks 1.1 浅谈对抗 1.2 有监督对比对抗学习 1.3 ...

  4. ESimCSE:无监督句子表示对比学习的增强样本构建方法

    作者 | 高超尘 来源 | 开放知识图谱 论文标题: ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsu ...

  5. 【文献阅读】用对比学习做弱监督语义分割(Sung-Hoon Yoon等人,ArXiv,2021)

    一.背景 文章题目:<Exploring Pixel-level Self-supervision for Weakly Supervised Semantic Segmentation> ...

  6. Robert+Prompt+对比学习+对抗训练文本分类

    基于Robert的文本分类任务,在此基础上考虑融合对比学习.Prompt和对抗训练来提升模型的文本分类能力,我本地有SST-2数据集的train.txt.dev.txt两个文件,每个文件包含文本内容和 ...

  7. ICLR 2022:​PiCO,基于对比消歧的偏标签学习 丨AI Drive

    偏标签学习 (Partial Label Learning, PLL) 是一个经典的弱监督学习问题,它允许每个训练样本关联一个候选的标签集合,适用于许多具有标签不确定性和歧义的的现实世界数据标注场景. ...

  8. AAAI 2022 | 北大 阿里达摩院:基于对比学习的预训练语言模型剪枝压缩

    近年来,预训练语言模型迅速发展,模型参数量也不断增加.为了提高模型效率,各种各样的模型压缩方法被提出,其中就包括模型剪枝. 然而,现有的模型剪枝方法大多只聚焦于保留任务相关知识,而忽略了任务无关的通用 ...

  9. ACL 2022录用结果出炉:国内多支团队晒“战绩”,清华一实验组18篇入选

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 大数据文摘转载自数据实战派 2月24日,第 60届国际计算语言学协会 ...

最新文章

  1. c++ -DNDEBUG openMP优化
  2. 破解phpstorm,webstorm ,pycharm ,intellij IDEA
  3. spring配置文件_SpringBoot入门建站全系列(二十三)配置文件优先级及自定义配置文件...
  4. python学习第十节(yield表达式的应用+内置函数)
  5. 「后端小伙伴来学前端了」Vue中 this.$set的用法 | 可用于修改对象中数组的某一个对象、 可用于更新数据到视图
  6. 表头合并_多个Excel表格合并数据麻烦?试试Power Query轻松帮你解决
  7. cookie、Session、Token、sessionStorage、localStorage简介__Token放在 cookie, sessionStorage 和 localStorage中区别
  8. Java 网络实例二(查看主机指定文件的最后修改时间、Socket实现多线程服务器程序、Socket连接到指定主机、网页抓取)
  9. Alyona and copybooks
  10. 启动开源项目 XDD
  11. 软件测试基础知识整理
  12. 形容词和指示代词-this、that、thses、those_31
  13. GPS 入门 7 —— GPS定位、LSB基站定位、wifi定位区别
  14. 开发人员新常态:和云原生相爱相杀
  15. ISO26262解析(四)——FMEDA
  16. Netty学习开发之路
  17. H265封装成RTP流(一)
  18. Fiddler修改请求、响应数据
  19. 蓝桥杯单片机关闭蜂鸣器、继电器LED及数码管
  20. UnityRectTranform属性设置方法

热门文章

  1. 因果推断合集-12(因果推断在哈啰出行的实践探索)
  2. 三个自定义图标设置,让你的iPhone可爱亿点点!
  3. Metronic+angular8 1. 学习—如何在angular8项目中嵌入Metronic
  4. 基础30讲 线性代数第1讲 行列式
  5. 信息安全技术 个人信息安全影响评估指南
  6. vue springboot 会员收银系统
  7. 清华大学计算机系2016考研分数线,清华大学2016年研究生复试分数线汇总
  8. 奇数位于偶数之前:调整数组顺序使得奇数位于偶数之前。调整之后,不关心大小顺序。 如数组:[1,2,3,4,5,6] 调整后可能是:[1, 5, 3, 4, 2, 6]
  9. c语言程序设计0039大作业答案,西南大学20年12月[0039]C语言程序设计课程大作业参考...
  10. jsp页面跳转302