每天给你送来NLP技术干货!


作者 | 对白

整理 | 对白的算法屋

编者寄语:

这可能是面试中被问到对比学习时最常考的点了。

最近在知乎上看到这样一个问题:基于对比学习(Contrastive Learning)的文本表示模型为什么能学到语义相似度?

这个问题还比较的新颖,回答的人数不超过5个,而这个问题也问得非常好,我直拍大腿,他肯定是一位精通技术的面试官,所以就连我也没有立刻回答上来。

于是,我匆忙翻出了自己的笔记本,哆哆嗦嗦地开始整理着。在一番总结与思考后,我羞涩的写下了自己人生中第一个技术回答(我的第一次QAQ),哈哈开玩笑,那让我们看一下这个问题怎样回答才能征服这位面试官吧。

写在前面

有监督训练的典型问题,就是标注数据是有限的。

目前NLP领域的经验,自监督预训练使用的数据量越大,模型越复杂,那么模型能够吸收的知识越多,对下游任务效果来说越好。这可能是自从Bert出现以来,一再被反复证明。

所以对比学习的出现,是图像领域为了解决“在没有更大标注数据集的情况下,如何采用自监督预训练模式,来从中吸取图像本身的先验知识分布,得到一个预训练的模型”

对比学习是自监督学习的一种,也就是说,不依赖标注数据,要从无标注图像中自己学习知识。

目前,对比学习貌似处于“无明确定义、有指导原则”的状态,它的指导原则是:通过自动构造相似实例和不相似实例,要求习得一个表示学习模型,通过这个模型,使得相似的实例在投影空间中比较接近,而不相似的实例在投影空间中距离比较远。

为什么对比学习能学到很好的语义相似度?

因为对比学习的目标就是要从数据中学习到一个优质的语义表示空间

众所周知,直接用BERT句向量做无监督语义相似度计算效果会很差,这个问题还没搞清楚的可以看我的这篇回答:BERT模型可以使用无监督的方法做文本相似度任务吗?

前不久的BERT-flow通过normalizing flow将向量分布映射到规整的高斯分布上,更近一点的BERT-whitening对向量分布做了PCA降维消除冗余信息,但是标准化流的表达能力太差,而白化操作又没法解决非线性的问题,有更好的方法提升表示空间的质量吗?正好,对比学习的目标之一就是学习到分布均匀的向量表示,因此我们可以借助对比学习间接达到规整表示空间的效果。

那么如何评价这个表示空间的质量呢?Wang and Isola (2020)提出了衡量对比学习质量的两个指标:AlignmentUniformity:

  • Alignment计算xi和xi+的平均距离;

  • 而Uniformity计算向量整体分布的均匀程度。

我们希望这两个指标都尽可能低,也就是一方面希望正样本要挨得足够近,另一方面语义向量要尽可能地均匀分布在超球面上,因为均匀分布信息熵最高,分布越均匀则保留的信息越多。于是通过对比学习获得的语义向量,自然而然效果就更好了。

“拉近正样本,推开负样本”实际上就是在优化这两个指标。

下面来看一下语义相似度SOTA模型SimCSE,由陈丹琦发布,它将对比学习的思想引入到sentence embedding中,大幅刷新了有监督和无监督语义匹配SOTA,更让人惊叹的是,无监督SimCSE的表现在STS基准任务上甚至超越了包括SBERT在内的所有有监督模型。

另外一位网友知乎@小莲子的回答也很不错,他的思路比较逆向,希望对大家有另外一番启发。

作者:小莲子@知乎

链接:https://www.zhihu.com/question/480187938/answer/2103245373

我最近在做对比学习相关的实践,折腾了好久,调来调去效果一般,甚是烦躁。以下主要是一些个人的体会,思路会比较逆向。

回答这个问题,要从语义相似度计算的一般范式说起。计算句子A和句子B的语义相似度,通常来说,基于交互的方案结果更准确:

如果一共有N个句子,那么就需要进行 N × (N-1) 次相似度计算。在绝大多数的工程落地场景中,这样的计算开销都是无法被接受的。因此,建模只能转向基于表示的“两步走”方案:

每个输入句子,先要经过一个编码器进行量化,再由一个轻量级的判定模块进行相似度输出。这样设计的好处是,偏“重”的编码部分可以离线计算并缓存结果,只需计算 N 次。相似度判定部分,虽然仍是 N × (N-1) 次计算,但采用的是余弦等非神经网络的形式,即使放在线上实时进行也可以承受。

这样“前重后轻”的结构,缺乏两个句子间的深度交互。前置神经网络在编码时,无法提前获知当前句子将和什么样的目标句子做比较,难以判断语义建模的重点是在哪个文本片段。比如,以下是 SemEval-2016 的一组标题:

A: Mandela's condition has 'improved'(曼德拉的状态有所好转)
B: Mandela's condition has 'worsened over past 48 hours'(曼德拉在过去48小时每况愈下)

单看 A 句,如果编码器将句子抽象为“曼德拉的状况波动”,似乎也可以接受,但是结合 B 句一起看,就出现了严重的信息取舍错误。

总结来说,由于使用了不可学习的余弦相似度作为度量,并且完全去除了编码部分的交互耦合,基于表示的方案无法进行 task-specific 式的模型学习。语义相似度的求解,转换成了一个单纯的特征映射过程:编码器提取输入句子的语义信息,再将它投影到向量空间中。‘

这有点像传统机器学习领域的问题。在理想情况下,所有句子在该空间的分布,应当满足 alignment 和 uniformity。即,语义相似的句子彼此聚集,语义无关的句子均匀分布。

为了达成这一目标,模型需要尽可能多地提前认识各种各样的数据。鉴于训练数据不好找,只能自行构造,于是诞生了“自监督训练”,“对比学习”也是其中的一种形式。这套流程最早是从计算机视觉里来的,用于图像向量化:

通过人为进行数据增强,让模型抵抗表层噪声,聚焦核心信息。回到 NLP 里,也有类似方法:

自监督通常主要有两类,一种是生成式,比如经典的 Mask-LM;一种是这里用的分类式。对于某个句子 X,按照上述流程构建“正例对”(X,X'),从 batch 里随机一个其他句子构建“负例对”(X,Y)。如此一来,便可以批量生产训练数据。

我自己在实践的时候,起初比较偷懒,就是这样直接处理的。正例对的相似度为1,负例对的相似度为0。但是,学习效果很差,和以往单句场景的经验完全不一致。我猜测,真正的标注训练数据相比,构造而成的“伪样本对”有两个隐患:

1. 针对性不强:正样本由数据增强生成,丰富度有限;负样本随机配对,暗含[任意组合都输出0]的错误诱导;

2. 标签不准确:没有经过人工校对,正样本的相似度未必就是1,很有可能只有0.5或者干脆就完全相反;负样本也极有可能随机到语义相似的句子;

因此,需要明确分类标签的交叉熵,就不适合作为相似度自监督任务的损失函数。我们需要一种更宽松的约束条件,来达成更准确的学习目标。对比学习正是如此,它的核心诉求是:

配套的损失函数,有点像排序问题,是一个多路的softmax交叉熵,称为 InfoNCE。假设有1个正例组合(X,X')和N个负例组合(X,Y):

在 loss->0的时候,log内部->1,分子和分母互相逼近,由于含有共同的部分(X,X'),会让正例得分越来越大,负例越来越小,从而拉开彼此的差距。也就是常说的“正例拉近,负例推远”,正好契合语义特征空间 alignment 和 uniformity 的目标。

现在,不知道大家是否知道正确答案了,有不懂得可以留言哦。

我是你们的对白,我们一起加油!


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

基于对比学习(Contrastive Learning)的文本表示模型为什么能学到语义相似度?相关推荐

  1. 从对比学习(Contrastive Learning)到对比聚类(Contrastive Clustering)

    从对比学习(Contrastive Learning)到对比聚类(Contrastive Clustering) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailug ...

  2. 对比学习Contrastive Learning

    对比学习是一种常用的自监督学习方法. 核心思想:把正样本距离拉近,正样本与负样本距离拉远.(类似度量学习中的margin, 但是对比学习为正负样本分类,无margin概念) 方式:通过一个正样本,以及 ...

  3. 理解对比表示学习(Contrastive Learning)

    目录 一.前言 二.对比学习 三.主要论文(附代码分析) 1. AMDIM ([Bachman](https://arxiv.org/pdf/1906.00910.pdf) *et al.* 2019 ...

  4. AAAI 2022 | 北大 阿里达摩院:基于对比学习的预训练语言模型剪枝压缩

    近年来,预训练语言模型迅速发展,模型参数量也不断增加.为了提高模型效率,各种各样的模型压缩方法被提出,其中就包括模型剪枝. 然而,现有的模型剪枝方法大多只聚焦于保留任务相关知识,而忽略了任务无关的通用 ...

  5. NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法

    ©PaperWeekly 原创 · 作者 | 李婧蕾 学校 | 北京邮电大学硕士生 研究方向 | 自然语言处理 Abstract 无监督聚类的目的是根据在表示空间中的距离发现数据的语义类别.然而,在学 ...

  6. ECCV 2022 | 浙大快手提出CoText:基于对比学习和多信息表征的端到端视频OCR模型...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文是对快手和浙大联合研 ...

  7. ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力

    ©作者 | 牟宇滔 单位 | 北京邮电大学 研究方向 | 自然语言理解 论文标题: A Contrastive Framework for Learning Sentence Representati ...

  8. #今日论文推荐#ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力

    #今日论文推荐#ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力 聚焦的问题:近年来基于对比学习的句子表示学习研究取得了较大的进展,但是大多数方法都只关注如何挑选对比学 ...

  9. ACL 2021 | ConSERT:基于对比学习的句子语义表示迁移框架

    ©PaperWeekly 原创 · 作者 | 张琨 学校 | 中国科学技术大学博士生 研究方向 | 自然语言处理 Motivation 从 BERT,GPT 被提出来之后,自然语言处理领域相关研究进入 ...

  10. AAAI 2021 | 基于对比学习的聚类工作

    ©PaperWeekly 原创 · 作者|李云帆 学校|四川大学博士生 研究方向|聚类,无监督表示学习 论文标题: Contrastive Clustering 论文来源: AAAI 2021 论文链 ...

最新文章

  1. MyBatis入门示例
  2. 全家竟然都迷陕西卫视的《关东男人》
  3. JavaScript 二进制的 AST
  4. android中 onResume()方法什么时候执行 ??(转)
  5. Android应用程序的组成部分和Manifest文件(转)
  6. 职场人必备的几个PPT进阶小技巧
  7. 零基础零代码,也能一周学会动态报表?这个方法很多人都不知道
  8. Magento教程 14:如何在Magento设定多货币
  9. Laravel核心解读--Database(三) 模型CRUD
  10. linux机器不能上网,Deepin Linux 无法上网
  11. Android Studio添加android.support.v4包的依赖(解决V4的FragmentManager的错误)
  12. 7-15 求组合数 (15 分)
  13. tp5 生成二维码并与背景图合并
  14. ectouch之文件结构
  15. 我为什么要弃医从(码)农
  16. ubuntu截图快捷方式
  17. java 表格识别_OpenCV3 识别图中表格-JAVA 实现
  18. 如何看hbo_哪些设备支持HBO Max? Roku和Amazon Fire TV不要
  19. 读书笔记 | 4.2 通用信用评分:应用与发展
  20. [C]二维数组的初始化规则

热门文章

  1. 结构体学习笔记6——结构体嵌套
  2. Spark on YARN的部署
  3. C#中 ?? 的用法
  4. (翻译)《介绍 GENEVA Beta 1 白皮书》(3)
  5. 20172315 2018-2019-1《程序设计与数据结构》课程总结
  6. python学习之多线程多进程
  7. HttpMessageConvert
  8. C#读取 *.exe.config
  9. 分享提高php编程效率的方法
  10. linux vi 编辑命令