Title: 《Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere》
Author:Tongzhou Wang ; Phillip Isola

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere​arxiv.org

简要

  • 文章指出了Contrastive representation learning的两个重要属性:

    • Alignment: two samples forming a positive pair should be mapped to nearby features, and thus be (mostly) invariant to unneeded noise factors.
    • Uniformity: feature vectors should be roughly uniformly distributed on the unit hypersphere, pre-serving as much information of the data as possible.
  • 作者证明了现有的一些对比学习的算法正是较好地满足了这两条性质才取得了不错的效果。
  • 作者提出了一个可优化的 metric 来直接量化这两条属性。通过直接优化该loss,也取得了较好的效果。

  • 对应的损失函数的两部分如公式1和公式2所示。
      (公式1)
      (公式2)
  • Pytorch的实现如下图所示。

  • 具体的实验见paper。

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher

1. 论文思路

提出了contrastive loss 的两种性质:
(1)alignment 用来衡量正例对样本间的近似程度。 (2)uniformity 衡量规整后的特征在unit 超球体上的分布的均匀性。
并提出了衡量两种性质的评价指标,并且优化这两个指标的训练学到的特征在下游任务上表现更好。

2. 两种特征的解释


Q1 让特征分布在unit hypersphere的好处是?
(1)固定范数的向量提升训练的稳定性;(2)如果一个类别的特征能被比较好的聚类,那么在整个特征空间上这个类别是更容易被线性可分的。

Q2 两个性质的目标:
(1)alignment 让相同的样本的特征尽可能相似 (2)Uniformity使得特征的分布保持尽可能多的信息。


contrastive learning 学到的特征既有aligned(正例对距离较近)又有uniform( 特征均匀分布)的特性。
从contrastive loss 计算上理解

最小化第一项意味着使得正例的距离尽可能近(alignment),特殊情况假设perfectly aligned, P [ f ( x ) = f ( y ) ] = 1 P[f(x)=f(y)]=1P[f(x)=f(y)]=1,那么最小化loss等价于最小化第二项,即使得样本中数据尽可能分散(uniformity)

3. 量化 Alignment 和 Uniformity

L u n i f o r m L_{uniform}Luniform​相比于contrast loss 好在: pushes the log outside the outer expectation, without changing the minimizer
形式更简单,且不需要做softmax 计算。

4. 实验验证

*验证两个 metric和下游任务的表现关系

L a l i g n L_{align}Lalign​和L u n i f o r m L_{uniform}Luniform​越小,相应的下游任务的acc 和mse 的效果最好。

  • 两者权重的优化

    两个metrics 对于一个好的特征表示都是必要的,只要两者权重的比例不大于4,效果都是不错的。

  • 优化这两个metrics 下游任务表现更好

  • 和contrastive loss 进一步对比


    在下游任务的总体表现较好,并不总是比contrastive loss 要好。

ICML 2020: 从Alignment 和 Uniformity的角度理解对比表征学习相关推荐

  1. ICML 2020 | 基于类别描述的文本分类模型

    论文标题: Description Based Text Classification with Reinforcement Learning 论文作者: Duo Chai, Wei Wu, Qing ...

  2. 【时间序列】ICML 2020 时间序列相关论文总结(附原文源码)

    ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会.ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国 ...

  3. ICML 2020论文贡献榜排名出炉:Google单挑斯坦福、MIT、伯克利;清华进TOP 20

    来源:新智元 本文约2800字,建议阅读6分钟. ICML 2020论文贡献榜排名出炉,斯坦福则获高校第一.国内高校.企业上榜. [ 导读 ] ICML 2020论文贡献榜排名出炉,Google在众多 ...

  4. 清华大四本科生2篇一作论文入选ICML 2020,后浪果然翻涌

    白交 发自 凹非寺  量子位 报道 | 公众号 QbitAI ICML 2020放榜了. 入选论文创新高,共有1088篇论文突出重围. 然而,接收率却是一年比一年低,这次仅为21.8%(去年为22.6 ...

  5. 打开深度神经网络黑箱:竟是模块化的?图聚类算法解密权重结构 | ICML 2020

    十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 深度神经网络这个黑箱子,似乎有了更清晰的轮廓. 我们都知道深度神经网络性能十分强大,但具体效果为什么这么好,权重为什么要这么分配,可能连&q ...

  6. ICML 2020 | Google提出最强生成式摘要预训练模型——天马

    ©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|QA 论文标题:PEGASUS: Pre-training with Extracted Gap-sentences f ...

  7. 阿里 AI 研究成果入选国际顶会 ICML 2020,AI 推理速度提升 3 倍

    近日,人工智能国际顶会ICML 2020公布了论文收录结果,阿里巴巴7篇论文入选,是入选论文数量最多的中国科技公司.ICML是机器学习领域全球最具影响力的学术会议之一,今年接受率仅为21.8%. 根据 ...

  8. ICML 2020 | GCNII:简单和深度图卷积网络

    目录 前言 1. 基础知识 1.1 Vanilla GCN 1.2 APPNP 1.3 JKNet 1.4 DropEdge 2. GCNII 2.1 初始残差连接 2.2 恒等映射 3. 实验 3. ...

  9. 清北超越剑桥,谷歌全球霸榜,百度领衔中国公司,ICML 2020论文数排名公布

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI领域,谁能跻身前列? 就在刚刚,ICML 2020论文数排名统计出炉. 今年ICML论文接收率为21.8%,相较于去年基本持平. 而在今 ...

最新文章

  1. linux下的汇编环境搭建(nasm)
  2. laravel翻看php日志,关于Laravel的日志用法
  3. 易语言写c盘配置文件,易语言写配置文件的方法
  4. 前端lvs访问多台nginx代理服务时出现404错误的处理
  5. 华为nova 5全新外观曝光:水滴全面屏设计 边框下巴极窄
  6. 20190814 On Java8 第四章 运算符
  7. 2018.08.02 权限管理 笔记
  8. php 谈谈我对session, cookies和jwt的理解
  9. Python单元测试框架之pytest 1 ---如何执行测试用例
  10. 苹果iPad在使用蓝牙键盘时,无法使用五笔输入法
  11. 大学物理公式和名词整理
  12. 【模电】0013 反馈放大电路基础
  13. php微信昵称保存,附件十四 存储微信昵称的处理方法
  14. 2019 年中国搜索引擎市场份额排行榜
  15. c语言程序设计21点扑克牌,C语言程序设计-21点扑克牌游戏.pdf
  16. mvvm与virtual dom算法的实践——“hoz”
  17. 华为新版Datacom认证介绍
  18. 算法——0~1之间浮点实数的二进制表示
  19. 请求接口参数正确请求失败的问题
  20. javaWeb期末复习实验专题

热门文章

  1. iphone降级_iOS 14升级体验与问题总结,附降级教程
  2. Java如何拼接字符串
  3. 定义一个有参宏判断一个字符是否在0~9之间
  4. 一九四六年首台电子计算机,2012年计算机一级MsOffice第四十九套练习题及答案解析...
  5. 如何衡量RFID技术在仓库中的价值?
  6. Java并发,volatile+不可变容器对象能保证线程安全么?!
  7. 10个方法让程序员更加优秀
  8. 六、OpenStack配置计算结点
  9. C语言运算符优先级-----从没像现在这样深刻体会
  10. 九.redis学习笔记之虚拟内存