目前存在的问题:现实生活中的数据集的不平衡问题导致模型学出来的特征不平衡,多数类会主导特征空间。

动机:

提出一种新型的训练模式k-positive contrastive learning. 结合了监督方法和对比学习方法的优点,学习具有区别性和均衡性的特征。

之前的做法:

交叉熵损失:

CE损失训练的表示模型具有较强的语义识别能力,但其生成的特征空间容易因训练实例分布的不平衡而产生偏差,如果某些类的训练实例明显多于其他类,它们的数据表示将占据特征空间的主导部分

解释:

τ是温度超参数

vi+是i的正样本,通常是数据增强,

vi-是i的负样本,从训练样本中随机抽取。

具体步骤:

对于每一个batch中的每一个输入xi,都选取中选取和xi属于同一个类的k个正样本,在去拉近彼此之间的特征距离。

KCL损失函数:

解释:

从同一个类中提取k个实例组成正样本集V+i,

Vik+是同一个类的k个vi的集合

~vi是vi数据增强后的特征向量

不只使用数据增强的正样本

监督对比学习利用来自同一类的所有实例来构建正样本对,这无法避免在表示学习中多数的类的主导地位,而KCL损失有意识地保持正样本的数量相等,这对于平衡学习到的特征空间至关重要。它带来了两个好处。首先,它利用标签信息作为监督学习,有助于学习具有更强辨别能力的表示。其次,在正样本结构中对所有类使用相同数量的实例(即k),进一步平衡了学习到的特征空间

指标:

Balancedness of feature spaces

解释:

ai是指模型对class i检测的准确度。

σ是一个固定的缩放参数

当所有类的准确度都相等时,即学习到的表示对任何类没有可分性偏差时,该指标达到最大值,这个指标是为了提供特征空间的平衡性的定量度量,但它有一定的局限性

与FCL对比

FCL是对一个batch中xi与它的所有数据增强的正样本进行对比,这样虽然有时取的样本数比KCL多,但是因为采样的问题,多数类的样本数往往比少数类的样本数要多得多,因此,多数类训练的次数就比少数类的次数多很多,这样会导致训练出来的模型对各个类所产生的特征空间就很不平衡,而KCL避免这一点,无论样本数目多少,都和固定的正样本数进行对比学习,这样的话,可以避免长尾分布造成 的特征空间分布不均的问题。

EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)相关推荐

  1. Learning Deep Learning(学习深度学习)

    作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai 简书地址:https://www.jianshu.com/p/e98c5f61a6f2 Learning ...

  2. 【转载】Few-shot learning(少样本学习)和 Meta-learning(元学习)概述

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/weixin_37589575/arti ...

  3. 速看!deep learning(rnn、cnn)调参的经验

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|视觉算法 话说三人行,必有我师焉.有哪些deep lea ...

  4. Few-shot learning(少样本学习)和 Meta-learning(元学习)概述

    目录 (一)Few-shot learning(少样本学习) 1. 问题定义 2. 解决方法 2.1 数据增强和正则化 2.2 Meta-learning(元学习) (二)Meta-learning( ...

  5. 你有哪些 Deep learning(RNN、CNN)调参的经验?

    来自 | 知乎-hzwer,北京大学 https://www.zhihu.com/question/41631631/answer/859040970 编辑 | 机器学习算法与自然语言处理,Dataw ...

  6. 【Kaggle】Intermediate Machine Learning(XGBoost + Data Leakage)

    文章目录 6. XGBoost 7. Data Leakage 数据泄露 上一篇:[Kaggle]Intermediate Machine Learning(管道+交叉验证) 6. XGBoost 参 ...

  7. 【Kaggle】Intermediate Machine Learning(管道+交叉验证)

    文章目录 4. Pipelines 管道 5. Cross-Validation 交叉验证 上一篇:[Kaggle]Intermediate Machine Learning(缺失值+文字特征处理) ...

  8. Machine Learning(吴恩达) 学习笔记(一)

    Machine Learning(吴恩达) 学习笔记(一) 1.什么是机器学习? 2.监督学习 3.无监督学习 4.单变量线性回归 4.1代价函数 4.2 梯度下降 5.代码回顾 最近在听吴恩达老师的 ...

  9. 【机器学习】Few-shot learning(少样本学习)

    文章目录 少样本学习的诞生 元学习 少样本学习 少样本学习中的相关概念 概念1:Support set VS training set 概念2:Supervised learning VS few-s ...

  10. 【论文研读】Self-supervised、unsupervised learning (2020最新论文)

    目录 Are Labels Necessary for Neural Architecture Search Self-supervised Learning: Generative or Contr ...

最新文章

  1. ajax从mysql提取数据在html中_EXCEL混合内容中提取数据,其实很简单
  2. DevTools 实现原理与性能分析实战
  3. 机器学习(MACHINE LEARNING) 【周志华版-”西瓜书“-笔记】 DAY11-特征选择和稀疏学习
  4. 走出去广东谋定国际丰收节贸易会-林裕豪:从玉农业抓手
  5. shiro的内部体系结构
  6. [数据结构-严蔚敏版]P48栈的链式表示
  7. android 动态添加颜色,Android绘制一个三角形并且可动态改变颜色
  8. 小汤学编程之JDBC(一)——JDBC概述和快速入门
  9. Java虚拟机------垃圾收集器
  10. 【Elasticsearch】如何正确的关闭 重启 Elasticsearch集群
  11. C语言socket发送json,C++实现Socket传输json封装的Mat
  12. LeetCode(476)——数字的补数(JavaScript)
  13. PAT1030 Travel Plan (30)---DFS
  14. Eclipse 切换 SVN 地址
  15. WinPcap vs Npcap
  16. 详述 Redis 选择单线程模型的原因以及 I/O 多路复用
  17. 分布式技术原理(一):分布式的三围
  18. 告诉你为什么数据要取对数
  19. 网页视频倍数播放代码
  20. POJ2228 Naptime 【例题精讲】

热门文章

  1. nopCommerce 3.9 大波浪系列 之 汉化-Roxy Fileman
  2. 免费建站网站分享,最好的自助建站
  3. BAAF-Net源码阅读
  4. 一个关于Booth算法的文章
  5. AspNetPager分页控件之url重写
  6. 有哪些常用的虚拟主机管理系统
  7. 推荐一款2.5v 基准 电压源 芯片
  8. 轻松学会硬盘还原卡的安装和使用
  9. python 邮件分类_python_NLP实战之中文垃圾邮件分类
  10. 冒险岛2计算机内存不足建议使用,冒险岛2游戏设置详解 低配电脑如何流畅运行冒险岛2...