Unsupervised Feature Learning via Non-Parametric Instance Discrimination

  • 链接: https://arxiv.org/abs/1805.01978v1
  • 解释链接: https://blog.csdn.net/qq_16936725/article/details/51147767

本文提出了一种视觉特征的无监督学习算法, 这种方法能够学习到实例间的相似性和差异性. 首先利用卷积网络进行特征学习, 再通过非参数的 Softmax 变换, 将一个图片转换成一个特征表示.

相关的工作

在特征之间可以定义一种度量, 特征学习可以视为某种度量学习, 这方面有许多的研究 [15, 33], 本文将利用度量学习中的正则化方法 [35, 22, 43]. Exemplar CNN [5] 与本文的工作有相似之处, 但最重要的区别是这个方法需要一种参数范式, 而本文的方法是非参数的.

方法

按照传统的卷积网络分类器设计思路, 要进行实例级别的分类任务, 对每一个样本都需要一个权重向量 w\mathbf{w}w , 样本属于某一类的概率为
P(i∣v)=exp⁡(wiTv)∑j=1nexp⁡(wjTv),P(i | \mathbf{v})=\frac{\exp \left(\mathbf{w}_{i}^{T} \mathbf{v}\right)}{\sum_{j=1}^{n} \exp \left(\mathbf{w}_{j}^{T} \mathbf{v}\right)}, P(iv)=j=1nexp(wjTv)exp(wiTv),
其中 v\mathbf{v}v 是卷积网络输出的特征表示. iii 是预测类别(实例级). 参数 w\mathbf{w}w 是需要优化的, 然而 w\mathbf{w}w 做为分类(大类)原型, 不能做到实例间的区分. 本文将每一个样本做为一个类别, 实现实例级别的判别, 主要的改进如下:
P(i∣v)=exp⁡(viTv/τ)∑j=1nexp⁡(vjTv/τ),P(i | \mathbf{v})=\frac{\exp \left(\mathbf{v}_{i}^{T} \mathbf{v} / \tau\right)}{\sum_{j=1}^{n} \exp \left(\mathbf{v}_{j}^{T} \mathbf{v} / \tau\right)}, P(iv)=j=1nexp(vjTv/τ)exp(viTv/τ),
其中 τ\tauτ 是一个超参数, 用来调整类别分布的集中程度. 这是一种非参数的 softmax 分类器, 大大减少参数的数目.

然而当样本数很多时, 计算量是非常大的. 为了避免计算 P(i∣v)P(i | \mathbf{v})P(iv), 于是本文将使用 NCE [9] 方法来进行参数估计.
h(i,v):=P(D=1∣i,v)=P(i∣v)P(i∣v)+mPn(i).h(i, \mathbf{v}):=P(D=1 | i, \mathbf{v})=\frac{P(i | \mathbf{v})}{P(i | \mathbf{v})+m P_{n}(i)}. h(i,v):=P(D=1i,v)=P(iv)+mPn(i)P(iv).
上式表达的是样本 iii 来自于真实样本 (D=1D=1D=1) 的概率, D=0D=0D=0 则意味着来自于噪声样本. 优化目标为
JNCE(θ)=−EPd[log⁡h(i,v)]−m⋅EPn[log⁡(1−h(i,v′))].\begin{aligned} J_{N C E}(\boldsymbol{\theta}) &=-E_{P_{d}}[\log h(i, \mathbf{v})] \\ &-m \cdot E_{P_{n}}\left[\log \left(1-h\left(i, \mathbf{v}^{\prime}\right)\right)\right].\end{aligned} JNCE(θ)=EPd[logh(i,v)]mEPn[log(1h(i,v))].
最小化优化目标即可得到卷积网络的参数 θ\thetaθ.

在正向计算时, 分母项 ∑j=1nexp⁡(vjTv/τ)\sum_{j=1}^{n} \exp \left(\mathbf{v}_{j}^{T} \mathbf{v} / \tau\right)j=1nexp(vjTv/τ) 的计算是无法避免的, 直接计算的计算量同样很大, 于是本文使用蒙特卡罗方法来估计这一项:
Z≃Zi≃nEj[exp⁡(vjTfi/τ)]=nm∑k=1mexp⁡(vjkTfi/τ).Z \simeq Z_{i} \simeq n E_{j}\left[\exp \left(\mathbf{v}_{j}^{T} \mathbf{f}_{i} / \tau\right)\right]=\frac{n}{m} \sum_{k=1}^{m} \exp \left(\mathbf{v}_{j k}^{T} \mathbf{f}_{i} / \tau\right). ZZinEj[exp(vjTfi/τ)]=mnk=1mexp(vjkTfi/τ).
由于每次训练时, 每个样本相当于一个类别, 训练过程会非常不稳定, 产生很大的波动, 为了解决这个问题, 在损失函数上增加一项针对 v\mathbf{v}v 的惩罚, 来稳定训练过程:
−log⁡h(i,vi(t−1))+λ∥vi(t)−vi(t−1)∥22-\log h\left(i, \mathbf{v}_{i}^{(t-1)}\right)+\lambda\left\|\mathbf{v}_{i}^{(t)}-\mathbf{v}_{i}^{(t-1)}\right\|_{2}^{2} logh(i,vi(t1))+λvi(t)vi(t1)22

实验

实验进行了四组, 第一组实验在 CIFAR-10 数据集上进行非参数和参数 softmax 的对比. 结果显示本文提出的模型远远超过参数化 softmax 算法.

第二组在 ImageNet 上与其它无监督学习算法进行对比, 有 self-supervised learning
[2, 47, 27, 48], adversarial learning [4], and Exemplar
CNN [3]. split-brain autoencoder [48] 则做为基准.

为了研究训练好的网络是否能有益于其他任务和迁移学习, 进行半监督学习的对比测试: (1)
Scratch, i.e. fully supervised training on the small labeled
subsets, (2) Split-brain [48] for pre-training, and (3) Colorization
[19] for pre-training. 结果显示本文方法远远优于对比方法.

为了进一步评估泛化性, 将模型迁移, 进行目标检测的测试. 在数据集 PASCAL VOC 2007 [6] 上测试, 对比方法为 Fast R-CNN [7] with AlexNet and
VGG16 architectures, and Faster R-CNN [32] with ResNet-50. 结果表明在Resnet-50测试中, 大幅领先对比方法.

可能的进一步改进

上面的改进是比较朴素的, 优化方法是最大化对数似然. 我觉得可能会引发一种不好的情况, 特征 v\mathbf{v}v 在球面中的分布可能会趋于均匀分布, 也就是说信息熵最小, 这种距离的远近是否就能准确地表明实例间的差异大小? 有这个担心是因为最终的分类依赖于 kkk 近邻算法. 改进的方法一方面可以从特征表示上进行, 另一方面构造一种更恰当的距离度量.

参考

  • [2] C. Doersch, A. Gupta, and A. A. Efros. Unsupervised visual representation learning by context prediction. In ICCV, 1, 2, 5, 6, 8
  • [3] C. Doersch and A. Zisserman. Multi-task self-supervised visual learning. arXiv preprint arXiv:1708.07860, 2017. 2, 5, 6
  • [4] J. Donahue, P. Kr¨ahenb¨uhl, and T. Darrell. Adversarial feature learning. arXiv preprint arXiv:1605.09782, 2016. 2, 5, 6, 8
  • [5] A. Dosovitskiy, J. T. Springenberg, M. Riedmiller, and T. Brox. Discriminative unsupervised feature learning with convolutional neural networks. In NIPS, 2014. 1, 2, 5
  • [6] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. IJCV, 2010. 8
  • [7] R. Girshick. Fast r-cnn. In ICCV, 2015. 8
  • [9] M. Gutmann and A. Hyvärinen. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In AISTATS, 2010. 2, 4
  • [15] M. Koestinger, M. Hirzer, P. Wohlhart, P. M. Roth, and H. Bischof. Large scale metric learning from equivalence constraints. In CVPR. IEEE, 2012. 2
  • [19] G. Larsson, M. Maire, and G. Shakhnarovich. Colorization as a proxy task for visual understanding. CVPR, 2017. 8
  • [22] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, 2017. 2
  • [27] M. Noroozi and P. Favaro. Unsupervised learning of visual representations by solving jigsaw puzzles. In ECCV. Springer, 2016. 2, 5, 6
  • [32] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In NIPS, 2015. 8
  • [33] S. Roweis, G. Hinton, and R. Salakhutdinov. Neighbourhood component analysis. Adv. Neural Inf. Process. Syst.(NIPS), 17, 2004. 2
  • [35] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unifiedembeddingforfacerecognitionandclustering. InCVPR, 2
  • [43] F.Wang, X.Xiang, J.Cheng, andA.L.Yuille. Normface: l_2 hypersphere embedding for face verification. arXiv preprint arXiv:1704.06369, 2017. 2, 3
  • [47] R. Zhang, P. Isola, and A. A. Efros. Colorful image colorization. ECCV, 2016. 2, 5, 6, 8
  • [48] R. Zhang, P. Isola, and A. A. Efros. Split-brain autoencoders: Unsupervised learning by cross-channel prediction. CVPR, 2017, 5, 6, 8

补充

Noise-contrastive estimation: A new estimation principle for unnormalized statistical models 噪声对比估计 (NCE)

论文链接: http://proceedings.mlr.press/v9/gutmann10a/gutmann10a.pdf

参考资料:

  • https://spaces.ac.cn/archives/5617/comment-page-1
  • https://blog.csdn.net/littlely_ll/article/details/79252064

本人才疏学浅, 如有遗漏或错误之处, 请多多指教!

[解读] Unsupervised Feature Learning via Non-Parametric Instance Discrimination相关推荐

  1. 论文阅读笔记:Unsupervised Feature Learning via Non-Parametric Instance Discrimination

    Unsupervised Feature Learning via Non-Parametric Instance Discrimination 论文下载地址 github代码地址 Summary 这 ...

  2. 无监督特征学习——Unsupervised feature learning and deep learning

    无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优 ...

  3. 《Discriminative Unsupervised Feature Learning with Exemplar Convolutional Neural Networks》阅读笔记

    <Context Encoders: Feature Learning by Inpainting>阅读笔记 摘要 我们提出了一种基于上下文的像素预测驱动的无监督视觉特征学习算法.类似于自 ...

  4. Unsupervised Feature Learning via Non-Parametric Instance Discrimination

    本来我是想直接看moco的,但是我发现moco大量引用了这篇文章,所以就决定先看了这篇文章. 这是2018年CVPR的一篇文章,它是做对比学习的一篇文章 基于非参数实例判别的无监督特征学习. 概览 首 ...

  5. 深度学习笔记4:Self-Taught Learning and Unsupervised Feature Learning

    这个主题我很喜欢,嘿嘿~ 1. 无监督特征学习 用稀疏自编码器从大量无标注数据中学习好的特征描述. 2. 数据预处理 无监督特征学习前,要对数据进行预处理. 如均值标准化,PCA,PCA白化,ZCA白 ...

  6. 初学 Unsupervised feature learning and deep learning--Sparse autoencoder

    今天做了一下 Stanford CS294A 的一个 programming assignment: sparse autoencoder 因为之前做过 Andrew Ng 的 ml online c ...

  7. 2022TGRS/云检测:用于遥感图像云检测的无监督域不变特征学习Unsupervised Domain-Invariant Feature Learning for Cloud Detection

    2022TGRS/云检测:Unsupervised Domain-Invariant Feature Learning for Cloud Detection of Remote Sensing Im ...

  8. Discriminative Feature Learning for Unsupervised Video Summarization(论文翻译)

    Discriminative Feature Learning for Unsupervised Video Summarization Abstract 在本文中,我们解决了无监督视频摘要的问题,该 ...

  9. PAUL:Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification阅读总结

    Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification 作者:Qize Yang, ...

最新文章

  1. mysql包含哪几部分_sql语言包含哪些部分
  2. MySQL在ROW模式下通过binlog提取SQL语句
  3. 开源RTMP组件EasyPusher-Android+EasyDarwin实现APP推流给RTSP流媒体服务器
  4. Jsoup 数据修改
  5. python3.4编程_python编程:从入门到实践习题3-4~3-7
  6. Kubernetes入门培训(内含PPT)-(转)
  7. FCKeditor在ASP.NET环境中配置使用
  8. 总有被遗忘或者没有及时跟进的工作
  9. 计算机键盘上如何打对勾,电脑键盘怎么打对勾符号
  10. SAN 光纤交换机配置zone实验
  11. Unity实现功能之局域网实时语音
  12. 工程项目管理思维导图模板
  13. DRB-GAN: A Dynamic ResBlock Generative Adversarial Network for Artistic Style Transfer
  14. 终于连熊也可以代表了!
  15. 快速学会使用association和collection
  16. 利用jmail qq邮箱发邮件 报错 解决方法
  17. 在ubuntu 18上进行NPB和mpiP的整合
  18. css首行缩进(微信开发采坑随便)
  19. 仪表盘 图表 仪表图
  20. Altium Designer 19.1.18 - 创建一块和 Keep-Out Layer 形状一样的铜皮

热门文章

  1. java邮件登录系统设计_基于Java web的邮件管理系统的设计与实现(含源文件).doc
  2. JDK环境配置与含义
  3. 《谁的青春不迷茫》——刘同
  4. 媒体查询ipad,pc端
  5. python geometry用法_Python geometry.MultiPolygon方法代码示例
  6. 一路走来的飞控设计研发之路
  7. 《动态规划入门》刷题笔记(更新中)
  8. Linux命令——lsmod
  9. 使用Matlab提取ADC采样数据中的噪声
  10. vs无法提示sourcetree的变基修改代码