本文是一篇 2019 年的综述文章的解读,这篇综述总结了自监督学习在视觉领域的应用,全文清晰条理,容易理解。

标题:《Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey》

链接:paper

1. 自监督介绍

大规模数据集的收集和标注既耗时又昂贵。

为了避免耗时且昂贵的数据标注,有人提出了自监督方法,一种无监督学习的子方法,以在不使用任何人工标注的情况下从大规模未标记图像或视频中学习视觉特征。

为了从无标签数据中学习到视觉特征,常用方法是提出不同的 pretext task。网络可以通过学习 pretext task 的目标函数来训练,视觉特征也在这一过程中获得。

pretext task 举例:colorizing grayscale images, image inpainting, image jigsaw puzzle.

pretext task 属性:在解决该任务时神经网络需要学到视觉特征;该任务的伪标签可以基于图像/视频本身属性自动生成。

自监督学习的通用流程如图 1 所示:

  • 在自监督的训练阶段,为 ConvNets 设计了一个预定义的前置任务 pretext
    task,并根据数据的某些属性自动生成该前置任务的伪标签。 然后,对ConvNet 进行训练,以学习前置任务的对象特征。
  • 在自我监督的训练完成之后,可以将学习到的视觉特征作为预训练的模型进一步迁移到 downstream task下游任务(尤其是当只有相对较小的数据时),以提高性能并克服过度拟合的情况。
  • 通常,浅层捕获一般的低级特征,例如边缘,拐角和纹理,而较深层捕获与任务相关的高级特征。
  • 因此,在监督的下游任务训练阶段,仅迁移了前几层的视觉特征。

2. 通用深层网络架构

Architectures for Learning Image Features:

  • AlexNet
  • VGG
  • GoogLeNet
  • ResNet
  • DenseNet

缺点:由于这些网络的参数众多,容易过拟合

3. 常用的 pretext tasks 和 downstream tasks

前置任务(pretext tasks) 的训练可以用图 9 表示,其中 P 是伪标签,O 是输出。

作者将前置任务分为四类:

  • Generation-based Methods:图像和视频生成

    • Image Generation:包括 image colorization, image super resolution, image inpainting,GAN
    • video generation:包括 GANs and video prediction
  • Context-based pretext tasks
    • Context Similarity:基于内容相似性,包括 clustering-based methods, and graph constraint-based methods
    • Spatial Context Structure:基于不同块之间的空间关系,包括 image jigsaw puzzle, context prediction, and geometric transformation recognition
    • Temporal Context Structure:验证输入帧顺序是否正确或识别帧的顺序
  • Free Semantic Label-based Methods:自动生成语义标签,标签是通过传统的硬编码算法或游戏引擎生成
    • moving object segmentation, contour detection, relative depth prediction
  • Cross Modal-based Methods:基于交叉模态的方法,这种类型的前置任务会训练ConvNet,以验证输入数据的两个不同通道是否彼此对应
    • Visual-Audio Correspondence Verification, RGB-Flow Correspondence Verification, and egomotion

这四类用图 10 表示:

为了通过自我监督方法评估学习的图像或视频功能的质量,将自我监督学习的学习参数用作预训练模型,然后对下游任务(例如图像分类)进行微调 。

下游任务(downstream tasks) 是一种对学习到的特征的定量评估(quantitative evaluations),常用的下游任务有:

  • 语义分割
  • 对象检测
  • 图像分类
  • 动作识别

在这些高级视觉任务上的迁学习性能证明了所学习特征的泛化能力。

除了对学习到的特征进行定量评估外,还有一些定性的可视化方法可以评估自我监督学习到的特征质量(qualitative evaluation)。

这些方法的目的通常为:

  • Kernel Visualization:定性地可视化通过前置任务学习的第一个卷积层的内核,并比较监督模型中的内核。 比较了监督模型和自我监督模型学习的内核的相似性,以表明自我监督方法的有效性
  • Feature Map Visualization:可视化功能图以显示网络的关注区域。 较大的激活表示神经网络更加关注图像中的相应区域。 通常对特征图进行定性可视化,并与监督模型进行比较
  • Nearest Neighbor Retrieval:通常,具有相似外观的图像通常在特征空间中更靠近。 最近邻方法用于从自监督学习模型学习的特征的特征空间中找到前K个最近的邻居

4. 数据集

自监督学习不需要人工标注的数据,因此任何监督学习的数据集都可以用来自监督方式的视觉特征学习。

5. 不同前置任务的性能

不同 pretext task 在分类,检测,分割等 downstream task 上的性能(VOC 数据集):

不同 pretext task 在行为识别 downstream task 上的性能(UCF101 和 HMDB51 数据集):

6. 未来的研究方向

自监督学习的未来研究方向:

Learning Features from Synthetic Data:

从合成数据学习特征。借助游戏引擎,可以轻松生成数百万个具有精确像素级注释的合成图像和视频。需要解决的一个问题是如何弥合合成数据和真实数据之间的领域鸿沟。 只有少数工作探索了通过使用 GAN 来弥合领域差距从综合数据中进行自我监督的学习。 利用更多可用的大规模合成数据,将提出更多的自我监督学习方法。

Learning fromWeb Data:

从网络数据学习特征。使用搜索引擎,可以从以下网站下载数百万个图像和视频。除了原始数据外,标题,关键字和评论也可以作为数据的一部分,用作训练网络的额外信息。需要注意的问题是如何处理 Web 数据及其关联的元数据中的噪声

Learning Spatiotemporal Features from Videos:

从视频学习时空特征。目前自监督学习的 downstream task 大多是检测分割等二维任务,利用 3DConvNet 进行自我监督的视频时空特征学习尚未很好地解决

Learning with Data from Different Sensors:

学习来自不同传感器的数据。大多数现有的自我监督视觉特征学习方法仅关注图像或视频,自动驾驶汽车通常配备各种传感器,包括RGB摄像头,灰度摄像头,3D激光扫描仪以及高精度GPS测量和IMU加速度,可以将不同设备捕获的数据的对应关系用作自我监督特征学习的监督信号

Learning with Multiple Pretext Tasks:

学习多个前置任务。目前的大多数自监督视觉特征学习方法都是基于一个 pretext task,不同的 pretext task 提供不同的监督信号,可以帮助网络学习更多具有代表性的特征,所以 multiple pretext task self- supervised feature learning 是个可以考虑的方法。

解读 | 自监督视觉特征学习综述相关推荐

  1. 热点科普 | 自监督视觉特征学习

    关注公众号,发现CV技术之美 本文转载自京东探索研究院. 自监督学习是近年兴起的一种深度学习方法.它是无监督学习的一个分支,其最大特点是不依赖人工标注的数据标签直接从原始数据中自动学习有区分度的特征表 ...

  2. 【论文粗读】(NeurIPS 2020) SwAV:对比聚类结果的无监督视觉特征学习

    题目 <Unsupervised Learning of Visual Features by Contrasting Cluster Assignments> 第一作者:Mathilde ...

  3. 【技术综述】基于弱监督深度学习的图像分割方法综述​

    文章首发于微信公众号<有三AI> [技术综述]基于弱监督深度学习的图像分割方法综述​ 本文是基于弱监督的深度学习的图像分割方法的综述,阐述了弱监督方法的原理以及相对于全监督方法的优势,首发 ...

  4. 基于弱监督深度学习的医学图像分割方法综述

    基于弱监督深度学习的医学图像分割方法综述 摘要:基于深度学习的医学影像分割尽管精度在不断的提升,但是离不开大规模的高质量标注数据的训练,被称为弱监督学习的深度学习的一个分支正在帮助医生通过减少对完整和 ...

  5. 从起源到具体算法,这篇深度学习综述论文送给你

    来源:机器之心 本文共4602字,建议阅读8分钟. 本文为大家从最基础的角度来为大家解读什么是深度学习,以及深度学习的一些前沿发展. 自 2012 年多伦多大学 Alex Krizhevsky 等人提 ...

  6. 献给新手的深度学习综述

    献给新手的深度学习综述 文章目录: 1. 引言 2. 相关研究 3. 最新进展 3.1 深度架构的演变 4. 深度学习方法 4.1 深度监督学习 4.2 深度无监督学习 4.3 深度强化学习 5. 深 ...

  7. #今日论文推荐# 多模态时序数据如何自监督?墨尔本理工等最新《自监督表示学习:多模态与时序数据》,全面阐述最新方法体系

    #今日论文推荐# 多模态时序数据如何自监督?墨尔本理工等最新<自监督表示学习:多模态与时序数据>,全面阐述最新方法体系 近年来,自监督表示学习(Self-Supervised Repres ...

  8. TPAMI 2021 | 清华大学朱文武团队:首篇课程学习综述

    ©作者 | 机器之心编辑部 来源 | 机器之心 来自清华大学的研究者王鑫.陈禹东.朱文武撰写了一篇名为<A Survey on Curriculum Learning>的课程学习综述论文, ...

  9. 1-1 机器学习和深度学习综述-paddle

    课程>我的课程>百度架构师手把手教深度学习>1-1 机器学习和深度学习综述> 1-1 机器学习和深度学习综述 paddle初级课程 王然(学生) Notebook 教育 初级深 ...

  10. 万字解读:预训练模型最新综述!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale学术 作者:太子长琴,Datawhale意向成员 如何在有限数据下训练出高效的 ...

最新文章

  1. 零基础入门深度学习的五篇经典教程
  2. tp5 隐藏index.php
  3. 了解自定义对象创建:JSON绑定概述系列
  4. 【BZOJ4518】征途,斜率优化DP
  5. 【Level 08】U08 Positive Attitude L6 Join our virtual community
  6. C# 中base和this关键字
  7. R-Sys.time计算程序运行时间
  8. 官方VM tools下载地址
  9. 企业如何选择?网站建设中常见的几种类型
  10. 新概念二册 Lesson 12 Goodbye and good luck再见,一路顺风 (一般将来时)
  11. Padavan各源码融合教程
  12. 更改centos7操作系统的IP地址
  13. 很强大,并且易于使用,更重要的是免费的一个分区工具:分区助手
  14. 红楼梦评论--王国维
  15. Git - SSL_ERROR_SYSCALL 问题解决
  16. Python遍历多个列表:ValueError: too many values to unpack (expected 2)
  17. 微型计算机转移指令,川大《微机原理与应用(1)1351》14秋在线作业1答案
  18. 大学生恋爱交友软件01(小幸运)——需求调研
  19. PT100与PT1000热敏电阻区别
  20. 大数据平台开发:大数据系统架构模块解析

热门文章

  1. JavaScript实现浏览器本地的图像移动、大小调整和裁剪
  2. jQuery slideUp(),slideDown()和slideToggle()示例
  3. WAIC直击:星环科技以大数据AI技术构建新型数字底座
  4. 阿里云数据盘扩容和挂载
  5. cad指定许可服务器,AutoCAD许可证版本
  6. Ubuntu 18 安装DNS解析服务器
  7. c#之简单人力资源管理系统
  8. vue遍历中key详解 (Demo案例)
  9. FTP+Cyberduck+服务器部署项目+pm2
  10. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space翻译