原文
有空细读,很好的文章

1. Unsupervised Learning

比较有代表性的任务主要分两个方向,
1)low-level task
学光流,深度,correspondence等信息。[1, 2]
2)representation learning
学习representation,以期学到的representation可以帮助down-stream tasks。[3, 4, 5, 6, 7, 8, 9].

这两年间比较火的方式是用instance discrimination(实例区分)的方式来做,并且在down-stream task上取得了超过supervised learning的效果。需要注意的是,representation learning经常利用down-stream task来validate自己学到的representation的有效性,但是不能通过这个结果就武断的否定supervised learning给我们带来的增益,也不能武断地下类似于unsupervised learning学到的feature之后就一定比supervised learning学到的好的定论,只能说目前采用的这种unsupervised的方式学到的representation,比之前用supervised方式学到的representation更适合于所选定的down-stream task,也许换一种down-stream task,这种结论便不再成立。

以下是几篇这次CVPR我看到的采用无监督方式的比较有趣的论文[8, 10, 11, 12, 13, 14, 15]。

2. Self-supervised Learning

其实self-supervised learning本应该是可以放在unsupervised learning那一节的,但是鉴于目前很多工作都是把self-supervised和supervised结合起来,本质上是一种semi-supervised(半监督)方式。在这里特别提一下self-supervised learning + video这个方式,出发点是video的临近帧之间有着良好的consistency,内容的连续性良好,从而格外适合做unsupervised learning。例如,其中一派,动机是为了解决video的稀疏标注问题,核心思想是利用video中已标注的帧对未标注的帧进行监督,所以只需要想到一个办法,将无标注的帧wrap到有标注的帧上,再利用有标注的帧对无标注的帧进行监督,就可以把无标注的帧利用起来。想法很简单,只要选好实现的方式,最终效果就会很明显。可以看到今年CVPR各个领域都有论文采用了类似的idea,有做video segmentation的[16],有做3D hand pose + shape recovery的[17]。还有一派,是基于video的consistency,在网络训练过程中加入consistency loss,从而让网络对连续帧的预测结果保持连贯,这类文章有[18, 19, 20]。

3. 3D representation

David Forsyth提到了3D representation的问题,他的论点主要在于,做3D重建,应该注意的是point cloud,mesh等等这些都只是3D representation的一种,它们各有优势也有不足,它们应该只是作为工具为最终的3D重建而服务,而不应该成为限制我们思考问题的枷锁,我们需要更多的思考如何更合理的重建3D,是否存在比现有工具更好的3D representation。同时他还举了一些生物学上的例子,比如沙漠中的蚂蚁并没有类似于人一样重建周围环境的能力,但是它们一样可以保证在沙漠中不迷路,其原因在于它们无论从巢穴出走了多远,始终都知道巢穴对于它们现在位置的方向,而这个方向感(可以具像化为一个向量),就是蚂蚁重建3D世界所使用的representation。这段讲话很有启发性,鼓励学界从根本上思考3D重建目前的问题。

与之相关的,[14]在文中提出了一种隐式学习3D representation的方式,文中对所学出的来3D representation并没有加入直接对监督,只是要求网络合成的图片和目标图片一致。但是文中是把这个representation当作point cloud来使用,并在文中可视化了这个representation,发现与point cloud基本一致。方式非常巧妙。

4. Small changes that make big impact

最近也出了很多文章,基于deep learning现有方式,只提出了一点改进,却能对结果造成很大影响,不得不让人感叹devil is in the details,同时也让我们开始重新审视之前习以为常的方式方法,学术总是在螺旋中前进。例如[21]中,作者将activation function由relu替换为了文中新提出的siren,效果便得到了极大的改善。[22]中修改了常用的batch norm layer,便很好的缓解了batch size大小对网络结果的影响。从更高维的角度来看,我们人类也许就像是一个实验室中的黑猩猩,笨拙地拿着钥匙希望打开出去的大门,学会与学不会的距离,也许就在差在插入钥匙之后再转动一下这个细微的动作,但在没有任何帮助的情况下,学会这个动作也许也会需要我们很长时间。

5. Think more

听了Alexei的talk之后很有感触,尤其是他说的:我们做research的时候,在提出一个问题的时候出发点都是好的,但一定要注意我们衡量这个问题的方式,也许我们衡量的方式并不是完全合适,所以需要多思考多质疑。这跟最近很多rethinking各类task的文章动机不谋而合[23, 24]。我们做research希望针对的是更general的问题,数据集仅仅是为了validate idea的有效性,而不是为了刷爆evaluation metrics。

附:

一些有趣的文章推荐[25, 26, 27, 28, 29, 30, 31, 32, 33]

[1] Unsupervised Monocular Depth Estimation with Left-Right Consistency

[2] MirrorFlow: Exploiting Symmetries in Joint Optical Flow and Occlusion Estimation

[3] Unsupervised representation learning by predicting image rotations

[4] Unsupervised learning of visual representations by solving jigsaw puzzles

[5] Representation learning with contrastive predictive coding

[6] Contrastive multiview coding

[7] Learning representations by maximizing mutual information across views

[8] MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

[9] Unsupervised feature learning via non-parametric instance discrimination

[10] MAST: A Memory-Augmented Self-Supervised Tracker

[11] Just Go with the Flow: Self-Supervised Scene Flow Estimation

[12] Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

[13] Self-Supervised Viewpoint Learning From Image Collections

[14] SynSin: End-to-end View Synthesis from a Single Image

[15] Self-supervised Learning of Interpretable Keypoints from Unlabelled Videos

[16] Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation

[17] Leveraging Photometric Consistency over Time for Sparsely Supervised Hand-Object Reconstruction

[18] Consistent Video Depth Estimation

[19] VIBE: Video Inference for Human Body Pose and Shape Estimation

[20] Height and Uprightness Invariance for 3D Prediction from a Single View

[21] Implicit Neural Representations with Periodic Activation Functions

[22] Filter Response Normalization Layer: Eliminating Batch Dependence in the Training of Deep Neural Networks

[23] A Metric Learning Reality Check

[24] Google Landmarks Dataset v2 - A Large-Scale Benchmark for Instance-Level Recognition and Retrieval

[25] NASA Neural Articulated Shape Approximation

[26] UniGrasp: Learning a Unified Model to Grasp with N-Fingered Robotic Hands

[27] Self-Supervised Scene De-occlusion

[28] Peek-a-Boo: Occlusion Reasoning in Indoor Scenes With Plane Representations

[29] Visual Chirality

[30] Single-Stage Semantic Segmentation from Image Labels

[31] Pixel Consensus Voting

[32] Towards Better Generalization: Joint Depth-Pose Learning without PoseNet

[33] Coherent Reconstruction of Multiple Humans from a Single Image

CVPR2020个人总结(阅读笔记)相关推荐

  1. 【CV论文阅读笔记】使用DRN网络(双重回归网络)解决SR问题

    [CV论文阅读笔记]使用DRN网络(双重回归网络)解决SR问题 本篇笔记来自CVPR2020年论文:Closed-loop Matters: Dual Regression Networks for ...

  2. White-box-Cartoonization_CVPR_2020白盒卡通化论文阅读笔记

    White-box-Cartoonization_CVPR_2020 好了 进入正题 话不多说 快上车 新鲜出炉的CVPR2020 白盒卡通化阅读笔记 Learning to Cartoonize U ...

  3. Density Map Guided Object Detection in Aerial Images (论文阅读笔记)

    Density Map Guided Object Detection in Aerial Images 论文阅读笔记 出处:CVPR2020 一.介绍 文章主要研究的是基于高分辨率航拍图像的目标检测 ...

  4. trainer setup_Detectron2源码阅读笔记-(一)Configamp;Trainer

    一.代码结构概览 1.核心部分 configs:储存各种网络的yaml配置文件 datasets:存放数据集的地方 detectron2:运行代码的核心组件 tools:提供了运行代码的入口以及一切可 ...

  5. VoxelNet阅读笔记

    作者:Tom Hardy Date:2020-02-11 来源:VoxelNet阅读笔记

  6. Transformers包tokenizer.encode()方法源码阅读笔记

    Transformers包tokenizer.encode()方法源码阅读笔记_天才小呵呵的博客-CSDN博客_tokenizer.encode

  7. 源码阅读笔记 BiLSTM+CRF做NER任务 流程图

    源码阅读笔记 BiLSTM+CRF做NER任务(二) 源码地址:https://github.com/ZhixiuYe/NER-pytorch 本篇正式进入源码的阅读,按照流程顺序,一一解剖. 一.流 ...

  8. Mina源码阅读笔记(一)-整体解读

    2019独角兽企业重金招聘Python工程师标准>>> 今天的这一节,将从整体上对mina的源代码进行把握,网上已经有好多关于mina源码的阅读笔记,但好多都是列举了一下每个接口或者 ...

  9. “CoreCLR is now Open Source”阅读笔记

    英文原文:CoreCLR is now Open Source 阅读笔记如下: CoreCLR是.NET Core的执行引擎,功能包括GC(Garbage Collection), JIT(将CIL代 ...

  10. QCon 2015 阅读笔记 - 团队建设

    QCon 2015阅读笔记 QCon 2015 阅读笔记 - 移动开发最佳实践 QCon 2015 阅读笔记 - 团队建设 中西对话:团队管理的五项理论和实战 - 谢欣.董飞(今日头条,LinkedI ...

最新文章

  1. 清华大学史作强副教授专访:用流形、偏微分方程揭秘人工智能
  2. 思科2950配置端口镜像
  3. java udp 服务器_Java UDP 服务器与客户端的问题
  4. 语法手册_是真的猛!SQL 语法速成手册
  5. 计算机语言中空下划线,2017-7-31 Shell脚本编程基础
  6. 如何一步一步用DDD设计一个电商网站(十三)—— 领域事件扩展
  7. STM32单片机硬件I2C驱动程序(软件轮询方式)---摘自:FeoTech
  8. AUTOSAR从入门到精通100讲(二十)-特斯拉、高通、华为AI处理器深度分析
  9. 【CodeForces - 438D】The Child and Sequence(线段树区间取模操作)
  10. Git-Credential-Manager-for-Mac-and-Linux
  11. UNIDAC如何驱动MSSQL2000
  12. 第一款Layer 2钱包Rollups Wallet已上线苹果AppStore
  13. 《软件工程》课堂作业:返回一个整数数组中最大字数组的和
  14. java内存模型—先行发生原则
  15. ruby gem 记录
  16. 在struts中实现验证码
  17. 谈话节目APE系列:如何成为技术达人
  18. java 多个引用指向同一个对象(含案例图解)
  19. python中对文件、文件夹,目录的基本操作
  20. 对比rank, dense_rank, row_number

热门文章

  1. 怎么同时给多个 PDF 文档批量添加自定义的文字和图片水印
  2. 图像边缘检测与图像梯度的概念
  3. 用LaTeX写论文时如何加资助信息
  4. QPSK Matlab仿真
  5. L2-040 哲哲打游戏(模拟题)
  6. 五粮液:绩优蓝筹稳步填权
  7. java.lang.IllegalArgumentException: Could not resolve placeholder ‘XXX‘ in string value “${XXX}“;
  8. 如何用R语言做工具变量回归(未完工版本
  9. 如何c语言看字节大小,C语言字节大小day5
  10. python数据类型对应布尔值_Python基础数据类型之整型,布尔值,字符串