CVPR 2020 Oral 汇总：论文 / 代码 / 解读（更新中）

在2月24日，CVPR 2020 公布接收论文结果公布，从 6656 篇有效投稿中录取了 1470 篇论文，录取率约为 22%。3月13日，CVPR Oral结果公布了。有大佬已经分享了自己的工作，本文整理了已中Oral的论文，持续更新，分享给大家阅读。

关注 极市平台，获取最新CV干货

10.PolarMask: 一阶段实例分割新思路[1,2]

论文地址：PolarMask: Single Shot Instance Segmentation with Polar Representation

代码：https://github.com/xieenze/PolarMask

来自作者本人的详细解读：

Johnny ez：(CVPR20’Oral) PolarMask: 一阶段实例分割新思路

PolarMask基于FCOS，把实例分割统一到了FCN的框架下。FCOS本质上是一种FCN的dense prediction的检测框架，可以在性能上不输anchor based的目标检测方法，让行业看到了anchor free方法的潜力。本工作最大的贡献在于：把更复杂的实例分割问题，转化成在网络设计和计算量复杂度上和物体检测一样复杂的任务，把对实例分割的建模变得简单和高效。

两种实例分割的建模方式：

实验结果：

9.Scene Graph Generation开源框架[3,4]

论文链接：Unbiased Scene Graph Generation from Biased Training

论文代码：https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

来自作者本人的详细解读：

CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架，集成目前最全metrics，已开源

本文提出了一种基于因果推理的新颖SGG框架。选择2019年热门框架facebookresearch/maskrcnn-benchmark作为基础，在其基础上搭建了Scene-Graph-Benchmark.pytorch。该代码不仅兼容了maskrcnn-benchmark所支持的所有detector模型，且得益于facebookresearch优秀的代码功底，更大大增加了SGG部分的可读性和可操作性。

Recall：

8. Learning to Shade Hand-drawn Sketches[5]

论文地址：Learning to Shade Hand-drawn Sketches

代码：https://github.com/qyzdao/ShadeSketch

本文提供了一种全自动方法，可以从成对的线描草图和照明方向生成详细而准确的艺术阴影。还提供了一个新的数据集，其中包含了用照明方向标记的成对的线描和阴影的一千个示例。值得一提的是，生成的阴影可以快速传达草绘场景的基础3D结构。因此，本文的方法产生的阴影是可以直接使用的。本文生成的阴影尊重手绘线和基础3D空间，并包含复杂且准确的细节，例如自阴影效果。此外，生成的阴影还包含艺术效果，例如边缘照明或背光产生的光晕，这也是传统3D渲染方法可以实现的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4iA4D6CK-1584415938966)(http://bbs.cvmart.net/uploads/images/202003/17/11/QzX3cfsHq9.gif?imageView2/2/w/1240/h/0)]

生成的阴影手绘草图

7. SAM: The Sensitivity of Attribution Methods to Hyperparameters[6]

论文地址：http://s.anhnguyen.me/sam_cvpr2020.pdf

代码：https://github.com/anguyen8/sam

本文中对现有归因方法的敏感性进行了透彻的实证研究，发现了一个趋势：许多方法对它们共同的超参数的变化高度敏感，例如即使更改随机种子也会产生不同的解释！有趣的是，这种敏感性没有反映在文献中通常报道的数据集的average explanation accuracy scores 中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j3pmCOII-1584415938967)(http://bbs.cvmart.net/uploads/images/202003/17/11/PtG0BOSsE9.png?imageView2/2/w/1240/h/0)]

6.High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks

论文地址：High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks

本文研究了图像数据的频谱与卷积神经网络（CNN）的泛化之间的关系。我们首先注意到CNN捕获图像高频分量的能力。这些高频分量几乎是人类无法察觉的。因此，观察结果导致了与CNN泛化相关的多种假设，包括对对抗性示例的潜在解释，对CNN鲁棒性和准确性之间的权衡的讨论，以及在理解训练启发式方法方面的一些证据。

5.Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

论文地址：Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

本文解决了计算机视觉的核心问题之一：用于图像匹配的2D特征点的检测和描述。长期以来，像SIFT这样的算法在准确性和效率上都是无与伦比的。近年来，出现了使用神经网络来实现检测和描述学习型特征检测器，但用于训练这些网络low-level matching scores的改进并不一定会在高级视觉任务中有着更好的性能。本文提出了一种新的训练方法，该方法将特征检测器嵌入完整的视觉管道中，并以端到端的方式训练可学习的参数。并利用这一方法解决了一对图像之间的姿态估计任务。该训练方法几乎没有学习任务的限制，并且适用于预测key point heat maps以及descriptors for key point locations。

4.AdderNet: Do We Really Need Multiplications in Deep Learning?

论文地址：AdderNet: Do We Really Need Multiplications in Deep Learning?

代码：https://github.com/huawei-noah/AdderNet

没有乘法的神经网络，你敢想象吗？去年年底，来自北京大学、华为诺亚方舟实验室、鹏城实验室的研究人员将这一想法付诸实践，他们提出了一种只用加法的神经网络AdderNet（加法器网络）。一作是华为诺亚方舟实习生，正在北大读博三。

在加法器网络的新定义下，AdderNet的特征可视化以及特征向量的空间分布也和CNN有很大的不同。

在CIFAR-10的图像分类任务中，AdderNet相比当初Bengio等人提出的加法神经网络BNN性能有大幅提升，并且已经接近了传统CNN的结果。在ImageNet的图像分类任务中，AdderNets可以达到74.9％的top-1正确率和91.7％的top-5正确率，与CNN接近。

3.BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition

论文地址：http://www.weixiushen.com/publication/cvpr20_BBN.pdf

代码：Megvii-Nanjing/BBN

旷视魏秀参团队的paper，主要关注视觉识别任务中普遍存在的长尾问题。

详细的可以看作者本人的解读： https://www.zhihu.com/question/379109637/answer/1080076071

2.Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

论文地址：Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

代码：alibaba/cascade-stereo

主要解决问题：目前基于Deep learning的方法构建的3D Cost Volume需要3D卷积来做cost aggregation消耗显存非常大，为了节省内存一般最终输出的depth/disparity map限制为输入的1/4。

详细的可以看作者本人的解读： https://www.zhihu.com/question/379109637/answer/1083127862

1.RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

论文地址：RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

代码：QingyongHu/RandLA-Net

提出了一种针对大规模三维点云场景的轻量级、高效点云语义分割算法RandLA-Net。通过对现有的采样策略进行全面综合的分析，我们采用简单高效的随机采样来显著地减少计算量以及内存消耗，并且引入了局部特征聚合模块持续地增大每个点有效的感受野，保留大多数有效的信息。在Semantic3D，S3DIS以及SemanticKITTI等多个数据集上都取得了不错的效果，而且相比于现有的处理大规模点云的算法SPG在速度上有近200倍的提升。

详细的可以看作者本人的解读：

Qingyong Hu：[CVPR 2020 Oral] RandLA-Net:大场景三维点云语义分割新框架（已开源）