【杂七杂八的笔记】2019CVPR论文快读

2019年CVPR一共收到创纪录的5165篇有效投稿，比2018年的3309篇多出近2000篇，最终有1294篇论文被接收，最终录取率为25.2%。1294篇录取论文中，有288篇被录用为Oral论文。现在，距离2020年CVPR的截稿还剩整整一个月，在这种紧迫的时间里，2019CVPR的快读就处于比较尴尬的位置。但是无论怎样也用这篇博客预祝伙（大）伴（佬）们Paper都中！都中！全都中！！！
附上2019年CVPR的MAIN CONFERENCE的地址，里面包含着Award/Oral/Poster的论文。此外，顺便给大家安利一个2019年CVPR论文题目和摘要集合的网址，非常优秀。博客中也贴了一些大佬们的论文博客讲解，感谢大佬们，伙伴们冲啊！！！

2019 CVPR Paper Award

每年的Paper Award还是很值得一读的（如果读得懂的话，阿哈哈哈哈），不过有方向相近的还是要认真读一下全文，Award也是在每年CVPR重含金量最高的几篇论文。

Best Paper Award（1篇）

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction 【Paper】
非视距形状重建的费马路径理论 ，by Shumian Xin, Sotiris Nousias, Kyros Kutulakos, Aswin Sankaranarayanan, Srinivasa G. Narasimhan and Ioannis Gkioulekas，科研机构分别是卡内基梅隆大学、多伦多大学、伦敦大学学院。值得一提的是，辛书冕本科毕业于西安交通大学电气工程专业，目前是卡内基·梅隆大学机器人研究所的在读博士生（给大佬鼓爪）。
【摘要】 我们提出了一个新的理论，即在一个已知的可见场景和一个不在瞬态相机视线范围内的未知物体之间的Fermat path。这些光路要么遵守镜面反射，要么被物体的边界反射，从而编码隐藏物体的形状。
我们证明费马路径对应于瞬态测量中的不连续性。然后，我们推导出一种新的约束，它将这些不连续处的路径长度的空间导数与表面法线相关联。
基于这一理论，我们提出了一种名为Fermat Flow的算法来估计非视距物体的形状。我们的方法首次允许复杂对象的精确形状恢复，范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。
最后，我们的方法与用于瞬态成像的特定技术无关。因此，我们展示了使用SPAD和超快激光从皮秒级瞬态恢复的毫米级形状，以及使用干涉测量法从飞秒级瞬态微米级重建。我们相信我们的工作是非视距成像技术的重大进步。

Best Student Paper Award（1篇）

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation 【Paper】【CSDN】
视觉语言导航中的强化跨模态匹配和自监督模仿学习，by Xin Wang, Qiuyuan Huang, Asli Celikyilmaz, Jianfeng Gao, Dinghan Shen, Yuan-Fang Wang, William Yang Wang and Lei Zhang.
【摘要】 视觉语言导航（VLN）的任务是导航一个具体的代理，在真实的3D环境中执行自然语言命令。在这篇文章，我们研究如何解决这个任务中三个至关重要的挑战：跨交叉模态基标对准，不适定反馈，泛化问题。首先，我们提出了一个新颖基于强化学习跨模态匹配（RCM）方法，执行跨交叉模态基标对准在局部和全局中，通过强化学习（RL）。另外，一个匹配评价是用提供一个内在奖励来鼓励在指令和轨迹全局匹配，一个推理导航器应用来执行跨交叉模态基标对准在局部视觉场景。在一个VLN基准数据集上进行评估，我们的RCM模型在SPL比先前的方法增强了10%以及实现了最先进的表现。为提高普遍的学习机制，我们将介绍一个自监督模仿学习（SIL）方法，通过模仿它自己过去好的决策，来去探索未知的环境。我们证明SIL能够估计一个较好和高效的策略，极大地最小化在看见和未看见环境之间成功率表现的差距。（从30.7%到11.7%）

Best Paper Honorable Mention（2 篇）

A Style-Based Generator Architecture for Generative Adversarial Networks 【Paper】【Code】
GAN中基于风格的生成器，by Tero Karras, Samuli Laine and Timo Aila.这篇论文是PCGAN的论文作者今年的新作，支持机构是英伟达公司。GAN自2014年提出以来得到了很广泛的应用，效果惊艳，本片论文中的效果更加真实。
【摘要】 我们从风格前一种得到启示，为对抗生成网络提出了一种替代的生成器结构。在新的架构将导致一个自动学习，无监督分开高水平特征（例如，姿态识别在训练人脸）以及随机方差在生成图像（例如，雀斑，头发），以及它能够直观，特定尺度控制在统一协调下。新的生成器提高先进的在对于传统分配质量衡量指标，导致证明较好的插补属性，也较好的分开最新的因素变量。对量化插补质量和分离，我们提出两个新的，自动方法来应用到任何生成框架。最后，我们介绍一个新的，高种类和高质量人脸数据集。

Learning the Depths of Moving People by Watching Frozen People 【Paper】【CSDN】
通过观察静止的人来学习移动人的深度，by Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Ce Liu, Bill Freeman and Noah Snavely.
【摘要】 我们提出了一种在单目摄像机和场景中的人都可以自由移动的情况下预测密集深度的方法。用于从单目视频恢复动态非刚性物体的深度的现有方法对物体的运动施加强烈假设并且可能仅恢复稀疏深度。在本文中，我们采用数据驱动的方法，从新的数据来源中学习人物深度先验：成千上万的人们模仿人体模型的互联网视频，即冻结在多样化，自然的姿势，而手持摄像机巡视现场。因为人是静止的，所以可以使用多视图立体重建来生成训练数据。在推理时，我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕获的复杂人物动作的真实世界序列展示了我们的方法，显示了对前沿的单目深度预测方法的改进，并显示了使用我们预测的深度产生的各种3D效果。

PAMI Longuet-Higgins Prize (Retrospective Most Impactful Paper from CVPR 2009)

ImageNet: A large-scale hierarchical image database 【Paper】
by Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei.
Longuet-Higgins Prize是 IEEE 计算机协会模式分析与机器智能（PAMI）技术委员会在每年的 CVPR 颁发的 “计算机视觉基础贡献奖”，表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。2019年的CVPR的计算机视觉基础贡献奖授予了李飞飞团队的ImageNet Database，这篇论文发表于2009年，目前是计算机视觉的通用且极其重要的数据集之一。

2019 CVPR Oral Paper / Poster Paper

2019年的CVPR的Oral/Poster都很精彩，但是术业有专攻，伙伴们可以各取所需。在博客的一开头就给大家推荐了网站，大家可以自己去看，这里只放一些博主简单看过的论文或者稍微有些相关的论文。

Selective Kernel Networks 【Paper】【Code】【CSDN】【CSDN】

选择核心网络，by Xiang Li; Wenhai Wang; Xiaolin Hu; Jian Yang. 灵感来源：在神经科学界，视皮层神经元的感受野大小受刺激的调节，即对不同刺激，卷积核的大小应该不同。
【摘要】 在标准的卷积神经网络（CNN）中，每层中人工神经元的感受野被设计为共享相同的大小。在神经科学界众所周知，视觉皮层神经元的感受野大小是受刺激调节的，在构建CNN时很少考虑。我们在CNN中提出了一种动态选择机制，该机制允许每个神经元根据输入信息的多个尺度来自适应地调整其接受区域的大小。设计了一个称为选择性内核（SK）单元的构建块，其中使用softmax注意融合了具有不同内核大小的多个分支，这些注意由这些分支中的信息指导。对这些分支的不同关注产生了融合层中神经元有效感受野的不同大小。多个SK单元堆叠到称为选择性内核网络（SKNets）的深度网络中。在ImageNet和CIFAR基准测试中，我们凭经验表明SKNet在模型复杂度较低的情况下优于现有的最新体系结构。详细的分析表明，SKNet中的神经元可以捕获具有不同比例的目标对象，这验证了神经元根据输入自适应地调整其接收场大小的能力。

Learning a Deep ConvNet for Multi-Label Classification With Partial Labels 【Paper】

带有少量标签的多标签分类的深度卷积网络，by Thibaut Durand; Nazanin Mehrasa; Greg Mori.
【摘要】 深度卷积网络在单标签图像分类（例如ImageNet）方面显示出了出色的性能，但是有必要超越单标签分类任务，因为日常生活中的图片本质上是多标签的。多标签分类比单标签分类更困难，因为输入图像和输出标签空间都更加复杂。此外，与按比例缩放尺寸的单标签注释相比，收集干净的多标签注释会更难。为了降低注释成本，我们建议使用部分标签来训练模型，即每个图像只知道一些标签。我们首先从经验上比较不同的标记策略，以显示在多标记数据集上使用部分标记的潜力。然后，为了学习部分标签，我们介绍了一种新的分类损失，它利用了每个示例中已知标签的比例。我们的方法允许使用与使用所有注释学习时相同的训练设置。我们进一步探索了几种基于课程学习的策略来预测标签缺失。在三个大型多标签数据集上进行了实验：MS COCO，NUS-WIDE和Open Images。

Generalising Fine-Grained Sketch-Based Image Retrieval 【Paper】【CSDN】

泛化基于草图的细粒度图像检索，by Kaiyue Pang; Ke Li; Yongxin Yang; Honggang Zhang; Timothy M. Hospedales; Tao Xiang; Yi-Zhe Song. 这里的Generalising我不太会翻译，先暂定为泛化吧，等我详细看了论文后会把这个再补充上。
【摘要】 基于细粒度的基于草图的图像检索（FG-SBIR）使用徒手绘制的草图作为查询方式来解决与特定照片实例匹配的问题。现有的模型旨在学习一个可以直接比较草图和照片的嵌入空间。成功完成后，他们需要在每个粗粒度类别内将实例级配对作为带注释的训练数据。由于学习的嵌入空间是特定于领域的，因此这些模型不能很好地概括类别。这限制了FG-SBIR的实际适用性。在本文中，我们将FG-SBIR的跨类别概括识别为领域泛化问题，并提出了第一个解决方案。我们的主要贡献是一种新颖的无监督学习方法，可以对原型视觉素描特征的通用流形进行建模。然后，可以使用该模板对草图/照片表示的学习进行参数化。然后，通过将新颖的草图嵌入到流形中并相应地更新表示和检索功能，自动适应模型。在两个最大的FG-SBIR数据集Sketchy和QMUL-Shoe-V2上进行的实验证明了我们的方法在实现FG-SBIR的跨类别泛化方面的功效。

Attention-Aware Multi-Stroke Style Transfer 【Paper】

注意-感知多笔画的风格迁移，By Yuan Yao; Jianqiang Ren; Xuansong Xie; Weidong Liu; Yong-Jin Liu; Jun Wang。

Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting 【Paper】【CSDN】

学习对于高质量图像修复的金字塔-内容编码网络，By Yanhong Zeng; Jianlong Fu; Hongyang Chao; Baining Guo。

这篇博客会不定时的更新啦，小伙伴们可以持续关注啦～祝大家Paper都中！！！