7 Papers Radios | NeurIPS 2020最佳论文；全卷积网络实现E2E目标检测

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要研究包括 NeurIPS 2020最佳论文以及抛弃 Transformer 使用全卷积网络来实现端到端目标检测的探索。

目录：

No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium
MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs
End-to-End Object Detection with Fully Convolutional Network
ConvTransformer: A Convolutional Transformer Network for Video Frame Synthesis
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes
Every Model Learned by Gradient Descent Is Approximately a Kernel Machine
Animating Pictures with Eulerian Motion Fields
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium

作者：Andrea Celli、Alberto Marchesi、Gabriele Farina、Nicola Gatti
论文链接：https://proceedings.neurips.cc/paper/2020/file/5763abe87ed1938799203fb6e8650025-Paper.pdf

摘要：相关均衡要求一个受信任的外部调停者为决策者提供决策建议，典型案例就是红绿灯，红绿灯告诉车辆前进这一行为是否安全。即使在相关法律缺失的情况下，我们仍然应该遵循红绿灯的推荐结果，因为我们知道每个人都可以推断出这是最好的选择，闯红灯是危险的行为。

这篇论文表明，此类均衡可以通过完全独立执行的学习算法来实现，无需外部交通工程师，甚至在决策涉及多个步骤、决策者对于世界的状态一知半解时也是如此。也就是说，存在此类 regret-minimizing 算法使 CE 在更广泛的博弈类别中实现收敛，即扩展形式的博弈。这一结果解决了博弈论、计算机科学和经济学领域中长期存在的开放性问题，并对涉及调停者的博弈产生显著影响，如通过导航 app 高效制定交通路线。

本文作者来自米兰理工大学 (Polimi) 和卡内基梅隆大学 (CM) 。

左：博弈树示例；中：玩家 1 标准型规划的 Set II_1；右：Subp 中定义的子集示例。

玩家 i 的 ICFR 算法。

具有玩家 i 两个信息集 I 和 J 的 EFG；右：分层子树遗憾。

推荐：本文摘得 NeurIPS 2020 最佳论文奖。

论文 2：MPG: A Multi-ingredient Pizza Image Generator with Conditional StyleGANs

作者：Fangda Han、Guoyao Hao、Ricardo Guerrero
论文链接：https://arxiv.org/pdf/2012.02821v1.pdf

摘要：多标签条件图像生成是计算机视觉领域的一个挑战性问题。在这项研究中，罗格斯大学和三星 AI Center 的研究者提出了多组件披萨生成器（Multi-ingredient Pizza Generator, MPG），一种用于合成多标签图像的 GAN 框架。为了验证 MPG 的性能，研究者在 Pizza10 数据集上进行了测试，Pizza10 是一个经过仔细注释的多组件披萨图像数据集。结果表明， MPG 可以成功生成具有所需组件的逼真披萨图像。

生成器组件概览。

本研究 MPG 多组件披萨生成器与基准方法的定性对比效果图。

本研究 MPG 多组件披萨生成器与基准方法的性能定量对比结果。

推荐：该框架可以轻松扩展到其他多标签图像生成方案。

论文 3：End-to-End Object Detection with Fully Convolutional Network

作者：Jianfeng Wang、Lin Song、Zeming Li、Hongbin Sun、Jian Sun、Nanning Zheng
论文链接：https://arxiv.org/pdf/2012.03544.pdf

摘要：目标检测是计算机视觉领域的一个基础研究主题，它利用每张图像的预定义类标签来预测边界框。大多数主流检测器使用的是基于锚的标签分配和非极大值抑制（NMS）等手动设计。近来，很多研究者提出方法通过距离感知和基于分布的标签分类来消除预定义的锚框集。尽管这些方法取得了显著的进展和优越的性能，但抛弃手动设计的 NMS 后处理可能阻碍完全的端到端训练。

基于这些问题，研究人员相继提出了 Learnable NMS、Soft NMS 和 CenterNet 等，它们能够提升重复删除效果，但依然无法提供有效的端到端训练策略。之后，Facebook AI 研究者提出的 DETR 将 Transformer 用到了目标检测任务中，还取得了可以媲美 Faster R-CNN 的效果。但是，DETR 的训练时间却大大延长，在小目标上的性能也相对较低。

所以，在本文中，来自旷视科技和西安交通大学的研究者提出了一个新颖问题：全卷积网络是否可以实现良好的端到端目标检测效果？并从标签分配和网络架构两个方面回答并验证了这一问题。

FPN 阶段中利用 3D Max Filtering (3DMF) 的 head 示意图。

3D Max Filtering 的示意图。

利用不同方法的预测分类可视化示意图。

推荐：原来，丢弃 Transformer，全卷积网络也可以实现 E2E 检测。

论文 4：ConvTransformer: A Convolutional Transformer Network for Video Frame Synthesis

作者：Zhouyong Liu、Shun Luo、Wubin Li、Jingben Lu、Yufan Wu、Chunguo Li、Luxi Yang
论文链接：https://arxiv.org/pdf/2011.10185.pdf

摘要：深度卷积神经网络（CNN）是功能非常强大的模型，在一些困难的计算机视觉任务上性能也很卓越。尽管卷积神经网络只要有大量已标记的训练样本就能够执行，但是由于物体的变形与移动、场景照明变化以及视频序列中摄像头位置的变化，卷积神经网络在视频帧合成方面的表现并不出色。

近日，来自东南大学的研究者提出了一种新型的端到端架构，称为卷积 Transformer（ConvTransformer），用于视频帧序列学习和视频帧合成。ConvTransformer 的核心组件是文中所提出的注意力层，即学习视频序列序列依赖性的多头卷积自注意力。ConvTransformer 使用基于多头卷积自注意力层的编码器将输入序列映射到特征图序列，然后使用另一个包含多头卷积自注意层的深度网络从特征图序列中对目标合成帧进行解码。

在实验阶段的未来帧推断任务中，ConvTransformer 推断出的未来帧质量媲美当前的 SOTA 算法。研究者称这是 ConvTransformer 架构首次被提出，并应用于视频帧合成。

本文 ConvTransformer 架构的流程图。

左：卷积自注意力；（右）并行的多头注意力。

本文 ConvTransformer 与其他 SOTA 视频帧插值方法的可视化效果比较。

推荐：研究者表示，这是卷积神经网络与 Transformer 首度结合用于视频帧合成。

论文 5：iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes

作者：Bokui Shen、Fei Xia、Chengshu Li 等
论文链接：https://arxiv.org/pdf/2012.02924.pdf

摘要：近来，面向 AI 和机器人的模拟环境得到了大力发展。仅仅几年前，机器人模拟环境还算是相对稀有的产物，但如今，各大学术会议（NeurIPS、CoRL、甚至 ICRA 和 IROS）几乎所有与 AI 机器人相关的论文都会用到模拟环境。

然而，当前结合物理模拟与机器人任务的模拟环境往往局限于一小类任务，并且仅包含 clean 和小型场景。包含家庭和办公室等大型场景的少数模拟环境要么无能力改变场景，仅侧重于导航性能，如 Habitat；要么使用游戏引擎或者简化的交互模式，如 AI2Thor、VirtualHome。所以，在处理那些需要与场景进行丰富交互的任务而言，这些模拟器不支持端到端感觉运动控制回路的开发，也就难以完成此类任务。此外，简化的交互模式也导致很难将可学得的交互策略转换为可执行的真实机器人指令。

基于如上这些想法，来自斯坦福视觉与学习实验室（SVL）的研究者开发了 iGibson 以用来训练和测试 interactive（可交互的）AI 智能体 iGibson。

iGibson 模拟环境中的机器人交互。

15 个充分可交互、视觉上逼真、依据真实房屋构建的场景。

iGibson 与其他模拟环境的比较。

推荐：研究者表示，斯坦福视觉与学习实验室（SVL）有许多的项目在使用 iGibson，未来也将提出、攻克各种各样的交互任务。

论文 6：Every Model Learned by Gradient Descent Is Approximately a Kernel Machine

作者：Pedro Domingos
论文链接：https://arxiv.org/pdf/2012.00152v1.pdf

摘要：深度学习的成功通常归因于其自动发现数据新表征的能力，而不是像其他学习方法那样依赖手工特征。但在本文中，来自华盛顿大学的研究者表明，通过标准梯度下降算法学得的深度网络实际上在数学上近似于内核机器，这是一种简单地存储数据并直接通过相似性函数（内核）将其用于预测的学习方法。通过阐明深层网络权重实际上是训练示例的叠加，深层网络权重的可解释性可以大大增强。

内核机器模型的形式。

路径内核度量示例之间相似度的方式。

作为叠加训练示例时的深度网络权重。

推荐：网络体系结构将目标函数的知识整合到内核中。这种更好的理解方式应该能够生成更好的学习算法。

论文 7：Animating Pictures with Eulerian Motion Fields

作者：Aleksander Holynski、Brian Curless、Steven M. Seitz、Richard Szeliski
论文链接：https://arxiv.org/pdf/2011.15128.pdf

摘要：或许是受到「霍格沃兹」魔法世界的启发，近年来，人们为了让静态的照片动起来花了不少功夫。不过，之前的很多研究针对的都是人物，水流、烟雾等自然场景的研究相对较少。但如果翻看手机相册的话，景物照可不比人像少。对于人类而言，一张图像通常不仅仅是像素的集合。根据我们以往对世界的观察，当拍摄图像时，我们不仅可以识别出物体、结构，还可以想象到场景的运动方式。通过这些先验，我们常常可以想象到图像的动态展示场景，例如烟囱冒烟、湖波荡漾等。

在华盛顿大学和 Facebook 的一项新研究中，研究者们提出了一个从真实场景视频中学习相同运动先验的系统，该系统可以利用一张全新的静态图像合成合理运动，并渲染出基于该图像的场景动画视频。

方法示意图。

深度变形、无缝循环与训练流程图。

转换的动画视频示例。

推荐：湖波荡漾、烟雾蒸腾…… 这些动态场景竟都是 AI「脑补」出的

7 Papers Radios | NeurIPS 2020最佳论文；全卷积网络实现E2E目标检测相关推荐

NeurIPS 2022 | FCOS-LiDAR：全卷积单阶段3D目标检测（沈春华团队）
编辑 | CVer 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心[3D目标检测]技术交流群后台回复[3D检测综述]获取最新基于点云 ...
radioml2018数据集_7 Papers Radios | CVPR 2020获奖论文；知识蒸馏综述
机器之心 & ArXiv Weekly Radiostation 参与:杜伟.楚航.罗若天本周的重要论文是CVPR 2020 公布的各奖项获奖论文,包括最佳论文和最佳学生论文等. 目录: K ...
7 Papers Radios | SIGGRAPH 2020最佳博士论文；南开等提出新型自校准卷积
本周的重要论文包括 SIGGRAPH 2020 最佳博士论文,以及南开大学等提出的自校准卷积和相应网络. 目录: LightGCN: Simplifying and Powering Graph Co ...
GPT-3等三篇论文获NeurIPS 2020 最佳论文奖！华人一作获时间检验奖
作者 | AI科技评论刚刚,NeurIPS 2020在官网公布了2020年度最佳论文奖和时间检验奖两项大奖! 今年一共有三篇论文共同获得最佳论文奖,其中第二篇获奖论文就是来自OpenAI团队打造的今 ...
GPT-3获NeurIPS 2020最佳论文奖
晓查发自凹非寺量子位报道 | 公众号 QbitAI NeurIPS 2020今天正式召开,今年共有1900篇论文被接收,创下历史新高. 今天早晨,大会评委会公布了获得最高荣誉的论文名单: 包 ...
GPT-3获NeurIPS 2020最佳论文奖，苹果华人学者获经典论文奖
晓查发自凹非寺量子位报道 | 公众号 QbitAI NeurIPS 2020今天正式召开,今年共有1900篇论文被接收,创下历史新高. 今天早晨,大会评委会公布了获得最高荣誉的论文名单: 包 ...
21岁华人本科生，凭什么拿下CVPR 2020最佳论文提名？
金磊发自凹非寺量子位报道 | 公众号 QbitAI 在训练神经网络的时候,经常会出现「缺数据」的情况. 这时候,就需要「数据增强」来获取更多数据.而近几年,镜像反转成了最为常用的方法之一. 转 ...
自然语言处理顶会COLING 2020最佳论文等三项大奖出炉 | AI日报
自然语言处理顶会COLING 2020最佳论文等三项大奖出炉 12月8日至13日,第28届国际计算语言学会议(COLING 2020)在线上正式举行. 计算语言学国际会议COLING 2020(是计算 ...
目标检测别再刷榜了，让流感知来展示真正的技术！ECCV 2020 最佳论文提名
作者 | 赛文编辑 | 陈彩娴今天解读的论文的是不久前获得ECCV 2020 最佳论文提名奖的<Towards Streaming Perception>. 在这篇论文中,来自CMU和 ...

7 Papers Radios | NeurIPS 2020最佳论文；全卷积网络实现E2E目标检测

7 Papers Radios | NeurIPS 2020最佳论文；全卷积网络实现E2E目标检测相关推荐

最新文章

热门文章