每年计算机视觉与模式识别会议 (CVPR) 都会带来杰出而有趣的研究,今年在美国盐湖城举办的CVPR 2018也不例外。
CVPR 2018上许多论文提出了全新的深度神经网络在视觉上的应用,它们可能不是最根本的、具有突破性的工作,但它们非常有趣,从新的角度为人们提供了创造性和启发性的想法,而且有些想法很酷!下面是笔者认为的CVPR 2018中最酷的10篇论文,让我们来看看吧!

Super SloMo:视频插值中多幅中间帧的高质量估计

论文地址:

https://arxiv.org/abs/1712.00080

你有想过用超级慢动作拍摄一些超级酷的东西吗? 不妨看看英伟达(Nvdia)的 Super SloMo 吧!他们的卷积神经网络估计出视频中间帧,并且能够将标准的 30fps 的视频转换为看上去惊人的 240fps 下的慢动作!模型估计帧间光流,使用该模型还可以不影响画质地插入视频帧,从而慢镜头看上去也是清晰的。

WISPE:数码相机弱监督照片增强器

论文地址:

http://www.vision.ee.ethz.ch/~ihnatova/wespe.html

真是机智啊!他们训练生成对抗网络 (GAN) 来自动美化照片。最酷的部分是它是弱监督的,你不需要输入-输出图像对!你训练的网络需要的是一组“好看”的图像(对于输出的标注图像)和一组你想要增强的“难看”的图像(对于输入图像)。然后,对 GAN 进行训练以产生输入图像的美化后的版本,通常极大地增强图像的颜色和对比度。

它是快速并且容易使用的,因为你不需要精确的图像对,最后你会得到一个“通用”的图像增强器。我也喜欢这种弱监督的方法。无监督的学习似乎相当遥远。但是对于计算机视觉中的许多子领域来说,弱监督似乎是一个有前途、有利可图的方向。

谁在控制狗? 根据视觉数据对狗的行为建模

论文地址:

https://arxiv.org/abs/1803.10827

这可能是有史以来最酷的研究论文名字!它的思路是尝试并建模狗的所行所想。作者在狗的四肢安装了大量的传感器来收集它的运动数据,也在其头部安装照相机来获取狗看世界的第一视角。使用了一组卷积神经网络特征提取器来提取从视频帧中得到的图像中的特征,然后这些特征就和传感器数据一起传到一组长短期记忆网络,来学习和预测狗的行为。这是一个很新颖且具有创造力的应用。这个任务独特的框架和实现,都让这篇文章值得一读!希望这篇文章可以给未来的研究激发创造力,不管是对我们采集数据的方式还是深度学习技术的应用。

在笔记本上亲临球赛

论文地址:

https://arxiv.org/abs/1806.00890

在世界杯进行之际,这篇论文的发布可以获得最佳时机奖了!这真的是 CVPR 计算机视觉里比较酷的应用之一。简单地说,给定一个足球比赛视频能够输出比赛的三维动态重建,从而训练模型。这就意味着你可以使用增强现实技术在任何地方观看这场比赛!

模型比较机智的地方在于不同类型信息的结合使用。使用视频比赛数据训练网络,根据这些数据可以非常轻易地提取三维网格。测试时,运动员的边界框、姿态和轨迹(在多帧之间)被提取来对其进行分割。 这些三维分割可以简单地投影到任意空间(这样你就可以任意制作虚拟球场)实现增强现实的足球比赛观看!在我看来,使用合成数据来训练时很聪明的做法,同样也是很有趣的应用!

LayoutNet:从单幅彩色图像实现房间布局的三维建模

论文地址:

https://arxiv.org/abs/1803.08999

我们中大多数有都有过这样的想法:给某个东西拍张照片,然后在数字三维对其进行重建 。这篇论文就是一个计算机视觉的应用,也正好是来实现这个想法的,尤其是对房间的三维重建。他们将全景图像作为输入来获得房间的整个视野,输出就是一个非常精确的三维重建的房间布局!这个模型有足够的能力来生成不同形状的房间,房间中可以包含许多不同的家居摆设。这个应用非常有趣,不用看大量计算机视觉研究员的工作,可以很好地阅读。

Polygon-RNN++ 分割数据集的高效交互标注

论文地址:

https://arxiv.org/abs/1803.09693

深度网络工作得如此好的一个主要原因是有大量和完全注释的数据集可供使用。然而,对于许多计算机视觉任务来说,这样的数据既耗时又昂贵。特别是分割数据需要图像中的每个像素的类标记。正如你所想象的…对于大数据集来说,这个过程可能永远持续下去!

Polygon-RNN++ 允许用户在图片中每个目标周围设置粗略的多边形,然后神经网络会自动生成分割标记。这篇论文很好地论述了这种方法,这种方法也可以在分割任务中创建快速、简单的标记。

在时尚大片中创造胶囊衣柜

论文地址:

https://arxiv.org/abs/1712.02662

我今天应该穿什么呢? 如果每天早上都有人或东西来回答这个问题而不需要你去想,那该有多好啊。如果想拥有这样的东西,来认识一下胶囊衣柜 (Capsule Wardrobes) 吧。

这篇论文作者设计了一个模型,给定一个待选服装和饰品的清单,胶囊用最少的物品组成物品集,而这个集合可以提供最多的混搭配备。模型使用目标函数进行基本的训练,而目标函数的设计是用来获取视觉兼容性、多功能性和用户特定喜好的关键因素。使用胶囊衣柜,可以轻松地从你的衣橱里找到符合你品位的最佳搭配。

利用综合数据训练深度网络:通过域随机化来弥补现实差距

论文地址:

https://arxiv.org/abs/1804.06516

这篇论文来自英伟达 ( NVIDIA )。它在使用合成数据来训练卷积神经网络 (CNNs) 上获得长足进步。它为 Unreal Engine 创建了一个插件,用于生成合成的训练数据。真正的关键是它们将训练数据的变量随机化,包括:

对象的数量和类型

干扰项的数量、类型、颜色和尺度

感兴趣物体的纹理和背景照片

虚拟摄影机相对于场景的位置

摄像机相对于场景的角度

点光源的数量和位置

他们展示了一些大有前途的结果,证明了用合成数据进行预训练的有效性。这个结果是以前没有达到。如果你缺少一些重要资源,它可能会对如何生成和使用合成数据有所帮助。

学习分割一切

论文地址:

https://arxiv.org/abs/1711.10370

最近几年,何凯明团队(早先在微软亚洲研究院,现在在 Facebook 人工智能研究实验室)进行了大量的计算机视觉研究。他们文章的厉害之处就在于将创新性与简洁性有效结合。 ResNets 和 Mask R-CNN 都不是最疯狂、最复杂的研究思路。它们都非常简单、易于实现,在实践中也非常有效。这一篇也是一样。

学习分割一切是 Mask R-CNN 的扩展,使得神经网络在训练过程中不看见类也能进行分割! 这对快速、低成本获取数据集标记十分有效。它可以获得不可见目标类强大的基准库分割,这对在野外部署分割神经网络是十分重要的,因为在那样的环境中,存在着大量的不可见目标类。整体看来,这是我们朝着如何思考最大限度利用深度神经网络模型正确方向走了一步。

学习转换架构实现可扩展图像识别

论文地址:

https://arxiv.org/abs/1707.07012

最后但也重要的就是关于深度学习的未来的思考:神经架构搜索 (NAS)。 NAS 背后的基本思想是取代手动设计网络架构,我们可以采用另外的神经网络来 “搜索”最好的模型结构。这个搜索基于回报函数,是很聪明的。回报函数对那些在验证数据集上表现良好的模型进行奖励。作者在文中展示了一个比手动设计更加精确的架构。这在未来是有很大发展空间的,尤其是特定应用的设计。因为我们只需要将全部精力放在设计好手动设计 NAS 算法,而不是为我们特定的应用设计特定的网络。一个良好设计大的 NAS 算法是足够灵活的,可以为任意特定任务找到好的网络。

原文发布时间为:2018-07-18
本文来自云栖社区合作伙伴“计算机视觉life”,了解相关信息可以关注“计算机视觉life”

CVPR 2018 最具创意论文 TOP10相关推荐

  1. CVPR 2018 目标跟踪相关论文

    这里列出列表,每篇论文会单独写一篇博客. <Multi-Cue Correlation Filters for Roubust Visual Tracking> <Learning ...

  2. CVPR 2018 paper list(论文列表)

    原文链接:http://cvpr2018.thecvf.com/program/main_conference 52 Embodied Question Answering Abhishek Das ...

  3. CVPR 2018 论文解读集锦(9月26日更新)

    本文为极市平台原创收集,转载请附原文链接: https://blog.csdn.net/Extremevision/article/details/82757920 CVPR 2018已经顺利闭幕,目 ...

  4. CVPR 2018 论文解读集锦

    之前我们整理过视觉顶级会议CVPR2017的论文解读文章 和ICCV 2017 论文解读集锦,CVPR 2018已经公布了所有收录论文名单,为了能够让大家更深刻了解CVPR的论文,我们进行了一些CVP ...

  5. CVPR 2018 | 腾讯AI Lab关注的三大方向与55篇论文

    感谢阅读腾讯 AI Lab 微信号第 32 篇文章,CVPR 2018上涌现出非常多的优秀论文,腾讯 AI Lab 对其中精华文章归类与摘要,根据受关注程度,对生成对抗网络.视频分析与理解和三维视觉三 ...

  6. 转载:CVPR 2018值得一看的25篇论文,都在这里了 | 源码 解读

    转载于:http://www.tuan18.org/thread-2119-1-1.html (出处: 人工智能培训) Unsupervised Person Image Synthesis in A ...

  7. CVPR 2018论文解读 | 基于域适应弱监督学习的目标检测

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  8. 论文盘点:CVPR 2018 Top 20,华人发明的SENet居首!

    最近CV君在盘点近几年三大CV顶会的论文,继CVPR 2019 .ICCV 2019 .ECCV 2018 Top 20 论文后: 时隔一年,盘点CVPR 2019影响力最大的20篇论文 时隔两年,盘 ...

  9. CVPR 2018 论文解读(部分)

    CVPR 2018还有3个月就开始了,目前已经公布了所有收录论文名单,为了能够让大家更深刻了解CVPR的论文,我们进行了一些CVPR 2018论文解读的整理,后续还会持续更新. 1.CVPR2018| ...

最新文章

  1. 知识图谱学习笔记(1)
  2. R语言使用Repeat函数多次执行代码块内的语句,实现循环执行任务的功能:repeat没有提供任何检查条件,所以编码者必须给出退出重复循环的条件(一般使用if和break)
  3. Java学习笔记(必看经典)
  4. 宣告放弃社交后,支付宝把希望放在了“信息流”上
  5. 一次项目管理交流会总结
  6. AutoHotkey纯命令获取Chrome等浏览器的当前网址
  7. 教师计算机专业知识考试试题及答案,信息技术学科教师基本功测试题及答案
  8. java 反射与封装性的_Java反射的封装
  9. Java实现将阿拉伯数字转换为中文数字123=》一二三
  10. Windows部署KMS服务器
  11. 正睿集训模拟赛 Day1
  12. Unity3D学习笔记(6)—— 飞碟射击游戏
  13. [V8]找出可能影响性能的代码(模式)
  14. php friend_Model/Friend.php · 跳跳虎1986/cwj - Gitee.com
  15. 使用C语言编写测速程序
  16. ARCGIS中某字段递增赋值,如1,2,3,4,
  17. 关于手机相机的快门时长修改
  18. LM358呼吸灯小设计
  19. c语言算钢丝杨氏模量实验报告,大学物理实验报告-钢丝杨氏模量测量.doc
  20. JS获取控制Video

热门文章

  1. HDU 2563 统计问题 (DFS + 打表)
  2. 关于微信小程序,一些想法
  3. lnmp之PDO_mysql.so
  4. Web前端工程师应该掌握的内容有哪些
  5. IplImage 封装释放
  6. 工控补丁星期二:西门子、施耐德电气修复40个漏洞
  7. 云安全之虚拟机安全监控
  8. 登录窗体与主窗体的关闭
  9. 利用lxml爬取豆瓣小组内容文档并保存
  10. ffmpeg和SDL教程 04:创建线程