原文链接:CVPR GAN部分

本文为 AI 研习社编译的技术博客,原标题 :NeuroNuggets: CVPR 2018 in Review, Part I作者 | Sergey Nikolenko、Aleksey Artamonov翻译 | 老赵 校对 | 李晶整理 | 菠萝妹原文链接:https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-i-f22b8c223202

NeuroNuggets:CVPR 2018年回顾,第一部分

在Neuromation,我们一直在寻找有助于我们的研究的新的有趣想法。 还有什么比顶级会议更适合寻找它们的地方。 我们已经在CVPR(计算机视觉和模式识别)会议的研讨会DeepGlobe介绍了我们如何取得成功。 这次我们将仔细研究一下CVPR本身最有趣的论文。 这段时间,顶级会议是非常重要的事情,所以我们准备了一系列的推文。 我们介绍的论文没有特别的顺序,不仅选择优秀的论文,而且与我们在Neuromation所做的研究相关。 这一次,Aleksey Artamonov(你以前见过的人)准备了这份列表,我试图对其补充一些介绍。 在这个系列中,我们将非常简短,试图从每篇论文中提取最多一个有趣的点,所以在这种方式我们不能真正了解完整的工作,并强烈建议完整阅读论文。

GAN和计算机视觉

在第一部分中,我们专注于生成模型,即不仅可以区分猫狗,还可以生成新的猫和狗图像的机器学习模型。 对于计算机视觉,最成功的一类生成模型是生成性对抗网络(GAN),其鉴别器网络学习区分生成的对象和真实对象,生成器学习去欺骗鉴别器。 我们已经多次写过GAN(例如,这里和这里),所以让我们直接进入正题。

寻找户外的小脸

Y. Bai等人,用生成性对抗网络在户外寻找小小的面孔

打开百度App,看更多美图

在沙特和中国研究人员的合作中,作者使用GAN来检测和放大人群照片上的非常小的面孔。 即使仅检测小面孔也是一个有趣的问题,普通的人脸检测器(例如,在我们之前的帖子中出现)通常无法解决该问题。 在这里,作者提出了一个端到端的流水线来提取面部,然后应用生成模型将其提升到4倍(一个称为超分辨率的过程)。 以下是论文中的流水线概览:

PairedCycleGAN化妆

H. Chang等人,PairedCycleGAN:用于和去除化妆的不对称样式转移

条件GAN已经广泛用于图像处理; 我们已经提到过超分辨率,GAN也成功应用于风格转换。 使用GAN,可以学习与特定图像元素相对应的显着特征 - 然后更改它们。 在这项工作中,来自普林斯顿、伯克利和Adobe的研究人员提出了一个修饰照片的框架。 这项工作的一个有趣的部分是作者为不同的脸部组成部分(眼睛,嘴唇,皮肤)训练单独的生成器并分别应用它们,用不同的网络提取脸部组成部分:

GANerated Hands

F. Mueller等人,GANerated Hands for Mon-time RGB for Real-Time 3D Hand Tracking

我们已经写过关于姿势估计的文章。 姿势估计的一个非常重要的子集(通常需要单独的模型)是手部跟踪。 通过挥动双手来操纵计算机的科幻主题尚未完全实现,仍然需要专门的硬件,如Kinect。 像往常一样,主要问题之一是数据:在哪里可以找到3D标记的真实视频流?在这项工作中,作者提出了一种条件GAN架构,能够将合成的3D模型转换为图像 然后用于训练手部跟踪网络。 这项工作非常吸引我们,合成数据是Neuromation研究的重点,所以我们之后可能会更详细地考虑它。 同时,这里是“合成到实际”的GAN架构:

行人迁移GAN

L. Wei 等人,Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

人物重新识别(ReID)是在不同条件和不同情况下拍摄的不同照片上找到同一个人的问题。 这个问题自然而然地成为许多研究的主题,现在已经相对较好地解决了,但是领域差异问题仍然存在:不同的数据集与人物的图像具有非常不同的条件(照明,背景等),在一个数据集上训练的网络在转移到另一个数据集(以及例如现实世界的应用程序)时损失很大。 上图展示了不同的数据集。 为了解决这个问题,这项工作提出了一种GAN架构,能够将图像从一种“数据集样式”转移到另一种“数据集样式”,使用GAN来通过复杂的变换增强真实数据。 它的工作原理如下:

生成模型的眼睛图像合成

K.Wang等人,用于眼睛图像合成和眼睛凝视估计的分层生成模型

伦斯勒理工学院的这项工作解决一个非常特殊的问题:生成人眼的图像。 这不仅对于生成图像中漂亮的眼睛重要,而且用生成的眼睛解决视线估计问题:人们在看什么? 这将为真正的科幻界面铺平道路......但这仍然是未来,目前甚至合成眼睛生成也是一个非常难的问题。 作者提出了一个复杂的眼形合成概率模型,并提出了一个GAN架构,根据这个模型生成眼睛 - 取得了巨大的成功。

图像修复:填写空白

J. Yu等人,Generative Image Inpainting with Contextual Attention

Adobe Research和伊利诺伊大学厄本那 - 香槟分校的这项工作试图解决填补图像空白这个极具挑战性的问题(见上面的例子)。 通常,修复图像需要了解潜在场景:在上图中的右上角,你已经知道脸部是什么样的,以及我们根据看到的头发和颈部预测脸可能是什么样的。 在这项工作中,作者提出了一种基于GAN的方法,可以利用周围图像的特征来改善生成。 该结构由两部分组成,首先生成粗略结果,然后使用另一个网络对其进行细化。 结果非常不错:

今天就是这样。 这只是第一部分,我们将在下一期继续进行CVPR 2018回顾,再见。雷锋网雷锋网雷锋网

Sergey NikolenkoChief Research Officer, Neuromation

Aleksey ArtamonovSenior Researcher, Neuromation

想要继续查看该篇文章相关链接和参考文献?

长按链接点击打开或点击【CVPR 2018摘要:第一部分】:

http://ai.yanxishe.com/page/TextTranslation/1193

CVPR 2018摘要:第一部分相关推荐

  1. CVPR 2018摘要:第五部分​

    转自:http://ai.yanxishe.com/page/TextTranslation/1241 英文原文:What's In a Face (CVPR in Review V) 标签: 图像描 ...

  2. CVPR 2018摘要:第五部分

    标题 What's In a Face (CVPR in Review V) CVPR 2018摘要:第五部分​ by 啦啦啦2 01 What's In a Face (CVPR in Review ...

  3. CVPR 2018摘要:第二部分

    转自:https://yq.aliyun.com/news/294835 本文为 AI 研习社编译的技术博客,原标题: NeuroNuggets: CVPR 2018 in Review, Part ...

  4. CVPR2019接收结果公布了,但CVPR 2018的那些论文都怎么样了?

    CVPR 作为计算机视觉三大顶级会议之一,一直以来都备受关注.被 CVPR 收录的论文更是代表了计算机视觉领域的最新发展方向和水平.今年,CVPR 2019 将于美国洛杉矶举办,上个月接收结果公布后, ...

  5. CVPR 2018 | 腾讯AI Lab关注的三大方向与55篇论文

    感谢阅读腾讯 AI Lab 微信号第 32 篇文章,CVPR 2018上涌现出非常多的优秀论文,腾讯 AI Lab 对其中精华文章归类与摘要,根据受关注程度,对生成对抗网络.视频分析与理解和三维视觉三 ...

  6. 点云 3D 目标检测 - VoxelNet(CVPR 2018)

    点云 3D 目标检测 - VoxelNet(CVPR 2018) 摘要 1. 引言 1.1 相关工作 1.2 贡献 2. VoxelNet 2.1 VoxelNet架构 2.1.1 特征学习网络 2. ...

  7. CVPR 2018 | ETH Zurich提出利用对抗策略,解决目标检测的域适配问题

    CVPR 2018 | ETH Zurich提出利用对抗策略,解决目标检测的域适配问题 原创: Panzer 极市平台 今天 ↑ 点击蓝字关注极市平台 识别先机 创造未来 论文地址:https://a ...

  8. CVPR 2018 | TVNet:可端到端学习视频的运动表征

    "来自腾讯 AI Lab.MIT.清华.斯坦福大学的研究者完成并入选 CVPR 2018 Spotlight 论文的一项研究提出了一种能从数据中学习出类光流特征并且能进行端到端训练的神经网络 ...

  9. CVPR 2018 论文解读集锦(9月26日更新)

    本文为极市平台原创收集,转载请附原文链接: https://blog.csdn.net/Extremevision/article/details/82757920 CVPR 2018已经顺利闭幕,目 ...

最新文章

  1. sealed关键字用法
  2. 将Java 8支持添加到Eclipse Kepler
  3. ZZULIOJ 1064:加密字符
  4. python自动化办公模块有哪些-Python 自动化办公|Word文档
  5. 用anaconda配置深度学习的环境,从配置环境到下载各种包,绝对学会,还是没学会留下评论,我看到会回答
  6. 通过里程碑式管理,控制软件项目管理进度
  7. 利用xposed自动获得微信个人收款二维码链接和收款记录
  8. 量子加密技术成功在人工智能产品上的应用落地
  9. 根服务器修改密钥,更改 SQL Server 实例的服务主密钥
  10. C++向mysql批量插入数据
  11. 如何快速撰写/总结国内外研究现状?
  12. 神州数码配置命令总结-(已更新)
  13. 百度招聘Android客服端(2)
  14. L13过拟合欠拟合及其解决方案
  15. vue-qq 实践(一)
  16. 家用智能投影推荐 五千元档的当贝F5和当贝X3有哪些区别?
  17. 2022年全球光纤连接市场将达50.1亿美元
  18. ArcGIS 西安80的投影坐标转CGCS2000的投影坐标
  19. 基于R语言的seasonal包使用手册_10.na.x13(x)
  20. 赛门铁克新通告仍犯旧错 再次忽视大陆用户

热门文章

  1. Android中闹铃的设置
  2. Linux——Linux驱动之设备树下platform总线驱动编写实战(手把手教你设备树下platform总线利用GPIO控制蜂鸣器完整实现过程)
  3. Wildfish框架的实现原理之系统工具篇
  4. CuppaCMS 文件上传漏洞复现(CVE-2020-26048)
  5. android 儿童 汉字 学习 游戏,儿童游戏学汉字
  6. 友豆火山CPG插件开发002-环境配置和第一个例子
  7. 车辆共享车载单元 (OBU )全国产化电子元件推荐方案
  8. 表字段加了索引但是查询依然很慢
  9. Dv-Hop Algorithm
  10. 翻译:确认中的处理控制(CO1P)