历时九天,我们收到了近千份有效读者投票,2017 年度最值得读的 AI 论文评选也正式结束。

我们根据读者的投票情况,选出了自然语言处理和计算机视觉领域“2017 年最值得读的十大论文”。让我们一起来看看过去一整年,在 PaperWeekly 读者心中排名前十的计算机视觉论文都有哪些?还有给我们留言的读者,在表达对这十篇论文的喜爱之情时都说了些什么?

此外,小编也在所有留言中选出了自己最钟意的五条,还在所有成功参与投票的读者中随机抽取了 13 位,他们都将获得 PaperWeekly 精心准备的新年礼物。

  • 论文 | Mask R-CNN
  • 链接 | https://www.paperweekly.site/papers/672
  • 源码 | https://github.com/CharlesShang/FastMaskRCNN

Mask R-CNN 是 ICCV 2017 的最佳论文。Faster R-CNN 用于目标检测,FCN 用于物体分割,概念基本深入人心。本文提出一个高效实体分割+目标检测+关键点检测框架,各任务之间并行实现,速率 5fps(在单 GPU 运行时间是 200ms/帧,使用 8 GPU 卡,在 COCO 数据集训练只需要 2 天时间),模型简洁,没有靠 trick 提升性能,网络框架主体就是 Faster R-CNN+FCN。

实体分割需要正确检测图片所有的物体并实现像素级分割。在论文之前的实现方式是分割之后做分类,而 Mask-RCNN 的检测和分割是并行出结果。该网络还很容易扩展到其他领域,像目标检测、分割和人物关键点检测等任务。

扩展阅读: site/

Mask R-CNN阅读笔记

  • https://www.paperweekly.papers/notes/222

  • 论文 | Image-to-Image Translation with Conditional Adversarial Networks
  • 链接 | https://www.paperweekly.site/papers/1401
  • 源码 | https://github.com/phillipi/pix2pix

将 GAN 的对抗 loss 引入有监督图像转换任务的经典之作。

原有的传统图像转换任务中 L1、L2 等人工设计的损失函数并不能产生令人满意的视觉效果,本文提出的 pix2pix 模型则借助了条件判别网络来充当一个隐式的损失函数,让它在与生成网络对抗的过程中超越人工设计的损失函数,取得良好的视觉效果。

本文提出的 PatchGAN 要求判别网络只对图像的一小块区域进行判别,专注捕捉高频信息,这也成为后续很多图像转换论文的常见做法。

  • 论文 | A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection
  • 链接 | https://www.paperweekly.site/papers/314
  • 源码 | https://github.com/xiaolonw/adversarial-frcnn

遮挡和形变在物体检测中是很难的一类样本,而它们又具有长尾性,即使收集一个很大的数据集也很难涵盖不常见的情况。本文提出用 GAN 来生成遮挡和形变的样本,这是第一篇将 GAN 引入物体检测的文章。

这两类样本的生成都是在特征层面,而不是在图片层面。对于遮挡,作者采用一个 ASDN 网络,它的目标是对 ROI-pooling 的特征生成一个 mask,通过 mask 遮挡掉部分特征,以骗过分类器。

类似的,对于形变,通过 STN 网络在一定范围内生成一组旋转、缩放、平移的参数,再作用到特征上,使得分类器分错。而分类器的目标是尽可能地避免被这两类生成样本欺骗。

ASDN、ASTN 和 Fast-RCNN 可以联合训练,以避免在某些固定的生成模式下过拟合。实验表明,A-Fast-RCNN 在 VOC07 和 12 的数据上都有 2% 以上的 mAP 提升。

  • 论文 | Bayesian GAN
  • 链接 | https://www.paperweekly.site/papers/1102
  • 源码 | https://github.com/andrewgordonwilson/bayesgan/

本文将贝叶斯公式引入到做无监督和半监督学习的 GAN 模型中,采用哈密顿蒙特卡罗随机梯度算法优化生成器和判别器。作者指出,在不需要 feature matching 和 mini-batch discrimination 等 tricks 的情况下,能够取得不错的分类性能。

此外,Bayesian GAN 还能避免模式坍塌(mode collapse)。文章在 SVHN、CelebA 和 CIFAR-10 等数据集上取得了 state-of-the-art 的半监督分类效果。

  • 论文 | Interpretable R-CNN
  • 链接 | https://www.paperweekly.site/papers/1215
  • 源码 | 暂无

本文使用 R-CNN 展示了一种学习定性可解释模型的方法。R-CNN 由一个区域建议网络和一个感兴趣区域预测网络(RoI,Region of interest)组成。通过使用可解释的模型,可在检测中(对任何部分都不使用监督的情况下)自动地、同步地学习展开目标实例的隐藏部分结构。

本文还提出了一种 AOG 解析算子来取代 R-CNN 中常用的 RoI 池化算子,因此该方法可以适用于很多基于卷积神经网络的顶尖目标检测系统。

在实验中,作者在 R-FCN 之上创建模型并在 PASCAL VOC 2007、 PASCAL VOC 2012 数据集上进行测试,最终的性能与目前最先进的方法具有可比性。

  • 论文 | Learning Feature Pyramids for Human Pose Estimation
  • 链接 | https://www.paperweekly.site/papers/1325
  • 源码 | https://github.com/bearpaw/PyraNet

本文是香港中文科技大学王晓刚教授团队之作,目前在 MPII 官网 Single Person 领域,PCKh @ 0.5 evaluation measure,取得 state-of-the-art 水平。

论文在 Stacked Hourglass 基础上,提出 Pyramid Residual Module,金字塔残差模块,通过学习 DCNNs 中的特征金字塔来增强深度模型的尺度的不变性,而模型复杂度只有很小的增加。

本文针对具有多个输入或多个输出分支图层的 DCNNs 初始化问题,提出了有效的初始化方案,可用于 inception 和 ResNets 等模型。此外,本文还解决了由 identity mapping 引起的激活方差积累的问题。

扩展阅读:

PyraNet阅读笔记

  • https://www.paperweekly.site/papers/notes/229

  • 论文 | Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
  • 链接 | https://www.paperweekly.site/papers/807
  • 源码 | https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

本文可能是 GAN 在 CV 领域最著名的应用案例。通过 Cycle Consistency 的思想,在不需要成对数据的条件下实现了无监督的图像转换。

如果说 pix2pix 的结果还在“嗯这样能 work 倒也可以想象”的范畴之内,那么 CycleGAN 带来的则是令人惊异的飞跃,因为它仅仅通过“保真”和“可逆”这两个间接性的要求,就能够让模型完成合乎人类预期的风格转换。

可能是由于 CycleGAN 的实验效果更为吸睛,其知名度和引用量都远超同时期的另外两个兄弟 DualGAN 和 DiscoGAN。

扩展阅读:

CycleGan论文笔记

  • https://www.paperweekly.site/papers/notes/229

  • 论文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
  • 链接 | https://www.paperweekly.site/papers/1278
  • 源码 | https://github.com/NVIDIA/pix2pixHD

自从 LAPGAN 将“由粗到细、分阶段生成”的做法引入了 GAN 之后,很多论文都在沿着这个方向做,而英伟达这篇论文提出的 pix2pixHD 模型同样沿袭了上述思想,在有监督条件下做到了迄今为止最好的高分辨率(2048 x 1024)视觉效果。

此外,本文还将他们的方法扩展到交互式 semantic manipulation,这对于传统的 rendering photo-realistic images 是一个颠覆性的工作。

扩展阅读:

  • 利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作

  • 论文 | Triple Generative Adversarial Nets
  • 链接 | https://www.paperweekly.site/papers/345
  • 源码 | https://github.com/zhenxuan00/triple-gan

从博弈角度来说,TripleGAN 的博弈涉及三方,判别器、生成器和分类器。其中,判别器和生成器有对抗;判别器和分类器(在训练前期)有对抗;生成器和分类器有协助作用。

可以从斗地主的角度来看,判别器是地主,生成器和分类器是农民。拆掉分类器,它就是一个 CGAN。拆掉生成器,它就是一个半监督的 GAN。

此外,我们还能从对偶学习的角度进行解读,生成器对 p(x|y) 进行建模,而分类器则对 p(y|x) 建模。两者在判别器的统筹下达成 p(x,y) 的一致性,这是很漂亮的对偶思想。可以说这篇文章对三方博弈的设计非常巧妙。

  • 论文 | Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
  • 链接 | https://www.paperweekly.site/papers/784
  • 源码 | https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation

本文发表于 CVPR 2017,首次提出了基于深度学习的实时多人二维姿态估计。本文最大的亮点在于其融合了 PCM 和 PAF 的级联 cascade 形网络结构。

本文算法主要流程如下:输入一幅图像,经过卷积网络提取特征,得到一组特征图,然后分成两个岔路,分别使用 CNN 网络提取 Part Confidence Maps 和 Part Affinity Fields ,得到这两个信息后,再使用图论中的 Bipartite Matching 将同一个人的关节点连接起来得到最终的结果。

原文发布时间为:2018-01-31

本文作者:让你更懂AI的

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

2017年度最值得读的AI论文 | CV篇 · 评选结果公布相关推荐

  1. 2017年度最值得读的AI论文 | NLP篇 · 评选结果公布

    历时九天,我们收到了近千份有效读者投票,2017 年度最值得读的 AI 论文评选也正式结束. 我们根据读者的投票情况,选出了自然语言处理和计算机视觉领域"2017 年最值得读的十大论文&qu ...

  2. 2017年度最值得读的AI论文评选 | 大张旗鼓送福利

    2017 年,同样有无数优秀的论文涌现.从 AlphaGo 的从"零"开始到 Geoffrey Hinton 提出的 Capsule 计划,各大高校和科研机构为我们带来了很多令人兴 ...

  3. 本周有哪些值得读的 AI 论文?我们替你挑选了 18 篇

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  4. 本周有哪些值得读的 AI 论文?进来告诉你答案

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  5. 春节囤货清单 | 15篇近期值得读的AI论文

    本文来自PaperWeekly [ 自然语言处理 ] - 01 - Deep Learning for Sentiment Analysis : A Survey @xwzhong 推荐 #Senti ...

  6. NLP领域近期有哪些值得读的开源论文?(附下载)

    来源:PaperWeekly 本文约3300字,建议阅读8分钟. 本文为你分享10篇值得读的NLP论文,带源代码的那种~ @paperweekly 推荐 #Relation Extraction 本文 ...

  7. 近期有哪些值得读的推荐系统论文?来看看这份私人阅读清单

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考.在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 本期「本周值得读」关注的是「推荐系统」领 ...

  8. NLP领域近期有哪些值得读的开源论文?

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. 科技行者公布人工智能2017年度评选: 10大AI事件、50家AI概念股、61位AI人物

    2017可以称作是AI元年,是人工智能走过的第61个年头,也是人工智能在学术.技术以及应用的爆发年.要说2017年人工智能的最大影响力,或许是让越来越多人意识到,人工智能将颠覆城市形态.公司架构.商业 ...

最新文章

  1. java 多选列表框_快逸报表:填报中的下拉多选列表框
  2. 的g极串一个电阻_Ohm#39;s Law 简单系列D:从惠斯通(会石头)测电阻开始说
  3. Linux系统下手把手完成无人值守安装服务
  4. 关于vc中Warning: skipping non-radio button in group的警告
  5. Shell简介:什么是Shell,Shell命令的两种执行方式
  6. 模拟 Codeforces Round #297 (Div. 2) A. Vitaliy and Pie
  7. 职场沟通能力,不是人人都有
  8. RaabitMQ:rabbitmqctl的几个命令
  9. Python自学之路NO.1-Python的安装与配置
  10. tf2.1下生成yolo.h5文件
  11. 编写一个脚本判断某个用户是否处在活动模式_大数据技术之Spark内核解析(二)Spark 部署模式...
  12. Xbox One 游戏欣赏: 麦克斯-兄弟魔咒
  13. [一个简单的.NET逆向工程]给没有源代码的.NET程序打补丁
  14. 如何判断sql server 2000 是否大了sp4补丁
  15. matlab2018历史命令在哪,2018美赛准备之路——Matlab基础——命令行功能函数
  16. 南京邮电大学matlab实验报告,南京邮电大学通信与信息处理江苏省实验教学示范中心...
  17. 华为云C6系列服务器,真实评价华为云c6s和c6怎么样-配置区别不大
  18. xp系统开机自检很久_XP系统取消开机自检的5种方法?
  19. 【大连理工大学】计算机专业选修:深度学习2020期末复习
  20. 小心利用大家的爱国热情来传播Worm.Win32.AutoRun.dgk的网页

热门文章

  1. 基于神经网络的图像分割
  2. linux su -c 命令
  3. STM32—ADC详解
  4. Qt 读取Excel表格数据 生成Excel表格并写入数据
  5. MYSQL学习记录(8)
  6. 别碰鼠标——让键盘飞起来
  7. CentOS6实验模板机搭建
  8. 教你如何用思维导图把一本书内容绘制成一张A4纸!
  9. 互联网企业使用云计算,有什么优势?
  10. 2016年全国高中数学联赛加试T2解答