CVPR2015一些文章整理

简单看了一部分CVPR2015的文章。整理了一下。

当中我决定把精彩的文章加粗。

主要是认为有些文章仅仅读了一遍，没有发现非常多非常有道理的point（虽然我承认他们的工作都花了非常大的功夫。可是没有激起太大的兴趣去follow。或许有机会读第二遍的时候会再highlight）。另外MIT的博士生Zoya Bylinskii也总结了一个list，大家能够看看这里：http://web.mit.edu/zoya/www/CVPR2015brief.pdf

假设有不同看法的我们能够在评论区里讨论。

CNN结构的：

--- Fisher Vectors Meet Neural Networks: A Hybrid Classification Architecture，Florent Perronnin and Diane Larlus

相比于标准的CNN，变化是将卷积层所有变成标准的FV，全连接层的部分做分类层保持不变。比起标准的FV，无疑是把分类器变成了MLP。ACC相比标准的CNN下降。相比标准的FV提高。这样的从标准CNN入手，把前面的卷积和后面的全连通隔裂开对待/优化的文章还有arxiv上He Kaiming 的 Object Detection Networks on Convolutional Feature Maps。

---- Recurrent Convolutional Neural Network for Object Recognition

Weichen师兄在讨论班上的推荐。

把层次空间想象成序列空间，套上RNN，目的是为了使同一层的节点相互联系从而建模context。这个想法挺有脑洞。可是感觉非常不自然（为什么不直接建模相邻节点的依赖关系）。相比之下ION net建模context的方法更直接，以后有机会会讲讲ION。

物体检測与切割：

---- Learning to Propose Object， Philipp Krähenbühl, Vladlen Koltun

---- Improving Object Proposals with Multi-Thresholding Straddling Expansion， Xiaozhi Chen, Huimin Ma, Xiang Wang, Zhichen Zhao

---- Hypercolumns for Object Segmentation and Fine-Grained Localization。 Bharath Hariharan, Pablo Arbeláez, Ross Girshick, Jitendra Malik

这个比較有意思了，明确说CNN每一层都是实用处的。Holistically-Nested Edge Detection的模型跟这个模型有类似的味道。

---- Taking a Deeper Look at Pedestrians

这文章在方法上有啥创新点？好像就是把Cifar-net和Alexnet用在对行人的建模上。

---- A Convolutional Neural Network Cascade for Face Detection，Haoxiang Li。Gang Hua

CNN + Cascade，Calibration层有点意思，模型里还引入了multi-scale。

---- Deeply learned face representations are sparse, selective, and robust, Yi Sun, Xiaogang Wang, Xiaoou Tang

DeepID系列之DeepID2+。在DeepID2之上的改进是添加了网络的规模(feature map数目)，另外每一层都接入一个全连通层加supervision。最精彩的地方应该是后面对神经元性能的分析。发现了三个特点：1.中度稀疏最大化了区分性。并适合二值化。2.身份和attribute选择性；3.对遮挡的鲁棒性。这三个特点在模型训练时都没有显示或隐含地强加了约束，都是CNN自己学的。

已经迫不及待要看DeepID3了。

---- DeepID3: Face Recognition with Very Deep Neural Networks （顺带提一下吧）

DeepID3似乎是封山之作，结论是太Deep了在现有数据集上也没什么提升了。反正作者也毕业了。

CSDN有一篇对作者的专訪，见：http://www.csdn.net/article/2015-11-18/2826241

---- Hypercolumns for Object Segmentation and Fine-Grained Localization。 Bharath Hariharan, Pablo Arbeláez, Ross Girshick, Jitendra Malik

这个比較有意思了，明确说CNN每一层都是实用处的。

Holistically-Nested Edge Detection的模型跟这个模型有类似的味道。

---- Fully Convolutional Networks for Semantic Segmentation (Best Paper Honorable Mention), Jonathan Long, Evan Shelhamer, Trevor Darrell

文章把全连接层当做卷积层。也用来输出feature map。这样相比于Hypercolumns/HED 这样的模型，可迁移的模型层数（指VGG16/Alexnet等）就很多其它了。可是从文章来看。由于纯卷积嘛。所以feature map的每一个点之间没有位置信息的区分。

相较于Hypercolumns的claim，鼻子的点出如今图像的上半部分能够划分为pedestrian类的像素，可是假设出如今下方就应该划分为背景。所以位置信息应该是挺重要须要考虑的。这或许是速度与性能的trade-off?

----- Is object localization for free - Weakly-supervised learning with convolutional neural networks

弱监督做object detection的文章。首先fc layer当做conv layer与上面这篇文章思想一致。

同一时候把最后max pooling之前的feature map看做包括class localization的信息，仅仅只是从第五章“Does adding object-level supervision help classification”的结果看。效果虽好，可是这一物理解释可能不够完好。

（PS. arxiv上有三篇借助CNN做一般物体检測的：

---- DeepBox: Learning Objectness with Convolutional Networks，Weicheng Kuo。Bharath Hariharan。Jitendra Malik

没太大意思，就是把CNN用在所有物体类的训练上。另外证明学到的模型是generic的时候用了IOU-0.5的准确率而不是0.8或者AR是没有非常高信服度的。（ICCV2015接收）

---- Boosting Convolutional Features for Robust Object Proposals, Nikolaos Karianakis

把VGG第一层输出当做feature channel然后接boosting做分类。

并没有证明算法的一般性。

---- Learning to Segment Object Candidates， Pedro O. Pinheiro， Ronan Collobert， Piotr Dollar （NIPS2015接收）

~~文章好像没讲明确score那个分支训练集是怎样做出标注的~~（@8.7又读了一遍，怎样标注就靠正样本选取时的constraints。自己第一遍的时候没弄明确）。

segment相比bounding box在速度上也有点吃亏，所以5秒一个图算慢的（事实上5秒就能过一个图还是非常快的啊，用的是VGG16的网络）。但比起MCG这速度还是快多了。

另外Microsoft COCO今年被用起来了。Microsoft COCO也做成竞赛了。好像Detection Task今年在ICCV15要和ILSVR合办workshop。)

CNN做边缘轮廓检測：

---- DeepContour： A Deep Convolutional Feature Learned by Positive-sharing Loss for Contour Detection

二分类变多分类。有点joint learning的意思。

---- DeepEdge A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection

相当于一种multi-clues做二分类问题。文章里的multi-scale和上面CNN+Cascade那篇文章模型里用到的multi-scale不是同一个东西，用DSP-SIFT一文的总结就是，本文说的multi-scale仅仅是在size-space中选了多个size，并非CNN+Cascade一文中在scale-space中选择了多个scale。multi-scale是解决真正的不同尺度的多样性，而multi-size更像是引入不同的context以及克服occlusion。个人理解这两点的目标差别于此。

PS. 上面两篇相比传统方法提高并不明显。看来在比較底层的问题上人工特征与end-to-end学习模型相比没有在high-level计算机视觉任务上差距的大。

arxiv上Tu Zhuowen有一篇性能更高的。优势还是非常明显的（由于逐像素检測相比全图检測，失去了全局信息。这也隐含了R-CNN的缺点吧）：

---- Holistically-Nested Edge Detection

分析了各种multi-scale model，Wang Naiyan在VALSE的tutorial上也用了这个论文的插图。

这个模型非常复杂了。除了讨论multi-scale以外。还叠加了cnn multi-layer的区分性，有点Hypercolumns的味道。

（ICCV2015接收）

利用CNN的局部性解决计算机视觉问题：

---- A Discriminative CNN Video Representation for Event Detection，Zhongwen Xu, Yi Yang, Alex G. Hauptmann

CNN conv5输出能够作为concept detector。valse上的ppt：这里。

---- Exploiting Local Features from Deep Networks for Image Retrieval

Workshop paper，与上文的思路如出一辙，只是证明了在检索过程中concept概念越抽象不一定越好--由于搜索毕竟是instance-level的，不是class-level的。

图像检索的：

---- Query-Adaptive Late Fusion for Image Search and Person Re-Identification

郑博每年都有CVPR。恭喜。在valse上的ppt：这里。

我们在Trecvid2015的竞赛中用了这种方法。非常多人当时也认为这项工作非常有意义。

---- Early Burst Detection for Memory-Efficient Image Retrieval。 Miaojing Shi, Yannis Avrithis, Hervé Jégou

Hervé Jégou也添加FAIR了

---- Pairwise Geometric Matching for Large-scale Object Retrieval

利用Geometry information做 verification的。速度还挺快。

Eye-fixation:

---- Predicting Eye Fixations Using Convolutional Neural Networks, Nian Liu, Junwei Han, Dingwen Zhang, Shifeng Wen, Tianming Liu

之前没太关注eye-tracking data。这篇文章就是用预測eye fixation的，跟显著性有比較大的联系。

这篇文章中利用的multi-resolution的模型。在看过其它文章之后不会认为有特别特殊的地方。可是从一个contrast导致saliency的角度去结束这里用到的multi-resolution模型，还有点意思。（add@Nov/09/2015: 事实上在Naiyan Wang在VALSE上的总结，Saliency和Edge Detection、Segmentation类似。都是做pixel-wise labeling。所以这几个问题都是同质的。所以用类似的模型去解决全然合理。

）

---- Eye Tracking Assisted Extraction of Attentionally Important Objects From Videos， Karthikeyan Shanmuga Vadivel, Thuyen Ngo, Miguel Eckstein, B.S. Manjunath

Manj组今年唯一的CVPR论文了，用eye-tracking数据辅助其它（指除了saliency）computer vision task。这里做的是video里的objectness。

---- Salient Object Subitizing

数图像中显著物体的个数。优点是有的图像没有显著物体，而一般的Salient Object Detection方法仍然会检測出几个object。所以事前预计图像显著物体的数目能够作为一个有效的先验（比方没有显著物体的图像就不做检測了）。

模型放在caffe的model zoo里了。

---- SALICON: Saliency in Context

一个新库，拿MsCOCO标注的。

理由是eye-tracking data的採集须要专门设备，不便于众包。所以她们组用鼠标轨迹取代eye-tracking data採集了human gaze的数据，并且证明了这样的採集方法替代eye-tracking非常合理。并且她们开放了一个新的竞赛就叫SALICON。还有兴许的论文在ICCV2015上，以后专门讲ICCV15的论文时候再说。

附arxiv上最近放出的论文：

---- DeepSaliency：Multi-task deep neural network model for salient object detection

这里的multi-task是指semantic segmentation + salient object segmentation。不同于joint learning（如DeepID2和Fast RCNN），这里的两个task仅仅是共享了conv layers，输入的训练样本是不一样的。训练的时候两个任务迭代地更新网络的參数。

---- DeepFix：A Fully Convolutional Neural Network for predicting Human Eye Fixations

在MIT的saliency库上排在第二名。非常有意思的文章。考虑了Fixation Prediction的Center Bias问题（就是人眼显著性判决时会倾向于图像中心。FCN这类模型由于没有全连接层了，所以输出每一个像素的预測值是与位置无关的）。至于怎么解决的。请大家自行去看。

其它不好分类：

---- MatchNet Unifying Feature and Metric Learning for Patch-Based Matching， Xufeng Han。 Thomas Leung， Yangqing Jia。 Rahul Sukthankar，Alexander C. Berg

wide-baseline matching。相比与arxiv14年的Descriptor Matching with Convolutional Neural Networks a Comparison to SIFT，这篇文章是监督的。上篇文章是无监督的。patch matching事实上和face verification、再辨识的关联挺大的。文中有说到測试的时候採用两步測试的方法：第一步是特征提取（过一个Tower即可）。第二步是matching（把两个Tower的特征比較起来），这样先把第一步做完。特征保存起来。做第二步就easy了。

联想道Valse上王晓刚老师将NIPS14那篇Joint identification and verification一文，王老师说verification那个网络的时候提到的缺点，不就能够用这个两步測试的方法来解决吗？

---- Domain-Size Pooling in Local Descriptors: DSP-SIFT ， Jingming Dong。Stefano Soatto

wide-baseline matching，相比前面的MatchNet，这篇文章是无监督的。

这篇文章Figure8解释了scale-space和size-space的概念。解释的非常好。可是DoG为什么归为size-space？我仍然认为DoG是属于scale-space的。

---- Deep Neural Networks are Easily Fooled （深度学习对抗样本）

---- Age and Gender Classification using Convolutional Neural Networks

CNN做性别和年龄判决的。

年龄判决不是用回归。而是把年龄分组，然后用分类的方法做。有点简单。并且Age和Gender分了两个网络分别做，居然没有联合起来做。

还在看，慢慢整理吧。

另外这里有其它大神做的CVPR2015年的整理和总结：

CVPR 2015 之深度学习篇(3贴)：

http://deepnn.net/viewtopic.php?

f=6&t=31

http://deepnn.net/viewtopic.php?f=6&t=32

http://deepnn.net/viewtopic.php?f=6&t=38

武汉大学张觅博士生（原创）：CVPR 2015会议总结报告：

http://valseonline.org/thread-334-1-1.html

(知乎)CVPR 2015 有什么值得关注的亮点？

http://www.zhihu.com/question/31300014

Deep down the rabbit hole: CVPR 2015 and beyond:

http://www.computervisionblog.com/2015/06/deep-down-rabbit-hole-cvpr-2015-and.html

-------

jiang1st

http://jiangwh.weebly.com

CVPR2015一些文章整理相关推荐

搜索推荐算法系列文章整理
博主近期花了几个月时间,将搜索推荐行业一些经典的模型算法进行了整理,有的还加入了自己的浅显理解,还有一些是自己的经验文章,也都是搜索推荐行业,这个系列算是做完了,特来整理下每篇文章的链接和简要介绍读 ...
春节快乐！（深度学习框架相关文章整理）
点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 导读过年了,我们的公众号也三个多月了,发的文章也超过了100篇,趁着过年的机会 ...
R语言中文社区2018年终文章整理（作者篇）
欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的同学 ...
2021 上半年公众号苏生不惑近百篇原创文章整理
时间真快,一晃半年就过去了,之前整理过 2019 年公众号苏生不惑近百篇原创文章整理和2020 年公众号苏生不惑 200 多篇原创文章整理,这里再整理下,方便大家收藏,目前原创文章有263篇, ...
2015 深度学习文章整理
国内外从事计算机视觉和图像处理相关领域的著名学者都以在三大顶级会议(ICCV,CVPR和ECCV)上发表论文为荣,其影响力远胜于一般SCI期刊论文,这三大顶级学术会议论文也引领着未来的研究趋势.CVP ...
Android博客文章整理
闭关了四个多月,整理了博客上所有的Android文章,一共划分为三大篇,十六个章节,820页,系统地分析了Android系统的源代码,从Linux内核层.HAL层.运行时库层到应用程 ...
C++编程的精品文章整理
本人现在在学习C++编程,经过一段时间也积累收藏了很多自己认为不错的文章,其中也有自己写的一些,现整理出来方便大家使用!并希望大家指正和建议和交流!希望对大家有帮助!咱们一起努力进步,因为我还是编程的 ...
硬核干货合集！500+篇Java干货技术文章整理|资源|书单|工具|面试指南|强烈建议打开！
今天给大家推荐一位在阿里做Java的朋友给大家,他是公众号[程序员书单]的作者黄小斜. 他的公众号[程序员书单]这两年来累积了200多篇优质原创文章,独家原创的系列文章有<五分钟学编程>系 ...
秋枫学习笔记-原创文章整理
点击蓝字关注,提升学习效率先祝大家圣诞快乐,感谢大家一直以来的支持,这里对原创文章进行整理,方便大家挑选感兴趣的内容阅读. 公众号:秋枫学习笔记知乎:夏未眠,https://www.zhihu.c ...

CVPR2015一些文章整理

CVPR 2015 之深度学习篇(3贴)：

CVPR2015一些文章整理相关推荐

最新文章

热门文章