©PaperWeekly 原创 · 作者|费玥姣

学校|西湖大学博士生

研究方向|视频预测

论文标题:An Analysis of Pre-Training on Object Detection

论文链接:https://arxiv.org/abs/1904.05871

摘要

本工作主要将在物体检测上进行预训练的 CNN 模型在不同的视觉任务上的结果进行分析:

在大的数据集(包括 OpenImagesV4, ImageNet Localization and COCO)预训练检测器,再将特征用到分类、分割、小数据集检测上(比如 PASCAL-VOC, Caltech-256, SUN-397, Flowers-102)。

分析的结果:

  1. OD 预训练对于小数据集的 OD 有很好的效果

  2. OD 预训练有利于分割但是不利于分类

  3. 检测中的图像特征和分类中的更接近,但是反之不是

  4. 神经元可视化反应分割网络更注重整体而分类网络更注重细节

简介

对于多种视觉任务如物体检测、图像分割、图片分类等,通常会在大型数据集上进行预训练,实验证明预训练往往能帮助模型获得更好的结果,更快收敛。

然后预训练往往基于图像分类任务,在大型的分类数据集(如 ImageNet,Places,JFT 等)上进行,再迁移到其他任务或者数据集上进行 finetune,而很少在物体检测任务上预训练。但是分类任务是物体检测的子任务,我们是否可以猜想物体检测模型获得比分类很丰富的特征?

分析

预训练步骤:

Finetune数据集:

3.1 物体检测的Finetune:

检测预训练在 PASCAL-VOC 上 finetune 后,在不同 IoU 阈值上都有提升。

尤其在大 IoU 阈值,OD 预训练能够提高更多 mAP,在 PASCAL-VOC 数据集上,IoU=0.7 时提高了 4.8mAP,IoU=0.5 时只提高 2.2mAP。

并且 OpenImage 预训练模型能更好的处理遮挡情况。

3.2 语义分割

Baseline:还是 Deformable ConvNets 作为 Backbone 模型,在 PASCAL-VOC 2012 进行语义分割 finetune,结果发现有 3 个点的提升:

进行了 trimap experiment 判断这个提升是否是由于边缘像素点的分割效果更好造成的。trimap experiment 计算针对距离边缘长度为 x 的像素分类精确度,anti-trimap experiment计 算除去边缘的像素分类精确度。

发现随着边缘区域的增大,两种预训练模型的 IoU 之间的差别不变,对于远离边缘的像素点来说也是一样,因此得出结论分割模型的好坏不是由于边缘像素分类精确度造成的。

上方是分类预训练的分割结果,下方是检测预训练的分割结果,可见检测预训练模型能够覆盖整个物体,即分类模型无法理解物体边界。Detection pre-training provides a better prior about the spatial extent of an instance which helps in recognizing parts of an object.

3.3 图像分类

在不同分类数据集上测试不同预训练模型的表现,发现物体检测预训练(前三个数据集)对于图像分类(IMAGENET-CLS)效果表现更差:

为了研究为什么会产生这样的现象,这里将图片分类的预训练模型中的特征提取出来进行分析。

Conv5 features 在 OPENIMAGES 和 IMAGENET-CLS 上预训练的模型的 Conv5 进行平均池化,softmax 后加上一个线性分类器,进行图像分类。发现进行检测预训练的模型效果比分类模型差非常多:

中间层特征 还选择了在 OPENIMAGES 上预训练的检测模型的 detection head 中中间层特征的分类表现,发现 ConvProj blob(256) 上的效果是最好的,FC1 好于 FC2。

语义和特征分析 Conv5 在 ImageNet 上距离最近的图片对(图中可能有多个物体)|Conv5 在 ImageNet 上距离近,但是在 OpenImage 上远的图片对|Conv5 在 OpenImages 上最近的图片对(形状和大小都差不多)。衡量距离用 L2 distance。

用 k-means 聚类,检查在 OpenImages 的 embedding 里是同一个 cluster 的图片对,在 ImageNet Cls 的 embedding 里是否是一个 cluster 中的,反之亦然,得到的结果如下,在 OpenImages 特征空间中相似的图片,在 ImageNet Cls 中更可能相似,而反之不是这样。

在 ImgaNet Cls 特征空间中,不同大小和纹理的同种物体相对于在 OpenImages 特征空间中可能会更加接近。

同 tSNE 可视化平均池化的 Conv5 特征,发现在 ImageNet Cls 特征空间中,同一种物体的特征在相同的 cluster 中且距离更近。然而 OpenImages 特征比较分散。

3.4 可视化

Activations 可视化:这里将 CNN activation(Conv5)可视化出来,发现 IMAGENET-CLS 预训练的 activations 更加集中于明显的区域,OpenImages 预训练的模型的 activations 更注重整个物体的覆盖。

Mask-out可视化:用一个 60x60 的空白遮罩在图像中移动,得到遮罩在不同位置的输出正确类别的置信度。下图可见在 ImageNet-CLS 中的许多位置(如狗和骆驼的头部)分类得分接近于零,而在 OpenImage 中不是。

因为检测依靠物体全局的空间特征去检测,因此对局部的变化不敏感。而分类问题依靠明显部位进行识别,当关键区域被遮住,就容易无法识别。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

在物体检测任务上进行预训练的实验分析相关推荐

  1. AI学习笔记(十二)物体检测(上)

    AI学习笔记之物体检测(上) 物体检测简介 常见检测网络 IOU TP.TN.FP.FN precision(精确度)和recall(召回率) 边框回归 边框回归具体方法 Selective Sear ...

  2. CVPR 2022 | 阿里华科提出:针对场景文本检测的视觉语言模型预训练

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文简要介绍了发表于CV ...

  3. Make GNN Great Again:图神经网络上的预训练和自监督学习

    来源:RUC AI Box本文约6500字,建议阅读13分钟本文梳理近年来 GNN预训练和自监督学习/对比学习的相关工作. 1 引言 近些年来,对图神经网络(GNN)的研究如火如荼.通过设计基于 GN ...

  4. TVM:在树莓派上部署预训练的模型

    TVM:在树莓派上部署预训练的模型 之前我们已经介绍如何通过Python接口(AutoTVM)来编译和优化模型.本文将介绍如何在远程(如本例中的树莓派)上部署预训练的模型. 在设备上构建 TVM Ru ...

  5. Make GNN Great Again: GNN 上的预训练和自监督学习

    © 作者|侯宇蓬 机构|中国人民大学高瓴人工智能学院硕士一年级 导师|赵鑫教授 研究方向 | 图机器学习和推荐系统 1 引言 近些年来,对图神经网络(GNN)的研究如火如荼.通过设计基于 GNN 的模 ...

  6. 《南溪的目标检测学习笔记》——预训练微调的学习笔记

    1 ImageNet分类网络微调 可以直接修改模型的成员layer,例如: model.fc = nn.Linear(fc_features, n) 2 COCO预训练微调 需要对head部分进行修改 ...

  7. 预、自训练之争:谷歌说预训练虽火,但在标注数据上自训练更有效

    公众号关注 "视学算法" 设为 "星标",重磅干货,第一时间送达! 来源 | 机器之心 预训练是当前计算机视觉领域的主要范式,但何恺明等人先前的研究发现,预训练 ...

  8. 《预训练周刊》第34期:使用图像级监督检测两万个类别、BigScience寻求建立强大的开放语言模型...

    No.34 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了11篇预训练相关的论文,涉及图像处理.图像理解.语言模型调优.常识问答.大模型隐私泄漏.文本分类.多模 ...

  9. 何恺明一作,刷新7项检测分割任务,无监督预训练完胜有监督

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转自机器之心. 机器之心报道 机器之心编辑部 Facebook AI 研究团队的何恺明等人提出了一种名为动量对比(MoCo)的无监督训练方法.在 7 ...

最新文章

  1. debian宝塔界面安装php失败,宝塔面板安装遇到的问题
  2. leetcode算法题--视频拼接
  3. 分拣外观残缺的机器人_复合机器人AGV+协作机器人的应用领域
  4. 软考高项信息系统项目管理工程师自考500元搞定攻略
  5. django的视图与模板
  6. Java与.net的区别delegate和event
  7. Access数据库连接字符串读取,设置
  8. python代替shell脚本_自动化shell脚本except与python的pexpect模块
  9. Java 泛型完全解读
  10. 基础集群部署 - kubernetes-simple
  11. 60分钟带你入门iOS开发
  12. 苹果机装w ndows糸统,苹果电脑安装win系统一键安装教程
  13. 卡诺模型案例分析_需求分析神器 | 如何用卡诺模型分析需求
  14. 转载 SpringMVC详解(一)------入门实例
  15. 中国移动 烽火HG6543C5光猫 获取超级密码教程
  16. java 8 中文字体_在java程序中直接使用中文字体文件
  17. 《汇编语言》第6章 -包含多个段的程序 检测点答案,实验5,总结
  18. 少儿编程培训发展的重要趋势
  19. 清华大学海洋大数据分析管理平台解读
  20. 基于STC89C52单片机的智能风扇

热门文章

  1. 内部类不能有静态变量(除静态的对Static的理解)
  2. C语言学习记录_2019.02.02
  3. oracle数据表管理
  4. mysql基础拓扑图
  5. python之知乎的正确打开方式
  6. java oom分析_OOM分析
  7. python定义一个圆_Python-矩形和圆形
  8. vim 怎么显示空格_vim 修改tab为四个空格
  9. 安装.net5.0后怎么在vs里选择_Visual Stdio 2019(或其它版本)怎样全部安装到非系统盘的实现方法(小白版)...
  10. python决策树怎么选择_机器学习|决策树分类与python实现