AAAI 2020论文解读:商汤科技提出新弱监督目标检测框架
来源 | Object Instance Mining for WeaklySupervised Object Detection
编辑 | Carol
出品 | AI科技大本营(ID:rgznai100)
商汤科技视频大数据团队发表论文《Object Instance Mining forWeakly Supervised Object Detection》,该论文被AAAI 2020录用。
该团队提出了一种端到端的物体实例挖掘弱监督目标检测框架,引入了基于空间图及外观图的信息传播机制,在网络迭代学习过程中,尝试挖掘每张图像中全部的物体实例。
除此之外,还引入了物体实例权重调整损失函数(reweighted loss),使网络可以同时学习到更完整的物体实例,从而让弱监督目标检测方法得到更加准确的检测框。
详细解读
目标检测,是计算机视觉领域长期关注的问题,在自动驾驶、图像理解、视频监控等领域都有着广泛的应用。然而基于深度学习技术的目标检测器在网络训练中需要大量精确标注的物体边界框,这些耗时耗力的标注工作阻碍了该技术在实际产品中的快速和广泛应用,同时大量的人工标注也大大提高了产品成本。
为了解决这个局限性,仅使用图片级别标注(既标注仅包含图片中物体的类别)的弱监督目标检测技术在近几年受到了广泛的关注和研究,具有重要的意义。
现有的弱监督目标检测方法大多数是基于多实例学习框架的,对于每个物体类别,基于多实例学习框架的方法倾向于学习图像中该类中特征最明显的物体,并对于每张图片选取得分最大的一个物体框进行训练,其他被忽略的物体实例容易使学习网络陷入局部最优,进而影响弱监督目标检测的性能。
本论文提出了一种端到端的物体实例挖掘(Object Instance Mining,OIM)弱监督目标检测框架。该框架引入了基于空间图(Spatial Graph)及外观图(Appearance Graph)的信息传播机制,在网络迭代学习过程中,尝试挖掘每张图像中全部的物体实例。
这样使得在基于多实例学习方法的网络学习过程中,特征不够显著的物体实例可以被检测到并加入训练,进而提升特征的表达能力和鲁棒性。除此之外,商汤科技视频大数据团队还引入了物体实例权重调整损失函数(reweighted loss),使网络可以同时学习到更完整的物体实例,从而让弱监督目标检测方法得到更加准确的检测框。
基于物体实例挖掘(OIM)弱监督目标检测框架结构如下图所示:
物体实例挖掘(OIM)弱监督目标检测框架
该框架主要由多实例检测(Multiple Instance Detection)及目标实例挖掘(Object Instance Mining)两个部分构成。在网络训练迭代过程中,论文先使用多实例检测预测每个候选区域的类别,之后基于检测的输出及候选区域的特征,通过建立空间图及外观图尽可能挖掘图像中的全部物体实例,并将它们加入训练。其中物体实例挖掘过程如下图所示:
物体实例挖掘过程示例。
在网络训练迭代过程中,在一幅图中,首先学习/检测到最具辨识力的物体实例,基于此实例通过位置关系,既其他候选框与此实例的重叠关系,建立空间图(Spatial Graph),如图(a)。
之后基于此实例,通过计算它与其他候选框之间的外观相似度,挖掘图片中可能属于同一类别的物体实例,建立外观图(Appearance Graph),针对每一个新挖掘到实例同样建立空间图,如图(b),(c)。以此步骤进行迭代训练,直到挖掘出图像中全部可能的物体实例加入训练如图(d)。
除此之外,由于在网络迭代学习过程中,尤其是对于非刚性物体实例,基于CNN的分类器学习到的最具辨识力的是物体实例的某个局部而不是整个物体的整体,因此本论文设计了物体实例权重调整损失函数(reweighted loss), 以学习到更准确的物体检测框。团队提出对于不同的候选框应分配不同的权重,对于分类器置信度得分高的候选框分配较低的权重,反之对最高分候选框周围的候选框分配较高的权重,从而学习更完整的物体实例检测框。
团队在PASCAL VOC 2007训练集上进行了弱监督物体实例挖掘的过程的可视化,如下图所示(从左到右),随着网络的迭代学习,更多更准确的物体实例可以被检测出来并加入训练中。
团队使用 PASCAL VOC 2007及VOC 2012数据进行了测试,比较了物体实例挖掘(OIM)方法与其他相关弱监督检测方法效果。结果表明,弱监督物体实例挖掘方法在定位精确率以及检测准确率均达到或超过目前最先进的方法。
OIM与其他目前最先进的方法在PASCALVOC 2007 测试集上检测精确度的比较(AP) (%)
OIM与其他目前最先进的方法在PASCALVOC 2007训练验证集上定位精确度的比较(CorLoc) (%)
OIM与其他目前最先进的方法在PASCALVOC 2012 验证集/测试集上检测精确度的比较(AP)(%)
OIM与其他目前最先进的方法在PASCALVOC 2012训练验证集上定位精确度的比较(CorLoc) (%)
论文:Object Instance Mining for WeaklySupervised Object Detection
论文作者:Chenhao Lin, Siwen Wang, Dongqi Xu, YuLu, Wayne Zhang
论文地址:https://arxiv.org/pdf/2002.01087.pdf
(*本文为投稿文章,投稿请微信联系1092722531)
◆
精彩推荐
◆
为了助力对抗疫情,减少线下人员流动和聚集,CSDN与 PyCon 官方授权的 PyCon中国社区合作,举行「Python开发者日」在线系列峰会。通过精彩的技术干货内容、有趣多元化的在线互动活动等,让您足不出户便可与大咖学习交流,共同渡过抗疫攻坚期。扫码入群咨询详情!
推荐阅读
2020年AI如何走?Jeff Dean和其他四位“大神”已做预测!
AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
微服务架构何去何从?
微软高管谈微软远程办公思考与实践,值得每个企业看看
互联网人集体的远程办公终将是昙花一现?
两亿人开启在家办公模式,看看程序员们怎么说
-
你点的每个“在看”,我都认真当成了AI
AAAI 2020论文解读:商汤科技提出新弱监督目标检测框架相关推荐
- CVPR 2020 | 中科院、商汤联合提出大规模多标签目标检测新算法
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:学术头条 AI博士笔记系列推荐 周志华<机器学习>手 ...
- 弱监督目标检测相关论文阅读笔记
弱监督目标检测论文相关 1.传统目标检测 2014年之前->传统的目标检测器:VJ检测器->HOG检测器->DPM 2014年之后->基于深度学习的目标检测器: 双阶段:RCN ...
- AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
来源 | Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow 编辑 | Carol 出品 | AI科技大 ...
- 万字解读商汤科技ICLR2019论文:随机神经网络结构搜索
雷锋网 AI 科技评论消息,日前,商汤科技研究院论文<随机神经网络结构搜索>(SNAS,stochastic neural architecture search)被深度学习顶级会议 IC ...
- 北京/上海内推 | 商汤科技SenseParrots团队招聘深度学习训练框架产品经理
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 商汤科技 商汤科技成立于 2014 年,是一家人工智能软件公司.我们以&q ...
- CVPR 2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架
©作者 | 朱磊 来源 | 机器之心 将弱监督物体定位看作图像与像素特征域间的域自适应任务,北大.字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能. 物体定位作为计算机视觉的基本问题,可以 ...
- 弱监督目标检测算法论文阅读(四)Localizing Common Objects Using Common Component Activation Map
Abstract 在这项工作中,我们提出了一种从一组图像中的新颖对象类别中定位常见对象的方法. 我们使用新的通用组件激活图(CCAM)解决了这个问题,其中我们将特定于类别的激活图(CAM)视为组件,以 ...
- 弱监督目标检测算法论文阅读(五)Combinational Class Activation Maps for Weakly Supervised Object Localization
Abstract 弱监督的对象定位最近吸引了关注,因为它旨在通过使用图像级标签来识别类标签和对象位置.先前的大多数方法都使用与最高激活源相对应的激活图.仅利用一个最高概率类别的激活图通常会偏向有限的区 ...
- 弱监督目标检测算法论文阅读(六)Erasing Integrated Learning : A Simple yet Effective Approach for Weakly Supervised
这是一篇CVPR2020的中山大学的一篇文章,提出了一个新颖的擦除网络. Abstract 弱监督对象定位(WSOL)旨在仅通过图像级别标签之类的弱监督来定位对象.但是,基于分类网络的可用技术的一个长 ...
最新文章
- opencv mat相关资料整理
- webpack4.x Loaders
- JS中数组的常用方法
- linux cmake装在自己目录下,如何在Linux下安装cmake
- Unity 之 Shader 面的剔除 Cull
- 五年时间完成业务数字化转型,华为如今做得怎么样了?
- requirejs 入门【链接】
- 手把手教你搭建pytorch深度学习网络
- Java容器工具类Arrays
- 链表的游标(cursor)实现
- thymeleaf模板引擎使用iframe的解决方案
- flowable 多人签收_Flowable所见即所得的流程设计器(中下)
- C++多线程函数_beginthread/_beginthreadex/CreateThread
- 05.第六章、进度管理
- Jumpserver docker部署及踩坑
- VLC模拟TS直播流
- 计算机是如何跑起来的--读书笔记
- C#环境下GDAL / OGR环境配置与入门
- Orchard学习 01、orchard日志
- dting 手环 数据 获取 可视化
热门文章
- bootstrap解析-栅格系统
- $httpprovider指令中拦截器interceptors的使用介绍
- Centos6.5更换163源 epel源
- 想在SqlDbHelper.cs类中加的垃圾方法
- matlab中cumsum函数的使用
- LA3177 - Beijing Guards(二分+贪心【更优美的解法)
- Mybatis 中$与#的区别
- Jetson tk1 安装 CUDA,ROS,OpenCV和kinect2以及刷机以及ssh远程控制
- 正则表达式的基本入门
- “Assign Random Colors” is not working in 3ds Max 2015