©作者 | 朱磊

来源 | 机器之心

将弱监督物体定位看作图像与像素特征域间的域自适应任务,北大、字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能

物体定位作为计算机视觉的基本问题,可以为场景理解、自动驾驶、智能诊疗等领域提供重要的目标位置信息。然而,物体定位模型的训练依赖于物体目标框或物体掩模等密集标注信息。这些密集标签的获取依赖于对图像中各像素的类别判断,因此极大地增加了标注过程所需的时间及人力。

为减轻标注工作的负担,弱监督物体定位 (WSOL) 通过利用图像级标签(如图像类别)作为监督信号进行物体定位模型的训练,以摆脱训练过程对像素级标注的需求。该类方法大多采用分类激活图 (CAM) 的流程训练一个图像级特征分类器,而后将该分类器作用于像素级特征得到物体定位结果。但是图像级特征通常保有充足的物体信息,仅识别其中具有鉴别性的物体特征即正确分类图像。因此,在将该分类器作用于在所含物体信息并不充足的像素级特征进行物体定位时,最终得到的定位图往往只能感知到部分物体区域而非整个物体。

为解决这一问题,本文将基于 CAM 的弱监督物体定位过程看作是一个特殊的域自适应任务,即在保证在源图像级特征域上训练的分类器应用在目标像素域时仍具有良好的分类表现,从而使其更好的在测试过程中进行目标定位。从这一视角来看,我们可以很自然的将域自适应方法迁移到弱监督物体定位任务中,使得仅依据图像标签训练的模型可以更为精准的定位目标物体。

文章地址:

https://arxiv.org/abs/2203.01714

项目地址:

https://github.com/zh460045050/DA-WSOL_CVPR2022

目前,这项研究已被 CVPR 2022 接收,完整训练代码及模型均已开源。主要由北大分子影像/医学智能实验室朱磊和字节跳动佘琪参与讨论和开发,北大分子影像/医学智能实验室卢闫晔老师给予指导。

方法

图1. 方法整体思想

弱监督物体定位实际上可以看作是在图像特征域(源域 )中依据图像级标签(源域金标 )完全监督地训练模型 ,并在测试过程中将该模型作用于像素特征域(目标域 )以获取物体定位热力图。总的来看,我们的方法希望在此过程中引入域自适应方法进行辅助,以拉近源域 与目标域 的特征分布,从而增强在模型 对于目标域 的分类效果,因此我们的损失函数可以表示为:

其中 为源域分类损失,而 则为域自适应损失。

由于弱监督定位中源域和目标域分别为图像域和像素域,我们所面临的域自适应任务具有一些独有的性质:1)目标域样本与源域样本的数量并不平衡(目标域样本是源域的 N 倍,N 为图像像素数);2)目标域中存在与源域标签不同的样本(背景像素不属于任何物体类别);3)目标域样本与源域样本存在一定联系(图像特征由像素特征聚合而得到)。

为了更好地考虑这三个特性,我们进而提出了一种域自适应定位损失(DAL Loss)作为 以拉近图像域 S 与像素域 T 的特征分布。

图2. 弱监督定位中源域目标域的划分以及其在弱监督定位中的作用

首先,如图 2-A,我们将目标域样本 T 进一步分为三个子集:1)“伪源域样本集 ”表示与源域特征分布相似的目标域样本;2)“未知类样本集 ”表示类别在源域中不存在的 l 目标域样本;3)“真实目标域样本集 ”表示其余样本。依据这三个子集,我们提出的域自适应定位损失可以表示为:

从上述公式可以看到,在域自适应定位损失中,伪源域样本被看作源域样本的补充而非目标域样本,以解决样本不平衡问题。同时,为了减少具有源域未知类别的样本 对分类准确率的干扰,我们仅使用传统自适应损失 (如最大均值差异 MMD)拉近扩增后的源域样本集 与真实目标域样本集 的特征分布。而这些被排除在域自适应过程之外的样本 ,可以被用作 Universum 正则 ,以保证分类器所定义的类别边界也能更好的感应到目标域。

图 2-B 也形象地展示了源域分类损失及域自适应定位损失的预期效果,其中 保证不同类别源域样本可以被正确区分, 将源域目标域分布进行拉近,而 将类别边界拉近到未知标签目标域样本处。

图3. 整体工作流及目标样本分配器结构

我们提出,域自适应定位损失可以很便捷地将域自适应方法嵌入到已有弱监督定位方法中大幅提升其性能。如图 3 所示,在已有弱监督定位模型上嵌入我们的方法仅需要引入一个目标样本分配器(Target Sample Assigner)进行目标域样本子集的划分,该分配器通过记忆矩阵 M 在训练过程中实时更新未知类目标域样本集 与真实目标域样本集 的锚点,并以将二者和源域特征作为聚类中心进行三路 K 均值聚类,得到每个目标域样本所属的子集。

最后依此样本子集,我们可以得到域自适应损失 、以及 Universum 正则 并利用二者与源域分类损失 一起对训练过程进行监督,使得在保证源域分类准确性的情况下,尽可能的拉近源域与目标域特征,并减少未知类别样本影响。这样一来,在将该模型应用于目标域(也就是像素特征)进行物体定位时,最终生成的定位热力图的质量将得到显著提升。

实验

图4. 物体定位热力图及最终定位 / 分割结果

我们在三个弱监督目标定位数据集上验证了我们方法的有效性:

从视觉效果来看,由于保证了图像与像素特征域的分布一致性,我们的方法可以更为全面的抓取物体区域。同时,由于 Universum 正则关注了背景像素对分类器的影响,我们的方法生成的定位热力图可以更好的贴近物体边缘并抑制类别相关背景的响应程度,如水面之于鸭子。

从定量结果中可以也看到,在目标定位性能方面,我们的方法在三个数据上均取得了非常好的效果,尤其是在对于非细粒度目标定位的情况(ImageNet 和 OpenImages 数据集),我们的方法均取得了最优的定位性能。而对于图像分类性能方面,由于引入域自适应会导致源域准确度的损失,但通过借鉴多阶段策略利用一个附加的分类模型(仅使用  训练)生成分类结果即可解决域自适应带来的副作用。

此外,我们也具备很好的泛化性,可以兼容多类域自适应及多种弱监督目标定位方法,以提升定位性能。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

CVPR 2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架相关推荐

  1. 利用签协议机会,字节跳动90后员工内幕交易

    本文转载自36kr 7月26日,大连证监局披露了一则内幕交易行政处罚,92年出生的王某,为字节跳动员工,参与了字节跳动与中文在线签署<框架合作协议>的过程,而该协议在公开前均属于内幕信息. ...

  2. 近期必读的9篇CVPR 2019【域自适应(Domain Adaptation)】相关论文和代码

    [导读]最近小编推出CVPR2019图卷积网络.CVPR2019生成对抗网络.[可解释性],CVPR视觉目标跟踪,CVPR视觉问答,医学图像分割,图神经网络的推荐相关论文,反响热烈.最近,Domain ...

  3. CVPR 2022|解耦知识蒸馏!旷视提出DKD:让Hinton在7年前提出的方法重回SOTA行列!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心  |  旷视科技等 与主流的feature蒸馏方法不同,本研究将重心放回到logits蒸馏 ...

  4. CVPR 2020 | 旷视提出新型人-物交互检测框架,实现当前最佳

    本文转载自旷视研究院 本文提出一种新型人-物交互检测算法,可直接把人-物交互关系检测为一系列的交互点,进一步预测朝向人和物体中心的交互向量:接着,这些交互点可以配对组合人与物体的检测结果,以生成最终的 ...

  5. CVPR 2022 Oral | MLP进军底层视觉!谷歌提出MAXIM:刷榜多个图像处理任务,代码已开源!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:假熊猫 |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu.co ...

  6. CVPR 2022 Oral|港中文开源PoseC3D:基于3D-CNN的骨骼动作识别框架

    编辑丨极市平台 作者丨Kenny@知乎 来源丨https://zhuanlan.zhihu.com/p/493374779 Paper:https://arxiv.org/abs/2104.13586 ...

  7. 字节跳动社招面试记录,javaspring框架详细设计模板

    Java如何入门? 1.建立好开发环境 首先建立好开发环境非常重要,工欲善其事,必先利其器.做任何开发,首先就是要把这个环境准备好,之后就可以去做各种尝试,尝试过程中就能逐渐建立信心.初学者往往在环境 ...

  8. 【CVPR 2020】化繁为简,弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL)...

    论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题,该方法将定位与分类分开成两个独立的网络,然后在训练集上使用Deep descriptor transformation(DDT ...

  9. 【AAAI2022】GearNet:弱监督领域自适应的逐步对偶学习

    来源:专知 本文附论文,建议阅读5分钟 本文研究了弱监督域自适应(WSDA)问题. 本文研究了弱监督域自适应(WSDA)问题,在该问题中,我们只能访问带噪声标签的源域,从源域中我们需要将有用的信息传递 ...

最新文章

  1. 图文剖析:单点登录常见解决方案实现原理
  2. USEARCH —— 最简单易学的扩增子分析流程(中国总代理)
  3. 业界丨一文看懂AI人才百万美元年薪因何而来?
  4. C#中一些易混淆概念总结--------数据类型存储位置,方法调用,out和ref参数的使用...
  5. Forrester:全球供应商在中国处于领导地位 但本土供应商却在私有云市场蒸蒸日上...
  6. 转 关于 D3D的 SetRenderState 以及AlphaBlend 和AlphaTest
  7. 监控io性能, free命令, ps命令, 查看网络状态, linux下抓包
  8. DynamicMethodHelper R2 2012-08-14 DynamicMethod ILGenerator.Emit
  9. selenide 自动化测试进阶一: 查找元素和相关操作
  10. 在组策略中用户策略仅对特定计算机生效,将组策略应用到满足条件的计算机---配置组策略筛选...
  11. PAT乙级 1087 有多少不同的值(代码短,易懂)
  12. pdf内容怎么复制到word文档里_pdf文件怎么放到word里?这招实在是太好用了
  13. Vs2010工具栏显示“开始执行“按钮
  14. 碎碎念No.03 我这个程序员终于去看了心理医生做了心理咨询
  15. 复化梯形公式求积算法 c语言,c语言版本复合梯形法、辛普森法求积公式
  16. Google Colab V100 +TensorFlow1.15.2 性能测试
  17. 【Linux-MYSQL】数据库的使用
  18. struct timeval用法与时间溢出问题
  19. Bluetooth Class of Device/Service (CoD) And Access codes
  20. 2022 年 Java 行业分析报告

热门文章

  1. 计算机供用户使用的内存区域,计算机应用复习资料
  2. C语言在main中输入2个整数ab,2014年计算机等级二级C语言程序设计习题
  3. java聚合excel_java操作excel
  4. php html url编码,html中url编码是什么?有什么用?
  5. 记-安装pillow
  6. Android知识点
  7. BZOJ 3786: 星系探索 欧拉游览树
  8. CentOS 7.4 基于LNMP搭建wordpress
  9. 2015 Multi-University Training Contest 9
  10. php中怎么过滤器_PHP 过滤器