CVPR2021中的目标检测和语义分割论文汇总
作者丨Tom Hardy@知乎
来源丨https://zhuanlan.zhihu.com/p/355137468
编辑丨计算机视觉工坊
感慨:知识蒸馏大放异彩~
目标检测篇
1、Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection
paper链接:https://arxiv.org/abs/2103.01903
由于真实世界数据固有的长尾分布,few-shot目标检测是一个重要而持久的问题。它的性能很大程度上受到新类数据稀缺的影响。但是无论数据的可用性如何,新类和基类之间的语义关系都是不变的。这篇paper研究了如何利用这种语义关系和视觉信息,并将显式关系推理引入到新目标检测的学习中。
2、Instance Localization for Self-supervised Detection Pretraining(香港大学,微软亚洲研究院)
paper链接:https://arxiv.org/pdf/2102.08318.pdf
以往对自监督学习的研究在图像分类方面取得了相当大的进展,但在目标检测方面往往存在transfer性能下降的问题。本文的目的是提出一种专门用于目标检测的自监督预训练模型。
3、Towards Open World Object Detection
paper链接:https://arxiv.org/abs/2103.02603
人类有识别环境中未知物体实例的本能。人类有一种自然的本能来识别未知环境中的物体实例。这促使我们提出了一个新的计算机视觉问题,称为“开放世界目标检测”,模型的任务是:
1)在没有明确监督的情况下,将尚未引入的目标识别为“未知”,
2)逐步学习这些已识别的未知类别,而不忘记以前学习的类,当相应的标签逐渐收到时。
本文提出了一种基于对比聚类和基于能量的未知识别的开放世界目标检测算法。
4、Positive-Unlabeled Data Purification in the Wild for Object Detection
暂未放出
5、General Instance Distillation for Object Detection
paper链接:https://arxiv.org/pdf/2103.02340.pdf
近年来,知识蒸馏被证明是一种有效的模型压缩方法。这种方法可以使轻量级的学生模型从较大的教师模型中获取知识。然而,以往的提取检测方法对不同检测框架的泛化能力较弱,严重依赖于GT,忽略了实例间有价值的关系信息。因此,论文提出了一种新的基于区分性实例的提取方法,即一般实例提取(GID)。该方法包含了通用实例选择模块(GISM),充分利用了基于特征、基于关系和基于响应的知识进行提取。
6、UP-DETR: Unsupervised Pre-training for Object Detection with Transformers
paper链接:https://arxiv.org/pdf/2011.09094.pdf
transformer+无监督的一篇paper。
7、Depth from Camera Motion and Object Detection
paper链接:https://arxiv.org/abs/2103.01468
本文讨论了在给定摄像机运动测量值(如机器人运动学或车辆里程计)的情况下,学习估计被测物体深度的问题。论文通过1)设计一个递归神经网络(DBox),使用box和未校准摄像机运动的广义表示来估计物体的深度;2)通过运动和检测数据集(ODMD)引入物体深度。
8、There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
paper链接:https://arxiv.org/abs/2103.01353
物体固有的声音属性可以为学习丰富的物体检测和跟踪表示提供有价值的线索。此外,可以利用视频中视听事件的同时出现,通过单独监测环境中的声音,在图像场上定位对象。到目前为止,这只适用于摄像机静止和单目标检测的场景。此外,这些方法的鲁棒性受到限制,因为它们主要依赖于对光照和天气变化非常敏感的RGB图像。在这项工作中,我们提出了一个新颖的自监督MM-stewartnet框架,该框架由多个教师组成,他们利用不同的模式,包括RGB、深度和热图像,同时利用互补线索并将知识提取到单一音频学生网络中。
9、Dogfight: Detecting Drones from Drone Videos
暂未放出
10、3DIoUMatch: Leveraging IoU Predictionfor Semi-Supervised 3D Object Detection
paper链接:https://arxiv.org/pdf/2012.04355.pdf
三维目标检测是一项重要而艰巨的任务,它严重依赖于难以获得的三维标注。为了减少所需的监督量,论文提出了一种新的半监督三维物体检测方法。采用VoteNet(一种流行的基于点云的目标检测器)作为主干,利用一个教师学生互学习网络框架,以伪标签的形式将信息从标注训练集传播到无标注训练集。
11、Categorical Depth Distribution Network for Monocular 3D Object Detection
paper链接:https://arxiv.org/abs/2103.01100
单目三维目标检测是自动驾驶领域的一个关键问题,与典型的多传感器系统相比,它提供了一种结构简单的解决方案。单目三维检测的主要挑战在于准确预测目标深度,由于缺乏直接的距离测量,必须从目标和场景线索中推断出目标深度。许多方法试图直接估计深度来辅助三维检测,但由于深度不准确,性能有限。论文提出的分类深度分布网络(Categorical Depth Distribution Network,CaDDN)利用每个像素的预测分类深度分布,将丰富的上下文特征信息投射到三维空间中适当的深度区间。然后,使用计算效率高的鸟瞰投影和单级检测器来生成最终的输出边界框。我们将CaDDN设计为一种完全可微的端到端方法,用于联合深度估计和目标检测。
语义/实例全景/分割篇
1、PointFlow: Flowing Semantics Through Points for Aerial Image Segmentation
暂未开放
2、Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?
paper链接:https://arxiv.org/abs/2012.06166
3、4D Panoptic LiDAR Segmentation
paper链接:arxiv.org/abs/2102.1247
时态语义场景理解是自动驾驶车辆或机器人在动态环境中工作的关键。本文提出了4D全景激光雷达分割来分配一个语义类和一个时间上一致的实例ID到一个3D点序列。
4、Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges
paper链接:https://arxiv.org/abs/2102.12472
5、PLOP: Learning without Forgetting for Continual Semantic Segmentation
paper链接:https://arxiv.org/abs/2011.11390
目前,深度学习方法广泛应用于处理语义分割等需要大量数据集和强大计算能力的计算机视觉任务。语义连续学习(CSS)是一个新兴的趋势,它通过不断地添加新的语义来更新旧的模型语义。本文提出了一种多尺度池蒸馏方案localpod,该方案在特征级保持长、短距离的空间关系。此外,还设计了一个基于熵的伪标号来处理由旧模型预测的背景类,以避免旧类的灾难性遗忘。我们的方法称为PLOP,在现有CSS场景中,以及在新提出的具有挑战性的基准中,大大超过了最先进的方法。
6、End-to-End Video Instance Segmentation with Transformers
paper链接:https://arxiv.org/abs/2011.14503
使用Transformers进行视频实例分割~
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。
下载2
在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。
下载3
在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
CVPR2021中的目标检测和语义分割论文汇总相关推荐
- 自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战
自动驾驶深度多模态目标检测和语义分割:数据集.方法和挑战 原文地址:https://arxiv.org/pdf/1902.07830.pdf Deep Multi-Modal Object Detec ...
- 联合目标检测和语义分割——学习笔记
联合目标检测和语义分割 目标检测 目标检测是一种与计算机视觉和图像处理相关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例.然而现实中物体的尺寸.姿态.位置都有很 ...
- FlyAI小课堂:深度学习论文翻译解析(3):丰富的特征层次结构,可实现准确的目标检测和语义分割
论文标题:Rich feature hierarchies for accurate object detection and semantic segmentation 标题翻译:丰富的特征层次结构 ...
- 2021-01-24过去十年十大AI研究热点,分别为深度神经网络、特征抽取、图像分类、目标检测、语义分割、表示学习、生成对抗网络、语义网络、协同过滤和机器翻译。
专利申请量全球第一!清华人工智能发展报告:国内215所高校成立相关本科专业 发布时间:01-2415:20万象大会年度获奖创作者,东方财富网官方帐号 1月20日,清华大学人工智能研究院.清华-中国工程 ...
- 图像分类、目标检测、语义分割、实例分割和全景分割的区别
1.Image Classification(图像分类) 图像分类(下图左)就是对图像判断出所属的分类,比如在学习分类中数据集有人(person).羊(sheep).狗(dog)和猫(cat)四种,图 ...
- 【NIPS2018】实时联合目标检测与语义分割网络
本文发表于第32届神经信息处理系统会议(NIPS 2018),是法国汽车零部件供应商法雷奥集团(Valeo)研究提出的一种用于自动驾驶领域的多任务神经网络,可同时执行目标检测与语义分割任务. 代码开源 ...
- YOLOv5+BiSeNet——同时进行目标检测和语义分割
前言 在Gayhub上看到个项目,有人在YOLOv5的基础上,新增了一个分割头,把BiSeNet语义分割算法加入到了目标检测中,使其能够同时进行目标检测和语义分割. 项目地址:https://gith ...
- 图像分类,目标检测,语义分割,实例分割,全景分割联系与区别
一.图像分类 识别图像中存在的内容,如下图,有人(person).树(tree).草地(grass).天空(sky),只知道有没有这一类东西就行. 二.目标检测 识别图像中存在的内容和检测其位置,如下 ...
- CVPR2019 | 15篇论文速递(涵盖目标检测、语义分割和姿态估计等方向)
[导读]CVPR 2019 接收论文列表已经出来了,但只是一些索引号,所以并没有完整的论文合集.CVer 最近也在整理收集,今天一文涵盖15篇 CVPR 2019 论文速递,内容涵盖目标检测.语义分割 ...
- 从CNN到Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类
更多资讯,请关注:Ai尚研修科研技术动态 公众号 我国高分辨率对地观测系统重大专项已全面启动,高空间.高光谱.高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全 ...
最新文章
- 鸟哥学习笔记---网络安全基础
- scala面向对象之trait
- uwsgi基础——最佳实践和问题
- 一起撸个朋友圈吧 图片浏览(上)【图片点击前景色】
- Ubuntu循环登录
- ArcMap 导入Excel坐标数据
- html template--(来自网易)
- DEDECMS使用SQL语句批量删除文章
- arm体系结构与编程_ARM体系结构基础(1)
- html css屏蔽右键,css右键菜单.html
- Mysql优化-02
- 人体神经系统结构图高清,人体神经系统全貌图片
- 怎么把本地rpm包导入linux,Linux在本地yum源中增加rpm包(示例代码)
- 有没有人知道这是为什么
- 【039期】头条面试:说一说 LRU 原理和 Redis 如何实现?
- 放假安排 自己MARK
- 知网论文免费下载,请速度存好!
- 剑侠情缘手游服务器bug修复,剑侠情缘手游因BUG大回档 摆摊功能依然受影响
- 京东面试心得(部门是京东物流)
- 英雄联盟服务器乱码怎么修复,英雄联盟异常0.404.80070051解决方法
热门文章
- nginx配置openssl证书
- springboot修改项目不需要重启服务器
- 最新全国移动联通基站数据升级包(2013年4月)
- Java概 述(新手专区)
- JQ 对于table的动态增减
- 修改Code Blocks默认代码格式
- Spring定时器技术终结者——采用XML配置的方式实现Spring定时器
- 经典排序算法(二十二)--图书馆排序(Library Sort)
- 经典排序算法(二)--桶排序Bucket Sort
- Python socket.send()与socket.sendall()的区别