【CVPR2020-谷歌】自动驾驶中多目标跟踪与检测框架 RetinaTrack
关注上方“深度学习技术前沿”,选择“星标公众号”,
资源干货,第一时间送达!
作者:黄飘
https://zhuanlan.zhihu.com/p/127115290
前言
今天经人提醒,发现漏掉了一篇CVPR2020的MOT论文,同样是基于检测和跟踪一体的框架,只不过它是以车辆跟踪为背景而写的。这里我们也凑个整,Tracktor++(就叫它FrcnnTrack吧,哈哈)、CenterTrack、FairMOT、JDE(YoloTrack。。。) ,以及这次的RetinaTrack开始神仙打架。不过也为MOT领域担忧,在public赛道上基于检测的跟踪框架把baseline刷得太高了,有点不利于后续发展呀。
RetinaTrack
论文题目:RetinaTrack: Online Single Stage Joint Detection and Tracking
作者团队:谷歌
备注:Waymo 39.12MOTA,14FPS
论文:https://arxiv.org/abs/2003.13870
虽然RetinaTrack也是同之前的联合检测和跟踪的算法一样的框架(感兴趣的可以在我放在参考文献中的链接里面去看看),从名字也知道是基于RetinaNet的,但是论文中是以自动驾驶为背景进行介绍的,没有在MOT Challenge赛道比拼,倒是跟Tracktor++进行了比较。
首先我们回顾一下RetinaNet的结构:
整体来看,我们可以讲其归纳为三个特点:FPN、focal loss、回归和分类的两个分支(在我之前介绍目标检测中的特征冲突中提到了)。然后我们看看RetinaTrack的架构:
直接从图上看的话我们可以得到的信息是,RetinaNet在分类和回归的分支上分别预测了k个anchor下的分类和回归信息。
而RetinaTrack与JDE和FairMOT一样,都增加了一个256维的特征信息embeddings分支:
我们都知道,在MOT场景中需要解决严重遮挡问题,这个问题对于检测的影响也很大,比如:
上图中两辆车的中心重合,二者的检测框如果都是基于同一个anchor点进行预测的,则很难得到具有分辨力的embeddings。另外,我们之前的博客讨论过,reid和目标检测在特征方面的需求不同,以行人检索为例,目标检测中分类要求同类目标特征一致,而ReID则是要求在保证类内距离尽可能小的同时,确保类间距离大,但是这里的类间指的是不同身份的人,但是对于目标检测而言都是人。所以这里将ReID和分类的共享特征减少是最好的选择,作者这里实际上隐含着用了三种方式改进这一点:
通过将分类、回归和特征提取设为三个分支任务,除了FPN之前的部分,三者的特征共享部分含有m1个3x3卷积;
对于每层特征图上每个特征点的k个anchor,全部预测分类、回归和特征,增加区分度。;
对于检测任务,分类和回归分支都包含m2个3x3卷积,而embedding分支则为m3个1x1卷积。
对于训练部分,不同于JDE和FairMOT采用的identification模式,RetinaTrack采用的是verification模式,采用基于batch-hard的triplet loss进行训练,其中margin为0.1。
以上任务是在一堆TPU上训练的,基于Momentum SGD算法,每个batch还有128个clips,每个clip含两个相隔8帧的样本(对于10Hz的Waymo数据集而言就是相隔0.8s),图像输入是1024x1024,并采用bfloat16式的混合精度训练模式。其中去除embeddings分支的部分是在COCO数据集上预训练的,然后采用warmup和余弦退火学习策略训练。
实验效果如下:
由消融实验可知,anchor类型数量越多效果越好,其中RetinaNet部分是直接通过IOU进行数据关联的。紧接着作者又做了几组对比实验:
对比MOT Challenge中表现良好的Tracktor++算法,RetinaTrack效果更好;
基于IOU,不采用triplet loss(这是直接做成identification了?),或者将特征分支单独利用resnet50训练这两种方法都不如RetinaTrack。
在Waymo v1.1数据集上MOTA可达44.92,mAP可达45.70,推理速度为70ms
参考资源
[1] RetinaTrack: Online Single Stage Joint Detection and Tracking
[2] 从CenterTrack出发谈谈联合检测和跟踪的MOT框架(含MOT17 No.1等多个榜前算法 )
[3] 开源!FairMOT:多目标跟踪(MOT)新的baseline
[4] https://zhuanlan.zhihu.com/p/126359766
重磅!计算机视觉交流群已成立!
欢迎各位Cver加入计算机视觉微信交流大群,本群旨在交流图像分类、目标检测、点云/语义分割、目标跟踪、机器视觉、GAN、超分辨率、人脸检测与识别、动作行为/时空/光流/姿态/运动、模型压缩/量化/剪枝、NAS、迁移学习、人体姿态估计等内容。更有真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流等,欢迎加群交流学习!
进群请备注:研究方向+地点+学校/公司+昵称(如图像分类+上海+上交+小明)
广告商、博主请绕道!
???? 长按识别,即可进群!
【CVPR2020-谷歌】自动驾驶中多目标跟踪与检测框架 RetinaTrack相关推荐
- 自动驾驶中激光雷达如何检测障碍物
自动驾驶中激光雷达如何检测障碍物 1. 介绍 1.1 激光雷达-一种三维激光传感器 1.2 激光雷达的优缺点? 1.3 基于激光雷达如何进行障碍物检测? 1.4 点云处理难点 2. 点云处理 2.1 ...
- 自动驾驶中实时车道检测和警报
作者 | 小白 来源 | 小白学视觉 未来十年,自动驾驶将彻底改变人们的出行方式. 目前,自动驾驶应用程序目前正在测试各种案例,包括客车.机器人出租车自.动商业运输卡车.智能叉车以及用于农业的自动拖拉 ...
- CODA:自动驾驶中道路目标检测的极端情况数据集
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨计算机视觉深度学习和自动驾驶 2022年3月arXiv论文"CODA: A Real- ...
- 自动驾驶中激光雷达如何检测障碍物?
激光雷达是利用激光束来感知三维世界,通过测量激光返回所需的时间输出为点云.它集成在自动驾驶.无人机.机器人.卫星.火箭等许多领域. 本文从自动驾驶汽车的角度解释它是如何工作的,然后将探讨如何处理点云, ...
- 自动驾驶中车辆3Dbox检测相关论文
FALSE POSITIVE REMOVAL FOR 3D VEHICLE DETECTIONWITH PENETRATED POINT CLASSIFIER 这篇论文的目的是针对激光雷达并不能渗透目 ...
- 自动驾驶中的3D物体状态检测
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 摘要 3D物体检测是自动驾驶的一项重要技术,KITTI提供了一种用 ...
- 最新综述:自动驾驶中的多模态三维目标检测
©PaperWeekly 原创 · 作者 | 张一帆 学校 | 华南理工大学本科生 研究方向 | CV,Causality Abstract 在过去几年,自动驾驶取得了蓬勃的发展,但是由于驾驶环境的复 ...
- 17篇点云处理综述-点云语义分割、点云物体检测、自动驾驶中的点云处理……
三维点云是最重要的三维数据表达方式之一. 从技术角度看,在三维重建.SLAM.机器人感知等多个领域,三维点云都是最简单最普遍的表达方式,因为三维点云直接提供了三维空间数据,而图像则需要通过透视几何来反 ...
- 自动驾驶中的激光雷达目标检测的原理和数据特点
转自:http://www.elecfans.com/d/892365.html (侵删) 安全性是自动驾驶中人们最关注的问题之一. 在算法层面,无人车对周围环境的准确感知是保证安全的基础,因此感知算 ...
最新文章
- 给我们宿舍做的游戏--snack
- 决定系数R2真的可靠吗?
- 【资讯】K8S生态再添一员,Rancher发布开源HCI软件Harvester、及其安装教程
- 汇编语言——《分支与循环程序设计》实验报告
- springboot test_精益求精!Spring Boot 知识点全面回顾,带你重新细读源码!
- 魔术方法 python_python所有的魔术方法
- RHCE学习12LVS负载均衡详解
- TensorFlow精进之路(十三):长短时记忆神经网络LSTM
- 回溯____蓝桥 棋盘
- php 5.4 mysql 5.7_致命错误:在将PHP 5.4.22和MySQL 5.5与Apache 2.4.7连接时调用未定义的函数mysqli_connect()...
- 2017-12-24 手机编程环境初尝试-用AIDE开发Android应用
- Scratch 简单的小游戏 --- 碰碰球
- 这些专业考上研以后再考公务员,非常吃香!
- 用计算机怎么管理小米路由器,小米路由器3G怎么设置?(电脑)
- 如何提升客户的信任,实现与客户的连接,带动业绩的转变
- Android长度单位详解
- python 采集唯美girl
- java 正切_Java tan()方法
- 某抑云评论的获取思路及实现
- 2021江苏泰州中学高考成绩查询,泰州中学排名前十名,2021年泰州中学排名一览表...