点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨OpenMMLab@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/341283833

编辑丨realcat

2021年的第一个工作日,OpenMMLab又有新成员加入。

太长不看系列

MMTracking作为OpenMMLab的一体化视频目标感知平台,同时支持了视频目标检测、单目标跟踪、多目标跟踪等多种任务和算法,填补了这些领域内基准开源平台的空白MMTracking延续了OpenMMLab系列的模块化风格,并与OpenMMLab其他平台充分交互,直接通过configs即可继承复用MMDetection的大量功能,取长补短MMTracking提供了简洁的用户接口与高效、强大的基准模型,部分实现精度超出官方版本。

地址:github.com/open-mmlab/mmtracking

接下来,我们将详细介绍 MMTracking 的一些具体特性。

MMTracking

1. 首个开源一体化视频目标感知平台

对视频内的目标进行感知识别一直是学界、业界都非常关心的问题。这个问题在学界常被细分为不同的子问题进行研究,比如视频目标检测、多目标跟踪与单目标跟踪。具体来说:

  • 视频目标检测只需要对视频内的每一帧进行检测,不要求对不同帧中的同一目标进行关联。

  • 多目标检测在完成视频目标检测的基础上,更加侧重于对视频内的同一目标进行关联。

  • 单目标跟踪更加侧重人机交互,算法需要在给定一个任意类别,任意形状目标的情况下,能够对其进行持续跟踪。

近几年来,虽然各个任务都涌现了许多优秀的算法,这些领域依然缺少开源的代码框架,给代码复现、借鉴、公平对比都带来了很大的困难。同时考虑到这些任务本身是紧密联系的,我们将这些任务融合到了同一框架下,我们希望能够作为开源的一体化视频目标感知平台,能够推动不同子领域间的融合、互促与发展。

2. OpenMMLab 内部项目间的充分交互

视频内的目标感知在大部分情况下可以认为是2D目标检测的下游任务,十分依赖各种 2D 目标检测算法。在此之前,如何使用或切换不同的2D目标检测器其实是一个很烦琐耗时的任务。

在MMTracking中,我们充分利用了OpenMMLab其他平台的成果与优势,极大的简化了代码框架。比如,我们import或继承了MMDetection中的大部分模块,极大的简化了代码框架。在这种模式下,我们可以通过configs直接使用MMDetection中的所有模型。以多目标跟踪举例,每一个多目标跟踪模型多由以下几个模块组成:

import torch.nn as nn
from mmdet.models import build_detector
class BaseMultiObjectTracker(nn.Module):def __init__(self,detector=None,reid=None,tracker=None,motion=None,pretrains=None):self.detector = build_detector(detector)...

Configs 示例:

model = dict(type='BaseMultiObjectTracker',detector=dict(type='FasterRCNN', **kwargs),reid=dict(type='BaseReID', **kwargs),motion=dict(type='KalmanFilter', **kwargs),tracker=dict(type='BaseTracker', **kwargs))

其中,现阶段的ReID模型也继承了MMClassification中的一些模块并将在后期增加其他支持。

受益于OpenMMLab的这种模块化设计,我们可以利用其他图像级平台的已有成果,从而只需要注重于视频部分模块的的设计与开发。同时,如果你需要单独训练一个目标检测器,我们也支持直接使用 MMDetection的configs进行训练,只需要在config中添加一句USE_MMDET=True, 即可将模式切换到MMDetection下,来进行前序模型训练。

3. 高效、强大的基准模型

在视频目标感知这一领域有相关科研经的同学们应该都会感受到这些任务中的不同方法一般各成一派,十分缺乏公认的训练方法与准则,因此在很多时候很难做到真正的公平对比。

在 MMTracking v0.5 中,我们复现了各个领域的主流算法,包括:

  • 视频目标检测:DFF, FGFA, SELSA

  • 多目标跟踪:SORT, DeepSORT, Tracktor

  • 单目标跟踪: SiameseRPN++

受益于MMDetection的持续推进,我们的方法在保证了高效的训练、推理的基础上,有些模型甚至超出官方实现,例如:

对视频目标检测算法 SELSA 的实现结果(第一行)相比于官方实现(第二行),在 ImageNet VID 数据集上 mAP@50 超出 1.25 个点。

对多目标跟踪算法 Tracktor 的实现结果(第一行)相比于官方实现(第二行),在 MOT17 数据集上 MOTA 超出 4.9 个点以及 IDF1 超出 3.3 个点。

对单目标跟踪算法 SiameseRPN++ 的实现结果(第一行)相比于官方实现(第二行),在 LaSOT 数据集上 Norm precision 超出 1.0 个点。

作为 MM 系列的新晋成员,MMTracking 也将会持续不断的增加支持的数据集与算法模型,提升用户体验。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

【开源】港中文多媒体实验室开源目标跟踪工具箱MMTracking相关推荐

  1. 港中文多媒体实验室招博士生!

    仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心,港中文 香港中文大学多媒体实验室助理教授 李鸿升 导师简介 李鸿升博士现任香港中文大学多媒体实验室助理教授并兼任西安电子科技大学「华山 ...

  2. 重磅!商汤港中文等将开源ECCV2018MS COCO检测比赛冠军代码库

    重磅!商汤&港中文等将开源ECCV2018MS COCO检测比赛冠军代码库 原文出处: 我爱计算机视觉 来自商汤科技.港中文.浙大.悉尼大学.南洋理工大学的研究人员组成的团队MMDet,赢得了 ...

  3. 使用最新目标跟踪框mmtracking实现自己的目标跟踪项目

    文章目录: 1 搭建环境 2 mmtracking目标跟踪框及原理介绍 之前也一直在关注目标跟踪方面的项目,尤其是多目标跟踪,目前比较主流的多目标跟踪都是基于deepsort来做的,这方面开源的研究工 ...

  4. CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破: 基于生成网络的渲染器!几何形状更精准!渲染效果更真实!...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 近日,商汤-港中文联合实验室提出基于风格化对抗生成器的人脸渲染器,用于取代传统图形学基于栅格化的渲染器 ...

  5. ECCV 2020 论文大盘点-目标跟踪篇

    本文盘点ECCV 2020 所有与跟踪相关的研究,单指目标的跟踪,不涉及人体姿态等点的跟踪,总计19篇文章,其中12篇开源或者将开源. 其中多目标跟踪.单目标跟踪.对抗学习+目标跟踪研究工作较多.其中 ...

  6. CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破: 基于生成网络的渲染器!几何形状更精准!渲染效果更真实!

    近日,商汤-港中文联合实验室提出基于风格化对抗生成器的人脸渲染器,用于取代传统图形学基于栅格化的渲染器来进行3D模型的重建.该方法构建了一种从输入3D模型到生成图像的平滑梯度,同时可以以低精度建模获得 ...

  7. 融合视频目标检测与单目标、多目标跟踪,港中文开源一体化视频感知平台 MMTracking...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 编辑丨机器之心 魔王 香港中文大学多媒体实验室(MMLab)OpenMMLab 开源一体化视频目标感知 ...

  8. 港中文开源 | 融合视频目标检测与单目标、多目标跟踪

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  9. CVPR 2020目标跟踪多篇开源论文(上)

    CVPR 2020目标跟踪多篇开源论文(上) SiamBAN:面向目标跟踪的Siamese Box自适应网络 作者团队:华侨大学&中科院&哈工大&鹏城实验室&厦门大学等 ...

最新文章

  1. 5个实用的例子,一行 Python 能干嘛?
  2. Zookeeper整理(一)- 写操作产生事件,写操作与Watcher对应关系
  3. 另一鲜为人知的单例写法-ThreadLocal
  4. java string类型时间段 转换 date类型
  5. 36/100. Generate Parentheses
  6. JavaFX技巧11:更新只读属性
  7. SQLServer 行转列,统计,二次分组
  8. RISC-V 能打 50 年!不必期待 RISC-VI —— 对话 RISC-V CTO Mark Himelstein
  9. c#点击按钮调出另一个窗体_在类库或winform项目中打开另一个winform项目窗体的方法...
  10. Android 学习资源收集
  11. 美萍足浴远程共享狗使用方法
  12. 贴片发光二极管/LED灯正负极判断
  13. [Android Traffic] android 流量计算方法
  14. 百变北京门头沟大觉寺养生温泉2日自驾游(可延住)
  15. 四点之间最短路(spfa+优先队列+枚举优化)UESTC1955喜马拉雅山上的猴子
  16. Python Pandas操作Excel表格文件:创建新表格,追加数据
  17. 编程会像手机拍照一样傻瓜
  18. 微信小程序下发消息通知
  19. python spss,有没有一个Python模块打开SPSS文件?
  20. alternate端口什么意思_“Alternate Version”通常指什么意思?

热门文章

  1. 有关《家》的经典歌曲_大家,给我推荐几首歌吧?
  2. android 输入法模式,android输入法的四种模式(弹出输入法式的窗口变化)
  3. 一般树与二叉树的相互转换
  4. unicloud操作数据库(一)——clientDb
  5. 用Multisim14.0仿真电感L、电容C与电阻R的电压、电流相位关系
  6. substrate中打印调试信息的多种方式详解
  7. substrate node cli
  8. python中常用的模块(cleandar模块,time模块,datetime模块,OS模块,shutil()模块,random模块)
  9. cJSON的使用方法
  10. 纽约大学计算机和信息科学专业排名,纽约大学计算机科学与信息系统世界排名2021年最新排名第21(QS世界排名)...