ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享

©PaperWeekly 原创 · 作者｜罗志鹏

单位｜深兰北京AI研发中心

研究方向｜物体检测

ACM MM（ACM International Conference on Multimedia, 国际多媒体会议）是 ACM 多媒体领域的顶级会议，涵盖多个新兴领域，致力于推动多媒体的研究和应用，包括但不限于图像，文本，音频，语音，音乐，传感器和社交数据。

自 1993 年首次召开以来，ACM MM 每年召开一次，ACM MM 2020 会议于 10 月 12 日至 16 日在美国西雅图举办。来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队斩获了视频目标检测赛道的冠军，我们可以通过这篇文章来了解一下 DeepBlueAI 团队的解决方案。

赛题介绍

尽管计算机视觉的最新进展有效地提高了多媒体系统的性能，但仍然不能明确回答一个核心问题：机器是否理解视频中发生的事情，分析结果是否可以被人类用户解释？为了推动上述问题的研究，新加坡国立大学推出 VidOR 数据集。

该数据集包含 10,000 个从 YFCC100M [2] 数据集中筛选的视频（98.6小时），数据集包含 80 个类别的目标（例如，成人，狗，玩具）和 50 个类别的关系（例如，旁边，观看，保持）标注。同时举办 Video Relation Understanding [1] 竞赛，本次竞赛同时是 ACM Multimedia 2020 Grand Challenge 中的竞赛任务。

视频目标检测（Video Relation Understanding: Video Object Detection）作为基于 VidOR 数据集的竞赛任务。要求参与者开发鲁棒的目标检测器，该检测器需要不仅可以在每个视频帧中使用检测框定位目标，还需要将指示同一目标实体的检测框链接到轨迹中。

这将帮助机器在视频级别理解目标实体的身份和动态，还可以使需要细粒度视频理解的许多应用程序受益。

评测指标

在评测指标中包含目标检测与轨迹生成两部分。在检测部分，主办方采用

、

指标。在轨迹生成部分主办方采用 mAP 的评价指标，定义如下：

其中

分别代表预测轨迹与真实标注轨迹信息。当预测轨迹与真实轨迹时间重叠部分大于 0.5 时被判定为真阳性预测，然后再分别采用三种不同的目标检测 AP 指标评测预测轨迹中帧级别的检测质量，并将三种指标的均值作为最终的得分。

赛题难点

1. 检测器需要重新识别视频中消失重现的目标。

2. 摄像机可以自由移动，存在剧烈抖动的问题。

3. 视频分辨率较低，存在照明、模糊、物体外形变化的问题。

4. 需要识别的目标类别多及目标类别不均衡的问题。

5. 很多标注信息非人工标注，导致标注信息不准确。

解决方案

经过任务分析，我们最终采用了目标检测+多目标跟踪的解决思路。包含检测器设计，深度度量学习算法设计与多目标跟踪算法实现三部分。

Detector：

在检测部分，我们采用 Cascade Rcnn [3] 作为我们的 baseline，并设计添加 FPN [5] 结构与采用 Guided anchoring [6] 用于生成高质量的 Anchor，为了进一步提升性能，我们在 backbone 中引入可变性卷积 [4]。

为了训练检测器，我们对比在所有视频和只在有人工标注信息的视频中抽取帧制作训练集与验证集。实验结果如下：

数据集		mAP(%)
所有视频		25.9
人工标注视频		27.3

Metric learning:

为了解决遮挡，消失重现时再识别的问题。我们基于 Ranked list [7] 损失设计了新的 Metric learning 损失函数以保证较好的类间区分能力及特征稳定性。主要改进点为：

1. 图像对约束中为负样本对设置优化目标为归一化向量之间的最大距离。

2. 在负样本损失中为负样本根据距离值添加指数权重，以利用更多困难负样本信息。

最后将 SoftMax 损失与设计的 Metric learning 损失结合作为最终的损失函数。

为了训练深度度量学习模型，我们从每个目标轨迹中采样 16 个样本图像，并按照 7:2:1的比例划分 Train, Gallery, Query 数据集。然后分别采用 ResNet50 与 IBNNet-A-50 [8] 进行实验。为了证明所提出损失的有效性，同时在行人重识别数据集上与 SoftMax 及 Triplet loss 进行对比。实验表明，提出的损失函数可以取得较好的表现。

Multi-Class Multi-Object Tracking:

为了得到每个目标的轨迹，以实现视频目标检测任务。基于设计的检测器及Metric learning损失训练的再识别模型，我们设计了二阶段的多目标跟踪算法。

第一阶段：结合卡尔曼运动模型及再识别时目标的外观相似性，获取每个目标所形成的一些轨迹段，并采用线性插值填补缺失的检测。

第二阶段：根据每个轨迹段的类别，不同轨迹段之间时间重叠，外观相似性等信息进行轨迹段合并以得到每个目标的完整轨迹。

总结

在本次比赛中，我们对低分辨率，复杂场景下的视频目标检测问题进行了探索，设计了一个简单的目标检测，外观特征提取，多类别、多目标跟踪的系统。在视频目标检测任务中取得了相对较好的表现。

参考文献

[1] Video Relation Understanding - ACMM2020 Grand Challenge

[2] Thomee B , Shamma D A , Friedland G , et al. YFCC100M: The New Data in Multimedia Research[J]. 2015.

[3] Zhaowei Cai and Nuno Vasconcelos. 2017. Cascade R-CNN: Delving into High Quality Object Detection. (2017).

[4] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. 2017. Deformable Convolutional Networks. (2017).

[5] Tsung Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, and Serge Belongie. 2016. Feature Pyramid Networks for Object Detection. (2016).

[6] Jiaqi Wang, Kai Chen, Shuo Yang, Chen Change Loy, and Dahua Lin. 2019. Region Proposal by Guided Anchoring. (2019).

[7] Wang, Xinshao, et al. "Ranked list loss for deep metric learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[8] Pan, Xingang, et al. "Two at once: Enhancing learning and generalization capacities via ibn-net." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[9] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享相关推荐

CVPR 2020雾天条件下物体检测挑战赛冠军DeepBlueAI团队技术分享
©PaperWeekly 原创 · 作者|罗志鹏单位|深兰北京AI研发中心研究方向|物体检测 2020 年 6 月 19 日,堪称计算机视觉领域「奥斯卡」的国际顶会 CVPR 2020 首次以线上 ...
CVPR 2020 夜间目标检测挑战赛冠军方案解读
↑ 点击蓝字关注视学算法来源丨DeepBlue深兰科技编辑丨极市平台在 CVPR 2020 Workshop 举办的 NightOwls Detection Challenge 中,来自国内团 ...
CVPR2020 夜间目标检测挑战赛冠军方案解读
本文转载自DeepBlue深兰科技. 在 CVPR 2020 Workshop 举办的 NightOwls Detection Challenge 中,来自国内团队深兰科技的 DeepBlueAI 团 ...
计算机视觉未来的挑战,搜狗斩获ICPR 2020人脸关键点检测挑战赛冠军计算机视觉技术持续领先...
作为3D 人脸重建.人脸识别.表情迁移及美化等应用的核心基础技术,人脸关键点检测算法一直是工业界和学术界的研究热点. 近日,在第25届国际模式识别大会(ICPR 2020)举办的人脸106关键点检测挑 ...
KDD Cup 2019 AutoML Track冠军深兰科技DeepBlueAI团队技术分享 | 开源代码
作者丨罗志鹏单位丨深兰北京AI研发中心近日,KDD Cup 2019 AutoML Track 比赛结果出炉,本次赛题是第五次 AutoML 挑战赛,由第四范式.ChaLearn 和微软联合举办, ...
ICMR 2021 雷达目标检测挑战赛正式启动（ROD2021）
点击上方"CVer",选择加"星标"置顶重磅干货,第一时间送达 ROD2021 Challenge ACM ICMR 2021 雷达目标检测挑战赛(ROD20 ...
ECCV 2020 论文大盘点-视频目标检测篇
本文盘点ECCV 2020 中所有视频目标价检测(Video Object Detection)相关的论文,总计 4 篇,其中 2 篇论文代码将开源. 对视频中的目标进行检测,当然可以转化为对每帧图像 ...
多媒体领域顶会--ACM MM 2020 会议论文打包下载
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 ACM International Conference on Multimedia (ACM ...
【CVPR智慧城市挑战赛】无监督交通异常检测，冠军团队技术分享
[新智元导读]"智能交通视频分析界的ImageNet竞赛"--英伟达城市挑战赛落下帷幕.新加坡松下研究院联合中科院自动化所,提出了一种双模态动静联合检测方案,在交通异常检测比赛中拔 ...

ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享

ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享相关推荐

最新文章

热门文章