简介

ActivityNet是一个大规模行为识别竞赛,自CVPR 2016开始,今年是该竞赛的第三届。它侧重于从用户产生的视频中识别出日常生活,高层次,面向目标的活动,视频取自互联网视频门户Youtube。

ActivityNet 2018将进行7项不同的任务,致力于推动对视频的语义视觉理解的限制以及将视觉内容用标题概括出来。7项任务中的3项基于ActivityNet数据集,这3个任务侧重于以proposals,类别标签和标题的形式跟踪活动信息。另外4项作为guest任务,为了丰富视频中视觉信息的理解。这些任务集中于大规模行为识别问题的补充方面,涉及具有挑战性和最近发布的行为数据集,包括Kinetics (Google DeepMind), AVA (Berkeley and Google), SoA (Facebook), Moments in Time (MIT and IBM Research)。

ActivityNet任务

任务1 Temporal Action Proposals (ActivityNet)

在许多大规模视频分析场景中,人们有兴趣定位和识别长时间未修剪的视频中短时间间隔内出现的人类活动。目前的行为检测方法仍然很难处理大规模视频集合,并且有效地解决这一任务对于计算机视觉系统仍然很难。这是由于:
(1)当前动作识别方法的计算复杂性;
(2)缺少可以针对每个视频提出更少间隔的方法,使得行为处理仍然集中在大量候选时间片段中。这些候选时间片段被广泛称为行为建议(Action Proposals)。

为了在大规模和实际情况下适用,有用的Action Proposals方法由两个目标驱动:
(1)Proposal方法必须在计算上高效,对时间段进行表示,编码和打分。
(2)Proposal方法必须区分我们感兴趣的活动,以便仅检索包含指示这些活动类别的视觉信息的时间片段。

因此,此任务旨在推动Action Proposals生成算法的发展。

数据集

此任务采用ActivityNet 1.3版本数据集。该数据集包含超过648个小时的未修剪视频,共约2万个视频。它包含200种不同的日常活动,例如:’walking the dog’, ‘long jump’, and ‘vacuuming floor’等。数据量分布:train(~50%), validation(~25%), test(~25%)。

评估指标

评估服务器使用的评估代码可以在这里找到。

此任务使用Average Recall和Average Number of Proposals per Video(AR-AN)曲线作为评估指标。一个proposal为真的条件:该proposal的时间区间和真实值(ground-truth)的区间的tIOU(temporal intersection orver union)大于等于一个阈值(比如:tIOU>0.5tIOU>0.5tIOU > 0.5)。ARARAR 被定义为召回值的平均值(满足0.5<tIOU≤0.90.5<tIOU≤0.90.5 ,步长为0.050.050.05)。ANANAN 被定义为proposals总数除以测试子集中的视频数量。当计算 AR−ANAR−ANAR-AN 曲线上的值时,我们考虑 ANANAN 集中在1到100(含)之间的值,步长为1。

使用此评估指标评估提交文件的具体过程:

使:

ANsubmission=提交文件中proposals总数测试子集中的视频总数ANsubmission=提交文件中proposals总数测试子集中的视频总数

AN_{submission}=\frac{提交文件中proposals总数}{测试子集中的视频总数}

ANmaxANmaxAN_{max} 表示在评估方法允许每个视频平均proposals数量的最大值。这里,ANmax=100ANmax=100AN_{max}=100。让 R=ANmaxANsubmissionR=ANmaxANsubmissionR=\frac{AN_{max}}{AN_{submission}},那么我们按照以下方式预处理提交文件:

  • 若 R<1R<1R,那么对于测试子集中的每个视频,我们会根据proposal得分对其proposal进行分类,并丢弃得分最低的 R%R%R\% 的proposal。
  • 若 R≥1R≥1R≥1,那么对于测试子集中的每个视频,我们会根据提案得分对提案进行排序,并复制每个视频中得分最低的 (R−1)%(R−1)%(R-1)\% 提案,并将结果数据点添加到 AR−ANAR−ANAR-AN 曲线上。然后计算所得到的最终曲线下的面积并将其作为提交文件的度量分数。

过滤后的提交结果文件将有:AN=ANmaxAN=ANmaxAN=AN_{max}。对于每一个 ppp 值(从1到100,步长为1),仅仅使用得分前 p%" role="presentation" style="position: relative;">p%p%p\% 的proposal计算 ARARAR,并将结果数据点添加到 AR−ANAR−ANAR-AN 曲线上。然后计算所得到的最终曲线下的面积并将其作为提交文件的度量分数。

在验证子集上提供基线proposal方法(称为统一随机)的结果。统一随机(Uniform Random):每个proposal的中心和长度是独立地从间隔内的均匀随机分布 [0,d][0,d][0,d] 中抽取的,其中 ddd 为视频长度。这个模型的得分:44.88%" role="presentation" style="position: relative;">44.88%44.88%44.88\%。见下图:

虚线表示在平均超过一个 tIoUtIoUtIoU 阈值时的召回性能,而实线表示跨所有 tIoUtIoUtIoU 阈值的平均召回率。可以看出,在 tIoUtIoUtIoU 比较小时召回性能较高,但在 tIoUtIoUtIoU 较大时急速下降。因此,对于在评估指标上得分较高的proposal方法,需要重点关注对低和高 tIoUtIoUtIoU 阈值下都得到相对较高的召回率。

提交格式

使用以下JSON格式,提交文件时需要去掉注释。上面举例的Uniform Random proposals方法结果点此下载。

{version: "VERSION 1.3",results: {"5n7NCViB5TU": [{score: 0.64,segment: [24.25,38.08]},{score: 0.77,segment: [11.25, 19.37]}]}external_data: {used: true, # Boolean flag. True indicates the use of external data.details: "First fully-connected layer from VGG-16 pre-trained on ILSVRC-2012 training set", # This string details what kind of external data you used and how you used it.}
}

任务2 Temporal Action Localization (ActivityNet)

尽管最近在大规模视频分析方面取得了进展,但Temporal Action Localization仍然是计算机视觉中最具挑战性的未解决问题之一。这种搜索问题阻碍了从消费者视频摘要到监控,人群监控和老年护理等各种实际应用。因此,我们致力于推动开发高效,准确的自动化方法,以搜索和检索视频集合中的事件和活动。

这项任务旨在鼓励计算机视觉研究人员设计高性能的行为定位系统。

数据集

此任务采用ActivityNet 1.3版本数据集。该数据集包含超过648个小时的未修剪视频,共约2万个视频。它包含200种不同的日常活动,例如:’walking the dog’, ‘long jump’, and ‘vacuuming floor’等。数据量分布:train(~50%), validation(~25%), test(~25%)。

评估指标

评估服务器使用的评估代码可以在这里找到。

插值平均精度(Average Precision,AP)作为评估每个行为类别结果的指标。然后,APAPAP 对所有活动类别进行平均,得到 mAPmAPmAP。

一个detection为真的条件:该tIOU(temporal intersection orver union)大于等于一个阈值(比如:tIOU>0.5tIOU>0.5tIOU > 0.5)。此任务中使用的官方指标是平均mAP,其被定义为所有mAP值的平均值,其中 tIOUtIOUtIOU 阈值满足:0.5<tIOU≤0.90.5<tIOU≤0.90.5 ,步长为0.050.050.05。

提交格式

同“任务1”所述。

任务3 Dense-Captioning Events in Videos (ActivityNet Captions)

大多数自然视频包含众多活动。例如,在“人弹钢琴”的视频中,视频可能还会包含另一个“人跳舞”或“人群鼓掌”。这项挑战研究密集字幕事件的任务,其中涉及检测和描述视频中的事件。这个挑战使用了ActivityNet Captions数据集,这是一个新的密集字幕事件的大型基准。ActivityNet Captions包含20K个视频,总计849个视频小时,总共有100K个描述,每个视频都有其独特的开始和结束时间。

数据集

ActivityNet Captions数据集将用于此挑战。数据集对视频用一系列时间注释的句子进行描述。每个句子涵盖视频的一个唯一的片段,描述发生的多个事件。这些事件可能会在很长或很短的时间内发生。平均而言,Captivity网络中的每个视频都包含3.65个句子,总共产生了10万个句子。每个视频的句子数量遵循相对正态的分布。而且,随着视频持续时间的增加,句子的数量也增加。每个句子的平均长度为13.48个字,也是正态分布的。

评估指标

评估服务器使用的评估代码可以在这里找到。

受密集图像字幕指标的启发,使用类似的指标来衡量模型对定位和字幕事件的联合能力。在前1000个proposal时,评估指标计算 tIOUtIOUtIOU 在 0.3,0.5,0.70.3,0.5,0.70.3, 0.5, 0.7 阈值上的平均准确率(AP)。使用传统评估指标来衡量我们标题的精确度:BLEU,METEOR和CIDDEr。

基线

基线结果在此。

提交格式

使用以下JSON格式,提交文件时需要去掉注释。点此下载。

{version: "VERSION 1.0",results: {"v_5n7NCViB5TU": [{sentence: "One player moves all around the net holding the ball", # String description of an event. timestamp: [1.23,4.53] # The start and end times of the event (in seconds).},{sentence: "A small group of men are seen running around a basketball court playing a game".timestamp: [5.24, 18.23]}]}external_data: {used: true, # Boolean flag. True indicates the use of external data.details: "First fully-connected layer from VGG-16 pre-trained on ILSVRC-2012 training set", # This string details what kind of external data you used and how you used it.}
}

ActivityNet 2018介绍相关推荐

  1. C++ CAD ObjectARX 2018介绍

    ObjectARX 2018目前最新的版本是ObjectARX2018.它是开发AutoCAD的核心,是最为高效的开发AutoCAD的工具.通过支持XML,为ObjectARX开发网络协作应用提供了有 ...

  2. 在PrimeFaces中更改主题

    PrimeFaces使用的是jQuery ThemeRoller CSS主题框架 ,并带有30多个预先设计的主题,您可以在几秒钟内下载并应用它们. 在本教程中,我们将向您展示如何更改主题PricePr ...

  3. 生活大爆炸第十二季在线观看下载(2018)

    生活大爆炸第十二季(2018) 类型:喜剧 爱情 主演:吉姆·帕森斯 约翰尼·盖尔克奇 凯莉·库柯 西蒙·赫尔伯格 导演:马克·森卓斯基 国家/地区:美国 集数:更新至12集 语言/字幕:英语 年代: ...

  4. SlowFast论文翻译+解读

    SlowFast Networks for Video Recognition 参考文章 用于视频的慢速网络 Abstract(摘要) 我们提出用于视频识别的SlowFast网络. 我们的模型涉及 以 ...

  5. slowfast代码实现和论文理解

    Linux Python快速实现PySlowFast视频理解 https://blog.csdn.net/lly1122334/article/details/118162190 1.摘要 本文提出了 ...

  6. 理解计算机视觉中的损失函数

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 导读 损失函数在模型的性能中起着关键作用.选择正确的损失函数可以帮 ...

  7. 总结 | 计算机视觉领域最常见几中损失函数

    英文地址:https://machinelearningmastery.com/loss-and-loss-functions-for-training-deep-learning-neural-ne ...

  8. 使用ML.Net和C#进行机器学习

    目录 介绍 背景 概述 监督 无监督 监督机器学习 二进制分类 情感分析维基百科 训练阶段 预测阶段 你有垃圾邮件 多类分类 语言检测 鸢尾花分类 版本1 版本2 结论 参考 Wikipedia_Se ...

  9. 一项调查:从浅到深的机器学习方法的血压估计使用生物传感器【翻译】

    一项调查:从浅到深的机器学习方法的血压估计使用生物传感器 摘要 在过去的20年里,机器学习系统在医疗保健行业领域迅速发展,如数字健康.健身跟踪.患者监测和疾病诊断.与此同时,随着技术的进步,与人工智能 ...

最新文章

  1. PAT1036:Boys vs Girls
  2. 35. Search Insert Position
  3. 配置使用EF6.0常见的一些问题及解决方案
  4. 新电脑怎么分盘_2020双十一预算一万该怎么组装电脑(含显示器)新媒体,视频剪辑等影视专业装机指南...
  5. 全国计算机二级vb得分技巧,全国计算机等级考试二级VB笔试各题型答题技巧(2)...
  6. C#和其它C语言的区别
  7. 远古VOD存在严重注入漏洞!!
  8. ISP缓存机制及登录串号现象
  9. 国内学者新研究:中医AI登场,自动开出药方
  10. Java编程中组合、继承和代理的区别
  11. 大班音乐机器人反思_大班音乐活动机器人
  12. PF粒子滤波算法理解
  13. STM32的串口协议
  14. EIGamal encryption VS Pairing encryption
  15. Rounded Corner Test
  16. element el-table 在IE浏览器 表头失效问题
  17. python输入一个自然数n如果n为奇数_日本数学家谷角静夫在研究自然数时发现了一个奇怪现象(“谷角猜想”):对于任意一个自然数...
  18. 穆穆推荐-软件销售行业软件公司销售参考操作手册--之1--公司软件产品的定位分类以及目标客户定位-待续....
  19. 使用Google语音识别引擎(Google Speech API)
  20. 网站镶嵌网站显示代码

热门文章

  1. mysql 不识别欧元符号_将欧元和美元符号插入MySQL中的列?
  2. 物联网技术概论:第7章
  3. Python基础笔记——函数
  4. 旧u盘丢失文件如何恢复
  5. 顺势而为,人生会更轻松
  6. xp系统桌面没有计算机,在xp系统中,为什么桌面所有图标都消失?
  7. jquery+jplayer实现歌词同步的mp3音乐播放器效果
  8. 如何进行git ssh文件的配置
  9. termux安装kali
  10. 关于sdcard读写速率慢的问题排查