4. AVA数据集的特性

我们通过讨论数据的类型与分布开始分析,展示注释的高质量。之后我们研究感兴趣的动作,和时间结构,这使此数据集真正的独一无二。然后我们讨论这些特性,其使数据集具有挑战性,尤其对动作检测任务。

首先,建立直觉的一些样本。每个样本被推荐为来自片段的3帧:带矩形框的中间帧圈住表演动作的人,在中间帧之前的0.5s的那一帧,在中间帧之后的0.5s的那一帧。这2个额外帧为可视化动作提供了上下文背景。

Figure5展现了不同动作的样本。我们能看见关于矩形框内人的高度与位置的巨大差异。摄影技术也不同,尤其在不同的风格,不同方向比率,手法,色调。镜头边界可能出现在一个段落内,诸如“fall down”样本。然而,召回动作标签仅仅对应与中间帧,因此他们是仍旧容易定义。某些动作实例能从一个独立的帧被定义,如“打电话”,“刷牙”。无论如何,在帧内的语境上,有许多命令,和时空上下文一样,如“take a photo”, “fall down”,“listen”。这使得数据变得尤其有趣,复杂。

 

Figure5.不同标签类型的例子。

有标着矩形框的人的中间帧被显示了,连同 ±0.5s 的前后帧。注意,在人数量,形状,电影技术,镜头边界上的变化。对 “take a photo”, “fall down” 和 “listen” 例子来说,时间,帧内语境是关键。

Figure6显示了对“碰杯”动作的3个样本。即使在一个动作类别里,其表现也差异很大,普遍的是有不同的人的数量,非常不同的语境。干杯的容器可能在或可能不在帧里,杯子可能被部分的遮挡。时间长度也相应变化,在第一个里杯子被举起很长时间,在第二个里这个动作始终持续,而在第三个里这个动作直到中间帧也不是明确的。宽泛的同类的变化将允许我们获得识别动作的时空部分的关键特征,如对“碰杯”来说,触摸杯子。

Figure 6. “碰杯”标签的3个例子。

有标着矩形框的人的中间帧被显示了,连同 ±0.5s 的前后帧。其表现差异很大。

另外的样本在追加的素材里。

4.1标注质量

为了评估标签的一致性,在测试集里,3个人注释了每一个矩形框,提供了总共21个未加工的标签。我们定义异常率为被仅一个注解者提供的未加工标签的个数(是未经证实的),除以被所有注解者提供的所有未加工标签的个数。例如,对一个有总共5个标签的段落,这里仅有被一个注解者列出的标签是1个,异常率为0.2。异常率为0则意味着没有未经证实的标签(即都可信),1则意味着所有都不一致(即都不可信)。Figure7显示了一个在测试集上的异常率的柱状图。多数的比率是非常低,展示了内部注解者的良好的一致性。

Figure7.测试集里,注解者间的标签异常率的柱状图。因为异常比例一般是非常低,我们推断出注解者是一致连续的。

Table1.在AVS数据集里最多的普通的姿势和互动的标签。互动的包括人与人,人与物。全部的列表被显示在追加的素材里。

Table2.在训练集里,标着矩形框的每个人的标签的个数。“其他动作”的标签被忽略了。几乎所有矩形框都有一个预定义列表里的姿势,多数至少也有一个活动。总共有76990个至少带有一个标签的标矩形框的人。

4.2 动作结构

随着标注质量的确定,我们接下来审视数据的分布。总体上,有80个不同动作标签。除“其他动作”以外,有14姿势标签,17个人与人互动标签,49个人与物互动标签。大部分频繁发生的姿势与互动标签被显示在Table 1里,所有标签的列表在追加的素材里。注意姿势和互动的多样性,来自像“站”的简单姿势到像“看(TV)”的复杂互动。

一个重要问题是姿势与互动标签的列表是否充分的描述了电影内容的广泛多样性。注解者对姿势或互动指定了“其他动作”的标签,意味着所有的标签列表(姿势/人与人/人与物)中没有出现合适的标签。注解者从来不对任何一个标签类别指定“其他动作”两次。除去对每个矩形框的3个标签类别外,在训练集里,“其他动作”标签被用仅1.0%的时间。这个说明标签列表确实是很全的。

数据也展示了感兴趣的结构,多数标着矩形框的人带有多重标签。Table 2提供了对每个标着矩形框的人的标签数量的频率。回想下在段落中可能有多个人。“其他动作”的标签是不计数的。几乎所有矩形框有一个来自列表的姿势标签,再一次论证了标签列表有良好的规模优势。除此以外,多数矩形框至少有一个互动标签。这论证了数据是复杂的,彻底的分层了动作的原子类型。

Table3在训练数据里,最高和最低NPMI一起出现至少一次,对给定段落里的单个人的一组标签来看。

给了大量带有至少2个标签的样本,我们能在这个数据里发现感兴趣的模式,而在其他数据集里不存在。(Normalized Pointwise Mutual Information)NPMI[8]被用在语言上的表现2个单词间的共现关系,定义如下:

直觉上值在( 1; 1]范围内, NPMI(x; y) =1时的单词对,从来不共现。独立单词对则NPMI(x; y) =0,总是共现的单词对则NPMI(x; y) =1。Table 3显示了NPMI结果中Top 9和Bottom 3的标签对。

我们确认期望在数据里的模式,例如当唱歌时人们频繁的演奏乐器。我们也能看到武术常常包含战斗,当与小孩玩耍时人们常常举起(一个人),当接吻时人们拥抱。在这个数据集里人们当站立时不安慰地睡觉,当跳舞时他们也不做。所有这些两两共现的原子动作将允许我们在将来建立更复杂的动作,且发现复杂活动的组合结构。

4.3 时空结构

AVA数据集的另一个独有的特性是时空结构。回想3秒的连续段落被标注了,如果矩形框是错误的(很罕见)或在中间帧里没有人,则只用间隔的段落。查看动作从一个段落到另一个段落怎样发生的是有趣的。Figure 8显示了在连续3秒段落上的成对的姿势标签的NPMI值。第一个姿势在Y轴上,第二个在X轴上。使用喷色图,一个-1的NPMI值(从来不共现)是深蓝色,0(独立)是浅绿色,1(总是共现)是深红色。

Figure 8.姿势标签的NPMI,在喷色图上的连续段落间的转变。

Y 轴:段落上 [t-3, t] 秒的姿势标签。 X 轴:段落上 [t, t+3] 秒的姿势标签。(少于 100 个实例的姿势不包括在内)

果然,在同样的姿势标签(对角线上)之间,转变是常常发生的,从任何标签到普通标签“做”,“站”,“走”。此外,感兴趣的通常感觉的模式出现了。像有很多频繁的转变,从“跳/跃”到“跳舞”,从“蹲/跪”到“俯身/鞠躬”。不可能发生的序列也能被学到,如“躺/睡”很少跟着“跳/跃”。

在具有高的NPMI值的原子动作间的转变,为建立有时空结构的更复杂动作和活动,提供了非常好的训练数据。

4.4 数据复杂性

对复杂性的首个贡献者是标签和实例的宽泛的种类。之前的分析讨论了长的标签列表,和种类数量的广泛分布。对复杂性的第二个贡献者是外观的多样性。矩形框数量的分布说明了这个。一大部分的人占去了帧的整体高度。可是仍就有很多数量少的框。这个可变性能通过缩放比例被解释。

例如,有标签“进入”的矩形框,显示了典型的1:2的行人宽高比,图像宽度的30%的平均宽,72%的平均高。在另一方面,标注“躺/睡”的矩形框是接近方型的,58%的平均宽,67%的平均高。矩形框的宽度(范围)是确实广泛分布的,显示了人姿态的多样性必须承担实施标签化的动作。

姿势的广度,互动,动作的共现,和人姿势的多样性,使这个数据集成为一个特别挑战性的数据集。

待续。。。。

谷歌AVA数据库的1705.08421论文(4)相关推荐

  1. AVA数据集论文1705.08421部分翻译

    AVA数据集论文1705.08421部分翻译 0 Abstract 1 Introduction 3 Data Collection 3.1 Action vocabulary generation ...

  2. 大数据早报:三江航天与数澜科技达成人工智能合作 谷歌推出 AVA 数据库(10.24)

    数据早知道,上乐投网看早报! 『思科』思科拟收购机器学习初创企业 支持AppDynamics业务 思科日前宣布,该公司计划收购机器学习和数据初创企业Perspica,以此支持旗下的AppDynamic ...

  3. 关于mysql的教学文章_数据库课程教学方法探索论文

    数据库课程教学方法探索论文 [摘要]本文结合多媒体手段.课程特点和创新理念,分析了数据库知识领域的教学手段.特点和重要性,并提出了加大实践环节.使用创新理念和情景模式的教学方法,以进行详细探讨. [关 ...

  4. 谷歌学术(google scholar)个人主页的论文信息不准确怎么办?

    题目:谷歌学术(google scholar)个人主页的论文信息不准确怎么办? 谷歌学术主页是很多人展示自己学术成果的一种方式,但很多时候,谷歌自动给你聚集到主页的论文信息是有误的,这时候怎么去编辑呢 ...

  5. 计算机数据库技术的应用现状,信息管理中计算机数据库技术的运用论文

    [摘要]本文结合信息管理的实际情况,对计算机数据库技术在信息管理中的作用及应用现状进行分析,并对加强信息管理中计算机数据库技术的应用策略进行了探讨,以期能对信息管理的效率和质量提升有所帮助. [关键词 ...

  6. 基于Java的超市管理系统源码,数据库MySQL(附加论文13000字)

    目录 1.摘要 2.社会背景 3.系统可行性研究 4.系统的功能结构(图) 5.功能需求 6.开发环境介绍 7.系统数据流(图) 8.数据库(E-R模型) 9.功能展示 10.论文目录结构 11.源码 ...

  7. 给大家分享在校外也能免费用CNKI知网、万方等数据库下载相关学术论文与期刊的方法

    今天给大家分享在校外也能免费用CNKI知网.万方等数据库下载相关学术论文与期刊的方法,小编亲试,绝对管用,至少目前是管用的~ 1.打开手机"支付宝",搜索"浙江省图书&q ...

  8. 喜报!《大数据》72篇论文入选中国知网《学术精要数据库》高影响力论文!...

    <大数据>2012-2022年共有72篇论文入选<学术精要数据库>"高影响力论文",其中高PCSI论文38篇,高被引论文42篇,高下载论文54篇," ...

  9. 谷歌推出AVA数据库:让机器识别视频中人类行为 | 研究

    本文系网易新闻-智能工作室出品 聚焦AI,读懂下一个大时代! 网易年度AI人物评选--2017网易AI英雄风云榜,自荐提名进行中! 奖项设置:技术创新人物TOP 10,商业创新人物TOP 10 表彰人 ...

最新文章

  1. java joptionpanel_JOptionPane用法--java
  2. (0082)iOS开发之搭建iOS自动化打包平台(利用Jenkins持续集成iOS项目)
  3. 自学python清单-python学习清单
  4. SQL字符串处理函数大全
  5. linux常用工具命令
  6. docker版本Mysql安装
  7. vscode导入本地jar包_go导入本地包踩坑(已解决!)
  8. Linux 常用命令六 cp和mv
  9. 不使用临时变量的swap再思考 -- 六种解法
  10. angular,vue,react的基本语法—双向数据绑定、条件渲染、列表渲染、angular小案例...
  11. Python基础——元组与列表
  12. VC++常用数据类型
  13. android 系统签名
  14. 干货,下载网易云课堂和B站的视频
  15. 基于SpringBoot实现邮箱验证码注册
  16. 计算机b类核心期刊有哪些,B类期刊推荐有哪些
  17. linux系统怎么使用优盘,教你如何使用u盘安装Linux系统
  18. 用html5设置国际象棋棋盘,绘制国际象棋棋盘
  19. 蓝牙耳机哪种通话效果最好?通话质量最好的蓝牙耳机盘点
  20. 使用机器学习模型预测贷款资格

热门文章

  1. 《痞子衡嵌入式半月刊》 第 27 期
  2. photoshop 切图教程
  3. 深圳大学——大数据计算(一些选择题)
  4. linux硬盘休眠怎么设置密码,OMV查询硬盘休眠状态(Linux通用)
  5. 弘辽科技:淘宝词根和关键词有什么联系?如何优化?
  6. ROS机器人操作系统新发布软件包摘录--(2018.03)
  7. 手把手教你腾讯云搭建RUOYI系统
  8. 【Fabric2.2.1搭建】过程及遇到的问题
  9. 青龙面板-快手极速低保版
  10. Python之计算24点