作者: Chunhui Gu & David Ross

编译:魏子敏,龙牧雪,谭婧

就在昨天,谷歌blog发布了一个堪比“视频版”ImageNet的数据集-AVA(A Finely Labeled Video Dataset for Human Action Understanding ),为视频动作识别这一图像识别中的重大课题提供了新的“原材料”。这个崭新的数据集填补了在复杂的场景下,多人执行不同操作的标注空白。

以下为google blog原文,大数据文摘对其进行了编译:

在计算机视觉领域,教会机器在视频中理解人类行为是一个非常基础的研究课题,这一点对于视频搜索和发现,运动分析以及手势交互都至关重要。过去几年,尽管我们在识别图片中的物体这个领域取得了一些令人兴奋的突破,但是,识别人的动作仍然是一个比较大的挑战。

这是由于,视频中的“动作”识别,天然地比物体识别更困难,这就使得建立一个优质的动作标注视频数据集非常不容易。目前确实存在很多重要的动作标注数据集,例如,ucf101,activitynet和DeepMind的Kinetics。尽管这些数据集都采用图像分类标签的标注结构,给每个视频或视频剪辑的动作进行了一定的标注。但是,复杂的场景下,标注了多人执行不同操作的数据集在业内依然空白。

为了促进对人类动作识别的进一步研究,我们发布了AVA(atomic visual actions)。这个数据集为视频中的每个人都打上了多个动作标签。AVA由YouTube上公开视频的URLs组成,标注了80个独立个体行为(例如“走”、“踢(一个物体)”、“握手”,共有57.6k视频片段,96k标记的人类行动,以及总的210K动作标签。你可以浏览网站(https://research.google.com/ava/)来探索数据集和下载标注,以及阅读我们的arXiv论文,论文描述了数据集的设计与开发(论文地址:https://arxiv.org/abs/1705.08421)。

相比其他的动作数据集,AVA数据集有以下这些特点:

以人为中心进行标注:每个动作标签都基于人物本身,而不是一段视频或者剪辑片段。因此,我们能够为不同动作中的各类人加上不同的标签,这一点非常常见。

原子级视觉动作:我们对需要标注的动作进行了合理的时间限制(3秒钟),以确保动作符合人的生理机能,同时有明显的视觉特征。

真实视频作为视觉材料:我们使用不同题材和国家的电影作为AVA的标注材料,进而确保数据库中包含各类型的人类行为。

视频来源中的3秒视觉片段标签,用方框标注出每个动作素材(为确保清晰,每个例子中只出现了一个框。)

为了创作AVA数据集,我们首先从YouTube上搜集了一批种类各异的长视频内容,以“电影”和“电视剧”作为主要标签,其中的专业演员来自不同国家。我们从每个视频中剪辑出了一段15分钟的片段,并且标准化地将这些片段组合成为了一段视频样本,每一段这样的样本都包换300个无重叠的3秒片段。这一采样策略确保了相关内容中动作的连贯有序。

接下来,我们手动标注了所有以3秒隔断、被方框框起来的动作。对于每一个标注框中人,标注者会从一个之前选出来的动作词库(包含80类目)中选择合适的标签,来描述框中人的动作。这些动作将被划分为三组:姿态类,人-物交互类,人-人交互类。为了确保标签对于动作的穷尽性,我们给AVA的所有标签打上了较多的分类,我们将其总结如下:

图:AVA动作标签分类:x轴上显示的标签仅仅罗列了我们词汇表中的部分

通过AVA,我们得到了一些有趣的统计数据,这是之前任何数据集中都没有体现出来的。比如,由于大量人物都被标注了至少两个动作,我们可以发现当多个动作标签同时出现的时候,动作的组合具有一定规律。下面这张图显示了AVA中出现最频繁的“动作组合”。这印证了我们的常识:人们通常一边“唱歌”一边“玩乐器”,在“和孩子一起玩”的同时“把一个人举起来”,在“接吻”时“拥抱”。

图:AVA中同时出现最多的“动作组合”

(吹黑管的小编哭晕,永远不能一边唱歌一边演奏呢)

为了验证AVA数据集中人类动作识别系统的有效性,我们在AVA上实现了一个已有的深度学习基准模型,这个模型在一个小得多的JHMDB数据集上表现良好。由于比例、背景、摄影角度的原因,这个模型在AVA上的表现属于中等水平(18.4%mAP)。这表明,在未来几年中,AVA都将对开发和验证新的动作识别算法非常有用。

我们希望AVA的发布能推动动作识别的进步,并为多人同时执行复杂动作标签之上的建模提供机会。我们会持续扩大和改进AVA,并且非常希望得到你们的反馈。

优质课程推荐《人工智能的数学基础》

往期学员评价(by 张铮)

《人工智能的数学基础》这门课值得AI新人学习。

之前看李航的《统计学习方法》一直看不懂。上了这门课才知道以“凸优化-SVM”为一轴,以“梯度下降-矩阵”为一轴,内容相互交叉。学习课程之后,再看机器学习基础书籍就没有太多压力了。 真实体会。

往期精彩文章

点击图片阅读

人工智能将如何改变公司战略:亚马逊思维试验

谷歌新发布了一个精确标注动作的数据集,堪称ImageNet视频版相关推荐

  1. 谷歌新发布的分布式数据库服务,是要打破CAP定理了吗?

    谷歌新发布的分布式数据库服务,是要打破CAP定理了吗? 本来来自:Original 2017-02-19 作者|登州知府 2月14日,Google 宣布推出 Cloud Spanner 云端数据库服务 ...

  2. 厉害了!谷歌新发布的半监督学习算法降低4倍错误率

    点击我爱计算机视觉标星,更快获取CVML新技术 昨天跟大家分享了Facebook AI 提出10亿级数据规模的半监督图像分类模型,ImageNet测试精度高达81.2%!,引起了不少朋友的兴趣.虽说做 ...

  3. 谷歌新发布的TWA:让你的PWA进入应用商店

    PWA(Progressive Web App)可以使得 Web 站点拥有类似 Native App 的使用体验,虽然已经推出一段时间,但目前来看,PWA 离真正的 Native App 还有一个重要 ...

  4. 谷歌云mysql_面向开发者 谷歌云发布新数据库工具

    原标题:面向开发者,谷歌云发布新数据库工具 2月1日消息,据外媒报道,谷歌于今日发布了两种新工具,一种是名为Cloud SQL Insights的云服务,另一种是开源软件库. 对此,谷歌云称,开发人员 ...

  5. 安卓新发布机制----app bundle

    Android App Bundle是一种改进的应用程序打包方式,能大幅度减少应用体积 unity可以直接导出appbundle,只需要在导出的时候勾选 但是通常项目有sdk离不开java端,我这里是 ...

  6. 赚钱的方法地推拉新一定算一个

    如果有能让你快速赚钱的方法,地推拉新一定算一个. 我从前天开始做快手极速版.淘宝特价版.京东极速版的拉新项目,今天是第三天,现在的数据是60单左右 做这件事给我的收获很多,第一天的时候赶上天气不好,大 ...

  7. 谷歌发布人类动作识别数据集AVA,精确标注多人动作

    选自Google Research 机器之心编译 参与:路雪 视频人类动作识别是计算机视觉领域中的一个基础问题,但也具备较大的挑战性.现有的数据集不包含多人不同动作的复杂场景标注数据,今日谷歌发布了精 ...

  8. 重磅!谷歌刚刚发布Objectron新数据集,可完美检测3D目标,超过4百万幅图像和15K视频剪辑!...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文转载自:新智元  |  编辑:QJP [导读]谷歌人工智能实验室近日发布 Objectron 数据 ...

  9. 谷歌最新发布数据集:Open Images V6 来了!新增局部叙事标注形式

    谷歌于2020年2月26日正式发布 Open Images V6,增加大量新的视觉关系标注.人体动作标注,同时还添加了局部叙事(localized narratives)新标注形式,即图像上附带语音. ...

最新文章

  1. ubuntu14 备份
  2. pb调用c语言dll,PB调用C#编写的Dll类库
  3. leetcode C++ 25. K 个一组翻转链表 给你一个链表,每 k 个节点一组进行翻转,请你返回翻转后的链表。
  4. leetcode580. 统计各专业学生人数(SQL)
  5. SpringBoot: 注解@Autowired
  6. 服务器安装系统教程进光盘界面,iso光盘系统怎么安装系统教程
  7. 安全平台基于ArcGIS构建安全的移动端App
  8. html怎么在jupyter编辑,jupyter home jupyter环境变量怎么设定
  9. mysql数据库连接数瓶颈_MySQL数据库性能优化之硬件瓶颈分析
  10. 勾股定理的html代码,有趣的数学——勾股定理
  11. AutoCAD2012从入门到精通中文视频教程 第一课 简介及界面组成 (个人收藏)
  12. CorelDRAW零基础入门到精通
  13. 基于GARCH模型的股市研究与危机预警——R语言实现
  14. HTML5CSS3:Day03 2D动画 3D动画 CSS3过渡
  15. java抽象类例子月薪年薪程序_利用抽象类给一个有工资收入和稿费收入的小伙伴算税...
  16. API接口防止参数被篡改和重放攻击
  17. eclipse官网下载收费 怎么办?
  18. [RK3288][Android6.0] 调试笔记 --- apk安装添加黑名单
  19. eclipse安装html编辑器插件
  20. 2020-11-3(安卓开发入门)

热门文章

  1. 我不是好记星,要做烂笔头
  2. 【一周头条盘点】中国软件网(2018.9.3~2018.9.7)
  3. CAD制图教程:CAD软件中怎么编辑双跑楼梯?
  4. 通过Fiddler(windows)抓http请求(android、浏览器)
  5. 费德勒:这一天你用顽强征服了你不曾用胜利征服的这世界
  6. 4.5 自行车模型的横向动力学(第四章 车辆的动态建模)
  7. 华为交换机链路聚合命令总结(eNSP)
  8. 华南理工大学计算机科学概论试卷,华南理工大学计算机概论试卷b.doc
  9. 美团技术专家:数据库全量SQL分析系统建设实践
  10. C语言scanf缓存区的基本问题