来源:授权自AI科技大本营(ID:rgznai100)

本文约2000字建议阅读7分钟

本文介绍了一个叫“Moments in Time”的标签标记数据集,其中包含有100多万个视频短片。

想象一下,如果我们必须向外星人解释地球上发生的所有行为。我们可以为他们提供非小说类书籍或BBC纪录片。我们可以尝试口头解释什么是电臀舞。但是,实际上,没有什么能比三秒钟的视频短片更好地传达出这一行为的含义。

Falling Asleep(入睡,来自GIPHY网站)

感谢麻省理工学院和IBM的研究人员,我们现在有了一个做了清晰的标签标记的数据集,其中包含有100多万个视频短片。这个数据集名为“Moments in Time”,已经收集了地球上发生的数百种常见行为,有鲜花绽放的美丽时刻,也有令人尴尬的被绊倒和嘴啃泥场景。

Tripping(绊倒,来自GIPHY网站)

然而,Moments in Time的创建并不是为了提供一系列GIF动画,而是为人工智能系统识别和理解视频中的行为和事件打下基础。迄今为止,大量标记过的图像数据集,如用于物体识别的ImageNet和用于场景识别的Places,在开发更准确的图像分类和理解模型中发挥了重要作用。

“视频理解尤其是视频中的行为识别,与图像理解的情况是不同的。”MIT- IBM沃森人工智能实验室的首席研究员、创建Moments in Time的主管研究员Dan Gutfreund说。“虽然用标签标记了行为的视频数据集在Moments in Time之前就已经存在,但它们比图像数据集要小好几个数量级。此外,它们是以人为中心的,有时还是针对特定领域的(比如体育)。”

视频来源:MIT CSAIL


视频时长40s,建议WIFI条件下观看。

因此,Gutfreund及其同事们力图开发一个分类系统,该系统可以涵盖最常见的行为(不管这些行为是由人类、动物还是物体完成的,也不管它们是在什么环境下完成的)。他们首先列出了来自VerbNet的4500个最常用的动词(VerbNet是由语言学家开发和使用的一个动词知识库)。

他们将动词解析成语义相关的词簇,然后从每个词簇中选择最常见的动词。结果显示英语是很冗余的一种语言。例如,洗浴、淋浴、沐浴、皂洗、洗发、修指甲、保湿和用牙线——这些都可以简单地归入“梳洗打扮”的范畴。在对动词进行了细致的整合之后,研究团队确定了339个用做Moments in Time基础的关键动词。

Grooming(梳洗打扮,来自GIPHY网站)

但是,当对视频本身进行分类时,会遇到一系列独特的挑战。例如,描述某个东西正在“打开”(opening),那可能是一个人正在打开一扇门,也可能是一朵花正在绽放,甚至可能是一只卡通狗正在张开嘴。更重要的是,相同帧反向播放,实际上可以描述不同的行为(“关闭”,closing),这意味着捕捉视频的时间线对于理解视频和将其正确分类是至关重要的。

Opening(打开,来自GIPHY网站)

研究人员从网上挑选了与这339个动词相关的视频,将每个视频的时长缩短到3秒。这些视频短片被发送到众包平台Amazon Mechanical Turk上,该平台上的用户帮助对100多万个视频短片进行分类(他们只需点击“是”或“否”来确认每个视频短片中是否发生了指定的行为即可)。

每个标签都经过几个用户的验证。关于该数据集如何创建的详细信息,发表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上,文章标题为“Moments in Time Dataset: one million videos for event understanding”。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的Mathew Monfort是该项目的首席研究员,他指出,一些分类,比如“Walking”(步行)或“Cooking”(烹饪),是很简单的,而另一些则不然。“Playing Music”(演奏/播放音乐)可以是一个乐队在舞台上演奏,也可以是一个人在用收音机听音乐。Monfort说:“具有这种视觉和听觉多义性的类目的识别,对于当前的机器学习模型来说是非常具有挑战性的。”

Playing Music(演奏/播放音乐,来自GIPHY网站)

在该数据集的下一版本中,该团队计划使用相同的视频集合,并标记出每个视频中发生的多个行为。“当我们考虑视频的本质时,很明显需要更多的信息来恰当地描述一个事件,而用一个行为标签来训练和评估模型是不完整的。”Monfort说。“将多个标签纳入数据集应该可以显著改善模型训练,同时也为不同行为之间的关系问题以及如何对它们进行推理打开了大门。”

很快,更复杂的视频可以通过机器学习算法分类,轻松自如。

不久之后,机器学习算法可能可以毫不费力地对更复杂的视频加以分类。

机器学习(Machine Learning,来自GIPHY网站)

数据集地址:http://moments.csail.mit.edu/

编辑:王菁

校对:林亦霖

一百万个视频短片数据集来啦!看看有没有你见过的瞬间(附视频)相关推荐

  1. 100多万个视频短片数据集来啦!

    本文经授权转载自 IEEE电气电子工程师学会(ID: IEEE_China) 想象一下,如果我们必须向外星人解释地球上发生的所有行为.我们可以为他们提供非小说类书籍或BBC纪录片.我们可以尝试口头解释 ...

  2. ICCV2021- 牛津大学新的预训练视频文本数据集WebVid-2M,设计用于端到端检索的联合视频和图像编码器!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 视频文本检索的挑战包括视觉网络结构的设计 和训练数据的性质 ,因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的,因此只能通过大 ...

  3. 如何将视频转换成视频帧(视频图像序列)+ 如何制作自己的视频跟踪数据集

    如何将视频转换成视频帧(视频图像序列)+ 如何制作自己的视频跟踪数据集 这次想在网上备注的知识是如何将视频转换成视频序列(即一帧一帧的图像).有的时候大家或许希望从视频中得到其中的某一幅或者某几幅图像 ...

  4. android模糊后面视频,在安卓手机上怎么制作中间是横视频上下是模糊效果的竖视频?手机视频短片制作...

    注意此教程方案是『安卓手机端教程方案』 今天要介绍的是安卓手机视频短片制作软件,可以在安卓手机上制作手机视频短片哦,制作那种中间是横视频上下是模糊效果的竖视频哦~不是手机看的视频片,手机怎么下载好看的 ...

  5. jar包导出无法显示图片或者音乐_如何制作图片视频短片,配上音乐闪耀朋友圈!...

    把图片制作成视频短片,再配上一首好听的音乐,发到朋友圈,不仅可以更具创意的分享自己的生活点滴,更能因您的创意获得一大票的赞哦!看到别人分享自己制作的图片视频短片,是不是心痒痒也想做一个呢?今天就教你使 ...

  6. 谷歌AI发布Deepfake检测数据集,真人多场景拍摄,生成3000段假视频

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自新智元(AI_era) .   新智元报道   来源:Google AI 编辑:大明 [新智元导读]Deepfake又添劲敌!这次出手的是谷歌 ...

  7. 速领电商:怎么制作视频短片

    加入抖音的人越来越多,竞争压力也就越发激烈,那么想要能被更多的人看到,就需要商家不断地创新才能够脱颖而出.那么大家知道我们在制作视频短片时应该怎么做吗? 1.沟通:沟通主要是摄制公司与企业之间进行沟通 ...

  8. Android多媒体四:MediaRecorder录制视频短片

    Android多媒体四:MediaRecorder录制视频短片 MediaRecorder除了可用于录制音频之外,还可用于录制视频,使用MediaRecorder录制视频与录制音频的步骤基本相同. 只 ...

  9. 2007职场新宠:视频短片制作人才

    随着网络媒体的迅猛发展,目前非常火爆的流行名词"短视频",或者更炫一点的"飞视"."短视"."微视频"等词,吸引了无数现 ...

最新文章

  1. Python分析离散心率信号(上)
  2. 28自定义View 模仿联系人字母侧栏
  3. AI语音算法“个性”强 与芯片端“磨合”挑战多
  4. Airbnb欺诈预测机器学习模型设计:准确率和召回率的故事 发表于2015-07-15 16:14| 3926次阅读| 来源AirBNB/Data| 1 条评论| 作者Ariana Radianto
  5. C语言多维数组做函数参数退化原因大剖析
  6. 【linux】sed -e 's/-//g'
  7. python通过SNMP协议收集服务器监控信息(安装、配置、示例)
  8. 如何默认选择一个单选按钮? [重复]
  9. php排序函数实例学习教程
  10. I帧,P帧,B帧简介
  11. android长截图工具下载,手机长截图怎么截?超方便的长截图App
  12. 学习笔记10--多传感器融合定位技术
  13. MDUKEY超级节点配置及指南(简)
  14. nacos运行报jar的错Failed to get nested archive for entry BOOT-INF/lib/XXX.jar
  15. 计算机专业考研复试(前沿知识篇)
  16. Abaqus 实体平移和旋转
  17. 一文读懂什么是cookie和session。
  18. 2021河南省第十三届ACM/icpc大学生程序设计竞赛榜单
  19. BYOD是企业网络安全的噩梦还是变革?
  20. HDU 2886 Lou 1 Zhuang

热门文章

  1. 将多窗体应用程序改造为仿Chrome形式的简易方法
  2. 文件编程之Linux下系统调用
  3. java中HashMap在多线程环境下引起CPU100%的问题解决
  4. Nginx下配置Http Basic Auth保护目录
  5. 中文NER任务简析与深度算法模型总结和实战展示 转 作者原创的不错,很有水平,需要研读
  6. 安装kashigari报错提示Consider using the `--user` option or check the permissions.
  7. EM算法 大白话讲解 没看懂 保存
  8. 准确率precison与正确率accuracy区别
  9. Docker系列 五.Docker容器数据卷
  10. 《预训练周刊》第38期: Transformer、BERT结构优化