一百万个视频短片数据集来啦！看看有没有你见过的瞬间（附视频）

来源：授权自AI科技大本营（ID：rgznai100）

本文约2000字，建议阅读7分钟。

本文介绍了一个叫“Moments in Time”的标签标记数据集，其中包含有100多万个视频短片。

想象一下，如果我们必须向外星人解释地球上发生的所有行为。我们可以为他们提供非小说类书籍或BBC纪录片。我们可以尝试口头解释什么是电臀舞。但是，实际上，没有什么能比三秒钟的视频短片更好地传达出这一行为的含义。

Falling Asleep（入睡，来自GIPHY网站）

感谢麻省理工学院和IBM的研究人员，我们现在有了一个做了清晰的标签标记的数据集，其中包含有100多万个视频短片。这个数据集名为“Moments in Time”，已经收集了地球上发生的数百种常见行为，有鲜花绽放的美丽时刻，也有令人尴尬的被绊倒和嘴啃泥场景。

Tripping（绊倒，来自GIPHY网站）

然而，Moments in Time的创建并不是为了提供一系列GIF动画，而是为人工智能系统识别和理解视频中的行为和事件打下基础。迄今为止，大量标记过的图像数据集，如用于物体识别的ImageNet和用于场景识别的Places，在开发更准确的图像分类和理解模型中发挥了重要作用。

“视频理解尤其是视频中的行为识别，与图像理解的情况是不同的。”MIT- IBM沃森人工智能实验室的首席研究员、创建Moments in Time的主管研究员Dan Gutfreund说。“虽然用标签标记了行为的视频数据集在Moments in Time之前就已经存在，但它们比图像数据集要小好几个数量级。此外，它们是以人为中心的，有时还是针对特定领域的（比如体育）。”

视频来源：MIT CSAIL

视频时长40s，建议WIFI条件下观看。

因此，Gutfreund及其同事们力图开发一个分类系统，该系统可以涵盖最常见的行为（不管这些行为是由人类、动物还是物体完成的，也不管它们是在什么环境下完成的）。他们首先列出了来自VerbNet的4500个最常用的动词（VerbNet是由语言学家开发和使用的一个动词知识库）。

他们将动词解析成语义相关的词簇，然后从每个词簇中选择最常见的动词。结果显示英语是很冗余的一种语言。例如，洗浴、淋浴、沐浴、皂洗、洗发、修指甲、保湿和用牙线——这些都可以简单地归入“梳洗打扮”的范畴。在对动词进行了细致的整合之后，研究团队确定了339个用做Moments in Time基础的关键动词。

Grooming（梳洗打扮，来自GIPHY网站）

但是，当对视频本身进行分类时，会遇到一系列独特的挑战。例如，描述某个东西正在“打开”（opening），那可能是一个人正在打开一扇门，也可能是一朵花正在绽放，甚至可能是一只卡通狗正在张开嘴。更重要的是，相同帧反向播放，实际上可以描述不同的行为（“关闭”，closing），这意味着捕捉视频的时间线对于理解视频和将其正确分类是至关重要的。

Opening（打开，来自GIPHY网站）

研究人员从网上挑选了与这339个动词相关的视频，将每个视频的时长缩短到3秒。这些视频短片被发送到众包平台Amazon Mechanical Turk上，该平台上的用户帮助对100多万个视频短片进行分类（他们只需点击“是”或“否”来确认每个视频短片中是否发生了指定的行为即可）。

每个标签都经过几个用户的验证。关于该数据集如何创建的详细信息，发表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上，文章标题为“Moments in Time Dataset: one million videos for event understanding”。

麻省理工学院计算机科学与人工智能实验室（CSAIL）的Mathew Monfort是该项目的首席研究员，他指出，一些分类，比如“Walking”（步行）或“Cooking”（烹饪），是很简单的，而另一些则不然。“Playing Music”（演奏/播放音乐）可以是一个乐队在舞台上演奏，也可以是一个人在用收音机听音乐。Monfort说：“具有这种视觉和听觉多义性的类目的识别，对于当前的机器学习模型来说是非常具有挑战性的。”

Playing Music（演奏/播放音乐，来自GIPHY网站）

在该数据集的下一版本中，该团队计划使用相同的视频集合，并标记出每个视频中发生的多个行为。“当我们考虑视频的本质时，很明显需要更多的信息来恰当地描述一个事件，而用一个行为标签来训练和评估模型是不完整的。”Monfort说。“将多个标签纳入数据集应该可以显著改善模型训练，同时也为不同行为之间的关系问题以及如何对它们进行推理打开了大门。”

很快，更复杂的视频可以通过机器学习算法分类，轻松自如。

不久之后，机器学习算法可能可以毫不费力地对更复杂的视频加以分类。

机器学习（Machine Learning，来自GIPHY网站）

数据集地址：http://moments.csail.mit.edu/

编辑：王菁

校对：林亦霖

一百万个视频短片数据集来啦！看看有没有你见过的瞬间（附视频）相关推荐

100多万个视频短片数据集来啦！
本文经授权转载自 IEEE电气电子工程师学会(ID: IEEE_China) 想象一下,如果我们必须向外星人解释地球上发生的所有行为.我们可以为他们提供非小说类书籍或BBC纪录片.我们可以尝试口头解释 ...
ICCV2021- 牛津大学新的预训练视频文本数据集WebVid-2M，设计用于端到端检索的联合视频和图像编码器！代码已开源！...
关注公众号,发现CV技术之美 ▊ 写在前面视频文本检索的挑战包括视觉网络结构的设计和训练数据的性质 ,因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的,因此只能通过大 ...
如何将视频转换成视频帧（视频图像序列）+ 如何制作自己的视频跟踪数据集
如何将视频转换成视频帧(视频图像序列)+ 如何制作自己的视频跟踪数据集这次想在网上备注的知识是如何将视频转换成视频序列(即一帧一帧的图像).有的时候大家或许希望从视频中得到其中的某一幅或者某几幅图像 ...
android模糊后面视频,在安卓手机上怎么制作中间是横视频上下是模糊效果的竖视频?手机视频短片制作...
注意此教程方案是『安卓手机端教程方案』今天要介绍的是安卓手机视频短片制作软件,可以在安卓手机上制作手机视频短片哦,制作那种中间是横视频上下是模糊效果的竖视频哦~不是手机看的视频片,手机怎么下载好看的 ...
jar包导出无法显示图片或者音乐_如何制作图片视频短片，配上音乐闪耀朋友圈！...
把图片制作成视频短片,再配上一首好听的音乐,发到朋友圈,不仅可以更具创意的分享自己的生活点滴,更能因您的创意获得一大票的赞哦!看到别人分享自己制作的图片视频短片,是不是心痒痒也想做一个呢?今天就教你使 ...
谷歌AI发布Deepfake检测数据集，真人多场景拍摄，生成3000段假视频
点击我爱计算机视觉标星,更快获取CVML新技术本文转载自新智元(AI_era) . 新智元报道来源:Google AI 编辑:大明 [新智元导读]Deepfake又添劲敌!这次出手的是谷歌 ...
速领电商：怎么制作视频短片
加入抖音的人越来越多,竞争压力也就越发激烈,那么想要能被更多的人看到,就需要商家不断地创新才能够脱颖而出.那么大家知道我们在制作视频短片时应该怎么做吗? 1.沟通:沟通主要是摄制公司与企业之间进行沟通 ...
Android多媒体四：MediaRecorder录制视频短片
Android多媒体四:MediaRecorder录制视频短片 MediaRecorder除了可用于录制音频之外,还可用于录制视频,使用MediaRecorder录制视频与录制音频的步骤基本相同. 只 ...
2007职场新宠:视频短片制作人才
随着网络媒体的迅猛发展,目前非常火爆的流行名词"短视频",或者更炫一点的"飞视"."短视"."微视频"等词,吸引了无数现 ...

一百万个视频短片数据集来啦！看看有没有你见过的瞬间（附视频）

一百万个视频短片数据集来啦！看看有没有你见过的瞬间（附视频）相关推荐

最新文章

热门文章