【数据】短视频识别,都有那些行业标准?
杨皓博
大三在读,计算机视觉爱好者
作者 | 杨皓博(微信号Midlurker2017)
编辑 | 杨皓博/言有三
当前深度学习中静态图像识别已经做得相当好了,让AI理解视频内容则更加困难,是当前学术界和工业界的研究热点,本文将介绍一些短视频类数据集。
01
AI Challenger 全球AI挑战赛
官网地址:https://challenger.ai/,从2017年开始。
2018年全球AI挑战赛是由创新工场、搜狗、美团点评、美图联合创办的,里面包括多个NLP、计算机视觉项目,其中就有 ’短视频实时分类竞赛’。
竞赛提供的专门的短视频数据集共包含20万条短视频,涵盖舞蹈、健身、唱歌等63类流行元素。大部分视频的长度是在5-15秒。并且视频是多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息将尽量包含视频中展现的所有元素,每条视频有1-3个标签。此数据集分为训练集(120K)、验证集(30K)、测试集A(30K)、测试集B(30K)。
相较于传统视频数据集来说,该数据集更具特色。
1. 从视频来源上讲,此数据集视频采集设备多为手机且比例多为竖屏;
2. 从视频形式上讲,数据集中的很多视频使用了短视频特效,并包含更多视频快进、剪辑等操作;
3. 从视频内容上讲,数据集包含了更多人物中心化的自拍短视频内容。所有这些特点使本数据集在体现以用户为导向的内容生产趋势上得以先人一步。
4. 预览:左图是:宝宝+弹钢琴,右图:宝宝+跳舞
02
HMDB
数据集链接:
http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads,发布于2011年
HMDB是布朗大学研究小组的项目,是一个人类动作视频数据集。里面的数据大部分来自于电影,小部分来自于开源数据库,来源地址如Prelinger存档、YouTube、google视频等等,包含6849段视频剪辑,51个人类动作类别,每类动作至少包含 101段视频剪辑,分辨率为320*240,共2G。动作主要分为五类:
1. 面部动作:微笑、大笑、咀嚼。
2. 面部操作与对象操作:吸烟、吃、喝。
3. 一般的身体动作:拍手、跳、倒立
4. 与对象交互动作:抽出宝剑、运球、高尔夫。
5. 人体动作:击剑、拥抱、亲吻。
03
UCF101
数据集链接:http://crcv.ucf.edu/data/UCF101.php,发布于2012年。
UCF101是目前动作类别数、样本数最多的数据集之一,主要包括在自然环境下101种人类动作类别如跳、拍手、打羽毛球等等,也正因为类别众多加上UCF101在动作的采集上具有非常大的多样性,如相机运行、外观变化、姿态变化、物体比例变化、背景变化等等,所以也成为了当前难度最高的动作类数据集挑战之一。该数据集有13000个剪辑、总共27个小时的视频。视频都来自于Youtube上用户上传视频,其中主要包含5大类动作:人与物体互动、人体动作、人与人互动、乐器演奏、体育运动。
04
ActivityNet
数据集链接:
http://www.merl.com/demos/merl-shopping-dataset,发布于2016年。
ActivityNet是一个大规模行为识别竞赛,自CVPR2016开始,今年是该竞赛的第三届。在最新1.4版本中,ActivityNet提供了203个活动类别的样本,每个类平均有137个未修剪的视频,总共有20K多个Youtube视频,其中训练包括10K多个视频,验证与测试各包含5K个视频。每个视频平均有1.41个行为标注,共计849个小时视频时长。
以2017年竞赛为例(使用1.3版本)在ActivityNet将进行5项不同的任务,分别是
1.untrimmed video classification (ActivityNet dataset)
2.trimmed video classification (Kinetics dataset)
3.temporal action proposal (ActivityNet dataset)
4.temporal action localization (ActivityNet dataset)
5.Dense-Captioning Events in Videos (ActivityNet Captions)
该竞赛总共有五个任务,数据来源于三个不同的公开数据集:ActivityNet,ActivityNet Captions 和Kinetics,其中基于ActivityNet数据集的三个任务侧重于proposal,而另外两项更加侧重于localization。感兴趣的同学可以链接去了解一下。
05
YouTube-8M
数据集链接:https://research.google.com/youtube8m/,发布于2016年。
YouTube-8M是Google公布的一个大型的视频数据集,这个数据集在最开始包含8M个YouTube视频链接,此后经过不断清洗筛选在今年5月份已经缩短到了6.1M个视频,视频的长度大于两分钟小于9分钟。这些视频集进行了video-level(视频层级)的标注,平均每个视频含有3.0个标签,标注为3862种Knowledge Graph entities(知识图谱类别),包括粗粒度和细粒度类别,这些类别已被半自动策划并由3个评估者人工验证视频的识别度。每个类别至少有200个相应的视频示例,平均有3552个训练视频。
其中三个最受欢迎的类别是游戏、视频游戏和车辆分别用780K,540K和410K个训练样例。最少见的是Cylinder和Mortar,分别有123和127个训练视频。
这些实体分为24个高级垂直行业,最常见的是艺术和娱乐(33K训练视频),最不常见的是财务(6K训练视频)。
06
结语
市面上还有一些其他的开源短视频数据集,在这里不一一赘述了,大家感兴趣可以自己去调研。
如果想了解更多,欢迎关注知乎《有三AI学院》。
我们的计算机视觉公开课《AI 图像识别项目从入门到上线》上线了,将讲述从零基础到完成一个实际的项目到微信小程序上线的整个流程,欢迎交流捧场。
十月开始,我们有三AI学院开启了“稷”划和“济”划,帮助想入行以及想取得更多实战经验的同学。内容覆盖从自动驾驶到美颜直播等领域的实战项目,从图像基础到深度学习理论的系统知识,欢迎关注。
有三AI“【济】划”,从图像基础到深度学习
有三AI“十一月【稷】划”,从调参大法到3D重建
有三AI“十月【稷】划”,从自动驾驶到模型优化
《有三说深度学习》网易公开课已经上线,欢迎关注
如果想加入我们,后台留言吧
转载后台留言,侵权必究
微信
Longlongtogo
公众号内容
1 图像基础|2 深度学习|3 行业信息
有三精选
【总结】这半年,有三AI都做了什么
【技术综述】“看透”神经网络
【有三说图像】图像简史与基础
【技术综述】闲聊图像分割这件事儿
【技术综述】一文道尽softmax loss及其变种
往期学员分享
【技术综述】人脸表情识别研究
一课道尽人脸图像算法,你值得拥有
如何降低遮挡对人脸识别的影响
【技术综述】人脸颜值研究综述
往期开源框架
【pytorch速成】Pytorch图像分类从模型自定义到测试
【paddlepaddle速成】paddlepaddle图像分类从模型自定义到测试
【caffe速成】caffe图像分类从模型自定义到测试
【tensorflow速成】Tensorflow图像分类从模型自定义到测试
往期行业解读
【行业进展】国内自动驾驶发展的怎么样了?
【行业进展】AI:新药研发的新纪元
【行业进展】哪些公司在搞“新零售”
【行业趋势】国内这10个AI研究院,你想好去哪个了吗?
往期模型解读
【模型解读】“全连接”的卷积网络,有什么好?
【模型解读】“不正经”的卷积神经网络
【模型解读】resnet中的残差连接,你确定真的看懂了?
【模型解读】pooling去哪儿了?
【数据】短视频识别,都有那些行业标准?相关推荐
- 抖音素材哪里收集_自媒体素材去哪里找,抖音素材去哪里找,短视频素材都在这里!(建议收藏)...
自媒体素材去哪里找,抖音素材去哪里找,短视频素材都在这里!(建议收藏) 发布时间:2020-03-28 13:25 自媒体素材怎么找?新人做自媒体如何写文章?今天给大家分享一下,自媒体人去哪里找素材, ...
- 短视频剪辑都用什么软件 短视频剪辑软件推荐
转载自:http://qtqcm.cn 很多人认为短视频不容易做,因为他们不能拍摄,更不用说剪辑.如果你想做一个好的短视频,除了能够拍摄,视频剪辑也是一个非常重要的技能. 短视频剪辑都用什么软件 该视 ...
- 短视频配音都用什么配音软件?短视频配音手机配音软件哪个好?
现如今,提到短视频这个词,可谓是"无人不知不人不晓"了吧,它时长简短且适合在移动状态及休闲状态下观看,受到相当多的用户喜欢,短视频的制作并不复杂,大体分为以下几个步骤: 1.准备好 ...
- 自媒体短视频创作者都有哪些创作运营问题,可以让你轻松操作自媒体赚大钱
自媒体短视频创作者都有哪些创作运营问题,可以让你轻松操作自媒体赚大钱 大家好,我是我赢助手,专注于自媒体短视频去水印.去重和文案提取运营! 随着自媒体行业的发展,现在有很多人都想要通过自己的劳动来获得 ...
- 阅兵活动首次出动“AI剪辑师”,你看到的短视频可能都出自于ta
十一到来,你的朋友圈是不是已经被壮观的阅兵短视频刷屏了呢? 你知不知道,这些阅兵短视频很有可能就是"AI剪辑师"的作品呢? 本次阅兵新闻报道,AI人工智能技术首次应用到视频剪辑中. ...
- Android短视频开发都需要什么技术?
今天我们来讲点干货,估计来看这篇帖子的人都知道短视频APP有多火,也都知道安卓系统在手机系统中占的市场份额有多大,那我就不多嘴巴拉巴拉一些行业背景了,以下我着重讲一讲Android端的短视频开发技术. ...
- android短视频技术,Android短视频开发都需要什么技术?
今天我们来讲点干货,估计来看这篇帖子的人都知道短视频APP有多火,也都知道安卓系统在手机系统中占的市场份额有多大,那我就不多嘴巴拉巴拉一些行业背景了,以下我着重讲一讲Android端的短视频开发技术. ...
- 最近很火的配音软件| 自媒体零基础必备, 热门短视频达人都在用
短视频行业迅速崛起,很多人都开始从事自媒体,但却碍于自己的声音不好听,没有情感,面对镜头紧张等,就放弃了.其实配音工具可以帮助您解决这个问题,今天就给大家分享三款好用的文字转语音工具,非常好用! 1. ...
- php怎么做短视频,短视频怎么才能火 原来做短视频的人都用这个!
2017 年以前,直播的热度盖过短视频,不过抖音出现以后,短视频的热度逐渐高了起来.我有一位朋友,之前一直在斗鱼做<英雄联盟>直播,属于兼职,白天工作,晚上直播一两局,用他的话就是 &qu ...
最新文章
- Ubuntu开发Java教程_Ubuntu下Java环境的搭建基础教程
- NIO详解(四):NIO编程
- NTU课程笔记 mas714复习:例题
- unity 动画原动画返回_Unity3D 动画回调方法
- python列表解析式如何使用_python列表推导式操作解析
- python升级第三方库,Python第三方库的卸载_安装_更新
- 【NLP】2020深度文本匹配最新进展:精度、速度我都要!
- jquery动态改变onclick属性导致失效的问题解决方法
- ssm项目快速搭建(注解)-依赖
- .Net orm 开源项目 FreeSql 2.0.0
- python常用包数据分析_数据分析领域常用的五个Python包
- 小牛电动京东众筹活动中的违约行为记录
- ar机房查看html5,探秘5G“智慧机房”:5G+AR技术实现机房智能巡检
- 日常英语---九、冒险岛link技能导读
- FTP实验、利用SMTP协议发匿名邮件
- 李维:我的回忆和一些有趣的事(About Borland)(转载)
- c语言极限,C语言问题合集
- 是时候适配 Swift 3 了吗——专访 LINE iOS 开发工程师王巍
- 常见的POS打印机分类
- 认识System,System32,Syswow64