CVPR 2018视频行为识别挑战赛概览

　　今天看了下CVPR 2018视频行为识别挑战赛的结果，主要了解：都有哪些行为？通常用什么办法去识别。

关于Moments-in-Time数据集（视频+动作）的类别分布：
- 339 个动作类别，每个类别至少有1000个视频，动作主体可能是人，动物或一般物体；
- 802264 个训练视频；
- 33900 个验证视频；
- 67800 个测试视频。

动作类别示例：

　　英文动词：drying, welding, socializing, stroking, shaving, whistling, diving, writing, rowing, howling, shooting, cheering, bouncing, busking, contact juggling, cracking back, driving car, golf putting, milking cow, playing badminton, canoeing or kayaking, plastering, tapping guitar, hurdling, playing cricket, playing laser tag, washing dishes, playing ukulele, playing recorder, bee keeping, tango dancing, crying, blasting sand, playing pinball, dancing ballet, playing guitar, reading book

　　翻译：烘干, 焊接, 社交, 行程, 刮, 吹口哨, 潜水, 写作, 划船, 嚎叫, 射击, 欢呼, 反弹, 街头艺人, 接触杂耍, 回击, 驾车, 高尔夫推杆, 挤奶牛, 打羽毛球, 皮划艇或皮划艇, 抹灰, 轻拍吉他, 跨栏, 打板球, 打激光标签, 洗盘子, 玩尤克里里, 播放录音机, 养蜂, 探戈跳舞, 哭了, 爆沙, 打弹球, 跳芭蕾舞, 弹吉他, 阅读书

动作类别demo示例

　　（以下是我在官网的图片上读到的内容）

　　bouncing：蹦蹦、弹跳：婴儿在学步车里蹦、儿童在蹦床上蹦、弹簧在反弹、水滴溅到水面
　　swimming：游泳：鲨鱼在游泳、潜水员在潜水、泳池正在进行比赛
　　Falling：下落：瀑布、猫掉下来、儿童摔倒、多米诺骨牌倒下
　　opening：打开：婴儿张大嘴打哈欠、打开首饰盒子、打开剪纸、睁开眼睛
　　Eating：吃：人吃东西、猫狗吃东西、鸟类吃东西
　　Climbing：婴儿爬楼梯、运动员登山、熊猫爬树、攀岩

FullTrack 排行榜：

厂家	竞赛排名	模型	算法说明	准确率（FullTrack）
海康	1	若干模型的组合：若干个基于RGB图像、一个基于音频	提出一种创新的多视图卷积结构，沿着视频数据的三个正交视图进行2D卷积，带有权值共享，可以对视频片段的时空特征进行高效的编码 a novel multi-view convolutional architecture、three orthogonal views of volumetric、spatio-temporal feature	top-1 38.7% top-5 66.9%
旷视	2	五个模型的组合：三个基于RGB图像、一个基于音频、一个基于光流信息	基于空间网络和3D卷积神经网络构建用以提取空间和时域信息。使用了多模态信息：RGB图像、光流和音频 spatial networks 、3D convolutional neural networks spatial and temporal features、multi-modality cues、optical flow 、audio information	top1 38.1% top5 65.3%
七牛云	3	多个模型的组合	基础网络为：非局部神经网络和时域分割网络。用了多模态信息：RGB图像、光流和声信号 non-local neural networks 、 temporal segment networks、Multi-modal	top1 35.81% top5 62.59%
中大	-	多个模型的组合	整合了静态信息、短时信息，长时信息和声学信息 integrate static infor mation, short-term temporal information, long-term tempo ral information and acoustic information	top1 27.9% top5 54%

小结

　　对比了full track排名前三及中山大学的技术报告，共同特点:

　　1多种模型组合（ensemble）

　　2运用多模态的信息包括RGB图像、光流和音频信号

　　3使用卷积神经网络提取时空特征

关于是否用到了RCNN系列

　　海康并没有用到RCNN或LSTM，而是使用了时空CNN（spatiotemporal 卷积神经网络），把3D卷积分解为多视图卷积，即沿着视频数据的三个正交视图进行2D卷积

　　旷视和中大有用到LSTM

　　七牛云也没用RCNN

参考文献

　　[1] CVPR 2018视频行为识别挑战赛结果出炉：前三名均由国内团队包揽 https://mp.weixin.qq.com/s/9HO0-0z5oQFF6fUMR_0P4Q

　　[2] 数据集官网 http://moments.csail.mit.edu/#

　　[3] Moments in Time：IBM-MIT联合提出最新百万规模视频动作理解数据集 https://www.leiphone.com/news/201712/u3s9hDsH7Da0wKrc.html

　　[4]【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？ https://zhuanlan.zhihu.com/p/29227174

转载于:https://www.cnblogs.com/connie-0223/p/connie_20160223.html

CVPR 2018视频行为识别挑战赛概览相关推荐

2018视频人物识别挑战赛冠军经验分享：在现有机器资源条件下更快速验证是关键...
在2018年爱奇艺联合PRCV会议举办的第一届多模态视频人物识别挑战赛中,来自Infinivision的团队获得冠军.现在,该团队分享了他们在比赛中的经验心得,希望可以为对多模态领域研究感兴趣的朋友提 ...
爱奇艺多模态视频人物识别挑战赛项目总结
文章目录一:任务目标二:主要思路三:实验细节 3.1数据集介绍 3.2人脸提取与去噪 3.3网络结构 Deep Residual Learning for Image Recognition(C ...
爱奇艺路香菊：视频人物识别关键技术及其应用|爱奇艺技术沙龙回顾
主讲人 | 路香菊爱奇艺科学家张康编辑整理量子位编辑 | 公众号 QbitAI 近日,爱奇艺技术沙龙"多模态视频人物识别的关键技术及应用"成功举办,爱奇艺科学家路香菊出席并 ...
CVPR 2018 论文解读集锦（9月26日更新）
本文为极市平台原创收集,转载请附原文链接: https://blog.csdn.net/Extremevision/article/details/82757920 CVPR 2018已经顺利闭幕,目 ...
ChinaMM竞赛：VideoNet视频内容识别-总奖池10W人民币
点击我爱计算机视觉标星,更快获取CVML新技术比赛简介视频中存在着大量的物体.场景等多维度内容信息,这些维度内容之间又存在着广泛的语义联系.近年来,随着深度学习技术的发展,涌现出大量针对物体.场景 ...
人物识别挑战赛TOP6团队经验分享：合理选择策略并不断优化
1.团队介绍 zheey团队的成员来自北京邮电大学,其中王文哲为队长,是计算机学院研究生一年级的学生,主要研究方向为多媒体内容理解与数据挖掘,其他成员均是准备进入实验室读研或正在实验室实习的计算机学院 ...
弱监督学习下商品识别：CVPR 2018细粒度识别挑战赛获胜方案简介
弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同 ...
【基于深度学习的细粒度分类笔记2】弱监督学习下商品识别：CVPR 2018细粒度识别挑战赛获胜方案简介
细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同时使用全局图像信息与局部特征信息精确识别图像子类别.细粒度分类是计算机 ...
CVPR 2018 | 8篇论文、10+Demo、双项挑战赛冠军，旷视科技掀起CVPR产学研交流热潮
第 31 届计算机视觉和模式识别大会 CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于 ...

CVPR 2018视频行为识别挑战赛概览

CVPR 2018视频行为识别挑战赛概览相关推荐

最新文章

热门文章