今天看了下CVPR 2018视频行为识别挑战赛的结果,主要了解:都有哪些行为?通常用什么办法去识别

  • 关于Moments-in-Time数据集(视频+动作)的类别分布:

    • 339 个动作类别,每个类别至少有1000个视频,动作主体可能是人,动物或一般物体;
    • 802264 个训练视频;
    • 33900 个验证视频;
    • 67800 个测试视频。
  • 动作类别示例:
  英文动词:drying, welding, socializing,  stroking, shaving, whistling, diving, writing, rowing, howling, shooting, cheering, bouncing, busking, contact juggling, cracking back, driving car, golf putting, milking cow, playing badminton, canoeing or kayaking, plastering, tapping guitar, hurdling, playing cricket, playing laser tag, washing dishes, playing ukulele, playing recorder, bee keeping, tango dancing, crying, blasting sand, playing pinball, dancing ballet, playing guitar, reading book
 
  翻译:烘干, 焊接, 社交, 行程, 刮, 吹口哨, 潜水, 写作, 划船, 嚎叫, 射击, 欢呼, 反弹, 街头艺人, 接触杂耍, 回击, 驾车, 高尔夫推杆, 挤奶牛, 打羽毛球, 皮划艇或皮划艇, 抹灰, 轻拍吉他, 跨栏, 打板球, 打激光标签, 洗盘子, 玩尤克里里, 播放录音机, 养蜂, 探戈跳舞, 哭了, 爆沙, 打弹球, 跳芭蕾舞, 弹吉他, 阅读书
 
  • 动作类别demo示例
  (以下是我在官网的图片上读到的内容)

  bouncing:蹦蹦、弹跳:婴儿在学步车里蹦、儿童在蹦床上蹦、弹簧在反弹、水滴溅到水面
  swimming:游泳:鲨鱼在游泳、潜水员在潜水、泳池正在进行比赛
  Falling:下落:瀑布、猫掉下来、儿童摔倒、多米诺骨牌倒下
  opening:打开:婴儿张大嘴打哈欠、打开首饰盒子、打开剪纸、睁开眼睛
  Eating:吃:人吃东西、猫狗吃东西、鸟类吃东西
  Climbing:婴儿爬楼梯、运动员登山、熊猫爬树、攀岩

  • FullTrack 排行榜: 
厂家 竞赛排名 模型 算法说明 准确率(FullTrack)
海康 1
若干模型的组合:若干个基于RGB图像、一个基于音频
提出一种创新的多视图卷积结构,沿着视频数据的三个正交视图进行2D卷积,带有权值共享,可以对视频片段的时空特征进行高效的编码
a novel multi-view convolutional architecture、three orthogonal views of volumetric、spatio-temporal feature

top-1  38.7%

top-5 66.9%

旷视 2
五个模型的组合:三个基于RGB图像、一个基于音频、一个基于光流信息
 
基于空间网络和3D卷积神经网络构建用以提取空间和时域信息。使用了多模态信息:RGB图像、光流和音频
spatial networks 、3D convolutional neural networks 
spatial and temporal features、multi-modality cues、optical flow 、audio information 
top1 38.1%
top5 65.3%
 
七牛云 3
多个模型的组合
基础网络为:非局部神经网络和时域分割网络。用了多模态信息:RGB图像、光流和声信号
non-local neural networks 、 temporal segment networks、Multi-modal
 
 
 

top1 35.81%

top5  62.59%

中大 -
多个模型的组合
整合了静态信息、短时信息,长时信息和声学信息
integrate static infor
mation, short-term temporal information, long-term tempo
ral information and acoustic information
top1 27.9%
top5 54%
 
 
 
  • 小结

  对比了full track排名前三及中山大学的技术报告,共同特点:

  1多种模型组合(ensemble)
  2运用多模态的信息包括RGB图像、光流和音频信号
  3使用卷积神经网络提取时空特征
 
  • 关于是否用到了RCNN系列
  海康并没有用到RCNN或LSTM,而是使用了时空CNN(spatiotemporal  卷积神经网络),把3D卷积分解为多视图卷积,即沿着视频数据的三个正交视图进行2D卷积
  旷视和中大有用到LSTM
  七牛云也没用RCNN
  • 参考文献
  [1] CVPR 2018视频行为识别挑战赛结果出炉:前三名均由国内团队包揽  https://mp.weixin.qq.com/s/9HO0-0z5oQFF6fUMR_0P4Q

  [2] 数据集官网 http://moments.csail.mit.edu/#
  [3] Moments in Time:IBM-MIT联合提出最新百万规模视频动作理解数据集 https://www.leiphone.com/news/201712/u3s9hDsH7Da0wKrc.html
  [4]【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为? https://zhuanlan.zhihu.com/p/29227174

 

转载于:https://www.cnblogs.com/connie-0223/p/connie_20160223.html

CVPR 2018视频行为识别挑战赛概览相关推荐

  1. 2018视频人物识别挑战赛冠军经验分享:在现有机器资源条件下更快速验证是关键...

    在2018年爱奇艺联合PRCV会议举办的第一届多模态视频人物识别挑战赛中,来自Infinivision的团队获得冠军.现在,该团队分享了他们在比赛中的经验心得,希望可以为对多模态领域研究感兴趣的朋友提 ...

  2. 爱奇艺多模态视频人物识别挑战赛项目总结

    文章目录 一:任务目标 二:主要思路 三:实验细节 3.1数据集介绍 3.2人脸提取与去噪 3.3网络结构 Deep Residual Learning for Image Recognition(C ...

  3. 爱奇艺路香菊:视频人物识别关键技术及其应用|爱奇艺技术沙龙回顾

    主讲人 | 路香菊 爱奇艺科学家 张康 编辑整理 量子位编辑 | 公众号 QbitAI 近日,爱奇艺技术沙龙"多模态视频人物识别的关键技术及应用"成功举办,爱奇艺科学家路香菊出席并 ...

  4. CVPR 2018 论文解读集锦(9月26日更新)

    本文为极市平台原创收集,转载请附原文链接: https://blog.csdn.net/Extremevision/article/details/82757920 CVPR 2018已经顺利闭幕,目 ...

  5. ChinaMM竞赛:VideoNet视频内容识别-总奖池10W人民币

    点击我爱计算机视觉标星,更快获取CVML新技术 比赛简介 视频中存在着大量的物体.场景等多维度内容信息,这些维度内容之间又存在着广泛的语义联系.近年来,随着深度学习技术的发展,涌现出大量针对物体.场景 ...

  6. ​人物识别挑战赛TOP6团队经验分享:合理选择策略并不断优化

    1.团队介绍 zheey团队的成员来自北京邮电大学,其中王文哲为队长,是计算机学院研究生一年级的学生,主要研究方向为多媒体内容理解与数据挖掘,其他成员均是准备进入实验室读研或正在实验室实习的计算机学院 ...

  7. 弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介

    弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介 细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同 ...

  8. 【基于深度学习的细粒度分类笔记2】弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介

    细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,一般它需要同时使用全局图像信息与局部特征信息精确识别图像子类别.细粒度分类是计算机 ...

  9. CVPR 2018 | 8篇论文、10+Demo、双项挑战赛冠军,旷视科技掀起CVPR产学研交流热潮

    第 31 届计算机视觉和模式识别大会 CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于 ...

最新文章

  1. mamp设置mysql密码_MAMP中设置Mysql root密码
  2. 【JUnit 报错】 method initializationerror not found:JUnit4单元测试报错问题
  3. 运行tensorflow代码出现dtypes.py:516: FutureWarning: Passing (type, 1) or '1type的解决方法(亲测)
  4. 肝!2500字 字符串专题总结
  5. Codeforces Round #741 (Div. 2) D2. Two Hundred Twenty One (hard version) 前缀和 + 分段模型
  6. 使用和了解Valgrind核心:高级主题
  7. 中国计算机应用大会2021,第二届机器学习与计算机应用国际学术会议(ICMLCA 2021)...
  8. mysqloffset什么意思_mysql查询时offset过大影响性能的原因和优化详解
  9. Spring学习篇:AOP知识整理
  10. 直播软件|IPTV直播软件|电视直播|TVPlayer-IPTV-EasyPlayer|友窝直播|超级直播软件定制开发
  11. 用Pandas进行数据清洗
  12. 马悦凌:从初级护士到“民间奇医”[7]
  13. unity测量模型尺寸
  14. 国内供应链金融模式梳理及思考
  15. html页脚固定,jQuery实现页脚永远固定在页面底部
  16. laravel-excel导出并写入图片
  17. 蓝桥杯之单片机设计与开发(18)——模数转换A/D与数模转换D/A
  18. CountDownLatch和WaitGroup
  19. Legolas工业自动化平台入门(二)数据响应动作
  20. Intellij IDEA——启动Tomcat控制台输出繁体乱码

热门文章

  1. java 相似度匹配算法
  2. PPT:立体仓库详解及出入库效率计算
  3. FPGA双口RAM使用
  4. QTabWidget自定义qss样式订制
  5. 公司(视频 社交)项目分享
  6. android studio gradle官网下载地址,Android Studio离线配置gradle(附gradle下载地址)
  7. 为什么Mysql底层采用B+树做索引?
  8. 光和储能结合模型(Matlab代码实现)
  9. 油气计量比较好的软件_您准备好使用计量互联网了吗?
  10. 动漫java从入门到入土_适合刚入宅的萌新悠哉观看的经典番,全员致郁,从入门到入土?...