点击我爱计算机视觉标星,更快获取CVML新技术


本文转载自机器之心。

在近些年的视频理解研究中,Facebook AI Research 贡献了许多精彩的工作。近日,FAIR视频团队在 ICCV 相关研讨会上开源了视频识别检测代码库 PySlowFast,并同时发布了预训练的模型库。同时,该团队表示,他们还将实时将他们的前沿工作添加至此代码库。

项目地址:

https://github.com/facebookresearch/SlowFast

Tutorial 地址(附 PPT 资源):

https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19/

视频与动作理解俨然已成为当今最火热的研究方向之一,然而在开源社区中找到一个简洁、高效、易于修改的视频理解代码库仍不是一件简单的事情。更重要的是,复现当今前沿的 (state-of-the-art) 的深度学习模型一直是一件令研究者头疼的事情。

这些视频理解模型往往动辄几十 GFlops,需要训练数天,而复现出一个模型需要反复的实验调参,让每个细节都正确。这往往会耗费大量的时间和资源,让很多研究者望而却步。

Facebook AI Research 在 CVPR、ICCV 等国际会议发布了众多研究工作,并赢得了 CVPR 2019 行为检测挑战赛的冠军。而后,在今年的 ICCV 上,FAIR 推出了他们的视频理解代码库:PySlowFast。

PySlowfast 是一个基于 PyTorch 的代码库,让研究者可以轻而易举地复现从基础至前沿的视频识别 (Video Classification) 和行为检测 (Action Detection) 算法。

不但如此,PySlowFast 代码库同时开源了大量预训练模型 (pretrain models),让研究者省去了反复训练模型的烦恼,可以直接使用 FAIR 预训练的前沿 (cutting edge performance) 模型。

pySlowFast开源的模型的可视化检测结果

自开源后,PySlowFast 就一度蝉联 GitHub 趋势榜前十。以下对此开源项目进行了简要介绍。

根据研讨会教程和开源代码库信息,PySlowFast 既提供视频理解基线(baseline)模型,还提供了当今前沿的视频理解算法复现。其算法不单单囊括视频视频(video classification),同时也包括行为检测(Action Classification)算法。

与当今开源社区中各种视频识别库复现出参差不齐的性能相比,使用 PySlowFast 可轻而易举地复现出当今前沿的模型。

视频识别(Kinetics)

表 1:PySlowFast 在视频分类数据库 Kinetics 400 上的性能

节选自

https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md

PySlowFast 不单单可以用于视频分类,同时也可用于视频理解,并提供赢得了 2019 年 CVPR ActivityNet Challenge Winner 的视频检测模型。

行为检测(AVA)

此外,PySlowFast 预留了接口,可通过简单的编辑支持多模态视频理解、视频自监督学习等等任务。该团队称,PySlowFast 将被积极维护,实时更新其团队和业界的前沿算法,同开源其预训练模型,使代码库成为视频理解领域的基线标杆。

通过以下教程,读者们可以简单试用下 PySlowFast 代码库。在完成安装后,通过下载 MODEL_ZOO 提供的预训练模型和相应的配置文件,运行如下代码,就可以测试(Test)模型在不同视频数据库上的性能:

python tools/run_net.py \--cfg configs/Kinetics/C2D_8x8_R50.yaml \DATA.PATH_TO_DATA_DIR path_to_your_dataset \NUM_GPUS 2 \

我们可以发现,通过此代码库可以轻易复现出前沿的高性能模型,同时读者们也可以尝试通过简单的修改来实现自己的模型,并用多台 GPU 进行训练得到前沿的性能。


视频理解交流群

关注最新最前沿的视频理解技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:视频理解)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型相关推荐

  1. Facebook开源算法代码库,轻松复现前沿视频理解模型

    在近些年的视频理解研究中,Facebook AI Research 贡献了许多精彩的工作.近日,FAIR视频团队在 ICCV 相关研讨会上开源了视频识别检测代码库 PySlowFast,并同时发布了预 ...

  2. 【PySlowFast】Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 在近些年的视频理解研究中,Facebook AI Research 贡献了许多精彩 ...

  3. 谷歌大脑开源Trax代码库,你的深度学习进阶路径

    2020-02-27 14:37:02 机器之心报道 参与:思 感觉深度学习建模只不过调库与堆叠层级?你需要谷歌大脑维护的这条路径 Trax,从头实现深度学习模型. 从最开始介绍卷积.循环神经网络原理 ...

  4. 阿里巴巴研究院开源的代码库有哪些

    阿里巴巴研究院开源的代码库有以下几个: X-DeepLearning:阿里巴巴自研的深度学习框架,支持分布式训练和推理,具有高效.易用等特点.该框架已经在阿里巴巴内部广泛应用. EasyTransfe ...

  5. AWS AI 全面助力视频理解,GluonCV 0.6 轻松复现前沿模型

    点击我爱计算机视觉标星,更快获取CVML新技术 视频理解是近几年非常流行的研究方向,因为视频是最接近于人眼的真实输入,分析时间序列上的图像变化有助于我们开发更强的计算机视觉.而在视频理解领域,最具代表 ...

  6. 清华BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo,含94亿超大参数量!代码即将开源!...

    关注公众号,发现CV技术之美 我爱计算机视觉 专业计算机视觉技术分享平台,"有价值有深度",分享开源技术与最新论文解读,传播视觉技术的业内最佳实践.知乎/微博:我爱计算机视觉,官网 ...

  7. 数据结构和算法:全面的算法代码库

    原文链接:https://github.com/Dev-XYS/Algorithms Algorithms 本次README修订为算法仓库Algorithms的第100次commit,首先我们庆祝自2 ...

  8. 让AI精准识别盗版,脸书开源数据增强库:支持图文音视频,提供100多种增强方式...

    月石一 发自 凹非寺 量子位 报道 | 公众号 QbitAI 只要稍微动点手脚,就会给AI模型的鲁棒性带来挑战. 在AI眼里,下面这两张图片可能毫无关联. 现在,Facebook AI开源了用于数据增 ...

  9. 【AI易操作-深度学习算法代码解读】基于keras实现图像识别CNN模型-含CNN卷积神经网络模型原理

    图像识别为什么要用卷积神经网络CNN?比传统神经网络好在哪里? 核心差别点:多了卷积层+池化层,所以本文主要是梳理卷积层和池化层设计原理+CNN模型实现(基于Keras代码) 传统神经网络的劣势 我们 ...

最新文章

  1. LeetCode Single Number
  2. python怎么显示结果_python中plot实现即时数据动态显示方法
  3. mysql的基本的查询语句_Mysql的基本查询语句
  4. JVM学习笔记之-方法区,栈、堆、方法区的交互关系,方法区的理解,设置方法区大小与OOM,方法区的内部结构,方法区使用举例
  5. CF708E-Student‘s Camp【数学期望,dp】
  6. python算24点穷举法_关于24点去重的算法?
  7. Cortex-M3栈内存操作
  8. 【Web页面测试】测试点和测试用例
  9. python-获取当前文件名
  10. 读过的书,记录一下,不要忘记提高自己
  11. php throw,PHP的Try, throw 和 catch简单用法
  12. 不怕汗水与晃动的运动耳机推荐,六款专业的运动耳机
  13. JAVA学习homework的Car、Bus、motoVehicle
  14. Arduino Leonardo教程:如何回车,特殊按键定义,DIY超便宜的键盘主控
  15. Join condition is missing or trivial.Use the CROSS JOIN syntax to allow cartesian products between t
  16. Android 10 11 删除本地照片方法
  17. json php 传输,使用JSON实现数据的跨域传输的php代码
  18. SQL Inject
  19. 转义符——反斜杠(\)
  20. 史上最详细的MongoDB操作命令大全

热门文章

  1. 利用建站快速软件包:XAMPP,构建基于winodws平台快速搭建PHP的数据库应用- kimai - 团队时间记录
  2. 挑选出tensor中等于0的索引_Pytorch中的5个非常有用的张量操作
  3. Android 自动动画布局更新 使用,在RecyclerView上使用布局动画(Layout animation)
  4. python获取绝对路径的区别_python 获取路径不同方法的比较
  5. 阿尔伯塔大学计算机科学本科几年,本科——21阿尔伯塔大学CS专业早录取
  6. mysql.host_mysql启动提示mysql.host 不存在,启动失败的解决方法
  7. 全连接神经网络_【模型解读】从“局部连接”回到“全连接”的Non-Local神经网络...
  8. 谷歌浏览器登录不了账号_谷歌浏览器使用分享(可谷歌账号登录)之谷歌账号登录...
  9. 微型计算机中 i o接口位于6,北语15秋计算机基础作业1
  10. vue 使用了浏览器的刷新之后报错_vue调试工具vue-devtools的安装