01      

导读

  • 广大人工智能算法工程师,有没有感觉到近几年AI程序员数量激增,公司新来的程序员也可以轻松实现图像分类、目标检测等基本深度学习任务,资深算法工程师岗位如何自保?

  • 广大内容平台的后台开发者,视频理解,视频标签与推荐、关键帧识别自动剪辑,这样的深度学习技术积累,你们准备好了么?

  • 普通用户们,有没有遇到过想从手机或者电脑视频库里面找之前一段视频(比如骑马、射箭、滑雪、游泳),但是无论如何也找不到的窘境。

如果有的话,那今天你赚到了!

言归正传,看看小编今天给大家带来的深度学习黑科技,直接上效果。

3000类短视频打标签,一行代码调用

精准定位角球、进球等精彩足球动作:

智能视频剪辑:《伤心镜头集锦:看谁最能打动人心》

注:值得一提的是,以上视频并不是人工剪辑的,完全是结合知识图谱做出的智能化视频生产。具体来说,首先运用知识图谱的能力,根据视频标题可以找到很多包含某些特殊动作类别的视频, 然后再运用Localization技术把每个视频中的这些片段剪辑出来,组合成一个新视频,最后用NLP技术生成视频标题分发出去。

这样的深度学习项目你一定觉得很有趣吧,是的,广大的开发者也是这么认为的。

开源之后star迅速增长,迅速拉升

项目主要干货包含:

  1. 丰富的模型种类:包括视频分类和动作定位两大技术方向模型,包括TSN,TSM,SlowFast,AttentionLstm,BMN等实用领先模型。其中,BMN模型是百度2019年ActivityNet(视频理解领域影响力最大赛事)夺冠方案。

  2. 开源3000类预训练模型VideoTag(离线可用):使用千万量级数据集训练的3000类视频标签预训练模型,可以快速预测部署。

  3. 开源足球动作检测算法FootballAction(离线可用):实现在一段未分割的视频中,定位出各种足球动作发生的起止时间以及该动作的具体类别 。

  4. 提出2D领域SOTA算法PPTSM:达到2D网络SOTA效果,Top1 Acc 73.5% 相较标准版TSM提升3%且模型参数量持平。

  5. 更快的训练速度:多种视频模型训练加速方案,其中SlowFast训练速度相较于原始实现提速100%,TSN训练速度相较于原始实现提速3.6倍。

  6. 完整部署全流程:搞过项目上线的工程师自然知道,完整的部署方案多重要。

如果心急的,可以直接传送门

  • 项目链接:https://github.com/PaddlePaddle/PaddleVideo

      02      

具体内容详解

(1)丰富的模型种类

PaddleVideo包含视频分类和动作定位方向的多个主流领先模型。其中TSN, TSM和SlowFast是End-to-End的视频分类模型,Attention LSTM是比较流行的视频特征序列模型,BMN是视频动作定位模型。TSN是基于2D-CNN的经典解决方案,TSM是基于时序移位的简单高效视频时空建模方法,SlowFast在ICCV2019上提出的3D高精度视频分类模型,特征序列模型Attention LSTM速度快精度高。BMN模型是百度开源2019年ActivityNet夺冠方案。

(2)开源3000分类预训练模型VideoTag

基于百度短视频业务千万级数据,支持3000个源于产业实践的实用标签,具有良好的泛化能力,非常适用于国内大规模(千万/亿/十亿级别)短视频分类场景的应用。

(3)开源足球动作检测方案FootballAction

FootballAction分为三个组成部分:特征抽取,时序提名生成,动作分类及后处理模块。

① 特征抽取:图像特征: TSN;音频特征: Vggish

② 时序提名生成: BMN

③ 动作分类 + 回归: AttentionLSTM

(4)提出SOTA算法PPTSM

与图像任务相比,视频任务的难点在于时序信息的提取。传统的2D网络难以捕获时序信息,通过增加时序通道,3D网络能更好的联合时序特征建模。但3D网络的计算量较大,部署成本较高。TSM模型通过时序位移模块,有效平衡了计算效率和模型的性能,是一种高效实用视频理解模型,在工业界广泛应用。

PaddleVideo基于飞桨框架2.0对TSM模型进行了改进,在不增加参数量和计算量的情况下,在多个数据集上精度显著超过TSM论文精度,比如UCF101、Kinetics-400数据集上分别提升5.5%、3.5%。

在仅用ImageNet pretrain情况下,PPTSM在UCF101和Kinetics400数据集top1分别达到89.5%和73.5%,PPTSM在Kinetics400上top1精度为73.5%,是至今为止开源的2D视频模型中在相同条件下的最高性能。

(5)实现更快的训练速度

视频任务相比于图像任务的训练往往更加耗时,其原因主要有两点: 一是模型上,视频任务使用的模型通常有更大的参数量与计算量;一是数据上,视频文件解码通常极为耗时。为优化视频模型训练速度,项目中分别从模型角度和数据预处理角度,实现了多种视频训练加速方案。

针对TSM模型,通过op融合的方式实现了temporal shift op,在节省显存的同时加速训练过程。

针对TSN模型,实现了基于DALI的纯GPU解码方案,训练速度较标准实现加速3.6倍。

针对SlowFast模型,结合Decode解码库和DataLoader多子进程异步加速,训练速度较原始实现提升100%,使用Multigrid策略训练总耗时可以进一步减少。

预先解码存成图像的方案也能显著加速训练过程,TSM/ppTSM在训练全量Kinetics-400数据集80个epoch只需要2天;均大幅优于主流实现。

(6)打通完整部署全流程

PaddleVideo提供了便捷的命令行预测,只需要快速安装ppvideo:

pip install ppvideo

然后python命令行执行 ppvideo --model_name=”ppTSM” --video_file=指定视频文件

一行代码即可完成预测推理。在推理速度上,PPTSM也达到了惊人的147VPS

      03      

良心出品的文档

别的不需要多说了,大家上github上点过star之后自己体验吧,

  • 项目链接:https://github.com/PaddlePaddle/PaddleVideo

另外呢,repo中也贴心的给出了官方微信群,有问题可以进群,答疑更高效。

如扫码入群失败,请添加微信17867434144,回复暗号“视频”,运营小姐姐会邀请您入群。

更多相关内容,请参阅以下内容。

  • 官网地址:https://www.paddlepaddle.org.cn

  • GitHub:https://github.com/PaddlePaddle/PaddleVideo

  • Gitee:https://gitee.com/paddlepaddle/PaddleVideo

超强Video深度学习开源工具集,来了!相关推荐

  1. 开源公告|分布式深度学习训练工具PatrickStar正式开源

    PatrickStar是一款分布式深度学习训练工具,它的设计目标是支持以GPT.Bert为代表的超大预训练模型训练.在性能表现上远超目前业界DeepSpeed效果.它可以显著降低PTM的使用成本,使我 ...

  2. 推荐44个最具潜力的顶极深度学习开源框架和平台!!!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来源:AI开发者@微信公众号 工欲善其事必先利其器,这也是大部分开发者在日常工作中 ...

  3. 深度学习-14:知名的深度学习开源架构和项目

    深度学习-14:知名的深度学习开源架构和项目 深度学习原理与实践(开源图书)-总目录 人工智能artificial intelligence,AI是科技研究中最热门的方向之一.像IBM.谷歌.微软.F ...

  4. 深度学习开源库tiny-dnn的使用(MNIST)

    tiny-dnn是一个基于DNN的深度学习开源库,它的License是BSD 3-Clause.之前名字是tiny-cnn是基于CNN的,tiny-dnn与tiny-cnn相关又增加了些新层.此开源库 ...

  5. 飞桨深度学习开源框架2.0抢先看:成熟完备的动态图开发模式

    百度飞桨于近期宣布,深度学习开源框架2.0抢先版本正式发布,进入2.0时代.其中一项重大升级,就是推出更加成熟完备的命令式编程模式,即通常说的动态图模式.同时在该版本中将默认的开发模式定为动态图模式, ...

  6. 基于TensorFlow 2.0的中文深度学习开源书来了!GitHub趋势日榜第一,斩获2K+星

    十三 发自 凹非寺  量子位 报道 | 公众号 QbitAI TensorFlow 2.0 发布已有一个半月之久,你会用了吗? 近日,一个叫做深度学习开源书的项目在火了.GitHub趋势日榜排名全球第 ...

  7. 【杂谈】超过12个,150页深度学习开源框架指导手册与GitHub项目,初学CV你值得拥有...

    之前我们公众号输出了很多深度学习开源框架相关的内容,今天整理成技术手册给大家分享以方便阅读,下面是详细信息. 开源框架背景 现如今开源生态非常完善,深度学习相关的开源框架众多,光是为人熟知的就有caf ...

  8. 【杂谈】面向新手的深度学习开源框架指导手册与GitHub项目,欢迎加入我们的开源团队...

    之前我们公众号输出了很多深度学习开源框架相关的内容,现在整理成技术手册给大家分享以方便阅读,下面是详细信息. 开源框架背景 现如今开源生态非常完善,深度学习相关的开源框架众多,光是为人熟知的就有caf ...

  9. 【通知】有三AI发布150页深度学习开源框架指导手册与GitHub项目,欢迎加入我们的开源团队...

    之前我们公众号输出了很多深度学习开源框架相关的内容,今天整理成技术手册给大家分享以方便阅读,下面是详细信息. 开源框架背景 现如今开源生态非常完善,深度学习相关的开源框架众多,光是为人熟知的就有caf ...

最新文章

  1. Android中如何使用命令行查看内嵌数据库SQLite3
  2. 解决ajax获取不到按钮的id
  3. POPUP_TO_CONFIRM
  4. SpringData ES中字段名和索引中的列名字不一致导致的无法查询数据的解决方法
  5. 多个video标签,控制最多只能一个同时播放
  6. 工程师实战:单片机裸机程序框架是怎样炼成的?
  7. SQL Assistant v2.5.12 序列号
  8. Qt工作笔记-MySQL获取select表头(域)数据
  9. 日本区块链项目Jasmy与索尼VAIO联合发售笔记本电脑
  10. rhel 6.4 增加光盘为yum repo
  11. 屋子里有1到100号100盏关闭的灯
  12. 拓端tecdat|回归树模型分析纪录片播放量影响因素|数据分享
  13. fragstats4.2使用
  14. 基于python3,抓取韩寒博客文章
  15. dtcms 数据库结构分析
  16. 朱晔的互联网架构实践心得S2E3:品味Kubernetes的设计理念
  17. 2017计算机知识竞赛题,2017年《西游记》知识竞赛试题100题附答案.doc
  18. 小动物立体定位架的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  19. opencv实战案例之照片背景替换
  20. handsontable的核心方法

热门文章

  1. 基于三维GIS的集中供热平台的三维数字化
  2. American ,they say....
  3. 开发者职业生涯调查之未来:30岁以后我们做什么?
  4. 为投入更多资源开发星际飞船 SpaceX停产载人龙飞船
  5. RT-Thread GD32F4xx 看门狗驱动
  6. 解决LoadImage函数返回值为空的问题
  7. Python读取Excel展现在网页上
  8. Python 與數據資料分析2-Matplotlib.pyplot入門
  9. 响应号召!中国北斗+国产GIS 打好基础软件国产化攻坚战
  10. 全新起航:Tizen能否四分移动操作系统的天下