一.提出背景

在基于CNN的方法提升到一个很高的准确度之后,效率又成为人们所关注的话题,目前兼备准确度和效率的方法包括 SSD、YOLO v2,其检测效率通常能到达 30-100FPS,而这里面的代价就是上万块的显卡,这个代价是相当高的。当下视频获取设备(CCTV摄像头)成本通常是几百块,而采用上述分类算法,其成本可能是几千,这就是视频获取和视频分析之间的巨大鸿沟。

基于此,斯坦福大学提出了一种系统 NoScope,将视频分析的速度提升上千倍,我们接下来就看看这个牛逼吹的很大的系统到底是什么?

论文:NoScope: Optimizing Neural Network Queries over Video at Scale 【点击下载】

TensorFlow代码:【Github】

核心思想:由于视频目标是连续的,里面包含了大量时间局部性(temporal locality,即在不同的时间是相似的)和空间局部性(spatial locality,即在不同场景中看起来是相似的)。通过以下两点来进行优化:

1)通过跳帧减少目标检测的实际执行开销,跳帧方法包括按照时间、按照相邻帧之间的相似性;

2)针对不同场景(对应不同视角和特定目标),通过训练轻量级CNN来加速单帧检测开销;

在揭开神秘面纱之后,是不是发现被忽悠了?和我一起喊出来吧:有必要吹的这么凶么?

二.算法框架

算法实际上是分成三个部分:

1)Model Specialization

针对特定场景训练的轻量级CNN模型,层数和Channel都降到最低。

2)Difference Detection

差异性检测,用于跳过与前面帧变化不大的帧,速度更快。

3)Cost-based Model Search

基于代价的模型选择,确定合适的模型进行检测。

来看系统架构图:

2.1 训练特定模型

针对不同场景,首先采用参考的CNN模型进行检测,参见上图中的 Reference NN,这种通用检测器的检测准确度很高,需要借助其一段时间内检测到的目标标签来进行 Specialized Model 的训练(上图中绿色的4层网络)。

这里基于这样一个假设,在特点场景下,目标种类有限(比如行人、公交、汽车),视角固定对应特征相对简单,因此轻量级的网络在这种情况下是有效的。

2.2 差异检测器

差异检测比较简单,有很多方法,基于像素的差分、GMM,即计算和已知场景的差异。

这里要注意一个问题,论文里提到的是一个二分类问题,比如场景有没有公交车,因此只要差异不太大,都可以直接跳过。

2.3 基于代价的模型搜索

文中提出了一个优化器,用来平衡准确度和效率,通过调整置信度阈值来实现。

当特定检测器检测的置信度比较高,直接输出,置信度比较低时,退回到原始的CNN网络进行检测,这一步将带来较大的计算量。

三.实验结果

吹过之后,拿实验填坑,和 Generic CNN 相比,果然提升巨大,不过比的方式有点讽刺,你跳帧了和别人全帧检测来比,我也是醉了,啥也不说了,洗洗睡吧!

NoScope:极速视频目标检测相关推荐

  1. ILSVRC2016目标检测任务回顾——视频目标检测(VID)

    姊妹篇:ILSVRC2016目标检测任务回顾(上)--图像目标检测 -----------------------补充:近几年的几篇参考文献2018.5.30--------------------- ...

  2. Google又放大招:高效实时实现视频目标检测 | 技术头条

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」,购票请扫码咨询 ↑↑↑ 作者 | 陈泰红,算法工程师,研究方向为机器学习.图像处理 来源 | 极市平台(ID:extrememart) ...

  3. 用C++ 和OpenCV 实现视频目标检测(YOLOv4模型)

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 据说,现在很多小区都上线了AI抓拍高空抛物的黑科技,可以自动分析抛物 ...

  4. 融合视频目标检测与单目标、多目标跟踪,港中文开源一体化视频感知平台 MMTracking...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 编辑丨机器之心 魔王 香港中文大学多媒体实验室(MMLab)OpenMMLab 开源一体化视频目标感知 ...

  5. 视频目标检测跟踪--Detect to Track and Track to Detect

    Detect to Track and Track to Detect ICCV2017 https://github.com/feichtenhofer/detect-track ​​​​ 本文针对 ...

  6. 【北大微软】用于视频目标检测的记忆增强的全局-局部聚合

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 北大&MSRA,入选 CVPR 2020,ImageNet VID SOT ...

  7. DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对《我要打篮球》视频段进行实时目标检测

    DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<我要打篮球>视频段进行实时目标检测 目录 输出结果 设计思路 核心代码 相关文章 成功解决AttributeError ...

  8. DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对《俄罗斯总统普京对沙特王储摊的“友好摊手”瞬间—东道主俄罗斯5-0完胜沙特》视频段实时检测

    DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<俄罗斯总统普京对沙特王储摊的"友好摊手"瞬间-东道主俄罗斯5-0完胜沙特>视频段实时检测 导读   ...

  9. 3d max用不同目标做关键帧_基于光流的视频目标检测系列文章解读

    作者:平凡的外卖小哥 全文5747字,预计阅读时间15分钟 1 简介 目前针对于图片的目标检测的方法大致分为两类: faster R-CNN/R-FCN一类: 此类方法在进行bbox回归和分类之前,必 ...

最新文章

  1. initMNN: init numpy failed mnn笔记
  2. 修改VS2017新建类模板文件添加注释
  3. 最小公倍数 最大公约数
  4. 人和计算机在时间管理方面的相似性
  5. 使用VS2003创建WEB程序的时候出现AutoMation服务器不能创建对象错误
  6. 新年图书整理和相关的产品
  7. 07-对图像进行膨胀操作
  8. 通过js动态设置select中option选中
  9. GradView使用举例
  10. 问题四:C++中inline是干嘛用的
  11. Windows下mysql的基础操作
  12. mac端锐捷无法验证服务器,还在为mac无法用锐捷认证校园网登陆而郁闷吗?
  13. miR数据分析处理流程
  14. 基于JAVA-超市会员积分管理系统-计算机毕业设计源码+系统+lw文档+部署
  15. Python京东抢购
  16. Hydra 6.4.xx,Hydra程序框架
  17. Mac电脑-mysql密码忘了怎么处理
  18. 如何计算对数收益率和净值化转换
  19. MySQL数据库入门(三)--- 查询、权限、join语法、外键、备份
  20. 手机APP(功能)测试重点

热门文章

  1. 阿里和微博的异地多活方案
  2. linux igb网卡,网卡驱动程序igb ixgbe
  3. win7系统下安装LINUX系统教程
  4. AXI协议详解(1)-协议简介
  5. 云南计算机网络技术排名,2017年云南大学排名
  6. pthread_cond_init 初始化条件变量使用
  7. ArduCopter——ArduPilot——航点导航WPNav(一)
  8. 关于enq: TX - allocate ITL entry的问题分析
  9. 玩客云安装linux系统的好处,玩客云armbian安装aria2+ariaNG过程记录
  10. Cain 不能显示外接网卡问题解决