1.5 基于深度学习的视频识别方法

下面介绍面向视频分类的深度学习方 法。深度卷积神经网络在图像分类取得 成功后,研究人员就希望把它推广到视 频分类中。但这不是一件很容易的事, 一个原因是缺乏足够的训练数据。为此, 谷歌和斯坦福的研究人员开发了 Sports-1 M 数据库,包含 100 万段视频,有 487 类各种各样的运动,这是一个相当大的 数据库。同时他们改进了传统卷积神经 网络,用于处理视频序列,提出在不同 阶段进行特征的融合,这里图中给出了 Late Fusion、Early Fusion、Slow Fusion 三种策略,其中 Slow Fusion 效果最好。

接着他们利用 Sports-1 M 这个数据库来训练自己开发的网络。一个值得关心 的问题是深度学习获得了什么样的特征, 下图给出学习到的三维,大家可以看到, 一闪一闪的,有一些彩色的动态边缘。但 这个方法在传统 UCF 数据库测试结果并 不高,低于传统非深度学习的方法。因此, 研究人员就在想有没有更好的方法。

下面讲两个非常有效的视频深度学习 模型。第一个工作是 C3D 模型 , 该模型把 VGG 网络的滤波器从二维推广到三维, 增加的一维对应于时间。我们知道 VGG 网络中有大量 3×3 的滤波器,C3D 模 型 把 3×3 的滤波推广到 3×3×3。这个网络在 实际视频分类中取得了很好的效果。

另一个工作,牛津大学的双流网络 Two Stream。该方法把光流也看成图像, 然后利用一个流 CNN 来处理光流图像; 另外一个流处理 RGB 图像。这个方法充 分利用了 CNN 对 2 维信号的强大处理能 力,在 UCF 数据库上取得了 88% 的识别 率,相当不错。

我们知道在传统非深度学习方法中, 运动轨迹特征取得了很好的效果,这启 发我们能够把运动轨迹也考虑到深度建 模中来,或者说把原来运动轨迹特征和 深度神经网络做结合,发挥二者的强项。 运动轨迹可以对运动物体进行跟踪,并强 调运动显著性区域。卷积神经网络强在 它能够提取通过多层处理语义非常强的 特征,这些特征要比我们传统的 HoG、 HoF 能力强。这就提示我们可以沿着运 动轨迹提取卷积特征。

具体怎么做结合?如图所示,左边参 照传统方法提取光流和运动轨迹,右边 利用卷积神经网络抽取视频的深度特征。 抽完特征后沿着这个运动轨迹把这些卷 积特征进行区域分割、编码和池化。当 然,这里还有一个问题就是如何训练神 经网络,我们采取类似双流网络的方法, 但细节上讲又对其做了改进。

在实际试验中,我们发现卷积特征是 非常稀疏的,而且和运动区域是显著相关 的;我们还发现编码时引入一些正则化策 略和使用不同层的多尺度特征,对提升识 别率有帮助。这个方法在 UCF 数据库上 取得了 91.5% 的识别率,在当时是最高的。 我们这个工作发表在 CVPR 2015。

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法...相关推荐

  1. 中国人工智能学会通讯——电子商务中的个性化推荐技术剖析 1. 基于人生阶段建模的商品推荐...

    1. 基于人生阶段建模的商品推荐 经典的基于协同过滤的推荐,通常结合用户近期行为,给用户推送已知范围内的商品.随着用户对推荐系统和产品期望的提高,也需要向其呈现部分他们需要,但自己尚不清楚的领域的产品 ...

  2. 中国人工智能学会通讯——基于视频的行为识别技术 1.7 视频的深度分段网络...

    1.7 视频的深度分段网络 下面介绍另外一个工作,是我们和 CUHK.ETH 联合开展的,这个工作考 虑视频的分段特性,我们知道视频可以分 成很多段,每一段有不同的内容.我们 开发了一个深度模型,对不 ...

  3. 《中国人工智能学会通讯》——第3章 3.1基于深度学习的网络表示研究进展

    第3章 3.1基于深度学习的网络表示研究进展 网络结构在现实世界中无处不在(如航线网络.通信网络.论文引用网络.世界万维网和社交网络等),在此基础之上的应用和研究问题受到了学术界和工业界的广泛关注,这 ...

  4. 中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )...

    到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它 ...

  5. 中国人工智能学会通讯——智能系统测评:挑战和机遇

    上面的四个报告从四个维度讨论了智能系统测评的不同方面--产业.基础.基础和伦理.我受中国人工智能学会的委托,组织这次分论坛,为此对这个领域做了一些调研和思考,从现状和挑战这两个方面做了一些初步总结. ...

  6. 中国人工智能学会通讯——深蓝、沃森与AlphaGo

    在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深 ...

  7. 中国人工智能学会通讯——人工智能的发展未来与创业

    人工智能的前世今生 人工智能这一话题,最早可以回溯到1946 年世界上第一台电子计算机 ENIAC 的诞生.ENIAC 产生以后,很多计算机科学家对于计算机将来能够代替人类做什么事情有很多联想,其中最 ...

  8. 基于Python的(拍照签到+网课在线检测)深度学习的人脸识别系统

    摘 要 近年来,网络技术日新月异,我们已经进入了大数据的时代并成为其中第一员,由此带来数据量的飞跃式的增长,而如何利用这些数据产生实际的生产价值则成为了大数据时代的一个重要问题.而人脸识别技术是一份对 ...

  9. 中国人工智能学会通讯——基于视频的行为识别技术 1.1 什么是行为

    今天跟大家分享的主题是基于视频的 行为识别领域研究,主要介绍一下早期 的非深度学习传统方法和近期深度学习 方法取得的结果.深度学习方法带来了 非常大的变革,提升了识别系统的性能, 但这并不意味着我们把 ...

最新文章

  1. Python+Selenium练习篇之11-浏览器上前进和后退操作
  2. UITableVIew的性能优化-重用原理
  3. 一个小而美的博客——前端——index
  4. python中grid函数_Python-Numpy模块Meshgrid函数
  5. 【图论】旅行者(P5304)
  6. 南航计算机学院岳涛,自动化学院 - 南京航空航天大学
  7. 力扣225-用队列实现栈(C++,附思路及优化思路,代码)
  8. ffmpeg 0.8.7在windows环境mingw环境的编译
  9. java.util.ConcurrentModificationException 异常问题详解
  10. 【amp;#9733;】Web精彩实战之amp;lt;智能迷宫amp;gt;
  11. 海康网络摄像头web端展示
  12. 航空订票系统java_航空订票系统(JAVA+SSH+MYSQL)
  13. 图像效果的一些专业测试工具和指标:
  14. 手机号身份证号码验证正则表达式包含台湾香港澳门
  15. 微信服务号添加小程序
  16. BZOJ2794/POI2012 Cloakroom
  17. 马步站桩22个要领的几个关键问题解释
  18. 理查德·费曼:发现的乐趣
  19. CODESOFT6 二维码中追加回车
  20. 【Java】使用lambda表达式获取list中所有对象的某个属性以及获取特定属性的某一个对象

热门文章

  1. hadoop: hbase1.0.1.1 伪分布安装
  2. 利用泛型写一个简单的链表
  3. 以色列网络武器出口对象国从102个锐减至37个
  4. spring boot框架学习2-spring boot核心(1)
  5. (三)slatstack配置管理
  6. spring MVC中获取request和response
  7. 实战百度竞价恶意点击心得
  8. 【JS教程】100+常用JS函数(方法)
  9. ASP.NET 数据访问类
  10. L1-058 6翻了 (15 分)-PAT 团体程序设计天梯赛 GPLT