Motivation

在视频的时空信息探索中,有使用3D卷积学习时空表征,也有使用2D+1D以及TCN,但是这些方法都需要大量的数据来获得一个满意的结果。
数据稀缺问题是新出现的行动类别的一个常见问题,这阻碍了神经网络学习辨别特征。同一类别中的动作具有多种背景,这需要足够数量的带注释的视频数据来训练深度神经网络。因此作者想采用密集连接和膨胀卷积来扩大感受野,提取时空特征。

方法


作者采用了图像识别任务中一个新颖的DenseNet,采用密集连接来充分利用整个视频的时空信息。将一个视频分为n个片段,使用TSN分别提取空间信息和时间信息,然后使用具有密集连接的块提取特征,最后得到每个片段的预测分数,融合分数得到视频的预测结果。

Dense Dilated Blocks

DenseNet的优点不仅是防止梯度分散,而且减少了参数个数。DenseNet的层往往很窄,比如每层12个过滤器,使得整个网络易于训练和收敛。此外密集的联系有正则化的效果,尤其是在数据量很小时,可以避免过拟合。作者提出的密集扩展框架,不仅可以提高视频动作识别,还可以实现小样本学习。

temporal dense convolution块有L层,每层由三个操作构成:batch normalization、膨胀率为sl=2ls_l=2^lsl​=2l的膨胀卷积和一个ReLU函数。和传统的卷积相比,膨胀卷积可以捕捉long-term依赖,可以给与具有可鉴别信息的片段更大的权重。卷积操作是在两个时间步上应用,t和t-s,因此滤波器也可以表示为W={W(1),W(2)}W=\{W^{(1)},W^{(2)}\}W={W(1),W(2)},那么膨胀卷积可以定义为:
xtl=f(W(1)xt−sl−1+W(2)xtl−1+b)x_t^l=f(W^{(1)}x_{t-s}^{l-1}+W^{(2)}x_t^{l-1}+b)xtl​=f(W(1)xt−sl−1​+W(2)xtl−1​+b) (1)
其中xtlx_t^lxtl​指的是在t时间步第l层的膨胀卷积结果,b是偏置向量。

dense connection

为了进一步提高,作者考虑在每个块内使用密集连接。将不同层学习的特征连接起来,可以为后续图层的输入提供更多变化。类内表示更容易学习,尤其是在训练数据有限的情况下。
每个TDC块i中的层具有相同的滤波器数量kik^iki,这可以被认为是DenseNet中的增长率。密集连接以通道方式结合所有层,定义每个块BiB^iBi在时间步t时刻的输出StiS_t^iSti​为:
Sti=[xtl,xtl−1,...,xt0]S_t^i=[x_t^l,x_t^{l-1},...,x_t^0]Sti​=[xtl​,xtl−1​,...,xt0​] (2)
StiS_t^iSti​将所有输入concat为一个张量。

Transition layer

在块之间加上过渡层,由一个batch normalization和一个1×1卷积组成,1×1卷积实现特征的下采样。

Growth rate

将k视为不同块的增长率,每层在第i块生成kik^iki特征向量,则不同块的滤波器可以写为:
ki=ki−1×(l−1)+k0k^i=k^{i-1}\times (l-1)+k^0ki=ki−1×(l−1)+k0 (3)
其中k0k^0k0表示输入层的通道数,l是每个块的层数。

Dense Dilated Aggregation

作者探索了不同的连接结构来构建密集的扩张网络,设置3个块作为所有聚合的基本结构。下图展示了3种聚合策略,包括添加所有的TDC块、连接块和提取不同块的特征。利用所有块的信息可以提供整个视频的更多知识,而来自更简单网络的块的输出可以给出不同尺度的信息。

Adding layers

首先,作者尝试将所有的输出加在一起,由于不同块的滤波器大小不同,首先使用一个1×1卷积将所有输入对齐,然后相加。
Zt=ReLU(V∑i=0B−1Sti+e)Z_t=ReLU(V\sum_{i=0}^{B-1}S_t^i+e)Zt​=ReLU(V∑i=0B−1​Sti​+e) (4)
其中V是权重矩阵,e为偏差,将该模块成为扩展膨胀卷积聚合DDA。

Concatenating layers

为了使感受野更宽,作者又探索连接不同层的输出,最后一层比其他连接方法具有更大范围的通道数。
Zt=ReLU([StB−1,stB−2,...,St0]+e)Z_t=ReLU([S_t^{B-1},s_t^{B-2},...,S_t^0]+e)Zt​=ReLU([StB−1​,stB−2​,...,St0​]+e) (5)
该模块成为DDC。

Output features of different blocks

作者提取不同块的输出来执行视频动作的识别。将输出视为片段级别的表征,这有助于对提出的体系结构有更多的了解。这也将在调整超参数时提供有用的信息。作者将每个块的输出特征成为DD1、DD2和DD3。

与提取特征相比,add和concat的方式可能是冗余的,这产生了不必要的信息,不仅使网络更加复杂,而且使其更难在小数据集上收敛。

分类

作者取最后一层softmax层之前的作为所有dense dilated网络的输出,输出特征为n×d,n为片段个数,d为特征维度。使用SVM预测每个片段的class label,最后使用多票数决定视频级的预测结果。

实验


结论

作者提出了一个扩展的基于密集连接的深度网络体系结构,通过在原型学习环境中构建问题来处理小样本动作识别。
1、提出了一个新的神经网络结构,其结合了扩展时间卷积和密集连接层来实现视频行为识别。
2、提出了dilated dense block,其可以从片段级和long-term context里捕获时空信息。

Dense Dilated Network for Few Shot Action Recognition相关推荐

  1. 视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

    Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016 http://www.robots.ox.a ...

  2. RA-GCN:Richly Activated Graph Convolutional Network for Robust Skeleton-based Action Recognition

    Richly Activated Graph Convolutional Network for Robust Skeleton-based Action Recognition TCSVT2020 ...

  3. 译:Convolutional Two-Stream Network Fusion for Video Action Recognition

              这是双流神经网络的改进版,接下来会出他的读书笔记. 摘要:近年来,卷积神经网络(卷积神经网络)对视频中人类行为识别的应用提出了不同的解决方案,用于整合外观和运动信息.为了更好地利用 ...

  4. [翻译]Convolutional Two-Stream Network Fusion for Video Action Recognition

    摘要 近年来,卷积神经网络(卷积神经网络)对视频中人类行为识别的应用提出了不同的解决方案,用于整合外观和运动信息.为了更好地利用时空信息,我们研究了许多在空间和时间上融合卷积塔的方法.我们得出以下结论 ...

  5. Convolutional Two-Stream Network Fusion for Video Action Recognition翻译

    本文转于:https://blog.csdn.net/weixin_42164269/article/details/80689653 若有侵权请联系删除 摘要 近年来,卷积神经网络(卷积神经网络)对 ...

  6. 论文翻译:Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition

    摘要:在三维人体动作识别中,如何有效地从骨骼序列中提取时空信息仍然是一个挑战.虽然最近的动作识别方法是基于递归神经网络的,表现出了突出的性能,但这些方法的缺点之一是倾向于过分强调时间信息.由于三维卷积 ...

  7. Action recognition进展介绍

    原文地址:http://blog.csdn.net/wzmsltw/article/details/70239000 随着深度学习技术的发展,以及计算能力的进步(GPU等),现在基于视频的研究领域越来 ...

  8. Action Recognition(行为识别)

    随着深度学习技术的发展,以及计算能力的进步(GPU等),现在基于视频的研究领域越来越受到重视.视频与图片最大的不同在于视频还包含了时序上的信息,此外需要的计算量通常也大很多.目前主要在做视频中动作定位 ...

  9. 论文笔记 Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition - CVPR

    Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 2020 CVPR | c ...

最新文章

  1. 在做性能测试之前需要知道什么
  2. Tableau系列之构建和浏览数据视图
  3. 前端要凉?微软开源Sketch2Code,草图秒变代码
  4. centos 7安装_VMware Workstation安装centos
  5. Fcrackzip——简介、安装、使用
  6. linux mariadb 升级,linux mariadb
  7. Qt工作笔记-使用QRegExp实现QString的split【读取文件时候,过滤各种字符】
  8. 《Python编程从入门到实践》记录之Python函数传递任意数量的实参
  9. android 样式预处理,基于Android平台的字符识别预处理算法设计与实现
  10. java调用闭包对象_任务不可序列化:java.io.NotSerializableException仅在类而不是对象上调用闭包外的函数时...
  11. 二阶系统根轨matlab,自控-二阶系统Matlab仿真.doc
  12. hadoop如何解除safemode-安全模式
  13. linux ssh权限设置,linux 让ssh只允许指定的用户登录的权限设置
  14. Python—基础篇(三)
  15. 轻松解决XMind文件配置错误(configuration area)
  16. 解决8080端口号被占用问题
  17. php 上标,html页面如何显示上标和下标
  18. python计算长方形的周长和面积_计算矩形的周长和面积
  19. Python网络爬虫与信息提取(14)—— 百度搜索关键字爬取并整理摘要、标题、关键字等
  20. 敏捷开发: 超级易用水桶估计系统

热门文章

  1. iOS通讯录复制的手机号码字符串多了奇怪的unicode码\u0000202d-\u0000202c
  2. 将爬取的实习僧网站数据传入HDFS
  3. ftp服务器搭建随手记
  4. MID-TERM EXAMINATION 1
  5. 生产管理系统定制开发的项目流程
  6. 工厂生产管理流程有哪些环节?
  7. 引流效果差?一文详解轻松获取优质流量的两大要点
  8. 联通沃云开启80端口
  9. summer框架API--summer.download
  10. mysql out of range,mysql保存数据提示:Out of range value for column错误