阅读论文 Non-local Neural Networks（非局部神经网络）

论文下载

code下载

而非局部(non-local) 模块把非局部感受野的信息提取操作做成一个神经网络模块，方便了端到端的视频分析：

这个模块输入x可以理解为32帧的视频（32张图片帧数 T=32，长宽为H×W），输出z也是H×W大小的特征图。有没有注意到最左端的箭头是一个跳层连接？没错，non-local模块就是把视频额外的时空信息提取作为一个残差操作，这样整个模块可以任意插入到一个残差网络resnet中：

事实上，残差信息就是要学习一些额外的信息，下面画出红线的就是学习残差信息的部分：

之所以叫做non-local模块，是对比卷积操作的局部感受野而言的，其中xi，xj 可以理解为不同帧i和j 的两张图片：

我们要知道这段视频是一个“踢球”的Action，我们对每一帧分析时要知道两个点：

关键点1. 与这一帧的关联性比较高的其他帧是哪些？上式中关联度的标量计算由f 函数给出：

f 函数度量两和位置之间的相关度，用高斯函数或点乘等操作都可以达到计算的效果，文章也指出，用各种方式计算，其实差别并不大：

关键点2. 这些关联性比较高的帧，可能在做什么是什么Action？这就需要上式的g 函数计算得到在xj 处的图像特征。其实仔细一开始的模块图，就可以发现其实这里的函数 g，超参数θ和Φ 都是用1×1的卷积去计算的。注意到公式中j是对每个位置的xj都一一对比，所以该模块被称之为非局部（non-local）模块。文章中的实验是基于ResNet-50 的卷积2D网络（C2D），数据集采用谷歌deepmind的Kinetics人体行为视频数据集。网络架构如下：

输入视频为32×224×224（32帧，长宽为224×224）。其中大的方括号中是一个残差块（Residual blocks），“×3”代表3个残差块组成的res2阶段的组。文章中称一组残差块为一个阶段（stage），如上图res2阶段有3个残差块，到了res3有4个残差块，而到了较后层的res4阶段，有6个残差块（不要以为阶段stage是训练的不同阶段。它其实是在网络的不同深度而已）。文章也指出把non-local模块放在不同阶段的位置，网络性能也有差异，最好不要放在最后res5那一层之后，因为到了res5之后的特征图空间已经比较小，学习不到太多空间关系了：

另外之前有人在知乎上说较长的视频可能效果就不好，但是文章的实验结果似乎在128帧的视频上预测效果还是比较好的：

原文链接

阅读论文 Non-local Neural Networks（非局部神经网络）相关推荐

深度学习-Non-local Neural Networks非局部神经网络
Non-local Neural Networks非局部神经网络 0.概述 1.相关工作 1.1.Non-local image processing.(非局部影像处理) 1.2.Graphical ...
Non-local Neural Networks：非局部神经网络
论文地址:https://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018 ...
论文《Product-based Neural Networks for User Response Prediction》阅读
论文<Product-based Neural Networks for User Response Prediction>阅读论文概况 Introduction Deep Learni ...
CMU Facebook论文解读 | 非局部神经网络（附代码实现）
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
[论文翻译]-A Comprehensive Survey on Graph Neural Networks《图神经网络GNN综述》
文章目录摘要 1 简介 1.1 GNN简史 1.2 Related surveys on graph neural networks 1.3 Graph neural networks vs. ne ...
【精读AI论文】dropout----(Improving neural networks by preventing co-adaptation of feature detectors)
文章目录前言第一页: 第一段: 第二段: 第二页第一段第二段第三段第3-6页思考与总结 dropout丢弃的是权重还是输出? dropout的正确性以及随机丢弃对结果的影响? dropo ...
CVPR2020：基于自适应采样的非局部神经网络鲁棒点云处理（PointASNL）
CVPR2020:基于自适应采样的非局部神经网络鲁棒点云处理(PointASNL) PointASNL: Robust Point Clouds Processing Using Nonlocal N ...
Paper：RNN之《Generating Sequences With Recurrent Neural Networks用循环神经网络生成序列》的翻译和解读
Paper:<Generating Sequences With Recurrent Neural Networks>的翻译和解读目录 Generating Sequences With ...
论文阅读：Multi-view Convolutional Neural Networks for 3D Shape Recognition
Preface 今天阅读一篇ICCV2015的论文:<Multi-view Convolutional Neural Networks for 3D Shape Recognition>, ...

阅读论文 Non-local Neural Networks（非局部神经网络）

阅读论文 Non-local Neural Networks（非局部神经网络）相关推荐

最新文章

热门文章