论文下载

code下载

非局部(non-local) 模块把非局部感受野的信息提取操作做成一个神经网络模块,方便了端到端的视频分析:

这个模块输入x可以理解为32帧的视频(32张图片帧数 T=32,长宽为H×W),输出z也是H×W大小的特征图。有没有注意到最左端的箭头是一个跳层连接?没错,non-local模块就是把视频额外的时空信息提取作为一个残差操作,这样整个模块可以任意插入到一个残差网络resnet中:

事实上,残差信息就是要学习一些额外的信息,下面画出红线的就是学习残差信息的部分:

之所以叫做non-local模块,是对比卷积操作的局部感受野而言的,其中xi,xj 可以理解为不同帧i和j 的两张图片:

我们要知道这段视频是一个“踢球”的Action,我们对每一帧分析时要知道两个点:

关键点1. 与这一帧的关联性比较高的其他帧是哪些?上式中关联度的标量计算由f 函数给出:

f 函数度量两和位置之间的相关度,用高斯函数或点乘等操作都可以达到计算的效果,文章也指出,用各种方式计算,其实差别并不大:

关键点2. 这些关联性比较高的帧,可能在做什么是什么Action?这就需要上式的g 函数计算得到在xj 处的图像特征。其实仔细一开始的模块图,就可以发现其实这里的函数 g,超参数θ和Φ 都是用1×1的卷积去计算的。                                                           注意到公式中j是对每个位置的xj都一一对比,所以该模块被称之为非局部(non-local)模块。     文章中的实验是基于ResNet-50 的卷积2D网络(C2D),数据集采用谷歌deepmind的Kinetics人体行为视频数据集。网络架构如下:

输入视频为32×224×224(32帧,长宽为224×224)。其中大的方括号中是一个残差块(Residual blocks),“×3”代表3个残差块组成的res2阶段的组。文章中称一组残差块为一个阶段(stage),如上图res2阶段有3个残差块,到了res3有4个残差块,而到了较后层的res4阶段,有6个残差块(不要以为阶段stage是训练的不同阶段。它其实是在网络的不同深度而已)。文章也指出把non-local模块放在不同阶段的位置,网络性能也有差异,最好不要放在最后res5那一层之后,因为到了res5之后的特征图空间已经比较小,学习不到太多空间关系了:

另外之前有人在知乎上说较长的视频可能效果就不好,但是文章的实验结果似乎在128帧的视频上预测效果还是比较好的:

原文链接

阅读论文 Non-local Neural Networks(非局部神经网络)相关推荐

  1. 深度学习-Non-local Neural Networks非局部神经网络

    Non-local Neural Networks非局部神经网络 0.概述 1.相关工作 1.1.Non-local image processing.(非局部影像处理) 1.2.Graphical ...

  2. Non-local Neural Networks:非局部神经网络

    论文地址:https://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018 ...

  3. 论文《Product-based Neural Networks for User Response Prediction》阅读

    论文<Product-based Neural Networks for User Response Prediction>阅读 论文概况 Introduction Deep Learni ...

  4. CMU Facebook论文解读 | 非局部神经网络(附代码实现)

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  5. [论文翻译]-A Comprehensive Survey on Graph Neural Networks《图神经网络GNN综述》

    文章目录 摘要 1 简介 1.1 GNN简史 1.2 Related surveys on graph neural networks 1.3 Graph neural networks vs. ne ...

  6. 【精读AI论文】dropout----(Improving neural networks by preventing co-adaptation of feature detectors)

    文章目录 前言 第一页: 第一段: 第二段: 第二页 第一段 第二段 第三段 第3-6页 思考与总结 dropout丢弃的是权重还是输出? dropout的正确性以及随机丢弃对结果的影响? dropo ...

  7. CVPR2020:基于自适应采样的非局部神经网络鲁棒点云处理(PointASNL)

    CVPR2020:基于自适应采样的非局部神经网络鲁棒点云处理(PointASNL) PointASNL: Robust Point Clouds Processing Using Nonlocal N ...

  8. Paper:RNN之《Generating Sequences With Recurrent Neural Networks用循环神经网络生成序列》的翻译和解读

    Paper:<Generating Sequences With Recurrent Neural Networks>的翻译和解读 目录 Generating Sequences With ...

  9. 论文阅读:Multi-view Convolutional Neural Networks for 3D Shape Recognition

    Preface 今天阅读一篇ICCV2015的论文:<Multi-view Convolutional Neural Networks for 3D Shape Recognition>, ...

最新文章

  1. python部署_python项目部署
  2. 统计学习导论 Chapter2--What Is Statistical Learning?
  3. windows server 2003 域控制器重命名
  4. Delphi处理TWebBrowser的Close事件
  5. golang函数:命名返回值代码示例
  6. BS的data-toggle/data-target
  7. php websocket 连接已断开连接,客户端websocket 无法连接上PHP socket问题
  8. 【VB.NET】VB.NET字符串数组排序
  9. python1乘到10_python写一个循环1+到10打印计算步骤的脚本——纯粹无聊玩的
  10. PaperWeekly 第十一期
  11. 2012年10月国庆长假天津-内蒙古自驾游之我们在路上
  12. R语言︱ 数据库SQL-R连接与SQL语句执行(RODBC、sqldf包)
  13. 重磅:达摩院医疗AI团队CVPR'20论文解读 | 凌云时刻
  14. 服装网站建设策划书-服装网站建设目的需求分析策划书
  15. Centos版Linux 一些常用操作命令 收集
  16. mysql学习笔记——分组排序、分组求和
  17. 虚拟偶像PK现实偶像,哪个更能发挥粉丝经济效应?
  18. 上海联通第一家冰激凌无限店正式开业,拥抱新零售时代!
  19. 8.25 欢乐emmm赛
  20. nCode:DesignLife案例教程九

热门文章

  1. 超全!目标跟踪中的评价指标有哪些?
  2. 高德地图同时引入2D和3D地图可能导致的问题
  3. 用python对excel进行批量处理(2):将表格中的英文翻译成中文
  4. 刘强东发布京东全员信:2000+位高管降薪,公司出资 100 亿提升 54 万员工福利!
  5. All shapes must be fully defined: [TensorShape([Dimension(299), Dimension(299), Dimension(3)])
  6. 华为30岁了,73岁的任正非管理哲学是怎样迭代的
  7. 【经济学】MIT 微观经济学 Microeconomoics
  8. 项目经理论坛_做好项目经理,应该向华为学习
  9. Java8 JVM参数解读
  10. 二进制补码加减运算的溢出检查