摘要

深度卷积神经网络 (DCNN) 能够学习前所未有的有效图像表示。然而,它们处理重要的局部和全局图像旋转的能力仍然有限。在本文中,我们提出了主动旋转滤波器(ARF),它在卷积过程中主动旋转并生成具有明确编码的位置和方向的特征图。ARF 充当虚拟滤波器组,包含滤波器本身及其多个旋转版本。在反向传播期间,ARF 使用其所有旋转版本的误差共同更新。使用 ARF 的 DCNN,称为定向响应网络 (ORN),可以产生类内旋转不变的深度特征,同时保持分类任务的类间区分。 ORN 产生的定向响应也可用于图像和物体角度估计任务。在多种最先进的 DCNN 架构(例如 VGG、ResNet 和 STN)中,我们一致观察到,用提议的 ARF 替换常规滤波器会导致网络参数数量显着减少并提高分类性能。 我们报告了几个常用基准的最佳结果 。

简介

方向信息编码问题已在手工特征中得到广泛研究,例如 Gabor 特征 [15、17]、HOG [9] 和 SIFT [31]。在深度卷积神经网络 (DCNN) 中,卷积和池化的固有特性减轻了局部转换和扭曲的影响; 然而,缺乏处理大图像旋转的能力限制了 DCNN 在许多视觉任务中的性能,包括对象边界检测 [16, 32]、多向对象检测 [6] 和图像分类 [20, 23]。

由于缺乏完全理解旋转的能力,DCNN 减少其损失最直接的方法是“死记硬背”。卷积过滤器 [11, 47] 的可视化表明,一个相同图像结构的不同旋转版本通常在低级、中级和相对高级过滤器中冗余学习,例如在 ImageNet [10] 上训练的 VGG-16 模型中的过滤器 。当对象部分相对于对象本身旋转时,例如,鸟的头部到它的身体,它需要学习每个方向不同的组件与更多卷积滤波器的多种组合。 在这种情况下,网络可能会放弃理解整个对象的概念,而倾向于使用其中的一个判别部分来做出最终决定 [48]。 死记硬背的学习策略需要更多的参数来生成方向冗余滤波器,显着增加了训练时间和网络过度拟合的风险。此外,由于有限的实例被暗中分成子集,训练数据没有得到充分利用,这可能会增加过滤器欠拟合的可能性。为了缓解这样的问题,经常使用数据增强,例如,将每个训练样本旋转成多向版本。 数据增强通过扩展训练集来提高学习性能。 但是,它通常需要更多的网络参数和更高的训练成本。

在本文中,我们提出了主动旋转滤波器 (ARF) 并利用定向响应卷积 (ORConv) 生成具有定向通道的特征图,这些通道显式编码判别模式的位置和方向信息。 与传统滤波器相比,ARF 具有额外的维度来定义定向结构的排列。在卷积过程中,每个 ARF 旋转并生成特征图以捕获来自多个方向的感受野的响应,如图 1 所示。具有方向通道的特征图与分层网络一起携带方向响应以产生高级表示,赋予 DCNN 捕获全局/局部旋转的能力以及前所未有的旋转样本的泛化能力。

我们的方法没有引入额外的功能模块或新的网络拓扑,而是将旋转的先验知识实现到 DCNN 的最基本元素,即卷积算子。 因此,它可以自然地与现代 DCNN 架构融合,将它们升级为更具表现力和紧凑的定向响应网络 (ORN)。 利用 ORN 产生的方向信息,我们可以应用类似 SIFT 的特征对齐来实现旋转不变性或执行图像或物体方向估计。

本文的贡献总结如下:

  1. 我们介绍了 Active Rotating Filters 和 Oriented Response Convolution,改进了 DCNN 最基本的模块,赋予了 DCNN 显式编码分层方向信息的能力。
    我们进一步将这种方向信息应用于旋转不变的图像分类和物体方向估计。
  2. 我们将包括 VGG、ResNet、TI-Pooling 和 STN 在内的成功 DCNN 升级为 ORN,在热门的基准测试中以更少的网络参数实现了最先进的性能。

图 1. ARF 是大小为 W × W × N 的滤波器,被视为 W × W 网格上的 N 方向点。 ARF 的形式使其能够有效地定义相对旋转,例如鸟的头部围绕其身体的旋转。 ARF 在卷积期间主动旋转; 因此,它充当一个虚拟滤波器组,其中包含典型滤波器本身及其多个旋转版本。 在这个例子中,不同姿势的鸟类的位置和方向被 ARF 捕获并明确编码到特征图中。

2.相关工作

2.1手动制作的特征

2.2深度卷积神经网络

3.定向响应网络

定向响应网络 (ORN) 是使用主动旋转滤波器 (ARF) 的深度卷积神经网络。ARF 是一种过滤器,它在卷积期间主动旋转以生成具有多个方向通道的特征图。 因此,ARF 充当虚拟滤波器组,只有一个卷积核实例化进行学习相关参数。使用 ARF,ORN 需要的网络参数显着减少,计算开销可以忽略不计,并且可以显式地对分层方向信息进行编码。

接下来,我们将解决在 DCNN 中采用 ARF 的三个问题。 首先,我们构建了一种基于傅里叶变换的循环移位特性的两步技术来有效地旋转 ARF。 其次,我们描述了使用 ARF 生成具有明确编码的位置和方向的特征图的卷积。 第三,我们展示了 ARF 的所有旋转版本如何在反向传播更新阶段参与学习。

3.1主动旋转滤波器

主动旋转滤波器 (ARF) 是大小为 [ W × W × N ] [W \times W \times N ] [W×W×N]的滤波器。它在卷积期间主动旋转 N − 1 N-1 N−1次以生成 N N N个方向通道的特征图,如图 2。因此,一个 ARF F F F实际上可以看作是一组 N N N 个过滤器 ( N × W × W × N ) (N\times W \times W \times N ) (N×W×W×N),其中只有典型滤器 F F F 本身被实现并用于学习,剩下的 N − 1 N-1 N−1个滤波器是它的旋转。 这种滤波器组中的第 n n n 个滤波器 n ∈ [ 1 , N − 1 ] n \in [1,N - 1] n∈[1,N−1]是通过将 F F F 顺时针旋转 [ 2 π n N ] [\frac{{2\pi n}}{N}] [N2πn​] 获得的。
一个 ARF 包含 N N N 个方向通道,并被视为 W × W W × W W×W 网格上的点对方向响应函数在 N N N 个方向上的采样。
ARF F F F 中的每个元素都可以通过 F i j → ( n ) {\overrightarrow {{F_{ij}}} ^{(n)}} Fij​ ​(n)被遍历到,其中 0 ≤ ∣ i ∣ , ∣ j ∣ ≤ W − 1 2 , 0 ≤ n ≤ N − 1 , i , j , n ∈ N 0 \le \left| i \right|,\left| j \right| \le \frac{{W - 1}}{2},0 \le n \le N - 1,i,j,n \in \N 0≤∣i∣,∣j∣≤2W−1​,0≤n≤N−1,i,j,n∈N。ARF F F F 通过以下两个步骤顺时针旋转 θ θ θ 以产生其旋转变体 F θ F_θ Fθ​,坐标旋转和方向旋转。

  • 图2可以很好的帮助理解ARF。对于一个 W × W × N W \times W \times N W×W×N的canonical filter(原始滤波器,即没有旋转),这里的 W W W是卷积核大小, N N N代表图中每个点有几个箭头(也是有几个方向的意思)。例如 N N N取1时,代表朝向 0 ∘ 0^\circ 0∘方向的箭头,N取2时,代表朝向 4 5 ∘ 45^\circ 45∘的箭头。
  • 对于一个 W × W × N × N W \times W \times N\times N W×W×N×N的ARF,最后一个维度 N N N代表canonical filter旋转 N N N次形成的具有 N N N个方向通道的滤波器组。

坐标旋转

乘一个旋转矩阵得到旋转前后坐标,再通过双线性插值实现坐标旋转

方向旋转

如前所述,ARF 可以被视为 W × W W × W W×W 网格上的点对方向响应函数在 N N N 个方向上的采样。每个方向点 F θ , p q ′ → \overrightarrow{F{'_{\theta ,pq}}} Fθ,pq′​ ​ 是所需定向响应 F θ , p q ′ ( α ) {F{'_{\theta ,pq}}(\alpha )} Fθ,pq′​(α) 的 N 点均匀采样,是关于角 α \alpha α的周期为 2 π 2\pi 2π的连续周期函数。在坐标旋转之后,它仍然需要顺时针旋转 θ \theta θ 来产生 F θ , p q → \overrightarrow{F{_{\theta ,pq}}} Fθ,pq​ ​,这实际上是 F θ , p q ′ ( α − θ ) {F{'_{\theta ,pq}}(\alpha-\theta )} Fθ,pq′​(α−θ) 的量化,图 2。因此,利用离散傅里叶变换 (DFT) 的循环移位特性,可以在傅里叶域中有效地处理这种自旋过程,以平滑处理所有旋转角度。

ARF 需要大量的定向通道。在实践中,由于多层池化操作的方向“插值”,我们可以使用有限的方向来保证准确性。 DCNN 的成功实践,例如 VGG [38] 和 ResNet [18, 19],表明多个小滤波器的堆栈比大滤波器更具表现力和参数效率。而且用小卷积核和有限数量的方向通道,ARF的计算量可以进一步减小。鉴于上述情况,我们在大多数实验中使用具有 4 和 8 个方向通道的 1 × 1 和 3 × 3 ARF。

  • 代码里 nOrientation 和 nRotation都取8,kernel_size取3。

3.2定向响应网络

Oriented Response Networks 论文翻译相关推荐

  1. Oriented Response Networks 论文笔记

    Oriented Response Networks 论文笔记 Oriented Response Networks 2017cvpr 作者主业:https://yzhou.work/ORN/ 论文地 ...

  2. GaitGAN: Invariant Gait Feature Extraction Using Generative Adversarial Networks论文翻译以及理解

    GaitGAN: Invariant Gait Feature Extraction Using Generative Adversarial Networks论文翻译以及理解 格式:一段英文,一段中 ...

  3. Sequence to Sequence Learning with Neural Networks论文翻译

    Sequence to Sequence Learningwith Neural Networks论文翻译 摘要 深度神经网络是在困难的学习任务中取得卓越性能的强大模型.尽管拥有大量的标记训练集,DN ...

  4. ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中英文对照

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...

  5. Deformable Convolutional Networks论文翻译——中英文对照

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...

  6. Deformable Convolutional Networks论文翻译——中文版

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...

  7. ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中文版

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...

  8. ESRGAN - Enhanced Super-Resolution Generative Adversarial Networks论文翻译——中英文对照

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...

  9. Squeeze-and-Excitation Networks论文翻译——中文版

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...

最新文章

  1. 成功解决Not possible to connect to the Web3 provider. Make sure the provider is running and a connection
  2. VTK:PCA用法实战
  3. 十三、Vuex学习笔记
  4. Outlook2016未读邮件怎么设置字体颜色
  5. 的谐音非诚勿扰_《菲诚勿扰》全网通缉24位女嘉宾
  6. MFC在指定控件区域内进行一些操作
  7. 跳转微信公众号首页方式
  8. 通俗解释什么是指令集
  9. 木兰开源许可证:开源社如是说
  10. android 重力感应小球 Demo
  11. 测试抑郁症软件,抑郁症测试app
  12. 计算机关闭显示器电源,打开计算机电源后,将显示进入睡眠模式时如何修复计算机...
  13. Gwallet小百科 | 一文透析腾讯区块链技术
  14. 网络协议 -- UDP协议(2)单播
  15. 项目管理IPO图之整体管理
  16. 代码随想录算法训练营第二天 | LeetCode 977.有序数组的平方、​LeetCode 209.长度最小的子数组、LeetCode 59.螺旋矩阵II
  17. TD-SCDMA单载频小区信道容量计算(一)
  18. 2021.1.25写写日记
  19. 写CUDA到底难在哪?
  20. 更彻底清理微信存储空间让小存储手机继续生存

热门文章

  1. 图书馆数据库系统的模拟练习
  2. hashmap源码1.7
  3. 慧鱼机器人编程语言的特点_慧鱼机器人课程设计说明书
  4. 【详细图文】Ubuntu 16.04更改下载源 解决软件包下载慢问题
  5. hal库实现us延时
  6. FlyFish模版中心正式上线,快来领取社区周边礼物
  7. 串口屏-迪文10寸T5串口屏简单上手
  8. sentinel 时间窗口_Sentinel滑动窗口算法
  9. 牛啊!全球当下最厉害的 14 位程序员
  10. 基于组态王和S7-200 PLC的六层电梯8层电梯控制 组态王动画仿真,带PLC源代码,plc程序每一条都带着解释