论文阅读训练（13）

《Pixel-Adaptive Convolutional Neural Networks》（2019）

作者：UMass Amherst NVIDIA

摘要

卷积是CNN的基础组成block，被广泛使用的主要原因是它们的权重是空间共享的，也是最主要的限制，是使得卷积是内容无关的。此篇文章提出一个像素自适应的卷积操作，简称（PAC），对标准卷积的简单有效修改，其中滤波器权重乘以空间变化的内核，变化内核取决于可学习的、局部像素特征。PAC是几个有名的滤波技术的泛化，因此可以广范使用。具体的，证明当PAC用于deep joint image upsampling（深联合图像上采样）性能最好。PAC也可以对全连接CRF提供迭代，称为PAC-CRF，比Full-CRF更快。除此之外，PAC可用作预训练网络中卷积层的直接替代，从而实现一致的性能改进。

问题：处理卷积由于空间共享使得内容无关的限制。

方法：提出像素自适应卷积操作（PCA），对标准卷积的简单有效修改，其中滤波器权重乘以空间变化的内核，变化内核取决于可学习的、局部像素特征。

自适应核K用预训练或学习的特征构建，输入V，操作：逐像素相乘求和。

效果：PAC是滤波器的泛化，可将预训练网络中的卷积层直接替换。

《Learning Region Features for Object Detection》（ECCV2018）

作者：Han Hu胡瀚（MSRA）【研究变形卷积、关系网络等】

摘要

当前目标检测方法中的大多数步骤都是可学习的，但区域特征提取步骤仍然主要是手工制作，具有RoI池化方法的特征。此篇工作提出一个泛化观点，整合现存区域特征提取方法和新的方法实现端到端学习。此文章提出的方法消除了大多数启发式选择，并且优于RoI pooling。它进一步向完全可学习的物体检测方向发展。

问题：现存目标检测方法的区域特征提取不是可学习的，是手工制作的

方法：整合现存区域特征提取方法和新的方法实现端到端学习。完全学习的区域特征提取。

两个贡献：

1、提出区域特征提取的泛化观点。每个区域的bin或part的特征可以被公式化为在整个image上的不同位置的image features的加权求和。大多数以前的区域特征提取方法通过以不同方式指定权重（大多数是手工制作）显示为该公式的具体化。

2、基于上述观点，用一个可学习模块从ROI和image features角度表示权重。权重由两个因子影响：ROI和image positions的几何相关性和image features本身。

几何相关性建模用attention model（受启发于《Attention is all you need》NIPS2017,《Relation networks for object detection》cvpr2018，胡瀚）

image features用DCN变形卷积提取

效果：优于RoI pooling

相关工作：可变形RoI poolin引入了从图像内容自适应地学习的逐位偏移（DCN，ICCV2017)

文章细节：

part feature——泛化公式

$\Omega _{b}$ ——ROI或包含更多context part或整个image

p-空间位置

$w_{k}\left ( b,p,x \right )$ ——image feature x(p)在位置p求和的权重。（权重和为1）

$\bigodot$ ——逐元乘积

1、规则的ROI pooling：

$\Omega _{b}$ =ROI，划分为7*7 bins，y（b）计算用max、average等，Rbk——第k个bin里的所有位置集合。

缺点：由于空间下采样，不能区分非常近的ROI，若两个ROIs距离小于16个像素，它们的ROIs是相同的并且特征也是相同的。

2、Spatial Pyramid Pooling（空间金字塔pooling）（ECCV2014）

Spatial Pyramid Pooling是在不同级别的网格划分上应用常规RoI Pooling

3、Aligned RoI Pooling（Mask RCNN）（ICCV2017)

规则ROI pooling通过下采样和pooling两次向下取整产生很大偏移，区域特征对ROI位置细微变化很敏感，故Aligned RoI Pooling用双线型插值解决规则ROI pooling的量化问题。

4、Deformable RoI pooling（DCN，变形卷积，控制采样点位置，ICCV2017）

通过学习每个bin的偏移量offsets，并将其添加到bin中心来推广Aligned RoI Pooling。

5、earn the weight w k (b, p, x) in Eq. (2) withminimum hand crafting

捕捉几何相关性：公式（8）本质是注意力模型（需要再理解）

第一步，box和image位置嵌入到高维空间中，通过将不同波长的正弦和余弦函数应用于标量z来执行嵌入：

第二步，嵌入向量 $\varepsilon ^{im}\left ( p \right )$ 和 $\varepsilon ^{box}\left ( b \right )$ 权重矩阵 $W^{im} and W_{k}^{box}$ 线性变换，是可学习的。

第三步，两个变换向量的内积作为几何相关权重。