文章完整信息：
标题：Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model
作者:Marcella, Cornia , et al
期刊名称：IEEE Transactions on Image Processing

出版年: 2018
分类：2D deep learning saliency model
全文：PDF
代码：Code

Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model

Abstract
I. INTRODUCTION
II. RELATED WORK
- A. Saliency and Deep Learning
- B. Salient Object Detection
III. MODEL ARCHITECTURE
- A. Attentive Convolutional LSTM
- - Attentive Model
  - ConvLSTM
- B. Learned Priors
- C. Dilated Convolutional Network
- D. Loss function
IV. EXPERIMENTAL SETUP
- A. Datasets
- B. Evaluation Metrics
- C. Implementation Details
V. EXPERIMENTAL EVALUATION
- A. Comparison between different loss functions
- B. Model Ablation Analysis
- C. Contribution of the attentive model and learned priors
- D. Comparison with state of the art
VI. CONCLUSION

Abstract

由于使用卷积神经网络预测人眼注视，数据驱动的显著性最近得到了很多关注。

本文突破了用前馈网络（feed-forward network）计算注视图的显著性预测标准方法，提出了一种结合神经注意机制（neural attentive mechanisms）的精确显著性预测模型。

博客：理解深度学习中的注意力机制

我们的解决方案的核心是卷积LSTM，它聚焦于输入图像的最显著区域以迭代地优化预测的显著性图。

博客：简单理解LSTM神经网络

另外，为了解决人眼注视的中心偏置问题，我们的模型可以学习一组由高斯函数生成的先验图。我们通过广泛的评估表明，所提出的架构在公共显著性预测数据集方面优于当前的技术水平。我们进一步研究每个关键组件的贡献，以证明它们在不同场景下的鲁棒性。

I. INTRODUCTION

机器注意[15]是一种计算范式，它按顺序注意¹输入的不同部分。

[15] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y . Bengio, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention,” in International Conference on Machine Learning, 2015.

机器注意通常通过利用递归神经网络，并通过定义其内部状态和输入区域之间的相容性度量来实现。

这种模式已经成功地应用于图像字幕和机器翻译，以选择性地关注句子的不同部分，并应用于动作识别，以关注时空体的相关部分。我们认为机器注意对于显著性预测也是有效的，它是处理显著性特征和获得增强预测的有力途径。

本文提出了一种新的显著性预测体系结构，该结构结合了一个注意卷积长短期记忆网络（Attentive ConvLSTM），该网络迭代地聚焦于相关的空间位置以细化显著性特征。该架构特别新颖，因为以往的LSTM模型用于处理时间序列，这次的模型用于对图像进行细化。

此外，由于最大池和卷积层的strides引起的重定标（rescaling）降低了显著性预测的性能，我们提出了两种常用的CNN（VGG-16和ResNet-50）的扩展，这两种CNN可以降低降标效果( downscaling effect)并保持空间分辨率。这种权宜之计使我们能够保留详细的视觉信息并获得改进的特征提取能力。

最后，为了处理人类注视图像中心区域的倾向，我们还引入了一个显式的先验分量。与之前包含手工制作的prior]的方法不同，我们的模块使体系结构能够端到端地进行训练，并且可以自动学习中心prior。

II. RELATED WORK

显著性检测的先驱方法是基于特征融合理论（Feature Integration Theory）提出的。有许多研究致力于融合低层特征（比如颜色，对比度，亮度等）或加入中心环绕提示（center-surround cues）。

其他方法利用语义分类器来丰富预测，以检测更高层次的概念，如面孔、人物、汽车和视野。在压缩领域也做了相关的研究工作。

A. Saliency and Deep Learning

在这项工作中，我们还使用ResNet模型从输入图像中提取特征图。利用该网络的唯一其他显著性模型是由Liu等人提出的，叫做DSCLRCN模型。该模型同时结合全局上下文和场景上下文来推断图像的显著性，这得益于一个深度空间上下文LSTM，它可以水平和垂直地扫描图像。

为了更好地突出我们的模型相对于其他现有显著性方法的差异，我们在表一中总结了我们的解决方案和最具竞争力的方法的主要特性。注意，其他方法都没有包含一个注意机制或一组由网络直接学习的先验图。此外，与以往的模型不同，我们提出了一个损失函数，它是不同显著性度量的平衡组合，提供了最先进的性能。

B. Salient Object Detection

显著目标检测与本文的主题略有关系，尽管这是一项截然不同的任务。

显著目标检测实际上包括识别指示显著对象存在的二进制图。相反，在显著性预测中，目标是预测眼睛注视的密度图。²

Kuen等人的显著性检测方法在某些方面与我们的工作相关。[51]，其中递归（非卷积）网络提供显著的目标检测。在每个时间步，它们的递归网络输出用于聚焦图像的特定位置的空间变换的参数，并为该位置构建二进制预测。

我们的递归网络是卷积的，并通过迭代精炼预测来处理显著性特征。

III. MODEL ARCHITECTURE

在本节中，我们将介绍我们完整模型的架构，称为SAM（Saliency Attentive Model）。

A. Attentive Convolutional LSTM

上面那张图是完整的模型；这一节要介绍的部分如下所示：

我们将传统的LSTM扩展到空间特征上：形式上，这是通过在LSTM方程中用卷积运算替换点积来实现的。此外，我们利用LSTM的序列性质，以迭代的方式处理特征，而不是使用模型来处理输入中的时间依赖性。

Attentive Model

上面的注意模型，输入是XXX（空洞卷积网络的输出，512个channels）,输出是X~t\tilde X_tX~t(512个channels）。

结合前面Abstract中提到的博客，注意机制，其实就是对输入进行加权求和。

首先，XXX与隐藏层特征Ht−1H_{t-1}Ht−1经过卷积操作后，经过tanh激活层，作用是压缩前面学到的信息，起到稳定数值的作用；最后用单通道卷积核卷积，得到ZtZ_tZt（一个二维的图，即1个channel）。
Zt=Va∗tanh(Wa∗X+Ua∗Ht−1+ba)(7)Z_t = V_a*tanh(W_a*X+U_a*H_{t-1}+b_a) (7)Zt=Va∗tanh(Wa∗X+Ua∗Ht−1+ba)(7)
其中，Va,Wa,Ua,baV_a, W_a, U_a, b_aVa,Wa,Ua,ba都是Attentive Model的学习的参数。

接着经过softmax层，计算获得在[0,1]上的“权重”AtA_tAt（二维的张量）,或者说规范化的空间注意图：
Ati,j=p(attij∣X,Ht−1)=exp(Ztij)∑i∑jexp(Ztij)(8)A_{t}^{i,j} = p(att_{ij}|X,H_{t-1})=\frac{exp(Z_{t}^{ij})}{\sum_i \sum_jexp(Z_t^{ij})} (8)Ati,j=p(attij∣X,Ht−1)=∑i∑jexp(Ztij)exp(Ztij)(8)

最后用AtA_tAt对输入XXX中的每一个channel进行"加权"得到X~t\tilde X_tX~t。
X~t=At⊙X(9)\tilde X_t = A_t\odot X (9)X~t=At⊙X(9)

这样就完成注意机制的一个处理。

ConvLSTM

LSTM模型的解释可以参考上面Abstract中那篇博客。

卷积LSTM模型的输入是前面经过注意机制处理的输出X~t\tilde X_tX~t(512个channels）, 输出是经过精细化的特征图X′X'X′(512个channels);

LSTM的工作原理是根据三个sigmoid门的值依次更新一个内部状态。具体而言，更新由以下等式驱动：

It=σ(Wi∗X~t+Ui∗Ht−1+bi)I_t = \sigma(W_i*\tilde X_t+U_i*H_{t-1}+b_i)It=σ(Wi∗X~t+Ui∗Ht−1+bi) (1)
Ft=σ(Wf∗X~t+Uf∗Ht−1+bf)F_t = \sigma(W_f*\tilde X_t+U_f*H_{t-1}+b_f)Ft=σ(Wf∗X~t+Uf∗Ht−1+bf) (2)
Ot=σ(Wo∗X~t+Uo∗Ht−1+bo)O_t = \sigma(W_o*\tilde X_t+U_o*H_{t-1}+b_o)Ot=σ(Wo∗X~t+Uo∗Ht−1+bo) (3)
Gt=tanh(Wc∗X~t+Uc∗Ht−1+bc)G_t = tanh(W_c*\tilde X_t+U_c*H_{t-1}+b_c)Gt=tanh(Wc∗X~t+Uc∗Ht−1+bc) (4)
Ct=Ft⊙Ct−1+It⊙GtC_t = F_t\odot C_{t-1}+I_t\odot G_tCt=Ft⊙Ct−1+It⊙Gt (5)
Ht=Ot⊙tanh(Ct)H_t = O_t\odot tanh(C_t)Ht=Ot⊙tanh(Ct) (6)

其中，It,Ft,OtI_t,F_t,O_tIt,Ft,Ot, 候选记忆GtG_tGt, 记忆单元Ct,Ct−1C_t,C_{t-1}Ct,Ct−1和隐藏状态Ht,Ht−1H_t,H_{t-1}Ht,Ht−1都是3维张量，都是512个channels。

“∗”“*”“∗”代表卷积操作，所有的W和U是二维的卷积核，所有的b是学习的偏置。

图3示出了四个样本图像上的显著性预测，使用ConvLSTM模块在不同时间步的输出作为模型其余部分的输入。可以注意到，预测是通过修改CNN给出的初始图逐步细化的。这种改进使预测的显著性能增强。

第一行和第二行显示显著图中焦点的逐渐变化，从而逐步校正被错误预测为显著的区域，并正确识别真正显著的区域。

相对的，第三行和第四行分别显示在第一时间步已经（或尚未）被认为显著的图像区域中显著性的增加和减少。在所有情况下，结果都是显著性图向ground truth逼近。

B. Learned Priors

心理学研究表明，当观察者观察图像时，他们的目光偏向中心。

这种现象主要是由于：

摄影师倾向于把感兴趣的物体放在图像的中心。
当人们反复观看中心位置有显著信息的图像时，他们自然希望在图像的中心位置找到信息量最大的内容。
鼓励这种行为的另一个重要原因是场景的趣味性。事实上，当没有显著的区域时，人类倾向于看图像的中心。

基于这一证据，包含中心先验是最近几项显著性预测工作的一个关键组成部分。

与现有的研究（包括预定义的prior）不同，我们让网络学习自己的prior。为了减少参数个数，便于学习，我们将每个先验约束为一个二维高斯函数，其均值和协方差矩阵可自由学习。这使得网络可以完全从数据中学习自己的先验知识，而不依赖生物学研究的假设。

利用一组具有对角协方差矩阵³的高斯函数对中心偏差进行建模。根据以下等式，学习每个先验图的均值和方差：

f(x,y)=12πσxσyexp(−((x−μx)22σx2+(y−μy)22σy2))(10)f(x,y) = \frac{1}{2\pi \sigma _x\sigma _y}exp\left ( -\left ( \frac{(x-\mu _x)^2}{2\sigma _x^2}+\frac{(y-\mu _y)^2}{2\sigma _y^2} \right ) \right ) (10)f(x,y)=2πσxσy1exp(−(2σx2(x−μx)2+2σy2(y−μy)2))(10)

我们的网络学习N个高斯函数的参数（在我们的实验中N=16），并生成相对先验图。由于X′X'X′张量有512个通道，在与学习到的先验图拼接之后，我们得到了一个有528个通道的张量。所得到的张量通过带512个滤波器的卷积层馈送。如第V-C节所述，该操作为模型增加了更多的非线性，并证明相对于其他先前的工作是有效的。整个prior学习模块被复制了两次。

C. Dilated Convolutional Network

利用CNNs提取显著性预测特征的一个主要缺点是，在特征提取阶段，CNNs会对输入图像进行较大的重缩放，从而降低了预测精度。

接下来，我们设计了一种策略，在保持卷积滤波器的运算规模和参数数目的同时，提高CNN的输出分辨率。这使得使用预先训练的权重成为可能，从而在网络结构被修改之后减少了对精细调整卷积滤波器的需要。

该方法的直觉是，给定一个选择的CNN及其一个步长s>1的层，我们可以通过减小该层的步长，并向跟随所选层的所有层添加空洞卷积[60]来提高输出分辨率。这样，所有的卷积滤波器仍然在他们训练过的相同尺度上工作。我们将此技术应用于两个最新的特征提取网络：VGG-16[20]和ResNet-50[21]。

VGG-16网络由13个卷积层和3个完全连接层组成。
卷积层被分成五个卷积块，每个卷积块后面跟着一个最大池层，最大池层的步长（strides）为2。

ResNet-50不像普通CNN那样具有一系列处理输入图像的堆叠层，而是在由几个堆叠层组成的块之间执行一系列残差映射（residual mappings）。
这是通过实现标识映射的快捷连接（short cut）获得的，即块的输入被添加到其输出中。
残差连接有助于避免随着网络深度的增加而出现的精度下降问题[61]，并且在显著性预测的情况下也是有益的，因为它们提高了网络的特征提取能力。
具体而言，ResNet-50网络由五个卷积块和一个完全连接层组成。
第一个块由一个卷积层和一个maxpooling层组成，这两个层的步长都是2，而其余四个块是完全卷积的。除第二个块（conv2）外，所有这些块都以2的步长减少了特征图的维数。

由于我们的网络的目的是提取特征映射，所以我们只考虑卷积层，而忽略了两个网络末端的完全连通层。
此外，可以注意到，这两种架构的缩小比例因素尤为重要。例如，对于大小为240×320的输入图像，输出尺寸为8×10，对于显著性预测任务来说，输出尺寸相对较小。
为此，我们修改了网络结构以限制重缩放现象。

对于VGG-16模型，我们还删除了最后一个maxpooling层，并将上述技术应用于最后一个池层（参见图4a）。相反，对于ResNet-50模型，我们去掉步幅，在最后两个块中引入扩张卷积（见图4b）。在这种情况下，由于该技术应用了两次，我们在块conv4的内核中引入了大小为1的孔，在块conv5的内核中引入了大小为22−1=32^2-1=322−1=3的孔。残差网络的输出是2048通道的张量。为了限制特征图的数量，我们使用512个滤波器将这个张量输入到另一个卷积层中。由于这些权宜之计，我们的显著性图被重新缩放了8倍，而不是原来的VGG-16和ResNet-50模型中的32倍。

我们在prior层中也包含了空洞卷积，从而得到两个具有大感受野的卷积层，这使得我们能够捕捉到物体相对于其邻域的显著性。我们将这些层的核大小设置为5，孔大小设置为3，从而获得17×17的感受野。这些层的步长被设置为1，然后两个层都有一个ReLU激活函数。

模型的最后一层是一个卷积运算，其中一个滤波器和一个核大小为1的卷积运算提取最终的显著图。由于预测图的维数比原始图像低，因此通过双线性上采样将其恢复到原始尺寸。

D. Loss function

为了捕获多个质量因素，显著性预测通常通过不同的度量来评估。受此评估协议的启发，我们引入了一个新的损失函数，该函数由三个不同的显著性评估指标线性组合而成。我们将总体损失函数定义如下：
L(yˉ,yden,yfix)=αL1(y~,yfix)+βL2(y~,yden)+γL3(y~,yden)L(\bar y,y^{den},y^{fix}) = \alpha L_1(\tilde y,y^{fix})+\beta L_2(\tilde y,y^{den})+\gamma L_3(\tilde y,y^{den})L(yˉ,yden,yfix)=αL1(y~,yfix)+βL2(y~,yden)+γL3(y~,yden)
其中，y~,yden,yfix\tilde y,y^{den},y^{fix}y~,yden,yfix分别是预测的显著性图，ground truth密度分布图，和ground truth 二值注视图，α,β,γ\alpha, \beta, \gammaα,β,γ是平衡三个损失函数的三个标量，在实验中分别取-1，-2,10。L1、L2和L3L_1、L_2和L_3L1、L2和L3分别是常用于评价显著性预测模型的归一化扫描路径显著性（NSS）、线性相关系数（CC）和Kullback-Leibler散度（KL-Div）。

NSS度量是专门为显著性模型的评估而定义的[62]。其思想是量化眼睛注视位置处的显著性图值，并用显著性图方差对其进行归一化：
L1(y~,yfix)=1N∑iy~i−μ(y~)σ(y~)⋅yifixL_1(\tilde y,y^{fix}) = \frac{1}{N}\sum_i\frac{\tilde y_i-\mu(\tilde y)}{\sigma(\tilde y)}\cdot y_i^{fix}L1(y~,yfix)=N1i∑σ(y~)y~i−μ(y~)⋅yifix

相反，CC是Pearson的相关系数，并将显著性图y~\tilde yy~和ground truth密度图ydeny^{den}yden视为测量它们之间线性关系的随机变量。计算如下：
L2(y~,yden)=σ(y~,yden)σ(y~)σ(yden)L_2(\tilde y, y^{den}) = \frac{\sigma(\tilde y, y^{den})}{\sigma(\tilde y)\sigma(y^{den})}L2(y~,yden)=σ(y~)σ(yden)σ(y~,yden)
KL-Div评估了当使用分布y~\tilde yy~近似分布ydeny^{den}yden时的信息损失，因此对显著性和地真密度图进行了概率解释：
L3(y~,yden)=∑iyidenlog(yideny~i+ϵ+ϵ)L_3(\tilde y, y^{den}) = \sum_iy_i^{den}log(\frac{y_i^{den}}{\tilde y_i+\epsilon}+\epsilon)L3(y~,yden)=i∑yidenlog(y~i+ϵyiden+ϵ)
其中，ϵ\epsilonϵ是一个正则化常数。KL-Div是一个相异度量，较低的值表示预测显著性映射对基真值的更好逼近。

IV. EXPERIMENTAL SETUP

A. Datasets

为了训练和测试我们的模型，我们使用了四个最流行的显著性数据集，它们在图像内容和实验设置方面都有所不同。

SALICON
MIT1003
MIT300
CAT2000

B. Evaluation Metrics

评价显著性预测模型的指标有很多种，它们之间的主要区别在于地面真实性的表示。事实上，显著性评估指标可以分为基于位置和基于分布的指标[66]、[67]、[68]。第一类考虑离散固定位置的显著性地图，而第二类将地面真值固定地图和预测显著性地图都视为连续分布。

最广泛使用的基于位置的度量是ROC曲线下的面积（AUC），在其Judd（AUC）和shuffled（sAUC）的不同变体中，以及标准化扫描路径显著性（NSS）。
AUC指标不惩罚低值假阳性（FP）⁴，对放置在固定位置的高值预测给出高分，而忽略其他预测。

此外，sAUC的设计是为了惩罚那些考虑到眼睛注视中存在的中心偏置的模型。
相反，NSS对假阳性（FP）和假阴性（FN）的敏感程度相当。

对于基于分布的分类，最常用的评价指标是线性相关系数（CC）、相似性（SIM）和移动距离（EMD）。
CC对称地处理假阳性（FP）和假阴性（FN），与SIM不同，SIM测量两个分布之间的交集，因此它对丢失的值非常敏感。EMD按照与基本事实的空间距离成比例地惩罚假阳性（FP）。

C. Implementation Details

略

V. EXPERIMENTAL EVALUATION

在这一部分中，我们进行了分析和实验，以验证网络中每个组件的贡献。我们还展示了与其他最新模型的定量和定性比较。

A. Comparison between different loss functions

在图5中，我们比较了使用单损失函数（KL Div，CC，NSS）和我们在第三节D中提出的组合得到的结果。我们的模型的两个版本在SALICON，MIT1003和CA T2000验证集上都报告了结果。我们称SAM-VGG为基于VGG网络的模型，称SAM-ResNet为基于ResNet网络的模型。
下图为在数据集SALICON上的结果：

可以看出，我们的合并损失在所有指标上平均取得了更好的结果。例如在SALICON数据集上，使用KL-Div或CC-metrics作为损失函数对模型进行训练时，模型的性能尤其在CC上表现良好，而在NSS上则失败。当使用NSS度量训练模型时，它只在NSS上获得更好的结果，而在所有其他度量上都失败了。

为了进一步验证所提出的损失函数的有效性，我们将其与其他先前显著性模型所使用的传统损失函数和概率距离进行了比较[42]、[23]、[13]。

图6显示了我们的显著性度量和其他四个损失函数的组合之间的比较：欧几里德损失、余弦距离、χ2\chi^2χ2离散度和总方差距离。同样在这种情况下，我们的损失函数在所有度量之间实现了更好的平衡。与所有其他传统损失相比的差距在NSS指标上尤为明显，而在所有其他指标上，拟议的合并损失如果达不到最佳结果，则非常接近它们。

B. Model Ablation Analysis

下表为模型消融实验的结果：

图7显示了一些由我们的SAM ResNet模型预测的显著性图的定性例子，并且只显示了一些与基本事实相关的主要成分。正如我们所看到的，预测的不断改进，通过增加我们的关键组成部分，在质量上更接近于基本事实。

C. Contribution of the attentive model and learned priors

略

D. Comparison with state of the art

与其他方法的比较结果：

可以注意到，我们的网络能够预测人、脸、物体和其他主要线索上的高显著性值。当图像不包含强显著性区域时，例如当显著性集中在场景中心或当图像描绘景观时，它还生成良好的显著性地图。

VI. CONCLUSION

我们提出了一种新的显著注意模型，可以预测自然图像上的人眼注视。该方案的主要新颖之处在于，它是一个精心设计的卷积LSTM，专门用于依次增强显著性预测。同样的想法也有可能被应用到其他任务中，在这些任务中，图像优化是有益的。此外，我们通过优化组合多个学习先验，捕捉到了人类凝视的一个重要性质，有效地解决了CNNs的降尺度效应。通过广泛的评价，验证了各组成部分的有效性，我们的模型在两个最重要的显著性预测数据集上取得了最新的结果。最后，通过发布我们架构的源代码和预先训练的模型，我们为进一步的研究工作做出了贡献。

“注意”这个动词，个人理解是指机器模拟人类关注某一个地方的一种运算。 ↩︎
显著性目标检测与显著性检测的区别。 ↩︎
多元高斯分布的协方差矩阵是对角阵，那么生成的数据各个维度之间是独立的,是多组正交的向量基,密度函数能写成多个变量各自的密度函数之积。 ↩︎
所以会有的预测结果，虽然能够预测出正确的显著性位置，但是预测错误的显著性位置很多，仍然有很高的AUC。 ↩︎

论文阅读笔记--Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model相关推荐

论文阅读笔记--Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 人体姿态估计综述
趁着寒假有时间,把之前的论文补完,另外做了一点点笔记,也算是对论文的翻译,尝试探索一条适合自己的论文阅读方法. 这篇笔记基本按照原文的格式来,但是有些地方翻译成中文读起来不太顺,因此添加了一些自己的理 ...
论文阅读笔记之Replacing Mobile Camera ISP with a Single Deep Learning Model
这篇文章做了啥根据ccd或者cmos图像传感器获得的图像,要经过一系列的复杂的处理才能得到最终的图像,而且不同的cmos有不同的算法,作者这里的motivation是能不能有一个比较统一的框架来处理 ...
DCP（Deep Closest Point）论文阅读笔记以及详析
DCP论文阅读笔记前言本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...
[论文阅读笔记53]2021深度神经方法的关系三元组抽取综述
1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...
《Improved Techniques for Training GANs》-论文阅读笔记
<Improved Techniques for Training GANs>-论文阅读笔记文章目录 <Improved Techniques for Training GANs& ...
CenterNet:Objects as Points论文阅读笔记
CenterNet论文阅读笔记 (一)Title (二)Summary (三)Research Objective (四)Problem Statement (五)Method 5.1 Loss Fu ...
全卷积（FCN）论文阅读笔记：Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...
Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
FCGF论文阅读笔记
FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...

论文阅读笔记--Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model