Adversarial disentanglement spectrum variations and cross-modality attention networks for NIR-VIS face recognition
2021 IEEE
Weipeng Hu and Haifeng Hu

一、简介

本文提出了一种有效的用于可见-近红外匹配任务的对立解纠缠光谱变异和跨模态注意网络。将高级散射损失(ASL)、模态对立特征学习(MaFL)和跨模态注意块(CmAB)结合成一个统一的CNN网络，该网络可以将身份信息和频谱信息分成两个子空间，以增强域不变特征表示。

ASL损失捕获数据的类间和类内信息，并将它们嵌入到网络中以进行更有效的训练，并且它关注类间距离小的类别，并增加它们之间的距离。

该模型由IDFLN和MADN组成，可以增强身份鉴别特征表示，并通过对抗式学习来分离频谱变化。

CmAB模块依次将空间和通道注意力模块应用于IDFLN和MADN。在两个通道注意模块中引入了正交性约束，使得MADN和IDFLN能够分别专注于学习模态相关特征和身份相关特征。特别是，ADCANs由多个CmAB模块组成，用于学习辨别特性和解开频谱变化。

本文旨在解开光谱变化和学习近红外-可见光HFR任务的区别性表示。

二、模型结构

Modality-Adversarial Feature Learning（MaFL）：

模态特征对抗学习。采用对抗策略来消除可见光图像和近红外图像之间的模态差异，提取不变表示。MaFL由IDFLN和MADN组成。

由端到端CNNs构建的IDFLN用于学习与身份相关的特征。

MADN由一个鉴别器和一个发生器组成，旨在解开跨模态图像的频谱变化。具体来说，MADN的发生器G可以分离频谱信息和身份信息，而鉴别器D用于学习模态相关的表示。

一方面，我们更新了鉴别器中的参数，同时固定了发生器G中的参数。MADN的ASL损失最大化了不同模态(可见和近红外)的类间距离，最小化了同一模态(可见或近红外)的类内距离，因此鉴别器可以通过最小化(4)来提取光谱相关特征。

另一方面，我们更新了发生器G中的参数，并固定了鉴别器D中的参数。MADN的ASL损失最大化了同一模态的类内距离，最小化了不同模态的类间距离，因此IDFLN可以通过最大化提取与频谱无关的特征。通过鉴别器上的“最小化过程”和发生器上的“最大化过程”，所设计的MADN能够有效地减小跨模态图像的间隙。

MADN：

生成器G包含Component1-3和2个AAS（I）。

对抗器D包含3个AAS（M），3个DRB，1个连接层和2个全连接层。

IDFLN：

包含Component1-4和3个AAS（I）和一个全连接层。

ADCANs：

包含MADN和IDFLN。先使用MS-Celeb-1M和softmax损失进行预训练，然后在进行微调。

三、Cross-Modality Attention Block（CmAB）

注意力模型可以引导网络选择重要特征，抑制噪声信息，提高网络的表示能力。

旨在提高网络的表征能力，并进一步期望他们分别关注与模态相关的特征和与身份相关的特征。

CmAB模块依次应用空间和通道注意力模块对IDFLN和MADN在通道注意上进行正交约束。

spatial attention module（空间注意力模块）

空间注意力模块旨在有效引导网络“聚焦何处”。我们聚集一个层的多个通道来产生一个空间注意力热图。

我们采用最大池化和平均池化来积累渠道信息。此外，卷积运算还用于自适应地调整感兴趣区域。

三个操作(包括最大池、卷积和平均池)并行进行。级联要素图层之后是卷积运算，以生成空间注意力图。最后，我们采用sigmoid函数将空间注意图转换到(0，1)的区间，并对强调或抑制的地方进行编码。

通道注意力模块

旨在指导网络“关注哪些功能”。整合空间信息，形成频道关注图。

最大池化和平均池化对聚集空间信息是有效的。我们将最大池化和平均池化引入通道注意力模块，以整合空间信息。为了自适应地聚集空间信息，我们进一步引入了卷积运算，然后是平均汇集和最大汇集，这两个汇集层的输出通过加法运算进行融合。然后，这三个聚集的特征映射被转发到共享的多层感知(MLP)网络，以生成信道注意力屏蔽。

具体来说，每个聚合特征映射将产生一个通道注意掩码，并且我们采用元素方式添加来合并三个通道注意掩码。最后，使用sigmoid函数将通道注意掩码转换为(0，1)的间隔。

N表示MLP网络，MLP网络是参数共享的，就只有一个。

结合：

× 表示逐元素相乘。Es表示沿通道轴扩展张量C倍的运算，Ec表示沿高轴扩展张量H倍并沿宽轴扩展张量W倍的运算。

四、损失函数

Advanced Scatter Loss（ASL）：

基于SoftMax的损失函数包含一个额外的分类层，这将增加计算消耗和内存消耗，也可能出现过拟合问题。对比损失和三重损失会集中在困难样本上，容易受到噪声样本的影响。ASL侧重于困难个体，并根据个体中心计算类内和类间距离，使其对噪声样本具有鲁棒性。

ASL关注类间距离小的硬类别，增加它们之间的距离，可以更有效地增加类间距离，减少类内距离。

MADN损失：

IDFLN损失：

五、实验

CASIA NIR-VIS 2.0 DATASET：

OULU-CASIA NIR-VIS DATASET：

BUAA NIR-VIS DATASET

Adversarial disentanglement spectrum variations and cross-modality attention networks阅读笔记相关推荐

Few-Shot Semantic Segmentation with Democratic Attention Networks阅读笔记
摘要 DAN机制可以激活更多的目标像素点,在support和query图像间构建一个稳固的关系. 介绍目前大部分的小样本分割方法都是基于prototype来进行.这类方法用了一个两分支的编解码结构, ...
Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记
Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记 0. 概述如今一些深度 ...
BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记
BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记摘要我们提出了一种新的用于促成训练时生成器和判别器实现均衡(Equil ...
REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记
原文链接:http://cn.arxiv.org/pdf/1509.06664 读这篇论文的目的在于另一篇阅读理解的文章使用了这其中的方法摘要部分问题的引入,目前自然语言处理领域对于句子的蕴含关系 ...
《Reasoning about Entailment with Neural Attention》阅读笔记
题目直译的话就是使用神经网络注意力机制实现蕴涵推理,文章主要讲述了如何使用LSTM和Attention做英文阅读理解,结合数据集讲就是给出一段话或者说是上下文文本1(hypothesis),然后给出一 ...
A NIR-to-VIS face recognition via part adaptive and relation attention module阅读笔记
2021 Computer Vision and Pattern Recognition Rushuang Xu, MyeongAh Cho, Sangyoun Lee 一.简介许多研究集中在提取领 ...
Occlusion Aware Facial Expression RecognitionUsing CNN With Attention Mechanism阅读笔记
论文链接:https://ieeexplore.ieee.org/document/8576656 代码链接:https://github.com/mysee1989/PG-CNN 主要目的通过注意 ...
Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation阅读笔记
Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Appr ...
Small Object Detection using Context and Attention（论文阅读笔记）
Small Object Detection using Context and Attention 论文阅读笔记出处:2021 International Conference on Artifi ...

Adversarial disentanglement spectrum variations and cross-modality attention networks阅读笔记