Adversarial disentanglement spectrum variations and cross-modality attention networks阅读笔记
Adversarial disentanglement spectrum variations and cross-modality attention networks for NIR-VIS face recognition
2021 IEEE
Weipeng Hu and Haifeng Hu
一、简介
本文提出了一种有效的用于可见-近红外匹配任务的对立解纠缠光谱变异和跨模态注意网络。将高级散射损失(ASL)、模态对立特征学习(MaFL)和跨模态注意块(CmAB)结合成一个统一的CNN网络,该网络可以将身份信息和频谱信息分成两个子空间,以增强域不变特征表示。
ASL损失捕获数据的类间和类内信息,并将它们嵌入到网络中以进行更有效的训练,并且它关注类间距离小的类别,并增加它们之间的距离。
该模型由IDFLN和MADN组成,可以增强身份鉴别特征表示,并通过对抗式学习来分离频谱变化。
CmAB模块依次将空间和通道注意力模块应用于IDFLN和MADN。在两个通道注意模块中引入了正交性约束,使得MADN和IDFLN能够分别专注于学习模态相关特征和身份相关特征。特别是,ADCANs由多个CmAB模块组成,用于学习辨别特性和解开频谱变化。
本文旨在解开光谱变化和学习近红外-可见光HFR任务的区别性表示。
二、模型结构
Modality-Adversarial Feature Learning(MaFL):
模态特征对抗学习。采用对抗策略来消除可见光图像和近红外图像之间的模态差异,提取不变表示。MaFL由IDFLN和MADN组成。
由端到端CNNs构建的IDFLN用于学习与身份相关的特征。
MADN由一个鉴别器和一个发生器组成,旨在解开跨模态图像的频谱变化。具体来说,MADN的发生器G可以分离频谱信息和身份信息,而鉴别器D用于学习模态相关的表示。
一方面,我们更新了鉴别器中的参数,同时固定了发生器G中的参数。MADN的ASL损失最大化了不同模态(可见和近红外)的类间距离,最小化了同一模态(可见或近红外)的类内距离,因此鉴别器可以通过最小化(4)来提取光谱相关特征。
另一方面,我们更新了发生器G中的参数,并固定了鉴别器D中的参数。MADN的ASL损失最大化了同一模态的类内距离,最小化了不同模态的类间距离,因此IDFLN可以通过最大化提取与频谱无关的特征。通过鉴别器上的“最小化过程”和发生器上的“最大化过程”,所设计的MADN能够有效地减小跨模态图像的间隙。
MADN:
生成器G包含Component1-3和2个AAS(I)。
对抗器D包含3个AAS(M),3个DRB,1个连接层和2个全连接层。
IDFLN:
包含Component1-4和3个AAS(I)和一个全连接层。
ADCANs:
包含MADN和IDFLN。先使用MS-Celeb-1M和softmax损失进行预训练,然后在进行微调。
三、Cross-Modality Attention Block(CmAB)
注意力模型可以引导网络选择重要特征,抑制噪声信息,提高网络的表示能力。
旨在提高网络的表征能力,并进一步期望他们分别关注与模态相关的特征和与身份相关的特征。
CmAB模块依次应用空间和通道注意力模块对IDFLN和MADN在通道注意上进行正交约束。
spatial attention module(空间注意力模块)
空间注意力模块旨在有效引导网络“聚焦何处”。我们聚集一个层的多个通道来产生一个空间注意力热图。
我们采用最大池化和平均池化来积累渠道信息。此外,卷积运算还用于自适应地调整感兴趣区域。
三个操作(包括最大池、卷积和平均池)并行进行。级联要素图层之后是卷积运算,以生成空间注意力图。最后,我们采用sigmoid函数将空间注意图转换到(0,1)的区间,并对强调或抑制的地方进行编码。
通道注意力模块
旨在指导网络“关注哪些功能”。整合空间信息,形成频道关注图。
最大池化和平均池化对聚集空间信息是有效的。我们将最大池化和平均池化引入通道注意力模块,以整合空间信息。为了自适应地聚集空间信息,我们进一步引入了卷积运算,然后是平均汇集和最大汇集,这两个汇集层的输出通过加法运算进行融合。然后,这三个聚集的特征映射被转发到共享的多层感知(MLP)网络,以生成信道注意力屏蔽。
具体来说,每个聚合特征映射将产生一个通道注意掩码,并且我们采用元素方式添加来合并三个通道注意掩码。最后,使用sigmoid函数将通道注意掩码转换为(0,1)的间隔。
N表示MLP网络,MLP网络是参数共享的,就只有一个。
结合:
× 表示逐元素相乘。Es表示沿通道轴扩展张量C倍的运算,Ec表示沿高轴扩展张量H倍并沿宽轴扩展张量W倍的运算。
四、损失函数
Advanced Scatter Loss(ASL):
基于SoftMax的损失函数包含一个额外的分类层,这将增加计算消耗和内存消耗,也可能出现过拟合问题。对比损失和三重损失会集中在困难样本上,容易受到噪声样本的影响。ASL侧重于困难个体,并根据个体中心计算类内和类间距离,使其对噪声样本具有鲁棒性。
ASL关注类间距离小的硬类别,增加它们之间的距离,可以更有效地增加类间距离,减少类内距离。
MADN损失:
IDFLN损失:
五、实验
CASIA NIR-VIS 2.0 DATASET:
OULU-CASIA NIR-VIS DATASET:
BUAA NIR-VIS DATASET
Adversarial disentanglement spectrum variations and cross-modality attention networks阅读笔记相关推荐
- Few-Shot Semantic Segmentation with Democratic Attention Networks阅读笔记
摘要 DAN机制可以激活更多的目标像素点,在support和query图像间构建一个稳固的关系. 介绍 目前大部分的小样本分割方法都是基于prototype来进行.这类方法用了一个两分支的编解码结构, ...
- Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记
Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记 0. 概述 如今一些深度 ...
- BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记
BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记 摘要 我们提出了一种新的用于促成训练时生成器和判别器实现均衡(Equil ...
- REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记
原文链接:http://cn.arxiv.org/pdf/1509.06664 读这篇论文的目的在于另一篇阅读理解的文章使用了这其中的方法 摘要部分 问题的引入,目前自然语言处理领域对于句子的蕴含关系 ...
- 《Reasoning about Entailment with Neural Attention》阅读笔记
题目直译的话就是使用神经网络注意力机制实现蕴涵推理,文章主要讲述了如何使用LSTM和Attention做英文阅读理解,结合数据集讲就是给出一段话或者说是上下文文本1(hypothesis),然后给出一 ...
- A NIR-to-VIS face recognition via part adaptive and relation attention module阅读笔记
2021 Computer Vision and Pattern Recognition Rushuang Xu, MyeongAh Cho, Sangyoun Lee 一.简介 许多研究集中在提取领 ...
- Occlusion Aware Facial Expression RecognitionUsing CNN With Attention Mechanism阅读笔记
论文链接:https://ieeexplore.ieee.org/document/8576656 代码链接:https://github.com/mysee1989/PG-CNN 主要目的 通过注意 ...
- Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation阅读笔记
Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Appr ...
- Small Object Detection using Context and Attention(论文阅读笔记)
Small Object Detection using Context and Attention 论文阅读笔记 出处:2021 International Conference on Artifi ...
最新文章
- nagios报警延迟的解决--flapping state
- 【GAN优化】GAN优化专栏上线,首谈生成模型与GAN基础
- HDU 4930 Fighting the Landlords(扯淡模拟题)
- java 文件流读取文本_如何在Java 8中处理流和读取文本文件
- mysql修改表编码为ytf8_如何修复“TypeError:x和y必须具有相同的数据类型,got”tf.uint8型!= tf.float32型“当我试图以十为单位调整图像大小时...
- LuoguP2764 最小路径覆盖问题(最大流)
- PHP肥料源码_PHP农场养殖游戏巨人农场复利平台源码带抽奖
- Matlab/yalmip工具编写自动驾驶模型预测控制(MPC)代码
- linux mq发送测试消息,MQ消息队列搭建命令及方法
- SVN目录对号图标(更新、冲突)不显示
- 视频流媒体直播系统---------BroadVision WebTV
- JavaScript之切换背景图片(并使)背景栏保持和背景色调相似
- 前端配色方案:最舒服的十种颜色
- 写给两个月前的自己的一封信
- sqlserver进阶必会基础入门不止select into from 插入数据必知
- ln x的matlab表示,matlab中ln怎么表示
- 数据结构和算法——kd树
- oracle改字体大小_sqlplus改字体
- java byte short_Java Byte shortValue()方法
- 前端基础_配置IIS服务器