Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

论文题目：自适应一致性正则化方法用于半监督迁移学习
作者单位：百度大数据研究院
作者：Abulikemu Abuduweili
代码地址：https://github.com/SHI-Labs/Semi-Supervised-Transfer-Learning

摘要

近来，半监督学习模型在处理带标签数据不全的任务中有着优异的表现。但它们的参数都是随机初始化的。而本文是结合了迁移学习和半监督学习，即利用预训练模型和半监督所用的标记/未标记的数据达到更好的效果。如何结合二者，本文引入了自适应一致性正则化方法。它由两个互补的组件组成：源模型和目标模型之间的自适应一致性，有标签和无标签数据支架的自适应一致性。一致性正则化的例子是根据它们对目标任务的潜在贡献进行自适应的选择。
现有的最先进的半监督方法：伪标签，Mean Teacher，Fix Match（固定匹配）.
实验数据集： CIFAR-10, CUB-200, and MURA。

小结：本文提出了结合半监督+迁移两种方法的思想，并设计了一个自适应一致性正则化方法来加以实现。所以懂得这几个方面的知识就算合格了。

引言：
半监督学习的优点比比皆是，当然对比对象是监督学习，能够更好的利用带标签和无标签的数据，具有更广泛的应用性。现有的SOTA方法主要有三类：基于正则化方法的一致性、熵最小化、伪标签。
本文从大规模数据集的一般目的性出发来考虑，就像ImageNet和Places 365。
而迁移学习的强大在于，在这些庞大数据集训练过后，在别的应用场景下依然有着非常好的泛化能力。

在说完这两个方法的优点后，本文得着重提一句：半监督学习对于预训练模型的微调作用可能不明显，但没有人系统的研究这个问题。是的，本文就来研究研究！

所以本文的贡献如下：
1、首次提出半监督迁移学习深度神经网络框架。
2、引入了自适应一致性正则化方法。
3、实验结果优于经典的半监督学习方法，并且能够对fixMatch和MixMatch有额外的提升。

框架

本文的重点在此，流程如下：
将带标签的和无标签的图像输入到源特征提取器和目标特征提取器中，分别得到标签的特征图，然后一部分经过AKC模块，（Adaptive Knowledge Consistency，一个正则化块。），另一部分经过特定的分类器得到相应的预测结果，并且不同的特征提取器对应不同路线的输出，使用正则化模块来对模型的特征提取进行微调。对于源特征提取器，使用交叉熵门控来调控，而对于目标特征提取器，使用半监督的一致性损失和交叉熵损失来共同调控，当然，交叉熵对应有标签的数据而一致性则针对无标签数据。
重中之重 ACK

Adaptive Knowledge Consistency

自适应一致性正则化，这里涉及到知识蒸馏的一部分知识就不赘述，虽然与以往的研究不同，但我们同时使用标记数据和未标记数据作为知识转移的桥梁，并施加自适应样本的重要性，以防止两个数据集之间的差异导致的负转移。
本文使用KL散度或均方误差，来衡量预训练特征提取器和目标特征提取器在数据集上的相似度差异。
在我们的设置中，定义L=xliBl∈DtlL = {x^i_l}^{B_l} ∈D^l_tL=xliBl∈Dtl
R的表达式可归于一下：
RK=1Bl+Bu∑xi∈L∪UwKiKL(Fθo,Fθ(xi))R_K = \frac{1}{B_l + Bu} \sum_x^i∈L∪U{w^i_KKL(F_{θo}, F_θ(x^i))}RK=Bl+Bu1∑xi∈L∪UwKiKL(Fθo,Fθ(xi))
在计算样本重要性参数wKiw^i_KwKi时，本文将预训练模型的参数θoθ^oθo和φoφ^oφo取平均。
wKi=G(H(Psi))=G(−∑j=1CsPs,jilog(Ps,ji))w^i_K=G(H(P^i_s)) =G(-\sum^{C_s}_{j=1}{P^i_{s,j}log(P^i_{s,j})})wKi=G(H(Psi))=G(−∑j=1CsPs,jilog(Ps,ji))
其中X是输入张量，得到最后的分类结果使用熵计算样本x的权重。
G是熵门控，并设计了一个阈值判定式来限制w的取值。
wKi=I(H(Psi)<=ǫK)w^i_K=I(H(P^i_s) <= ǫ_K)wKi=I(H(Psi)<=ǫK)

Adaptive Representation Consistency

本文引入了另一个强制性正则化器，自适应分布一致性。为了解决过拟合问题。因为无标签的样本中也有数据结构的信息，将这些无标签的样本整合起来能够提高模型的泛化能力。所以，本文使用经典的矩阵最大化平均差异（MMD，(求不同样本在function熵的函数值的均值，就可以得到两个分布之间的差异值，function一般取高斯核函数（RBF）):
MMD(Qv,Qu)=∣∣1m∑i=1mk(vi)−1n∑j=1nk(uj)∣∣2MMD(Q_v, Q_u) = ||\frac{1}{m}\sum^m_{i=1}{k(v^i)-\frac{1}{n}\sum^n_{j=1}{k(u^j)}} ||^2MMD(Qv,Qu)=∣∣m1∑i=1mk(vi)−n1∑j=1nk(uj)∣∣2
k是核函数。
使用MMd方法能够对有标签数据和无标签数据的分布进行判断。
而这个限制依旧存在着个严重问题：目标模型是逐步学习得来的，所以在训练的早期，无标签数据的多少并不能影响数据表示的分布准确性。
为了克服这个问题，本文使用样本采样方法，并计算熵的softmax值，只有置信度达标的样本才能参与模型的训练。

模型的总结
本文就是将两种思想融合起来，并使用具体的方法来解决相应的问题，AKC也好，ARC也好，都是具体的方法。精髓已得，下面看实验结果便是。

实验结果

实验量是一篇论文的核心，所以在阅读论文的过程中要体会到实验都重要性，CVPR的论文对此要求更是严格，所以请读者们注意到这个问题！

有收获就支持一下作者吧！~~

论文阅读 Adaptive Consistency Regularization for Semi-Supervised Transfer Learning相关推荐

论文阅读【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...
论文阅读：Natural Language Processing Advancements By Deep Learning: A Survey
文章目录一.介绍二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机三.NLP领域的核心概念 ...
强化学习泛化性综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING
强化学习泛化性综述论文阅读摘要一.介绍二.相关工作:强化学习子领域的survey 三.强化学习中的泛化的形式 3.1 监督学习中泛化性 3.2 强化学习泛化性背景 3.3 上下文马尔可夫决策过 ...
【论文阅读】Misshapen Pelvis Landmark Detection WithLocal-Global Feature Learning for DiagnosingDevelop
作者及团队:刘川斌 Chuanbin Liu; 谢洪涛; 张思成; 毛振东; 孙俊; 张永东会议及时间:IEEE Transactions on Medical Imaging 2020-12| 期 ...
【论文阅读】Search-Based Testing Approach for Deep Reinforcement Learning Agents
文章目录一.论文信息二.论文结构三.论文内容 Abstract 摘要一.论文信息题目: Search-Based Testing Approach for DeepReinforcement ...
论文阅读:Adaptive Graph Convolution for Point Cloud analysis
自适应图卷积用于点云分析论文地址: https://arxiv.org/pdf/2108.08035. 代码地址: https://github.com/hrzhou2/AdaptConv-mast ...
[论文阅读] Adaptive Context Selection for Polyp Segmentation
论文地址:https://doi.org/10.1007/978-3-030-59725-2_25 代码:https://github.com/ReaFly/ACSNet 发表于:MICCAI'20 ...
论文阅读—Adaptive Graph Encoder for Attributed Graph Embedding
Adaptive Graph Encoder for Attributed Graph Embedding(属性图嵌入的自适应图编码器) 文章目录 Adaptive Graph Encoder for ...
论文阅读CLAM：Data-efficient and weakly supervised computational pathology on whole-slide images
全视野数字切片(幻灯片/WSIs)图像的数据高效和弱监督的计算病理学一．WSIs图像介绍主要应用于病理学细胞图像领域,即组织载玻片到数字格式的转换. 每张内存大,可以放大倍 ...

论文阅读 Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

摘要

相关工作

深度迁移学习

微调

域自适应

few-shot learning

半监督学习

一致性正则化

半监督迁移

框架

Adaptive Knowledge Consistency

Adaptive Representation Consistency

实验结果

论文阅读 Adaptive Consistency Regularization for Semi-Supervised Transfer Learning相关推荐

最新文章

热门文章