【论文阅读】CVPR2023 ||CFA: Class-wise Calibrated Fair Adversarial Training

论文链接：http://arxiv.org/abs/2303.14460v1

代码地址：GitHub - PKU-ML/CFA

Introduction

Observations on Class-wise Robustness

Fluctuation Effect

Class-wise Calibrated Fair Adversarial Training

Class-wise Calibrated Margin (CCM)

Class-wise Calibrated Regularization (CCR)

Fairness Aware Weight Average (FAWA)

Discussion

摘要：对抗训练被广泛认为是提高深度神经网络(DNN)对对抗示例的对抗鲁棒性的最有效方法。到目前为止，大多数现有的工作都集中在增强整体模型的鲁棒性上，在训练和测试阶段平等地对待每个类。虽然揭示了类之间鲁棒性的差异，但很少有作品试图在不牺牲整体鲁棒性的情况下使类水平上的对抗性训练公平。在本文中，我们首先从理论上和经验上研究了不同类别对对抗配置的偏好，包括扰动边际、正则化和加权平均。受此启发，我们进一步提出了一个分类校准公平对抗训练框架，命名为CFA，它自动为每个类别定制特定的训练配置。在基准数据集上的实验表明，与其他最先进的方法相比，我们提出的CFA可以显著提高整体鲁棒性和公平性。

Introduction

普通的对抗训练：

TRADES[30]是AT的一个变体，它增加了一个正则化项来调整鲁棒性和准确性之间的权衡

其中K(·)为KL散度，β为调整鲁棒性-精度权衡的鲁棒性正则化。

在对抗训练模型中，类鲁棒性之间仍然存在明显的差异，即模型可能在某些类上表现出很强的鲁棒性，而在其他类上则可能非常脆弱。

本文首先提出了一些关于不同对抗性配置如何影响类的鲁棒性的理论见解，并揭示了强攻击可能对硬类(具有较低干净准确性的类)有害。此外，我们观察到，在训练过程中，类之间的最差鲁棒性在不同时期之间波动显著。受这些观察结果的启发，我们建议为每个类别动态定制不同的训练配置，我们还关注类校准鲁棒性的公平性。此外，我们修改了加权平均技术，以解决训练过程中的波动问题。总的来说，我们将提出的框架命名为类别校准公平对抗训练(CFA)。

我们在理论和经验上都表明，不同的课程需要适当的培训配置。此外，我们揭示了在对抗训练中最差类鲁棒性的波动效应，这表明选择具有最佳整体鲁棒性的模型可能导致鲁棒公平性较差。
我们提出了一种新的方法，称为分类校准公平对抗训练(CFA)，它在训练阶段动态定制不同类的对抗配置，并修改加权平均技术以提高和稳定最差类的鲁棒性。
在基准数据集上的实验表明，我们的CFA在整体稳健性和公平性方面优于最先进的方法，并且可以很容易地结合到其他对抗性训练方法中，以进一步提高其性能。

Observations on Class-wise Robustness

在本节中，我们介绍了在不同配置下对抗性训练的模型的类校准鲁棒性的经验观察。以vanilla AT[16]和TRADES[30]为例，我们比较了训练配置中的两个关键因素:扰动裕度ε在香草A T和正则化β在TRADES。我们还揭示了训练过程中最差类鲁棒性的波动效应，这对对抗训练中的鲁棒公平性有显著影响。

Different Margins

在vanilla A T[16]之后，我们在CIFAR10数据集[14]上训练了8个模型，其具有l∞范数扰动裕度ε从2/255到16/255，并分析它们的整体和分类鲁棒性。

总体稳健性比较如图2(a)所示。直观地说，使用更大的裕度可以带来更好的健壮性。

从图2(b)可以看出，更大的训练裕度ε不一定会产生更好的类健壮性。对于具有较高鲁棒性的简单类，ε从2/255增大到16/255时其鲁棒性单调增加。相比之下，对于硬类(尤其是2、3、4类)，ε从8/255增大到16/255时其鲁棒性在降低。然而，对于图2(c)中的最后几个检查点，我们可以看到当ε增大时鲁棒精度也在增大。回顾整体的鲁棒性，我们可以总结，类的鲁棒性主要是通过减少最后一个检查点的鲁棒过拟合问题来提高的。这可以解释为什么公平稳健学习(FRL)[29]可以通过扩大硬类的边际来提高稳健公平性，因为模型减少了这些类的过拟合问题。考虑到最后一个检查点的整体鲁棒性较低(但鲁棒公平性更好)，我们希望在总体鲁棒性相对较高的情况下提高最佳情况下的鲁棒公平性。

综上所述，在最好的情况下，较大的扰动对硬类（分类难度较大的类）是有害的，而在训练后期可以轻微地提高类的鲁棒性。对于简单的类，在最佳和最后的检查点处更大的扰动是有用的。因此，对每一类都需要一个特定的、适当的摄动裕度。

Different Regularizations

在本节中，我们还对TRADES中鲁棒性正则化β的选择进行了类似的实验。我们比较了在CIFAR10上训练的模型，β值从1到8，并绘制了图3中第151 - 170个epoch (TRADES表现最佳)的平均类别鲁棒性和干净精度。

我们可以看到，对于简单类，改进β可以以很少的干净精度降低为代价提高其鲁棒性，而对于硬类(例如，2、3、4类)，改进β只能获得有限的鲁棒性提高，但会显著降低干净精度。本文也指出每一类都存在一个合适的βy。

Fluctuation Effect

在本节中，我们揭示了对抗训练期间分类校准鲁棒性波动的一个有趣性质。

在图4(a)中，我们绘制了vanilla A T中总体鲁棒性、最差类鲁棒性以及相邻时代之间最差鲁棒性的方差。虽然总体鲁棒性在相邻的检查点之间趋于更稳定(除非学习率下降)，但最差的类鲁棒性波动很大。特别是，在101 - 120个epoch之间的许多相邻检查点在最差类稳健性上表现出近10%的差异，而总体稳健性的变化可以忽略不计(小于1%)。因此，以前广泛使用的基于整体鲁棒性选择最佳检查点的方法可能会导致极不公平的模型。以绘制的训练过程为例，该模型在第108 epoch的鲁棒准确率最高，达到53.2%，而在最差类别上的鲁棒准确率仅为23.5%。相比之下，在epoch 110的检查点具有52.6%的总体和28.1%的最差类鲁棒性准确性，在考虑公平性时是首选。

Class-wise Calibrated Fair Adversarial Training

根据上述分析，我们在本节中介绍了我们提出的类别校准公平对抗训练(CFA)框架。总体而言，CFA框架由三个主要部分组成:自定义分类校准扰动边际(CCM)、自定义分类校准正则化(CCR)和公平感知加权平均(FAWA)。CCM和CCR为不同的类定制适当的训练配置，FAWA修改加权平均以提高和稳定公平性。

Class-wise Calibrated Margin (CCM)

本文提出利用基于类的训练准确性作为难度的度量。

假设第k类在最后一个训练历元中达到训练鲁棒精度tk∈[0,1]。在下一个时代，我们的目标是基于tk更新k类的边际k。我们对更容易受到攻击的硬类使用相对较小的裕度，并通过从上一个时代跟踪的训练鲁棒精度来识别类之间的难度。为了避免k过小，我们在所有tk上添加了一个超参数λ1(称为基本扰动预算)，并通过乘以原始边缘系数来设置校准余量k:（更容易受到攻击→鲁棒精度小→tk小→ε小）

（6）

注意校准后的余量k可以自适应收敛，在训练阶段找到合适的范围，例如，如果余量对于k类太小，模型将执行高训练鲁棒精度tk，然后通过调度(6)增加k。

Class-wise Calibrated Regularization (CCR)

我们进一步针对不同的类别定制不同的TRADE 鲁棒正则化β。回想一下TRADES的目标函数(3)，我们希望硬类倾向于有更大的权重给它的干净精度，尽管如此，我们还是通过k类的训练鲁棒精度tk来衡量难度，并提出以下校准鲁棒正则化βk。（鲁棒精度tk小→β小→更关注干净精度）

（7）

其中β为最初选择的参数。目标函数(3)可重写为:

（8）

为了平衡不同类别之间的权重，我们添加了一个分母1 + βy，因为βy在类别之间是不同的。因此，对于具有较低βy的硬类，其自然损失L(θ)倾向于较高的权重（干净精度）。注意，简单地替换ε在(8)与εk可以结合校准边缘与这个校准正则化。另一方面，对于一般的对抗性训练算法，我们的校准余量计划(6)也可以组合起来。

Fairness Aware Weight Average (FAWA)

如图4(a)所示，最差类鲁棒性变化很大，其中部分检查点鲁棒性公平性极差。在此之前，有一系列的加权平均方法使模型训练稳定，如指数移动平均(EMA)[13,23]，因此我们希望通过固定加权平均算法来进一步提高最差类鲁棒性。

受检查点之间鲁棒性公平性波动较大的启发，我们考虑在加权平均过程中剔除不公平的检查点。为此，我们提出了一种公平感知权重平均(FAWA)方法，该方法对EMA过程中新检查点的最差类鲁棒性设置阈值δ。具体来说，我们从数据集中提取一个验证集，当且仅当其最差类鲁棒性高于δ时，每个检查点在权重平均过程中被采用。图4(b)显示了所提出的FAWA的效果，相邻时期之间的差异非常小(小于1%)，整体鲁棒性也优于普通的FAWA。

Discussion

总的来说，通过结合上述组件，我们完成了CFA框架。算法1显示了将CFA纳入TRADES的示例。请注意，对于其他方法，如AT，我们仍然可以通过删除为TRADES指定的CCR计划来合并CFA。此外，我们还讨论了我们提出的CFA与其他作品的区别。