[论文翻译] Active Learning by Feature Mixing

论文地址：https://arxiv.org/abs/2203.07034
代码：https://github.com/aminparvaneh/alpha_mix_active_learning
发表于：CVPR 22

这里只对方法部分进行翻译

III. Methodology

A. Problem Definition

在不失一般性的情况下，我们认为我们的学习目标是训练一个有监督的多类分类问题，有KKK个类。一个学习者在与专家的交互迭代中被主动训练。在每个迭代中，这个主动学习者可以访问一小部分标记数据Dl={(xi,yi)}i=0M\mathcal{D}^{l}=\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=0}^{M}Dl={(xi,yi)}i=0M，其中xi∈X\boldsymbol{x}_{i} \in \mathcal{X}xi∈X代表输入(例如一张图片或一个视频片段)，yi∈{1,..,K}y_{i}∈\{1, . . , K\}yi∈{1,..,K}代表相关的类别标签。学习者还可以访问一组未标记的数据Du\mathcal{D}^{u}Du，从中选择BBB个实例，由专家进行标记。然后，被标记的样本被添加到Dl\mathcal{D}^{l}Dl中以更新模型。该模型的性能是在一个未见过的测试数据集上评估的。

学习器是一个深度神经网络f=fc⊙fef=f_{c} \odot f_{e}f=fc⊙fe，参数为θ={θe,θc}\boldsymbol{\theta}=\left\{\boldsymbol{\theta}_{e}, \boldsymbol{\theta}_{c}\right\}θ={θe,θc}。在这里，fe:X→RDf_{e}: \mathcal{X} \rightarrow \mathbb{R}^{D}fe:X→RD为backbone，它将输入编码到一个DDD维的潜在空间表示，即z=fe(x;θe)\boldsymbol{z}=f_{e}\left(\boldsymbol{x} ; \boldsymbol{\theta}_{e}\right)z=fe(x;θe)。此外，fc:RD→RKf_c: \mathbb{R}^{D} \rightarrow \mathbb{R}^{K}fc:RD→RK是一个分类器，例如多层感知机(MLP)，它将实例从它们的表示形式映射到相应的logits，可以通过p(y∣z;θ)=softmax⁡(fc(z;θc))p(y \mid \boldsymbol{z} ; \boldsymbol{\theta})=\operatorname{softmax}\left(f_{c}\left(\boldsymbol{z} ; \boldsymbol{\theta}_{c}\right)\right)p(y∣z;θ)=softmax(fc(z;θc))表示为类的风格。我们通过最小化标记集上的交叉熵损失来优化端到端参数：E(x,y)∼Dl[ℓ(fc⊙fe(x;θ),y)]\mathbb{E}_{(\boldsymbol{x}, y) \sim \mathcal{D}^{l}}\left[\ell\left(f_{c} \odot f_{e}(\boldsymbol{x} ; \boldsymbol{\theta}), y\right)\right]E(x,y)∼Dl[ℓ(fc⊙fe(x;θ),y)]。对一个不可见的实例的标签(即伪标签)的预测是yz∗=arg⁡max⁡yfcy(z;θc)y_{\boldsymbol{z}}^{*}=\arg \max _{y} f_{c}^{y}\left(\boldsymbol{z} ; \boldsymbol{\theta}_{c}\right)yz∗=argmaxyfcy(z;θc)其中z=fe(x;θe)\boldsymbol{z}=f_{e}\left(\boldsymbol{x} ; \boldsymbol{\theta}_{e}\right)z=fe(x;θe)和fcyf_c^yfcy是yyy类的logit输出。此外，预测标签的logit被表示为fc∗(z):=fcyz∗(z)f_{c}^{*}(\boldsymbol{z}):=f_{c}^{y_{z}^{*}}(\boldsymbol{z})fc∗(z):=fcyz∗(z)。我们也表示Zu={fe(x),∀x∈Du}\boldsymbol{Z}^{u}=\left\{f_{e}(\boldsymbol{x}), \forall \boldsymbol{x} \in \mathcal{D}^{u}\right\}Zu={fe(x),∀x∈Du}为无标记数据表示集，Zl\boldsymbol{Z}^{l}Zl为有标记数据表示集。我们计算每个类的标记样本的平均表征z⋆\boldsymbol{z}^{\star}z⋆，并称之为锚。所有类的锚形成锚集Z⋆\boldsymbol{Z}^{\star}Z⋆，并作为已标记实例的代表。

B. Feature Mixing

潜在空间的特征在识别最有价值的待标注样本方面起着关键作用。我们的直觉是，模型的错误预测主要是由于输入中无法识别的新的"特征"。因此，我们通过首先探测模型学到的特征来处理AL问题。为此，我们使用特征的凸组合(即插值)作为探索每个未标记点附近的新特征的方法。具体来说，我们认为我们在未标记实例和标记实例之间的插值，分别为zuz^uzu和z⋆z^{\star}z⋆ (为了清楚起见，我们在这里使用标记的锚)为z~α=αz⋆+(1−α)zu\tilde{z}_{\alpha}=\alpha z^{\star}+(1-\alpha) z^{u}z~α=αz⋆+(1−α)zu，其中插值率α∈[0,1)D\boldsymbol{\alpha} \in[0,1)^{D}α∈[0,1)D。这个过程可以看作是对新实例进行采样的一种方式，不需要明确地对有标签和无标签的实例的联合概率进行建模，即：z∼p(z∣zu,Z⋆,α)≡αz⋆+(1−α)zu,z⋆∼Z⋆\boldsymbol{z} \sim p\left(\boldsymbol{z} \mid \boldsymbol{z}^{u}, \boldsymbol{Z}^{\star}, \boldsymbol{\alpha}\right) \equiv \boldsymbol{\alpha} \boldsymbol{z}^{\star}+(1-\boldsymbol{\alpha}) \boldsymbol{z}^{u}, \quad \boldsymbol{z}^{\star} \sim \boldsymbol{Z}^{\star} z∼p(z∣zu,Z⋆,α)≡αz⋆+(1−α)zu,z⋆∼Z⋆ 我们考虑用所有代表不同类别的锚点来插值一个无标签的实例，通过考虑模型的预测如何变化来发现足够明显的特征。为此，我们调查了无标签实例的伪标签(即y⋆y^{\star}y⋆)的变化以及插值所产生的损失。我们期望一个足够小的插值与标记的数据应该不会对每个未标记的点的预测标签产生相应的影响。

使用一阶泰勒展开(zuz^uzu)，模型在预测无标签实例与有标签实例插值时的伪标签的损失可以改写为：ℓ(fc(z~α),y∗)≈ℓ(fc(zu),y∗)+(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗)\begin{aligned} \ell\left(f_{c}\left(\tilde{\boldsymbol{z}}_{\boldsymbol{\alpha}}\right), y^{*}\right) \approx & \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right)+\\ &\left(\boldsymbol{\alpha}\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right)\right)^{\boldsymbol{\top}} \cdot \nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right) \end{aligned} ℓ(fc(z~α),y∗)≈ℓ(fc(zu),y∗)+(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗) 对于一个足够小的α\boldsymbol{\alpha}α，例如∥α∥≤ϵ\|\boldsymbol{\alpha}\| \leq \epsilon∥α∥≤ϵ，几乎是精确的。因此，对于完整的标记集，通过选择两边的最大损失，我们有：max⁡z⋆∼Z⋆[ℓ(fc(z~α),y∗)]−ℓ(fc(zu),y∗)≈max⁡z⋆∼Z⋆[(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗)]\begin{aligned} \max _{\boldsymbol{z}^{\star} \sim \boldsymbol{Z}^{\star}} & {\left[\ell\left(f_{c}\left(\tilde{\boldsymbol{z}}_{\boldsymbol{\alpha}}\right), y^{*}\right)\right]-\ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right) \approx } \\ & \max _{\boldsymbol{z}^{\star} \sim \boldsymbol{Z}^{\star}}\left[\left(\boldsymbol{\alpha}\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right)\right)^{\top} \cdot \nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right)\right] \end{aligned} z⋆∼Z⋆max[ℓ(fc(z~α),y∗)]−ℓ(fc(zu),y∗)≈z⋆∼Z⋆max[(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗)] 直观地说，在进行插值时，损失的变化与两个条件成正比：

(a)z∗z^{*}z∗和zuz^{u}zu的特征之差与它们的插值α\boldsymbol{\alpha}α成正比
(b)损失的梯度与未标记的实例的关系

前者决定了哪些特征是新的，以及它们的价值在有标签和无标签的实例之间如何不同。另一方面，后者决定了模型对这些特征的敏感性。也就是说，如果有标签的实例和无标签的实例的特征完全不同，但模型是合理一致的，那么损失最终没有变化，因此这些特征不被认为是模型的新特征。

α\boldsymbol{\alpha}α的选择是针对输入的，决定了要选择的特征。因此，在第3.C节中，我们介绍了寻找α\boldsymbol{\alpha}α合适值的闭式解决方案。最后，我们注意到这里利用的插值法有一些有趣的特性，将在支撑材料中进一步讨论。

C. Optimising the Interpolation Parameter α\alphaα

由于手动选择α\boldsymbol{\alpha}α的值是不容易的，我们设计了一个简单的优化方法，为一个给定的未标记的实例选择适当的值。为此，我们注意到，从公式(3)中可以看出，当我们选择α\boldsymbol{\alpha}α使插值点的损失最大化时，是损失变化最大的最坏情况(细节见支撑材料)。然而，利用公式(3)的等号右侧，我们设计了一种新的公式(3)，我们设计出选择α\boldsymbol{\alpha}α的目标为：α∗=arg⁡max⁡∥α∥≤ϵ(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗)\boldsymbol{\alpha}^{*}=\underset{\|\boldsymbol{\alpha}\| \leq \epsilon}{\arg \max }\left(\boldsymbol{\alpha}\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right)\right)^{\top} \cdot \nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right) α∗=∥α∥≤ϵargmax(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗) 其中ϵ\epsilonϵ是管理混合程度的一个超参数。直观地说，这种优化为每个未标记的实例和锚点选择了最难的α\boldsymbol{\alpha}α情况。我们使用二范数公式对这个优化的解决方案进行近似，在使用二范数的情况下，可以得到：α∗≈ϵ∥(z⋆−zu)∥2∇zuℓ(fc(zu),y∗)∥∇zuℓ(fc(zu),y∗)∥2⊘(z⋆−zu)\boldsymbol{\alpha}^{*} \approx \epsilon \frac{\left\|\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right)\right\|_{2} \nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right)}{\left\|\nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right)\right\|_{2}} \oslash\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right) α∗≈ϵ∥∇zuℓ(fc(zu),y∗)∥2∥(z⋆−zu)∥2∇zuℓ(fc(zu),y∗)⊘(z⋆−zu) 其中代表⊘\oslash⊘元素级的除法(进一步的细节详见附录)。这种近似方法使插值参数的优化变得有效，我们的实验表明，与直接优化插值参数相比，它不会对最终结果产生明显的不利影响。对最终结果的影响，而不是直接优化α\boldsymbol{\alpha}α，使损失最大化。

D. Candidate Selection

对于AL来说，根据公式(3)，选择那些损失随着插值而大幅改变的实例进行查询是合理的。这对应于那些模型的预测发生变化并具有新特征的实例。直观地说，如图2(a)所示，这些样本被放置在潜在空间的决策边界附近。另外，当模型对输入特征的识别有合理的信心时，我们期望小的插值不应该影响模型的损失。然后，我们创建我们的候选集为：I={zu∈Zu∣∃z⋆∈Z⋆,fc∗(z~α)≠yzu∗}\mathcal{I}=\left\{\boldsymbol{z}^{u} \in \boldsymbol{Z}^{u} \mid \exists \boldsymbol{z}^{\star} \in \boldsymbol{Z}^{\star}, f_{c}^{*}\left(\tilde{\boldsymbol{z}}_{\boldsymbol{\alpha}}\right) \neq y_{\boldsymbol{z}^{u}}^{*}\right\} I={zu∈Zu∣∃z⋆∈Z⋆,fc∗(z~α)=yzu∗} 此外，在理想情况下，我们寻求多样化的样本，因为I\mathcal{I}I中的大多数实例可能是从同一区域选择的(即它们可能具有相同的新特征)。为此，我们建议将I\mathcal{I}I中的实例根据其特征的相似性分为BBB组，并进一步选择离每个组中心最近的样本，由专家进行标记。这就保证了I\mathcal{I}I样本所代表的空间密度可以通过B实例得到合理的近似。我们简单地使用k-MEANS，它被广泛使用。类似的策略也被[3]用来鼓励多样性。我们的方法在算法1中进行了总结。