【论文笔记】Semi-Supervised Active Learning with Temporal Output Discrepancy(ICCV 2021)

论文：Semi-Supervised Active Learning with Temporal Output Discrepancy
代码：https://github.com/siyuhuang/TOD

摘要

基于损失越大的样本通常对模型的信息量越大的思想，本文提出了一种新的深度主动学习方法，筛选出具有高损失值的样本。我们方法的核心是时序输出矛盾性（Temporal Output Discrepancy, TOD），即模型在不同iteration过程中给出的预测差异。我们的理论研究表明TOD为累积样本损失的下限，所以可以用来选择信息丰富的未标记样本。在TOD的基础上，我们进一步开发了一种有效的数据采样策略以及利用未标记的数据的学习方式，选择轮次输出矛盾性COD（TOD为iteration之间，COD为epoch之间）最大的作为标注的对象。本文所提的方法满足任务不可知性，图像分类和语义分割任务的实验结果表明了方法的有效性。

1. 介绍

2. 相关工作

3. 时序输出矛盾性（Temporal Output Discrepancy）

定义模型f在iteration=t+T 和iteration=t的时序输出矛盾性TOD为：

之后，本文通过一系列推导证明了DtT(x)D_{t}^{T}(x)DtT(x)值越大，样本损失Lt(x)L_{t}(x)Lt(x)越大。
定理一: 在学习率η\etaη在适当大小时，用泰勒一阶展开，可以范数的性质可以推导出T=1的情况下，TOD的上界：
进一步可以推论出T步长的TOD的上界为：

在神经网络中，理论和实验证明了
在训练期间可以被看成一个常数C，那么最终得到的TOD的上界为：

公式（4）说明了TOD是样本损失（常见的预测输出和标签差值之间的二范数或者交叉熵）的下界。那么T固定时，TOD可以有效的估计样本xxx的样本损失。注意学习率不能太大，因为泰勒展开中的差值要满足足够小的性质。

4. 半监督主动学习（Semi-Supervised Active Learning）

4.1. 问题定义

主动学习的基于pool数据池的方式，不再赘述。基于TOD，一方面可以推导出循环输出矛盾性（Cyclic Output Discrepancy，COD），作为选择未标注样本的依据（选COD最大的一批标注）；另一方面TOD可以作为半监督学习中无标注样本的损失参与训练。

4.2. 循环输出矛盾性（Cyclic Output Discrepancy）

在每一个主动学习轮次中，先用当前所有已标注的数据集上训练到收敛，然后用pool-based的方式选择TOD值最高的一批未标注样本送给专家标注。文章通过实验表明提出的TOD数据与未标注样本真实的损失值是成正比的，那么在选择TOD值最大的样本训练收敛后，未来预期的样本TOD也就减小了。本文将这种优化称为Minimax最优化。

定义COD为两个连续主动学习轮次之间的模型参数差的范数：

COD将在半监督训练的模式下作为无标注样本的损失。

4.3. 半监督任务学习（Semi-Supervised Task Learning）

无监督损失：按照mean teacher的模式，将当前模型参数的指数移动平均作为作为更新基线模型参数的标准：

在第c轮次针对无标注的样本，最小化当前模型和基线模型的输出预测差：

分类任务损失：在当前主动学习第c轮次中，针对所有已标注样本，最小化交叉熵损失：

综合以上，最终半监督学习方式下训练的损失函数为分类任务损失和无监督损失的加权和：

5. 实验

本文在图像分类和语义分割任务都进行了实验，每种样本选择策略的实验是采用三次不同初始化标注数据和模型参数得到的平均结果。

5.1. 评价TOD作为真实损失值近似的合理性

图5展示了采用TOD作为选择样本的标准，得到的每个轮次中真实损失最高的未标注样本，其损失均值随着主动学习策略选择的进行逐渐下降。图6中本文算法对比LL4AL，可以看到TOD算法在每个轮次中更能捕捉到真实损失最大的一批样本。以上实验表明了TOD作为真实损失值近似的合理性。

5.2. 在图像分类任务上的表现

采用的分类网路为ResNet-18，在Cifar-10, Cifar-100, SVHN和Caltech-101数据集上的表现如图7所示。可以看出：
(1)本文提出的主动学习方法优越于之前的sota方法，说明了选择策略的有效性;
(2)半监督模式下的训练方式强于只用全监督训练的方式，表明本文提出的半监督学习方式有效的利用了无标注数据;
(3)在cifar10和SVHN数据集上只用了40%的训练数据就达到了使用全部数据训练(图线中Full Training)的性能，说明了一些训练样本对模型学习无益甚至有害。

在cifar10和cifar100上只用40%的训练数据，对比不同的方法的性能如表格1。可以看出性能比较为：Base<Base+Semi<Base+Active<Base+Semi+Active，这说明本文提出的主动学习算法有效的增强了全监督和半监督学习的方式。

5.3. 在语义分割上的表现
采用22层DRN-D分割网络，在cityscapes数据集上的表现如下图8所示，可以看出半监督和全监督训练模式下本文提出的算法都要优于其他主动学习策略，数据集图像尺寸有2048*1024，所以本文认为提出的算法对任务和数据复杂度都鲁棒。

6.结论
本文提出了一种简单而有效的深度主动学习方法，方法关键是测量TOD，通过评估模型在不同迭代步数下的输出差值来估计未标记样本的损失，理论上证明了TOD的下限是累积样本损失。在TOD的基础上，本文提出了一种无标记数据采样策略和一种半监督学习方法，并通过图像分类和语义分割任务上的实验证明了方法的有效性。