动机

图像的语义信息 (semantic information) 是指与图像内容有关的信息，如图片的背景、图片中物体的颜色、视角等。图像中常用的数据增广 (Data Augmentation, DA) 方式，如剪裁、翻转、旋转等，都不涉及语义信息的变换，无法发挥出DA真正的作用。而其他涉及语义信息的DA方式，如GAN，先对每个类训练一个GAN，然后可以用generator生成无数多的样本，这些样本就相当于是在语义信息层面做DA得到的。然而GAN的训练是比较复杂的，也依赖于数据量，因此这种DA方式并不简单。

而这篇文章提出的ISDA，在特征空间进行增广，实现语义信息的变换，而且通过估计每个类的分布，巧妙地把DA问题体现在一个loss函数上，几乎不引入额外的开销。下面我们来讨论一下这篇文章。

特征空间的语义变换

由于特征是经过一个deep network得到的，包含了丰富的语音信息（如颜色、视角、背景等），因此要实现语义的变换，可以在特征空间中进行。这里先介绍一下在特征空间中的语义变换。

如上图所示，在特征空间中不同语义信息的方向是不同的。中间的点为原始样本得到的特征，朝蓝色箭头方向是改变视角，绿色箭头方向是改变背景，而红色箭头是改变颜色。

而且，不同类别具有不同的语义信息。如上图，假设有一个person的类，那肯定getting order、wearing glasses这些方向对该类更有用，而这些方向对car这个类是毫无意义的，car朝这些方向进行增广并不会有任何好处，反而只会增加网络的负担。因此需要先对每个类选择合适的语义方向。

之前的工作提出采用人工标注的方法来选择语义方向，如下图所示：

假设我们要改变颜色，那么可以先找一组蓝色的样本输入网络，得到一组特征；再找一组红色样本输入网络，同样可以得到一组特征。然后分别对两组特征取均值，即得到蓝色样本的均值和红色样本的均值；最后把蓝色样本的均值转成红色样本的均值，就实现了颜色的转换。
这个想法很简单，但是实现起来非常费时费力，而且也无法定义所有语义的变换。

Implicit semantic data augmentation (ISDA)

这篇文章首先提出了基于类分布来选择语义方向的方法，然后通过优化一个loss的上界达到语义信息增广的目的。

1. 选择合适的语义方向

对于某个特征aia_iai，对其进行augmentation其实就是对aia_iai加一个扰动，也就是说可以在aia_iai的“附近”进行采样，但是这个“附近”应该如何定义比较合适呢？作者提出可以估计类分布，然后在分布里面进行随机采样。
假设每个类都是一个高斯分布，aia_iai的label为yiy_iyi，类内协方差为Σyi\Sigma_{y_i}Σyi，那么我只需要在N(ai,Σyi)N(a_i, \Sigma_{y_i})N(ai,Σyi)分布中进行随机采样，就可以得到对aia_iai的增广特征a~i\widetilde{a}_iai。由于Σyi\Sigma_{y_i}Σyi是由该类的样本估计得到的，所以只有对该类有意义的语义方向才会被保留，而在其他没有意义的方向上都接近于0，达到选择语义方向的目的。

而类内协方差的估计，采用每个mini-batch实时更新。第jjj类的协方差在第ttt个batch的更新为：

分布内随机采样：

这里的λ\lambdaλ控制augmentation的强度，ttt为当前的iteration数。训练初期方差估计不准确，λ\lambdaλ要小一点，随着训练进行，λ\lambdaλ慢慢增大。

2.优化一个loss的上界

对于特征aia_iai，若直接在分布中随机采样M次，得到{(ai1,yi),...,(aiM,yi)}i=1N\{(a_i^1,y_i), ..., (a_i^M,y_i)\}_{i=1}^N{(ai1,yi),...,(aiM,yi)}i=1N，那么CE loss为：

当M很大的时候，假设M->∞，相当于计算M个样本loss的期望：

利用Jensen不等式可推得其上界：

此时只需要优化该上界，就可以达到DA的目的，而不需要真的随机采样出M多个样本，节约了开销。而且由于这种DA方式最终只体现在loss上，因此可以和别的DA方式相结合！

算法

ISDA用于半监督学习

对于labeled数据就是计算前面的上界。
而对于unlabeled数据xiUx_i^UxiU，先输入网络得到其特征aiUa_i^UaiU和概率输出piUp_i^UpiU，然后按照下式进行增强：

即在其伪标签y~iU\widetilde{y}_i^UyiU的类分布中进行随机采样，得到a~iU\widetilde{a}_i^UaiU。
然后把a~iU\widetilde{a}_i^UaiU输入分类器得到概率输出p~iU\widetilde{p}_i^UpiU, 计算KL-divergence：

把piUp_i^UpiU当作常数，展开，并利用Jensen不等式可得：