课程学习与自步学习Curriculum learning and self-paced learning：极简入门

Curriculum Learning

在谈论self-paced learning之前，我们需要先了解一下课程学习(curriculum learning)。

Bengio [1] 提出了课程学习的概念，其直觉来自于人类从易到难的学习过程：将数据看作模型所学习的内容的话，我们自然需要一个合理的课程(curriculum)来指导模型学习这些内容的方式。在课程学习中，数据被按照从易到难的顺序逐渐加入模型的训练集，在这个过程中训练集的熵也在不断提高(包含更多的信息)。
A model is learned by gradually including from easy to complex samples in training so as to increase the entropy of training samples.

课程学习的核心问题是得到一个ranking function，该函数能够对每一条数据样本给出其learning priority (学习该样本的优先程度)。一个确定的ranking function便能够确定一个“课程”：有更高rank的数据(i.e. small value)会被较早地学习。

通常情况下，一个特定问题的ranking function是由直觉的方式根据问题的先验知识确定的。(e.g. 在遥感图片中辨识地理地貌特征，那些地貌特征较为单一的图片被作为简单样本较早地学习)

直觉方式确定的、静态的curriculum与变化的问题、动态的训练过程之间有某种不连续性：不够elegant。课程的确定并没有用到模型训练过程中能够得到的反馈信息，self-paced learning用一种更加统一的形式包含了curriculum learning。

Self-paced Learning

自步学习(Self-paced Learning / SPL)由Kumar et al. 在2010年提出。为了解决CL存在的问题，SPL将curriculum设计为学习的目标函数中的一个正则化项。

这种将CL“embedding”到目标函数种的方式带来了：
1. 联合的优化形式使得模型能够同时优化original objective与curriculum design，这是一个统一的优化问题。
2. 该课程正则化项是独立的，不因task specific的目标函数/损失函数的改变而改变。

形式化来讲SPL的优化目标如下：其中L(…)代表计算模型预测值f(xi, w) 与 ground truth yi之间差别的Loss函数，w为模型的参数，v为一个长度为n的隐含的权重向量，其第i维的值vi为第i条数据样本的权重。

joint learning objective

SPL的优化目标即优化得到一组模型参数w与权重向量v，使得所有数据的加权Loss之和与负的权重向量v的L1范数最小(也存在同时使用L1L2范数的变体[3])。其中 λ 是一个控制参数，反映了当前学习所进行到的阶段(learning pace)。

直观来解释一下权重向量v，最常用的是binary (0/1)的形式：其实就是是否选择该数据进入训练/验证集。note that在Loss项前乘了因子vi，所以对于第i条数据，若vi=0则其产生的Loss对于该步的模型参数w更新没有影响。

对于Eq (1)具体的优化过程可以使用ACS(Alternative Convex Search)[4]，这是一种迭代式的双凸(biconvex)优化方法。在该方法中所有优化目标变量被分为两个不相交的子集，每轮迭代中固定一个集合中的变量优化另一集合。在Eq (1)中，两个子集显然为{w}, {v}。

compute & update v in SPL

在模型参数w固定时，权重向量v (Binary) 的更新可以由右式的简单计算得到：考虑所有Loss小于某个阈值 λ 的样本 (i.e. small loss = easy sample)，不考虑其他Loss大于该阈值 λ 的样本。随着训练过程的进行，阈值 λ 会逐渐从0接近1：在这个过程中那些更难的样本会被逐渐加入模型的训练过程中去。

上文所述的SPL实现策略都相当基础(但足够有效)，并且作为CL的一种泛化，上述的SPL同样符合CL的直觉。但这种实现也存在一些小问题：由于训练过程完全由training loss决定，这种使用方法或多或少会面临overfitting的问题。又比如缺乏在具体问题中引入先验/专家知识的能力。

SPL已经有许多有趣的应用(如long-term tracking / event detection / domain adaptation 等等一切easy sample可以支持hard sample的问题)。此外SPL还有许多有趣的扩展工作，如具有CL引入领域先验知识的能力，又可以像SPL在训练过程中获取信息动态调整的Self-paced curriculum learning (SPCL) [5]，以及在关注hardness(分类难易度)的同时关注diversity来降低overfitting风险的SPLD [3]。。有时间再写 = =

[1] Bengio, Yoshua, et al. “Curriculum learning.” Proceedings of the 26th annual international conference on machine learning. ACM, 2009.
[2] Kumar, M. Pawan, Benjamin Packer, and Daphne Koller. “Self-paced learning for latent variable models.” Advances in Neural Information Processing Systems. 2010.
[3] Jiang, Lu, et al. “Self-paced learning with diversity.” Advances in Neural Information Processing Systems. 2014.
[4] Gorski J, Pfeuffer F, Klamroth K. Biconvex sets and optimization with biconvex functions: a survey and extensions[J]. Mathematical methods of operations research, 2007, 66(3): 373-407.
[5] Jiang L, Meng D, Zhao Q, et al. Self-Paced Curriculum Learning[C]//AAAI. 2015, 2(5.4): 6.