机器学习相关博客收藏（KL 散度、信息熵、谱聚类、EM、Isolation Kernel、iForest、元学习、小样本学习、课程学习）

“Everything should be made as simple as possible but no simpler”, Albert Einstein

知识点讲解

数学技巧

一种通常情况下三对角行列式的解法
Dn=∣bc0…000abc…0000ab…000⋮⋮⋮⋱⋮⋮⋮000…abc000…0ab∣D_{n}=\left|\begin{array}{ccccccc} b & c & 0 & \ldots & 0 & 0 & 0 \\ a & b & c & \ldots & 0 & 0 & 0 \\ 0 & a & b & \ldots & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots & \vdots \\ 0 & 0 & 0 & \ldots & a & b & c \\ 0 & 0 & 0 & \ldots & 0 & a & b \end{array}\right| Dn=∣∣∣∣∣∣∣∣∣∣∣∣∣ba0⋮00cba⋮000cb⋮00………⋱……000⋮a0000⋮ba000⋮cb∣∣∣∣∣∣∣∣∣∣∣∣∣

KL 散度

KLKLKL 散度是一种衡量两个分布匹配程度的方法，KLKLKL 散度越小，两个分布之间的匹配就越好。地址

KLKLKL 散度大于等于 0，当两个分布一致时等于 0：
KL(f∥g)=∫f(x)ln⁡(f(x)g(x))dx=−∫f(x)ln⁡(g(x)f(x))dx≥−∫f(x)(g(x)f(x)−1)dx=−∫g(x)−f(x)dx=0\begin{aligned} & \ KL(f\|g) \\ =& \int f(x) \ln (\frac{f(x)}{g(x)}) d x \\ =&-\int f(x) \ln (\frac{g(x)}{f(x)}) d x \\ \geq &-\int f(x)\left(\frac{g(x)}{f(x)}-1\right) d x \\ =&-\int g(x)-f(x) d x \\ =& \ 0 \end{aligned} ==≥== KL(f∥g)∫f(x)ln(g(x)f(x))dx−∫f(x)ln(f(x)g(x))dx−∫f(x)(f(x)g(x)−1)dx−∫g(x)−f(x)dx 0

信息熵

Entropy, in other words, is a measure of uncertainty.

H(x)=−∑ip(xi)log⁡2p(xi)H(\textbf{x})=-\sum_ip(x_i)\log_2p(x_i) H(x)=−i∑p(xi)log2p(xi)

其中 log⁡2(1p(xi))\log_2(\displaystyle\frac{1}{p(x_i)})log2(p(xi)1) 可以看作是对「稀有度」的二进制编码，越「稀有」则编码长度越长。

总的来说，H(x)H(\textbf{x})H(x) 衡量的是事件 x\textbf{x}x 的期望「稀有度」编码长度，事件 x\textbf{x}x 越稀有，则其不确定性越大，其数值也越大。

当 x\textbf{x}x 为均匀分布时，每一种可能事件概率一致，因此不确定性最强，信息熵数值最大。

元学习

元学习 (Meta Learning - learn to learn)，即 “学会学习”。

MAML

MAML：使模型自己学会初始化

初始有多个训练任务、测试任务，每个任务都包含训练数据 (Support Set) 和测试数据 (Query Set)
初始化 meta 网络参数，执行迭代 “预训练”
- 采样一个训练任务 a，将 meta 网络参数赋给任务 a 的网络（结构均一致）
- 使用任务 a 的 Support Set，基于该任务学习率，进行一次优化，并更新任务 a 网络参数
- 使用任务 a 的 Query Set，计算基于该任务 loss 的梯度
- 使用该梯度，基于 meta 学习率，更新 meta 网络参数
- 采样一个训练任务 b…
测试时，使用测试任务的 Support Set 微调，在 Query Set 上测试

meta learning 与 model pre-training 区别：

元学习使用任务在训练数据上更新一次后，在测试数据上的梯度来更新 meta 网络
模型预训练使用任务在训练数据上第一次的梯度来更新 model 网络

MAML 是典型的 optimization based meta-learning，即通过之前大量的相似任务的学习，给网络模型学习到一组不错的 / 有潜力的 / 比较万金油的参数，使用这组参数作为初始值，在特定任务上进行训练，只需要微调几次就可以在当前的新任务上收敛

参考资料：

一文入门元学习（Meta-Learning）（附代码）
元学习——MAML论文详细解读

小样本学习

N-ways, K-shot：N 个类别，每个类别有 K 个数据

小样本学习 (few shot learning)，可以说是 meta learning 在监督学习上的一个典型应用，当然小样本学习也可以用其它方法，但目前基本上绝大多数小样本学习都用的元学习

基于 meta learning 的小样本学习思想：

上游使用大量相关任务数据学得一个模型，获得先验知识
下游仅使用小样本数据即可使模型收敛到一个比较好的解

课程学习

出发点：

课程学习 (Curriculum learning, CL) 最早由 Bengio 提出，是一种训练策略，模仿人类学习过程，主张让模型从易到难进行学习，此处指样本学习的难度

策略框架的两大部件：

难度测量器 (Difficulty Measurer)
- 得到一个 ranking function，对每条数据、每个任务给出其 learning priority
训练调度器 (Training Scheduler)
- 确实什么时候把 Hard data 输入训练，以及每次放多少

课程学习方法分类：

机器学习算法 [杂]

谱聚类
EM算法理解的九层境界
Isolation Kernel、iForest

讲座

《机器学习理论的回顾与展望》

2017 年，北京大学教授王立威在中国人工智能学会AIDL第二期上带来的主题报告，共分为以下四部分：

研究机器学习理论的意义

“非常典型的机器学习的过程：收集数据、建模、做出预测”
“研究机器学习理论的目的绝对不是为了证明一个算法的边界如何，而是为了提供对机器学习问题的洞察和理解”

VC Theory

“VC 理论告诉我们，假如从一个侯选的集合里选择一个模型，要想学好，所需要的数据量一定要和模型的复杂程度呈正相关”
“VC 维度刻画的是从一个什么样的模型集合中去训练，刻画的是模型集合的复杂程度，它研究的是结构的性质”
数据量比 VC 维度小太多，则容易过拟合；数据量大太多则容易欠拟合

Margin Theory

“对深度学习来说，最有价值的学习理论一定是在刻画深度学习算法本身的性质”
“对于分类结果，千万不要只看训练错误率这么一个简单的数字，要关注Margin。Margin代表了置信度，而置信度对泛化能力有相当重大的作用”
“Margin Theory 告诉大家要更关注算法的信息，算法会输出很多置信度方面的信息”

Algorithmic Stability

“稳定的算法会有更好的泛化能力”