统计学习方法学习梳理（一）统计学习的分类

1、基本分类

1）、监督学习

2）、无监督学习

3）、强化学习

4）、半监督学习

5）、主动学习

2、按模型分类

1）、概率模型与非概率模型

2）、线性模型与非线性模型

3）、参数化模型与非参数化模型

3、按算法分类

1）、在线学习

2）、批量学习

4、按技巧分类

1）、贝叶斯学习

2）、核方法

1、基本分类

1）、监督学习

监督学习：从标注数据中学习预测模型的机器学习问题。

监督学习的本质：学习输入到输出的映射的统计规律

注：1、在监督学习中，将输入输出变量看做是定义在输入空间与输出空间上的随机变量的取值。输入输出变量用大写字母表示，习惯上输入变量写作X，输出变量写作Y。输入输出变量的取值用小写字母表示，输入变量的取值写作x，输出变量写作y。

2、监督学习从训练数据集合中学习模型，对测试数据进行预测

3、训练数据和测试数据均由输入与输出对组成，输入与输出对又称为样本或样本点

4、输入变量X与输出变量Y有不同的类型，可以是连续的，也可以是离散的。人们根据输入输出变量的不同类型，对预测任务给予不同名称：

回归问题：当输入变量与输出变量均为连续变量的预测问题

分类问题：输出变量为有限个离散变量的预测问题

标注问题：输入变量与输出变量均为变量序列的预测问题

5、监督学习的模型可以是概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y=f(X)表示。对具体的输入进行相应的输出预测时写作P(y|x)或y=f(x)。

6、监督学习分为学习和预测两个过程，由学习系统和预测系统完成。

在学习过程中：学习系统利用给定的训练数据集，通过学习（或训练）得到一个模型，表示为条件概率分布或决策函数，用以描述输入与输出随机变量之间的映射关系。

在预测过程中：预测系统对于给定的测试样本集中的输入xN+1，由模型给出相应的yN+1

7、对于输入xi，一个具体的模型y=f（x）可以产生一个输出f（xi），而训练数据集中对应的输出是yi。如果这个模型有很好的的预测能力，训练样本输出的yi和模型输出f（xi）之间的差就应该足够的小。

8、监督学习的分类：回归(Regression）、分类（Classification)

2）、无监督学习

无监督学习：从无标注数据中学习预测模型的机器学习问题

无监督学习的本质：学习数据中统计规律或潜在结构

无监督学习旨在从假设空间中选出在给定评价标准下的最优模型

注：1、无监督学习可用于对已有数据进行分析，也可以用于对未来数据的预测

2、学习过程：在学习过程中，学习系统从训练数据集学习，得到一个最优模型，表示为函数 Z=g(x) 条件概率分布P(zlx) 或者条件概率分布P(xlz) 。在预测过程中，预测系统对于给定的输入 XN+l 由模型 ZN+l = g(XN+l) 或 ZN+l = arg =maxP(ZIXN +1)
给出相应的输出 ZN+l 进行聚类或降维，或者由模型P(xlz) 给出输入的概率P(xN+1 IZN+1) 进行概率估计。

3）、强化学习

强化学习：智能系统在与环境的连续互动中学习最优行为策略的机器学习问题

强化学习的本质：学习最优的序贯决策

强化学习的过程中，系统不断地试错，以达到学习最优策略的目的

智能系统与环境的互动：在每一步t，智能系统从环境中检测到一个状态st和一个奖励rt，采取一个动作at。环境根据根据智能系统选择一个动作，决定下一步t+1的状态st+1和奖励rt+1。要学习的策略表示为给定的状态下采取的动作。

智能系统的目标不是短期奖励的最大化，而是长期积累奖励的最大化。

强化学习的马尔可夫决策过程是状态，奖励，动作序列上的随机过程，由五元组 $<S,A,P,r,\gamma >$ 组成。其中S是有限状态的集合；A是有限动作的集合；P是状态转移概率函数： $P({s}'|s,a)=P(s_{t+1}={s}'|s_{t}=s,a_{t}=a)$ ；r是奖励函数： $r(s,a)=E(r_{t+1}|s_{t}=s,a_{t}=a)$ ; $\gamma$ 是衰减系数： $\gamma \in [0,1]$

马尔可夫决策过程具有马尔可夫性，下一个状态只依赖于前一个状态与动作，由状态转移概率函数 $P({s}'|s,a)$ 表示。下一个奖励依赖于前一个状态和动作，由奖励函数 $r(s,a)$ 表示。

策略 $\pi$ ：给定状态下动作函数 $a=f(s)$ 或者条件概率分布 $P(a|s)$ 。给定一个策略 $\pi$ ，智能系统与环境的互动行为就已确定（或是确定性的，或是随机性的）。

价值函数（或状态价值函数）：策略 $\pi$ 从某一状态s开始的长期累积奖励的数学期望：

$v_{\pi }(s)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+......|s_{t}=s]$

动作价值函数：策略 $\pi$ 从某一状态s和动作a开始的长期累积奖励的数学期望：

$q_{\pi}(s,a)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma ^{2}r_{t+3}+......|s_{t}=s,a_{t}=a]$

强化学习的目标就是在所有可能的策略中选出价值函数最大的策略 $\pi ^{*}$ ，而在实际学习中往往从具体的策略出发，不断优化已有策略。这里 $\gamma$ 表示未来的奖励会有衰减。

强化学习方法中有基于策略的，基于价值的，这两者属于无模型的方法，还有模型的方法。

有模型的方法试图直接学习马尔可夫决策过程的模型，包括转移概率函数 $P({s}'|s,a)$ 和奖励函数 $r(s,a)$ 。这样可以通过模型对环境的反馈进行预测，求出价值函数最大的策略 $\pi ^{*}$

无模型的，基于策略的方法不直接学习模型，而是试图求解最优策略 $\pi ^{*}$ ，表示为函数 $a=f^{*}(s)$ 或是条件概率分布 $P^{*}(a|s)$ ,这样也能达到在环境中做出最优决策的目的。学习通常从一个具体策略开始，通过搜索更优的策略进行

无模型的，基于价值的方法也不直接学习模型，而是试图求解最优价值函数，特别是最优动作价值函数 $q^{*}(s,a)$ 。这样可以间接地学到最优策略，根据该策略在给定的状态下做出相应的动作。学习通常从一个具体价值函数开始，通过搜索更优的价值函数进行

4）、半监督学习

半监督学习：利用标注数据和未标注数据学习预测模型的机器学习问题，通常有少量标注数据和大量未标注数据。

半监督学习旨在利用未标注数据中的信息，辅助标注数据，进行监督学习，以较低成本达到较好的学习效果

5）、主动学习

主动学习：机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。

主动学习的目标：找出对学习最有帮助的实例让老师标注，以较小的标注代价，达到较好的学习效果

注：1、通常的监督学习使用给定的标注数据，往往是随机得到的，可以看做是“被动学习”，主动学习的目标是找出对学习最有帮助的实例让老师标注，以较小的标注代价，达到较好的学习效果。

2、半监督学习和主动学习更接近监督学习

2、按模型分类

1）、概率模型与非概率模型

在监督学习中：概率模型取条件概率分布形式P(y|x)

非概率模型取函数形式y=f(x)

x是输入，y是输出

在无监督学习中：概率模型取条件概率分布形式P(z|x)或P(x|z)

非概率模型取函数形式z=g(x)

x是输入，z是输出

注：1、在监督学习中，概率模型是生成模型，非概率模型是判别模型

2、条件概率分布P(y|x)和函数y=f(x)可以相互转化（条件概率分布P(z|x)和函数z=g(x)也可以）。具体为：条件概率分布最大化后得到函数，函数归一化后得到条件概率分布

3、概率模型与非概率模型的区别不在于输入与输出之间的映射关系，而在于模型的内在结构

4、概率模型一定可以表示成联合概率分布的形式，其中的变量表示输入，输出，隐变量甚至参数，而概率模型则不一定存在这样的联合概率分布

5、概率模型的代表是概率图模型，概率图模型是联合概率分布由有向图或者无向图表示的概率模型，而联合概率分布可以根据图的结构分解为因子乘积的形式。如：贝叶斯网络，马尔可夫随机场，条件随机场均是概率图模型

6、加法规则： $P(x)=\sum_{y}^{}P(x,y)$

乘法规则： $P(x,y)=P(x)P(y|x)$

x和y为随机变量

无论概率图模型多复杂，均可用最基本的加法规则和乘法规则进行概率推理

7、概率模型：决策树，朴素贝叶斯，隐马尔可夫模型，条件随机场，概率潜在语义分析，潜在狄利克雷分配，高斯混合模型

非概率模型：感知机，支持向量机，k近邻，AdaBoost，k均值，潜在语义分析，神经网络

逻辑斯蒂回归即可看作是概率模型，也可看做是非概率模型

2）、线性模型与非线性模型

如果函数y=f(x)或z=g(x)是线性函数，则称模型是线性模型，或者则称模型是非线性模型

线性模型：感知机，支持向量机，k近邻，k均值，潜在语义分析

非线性模型：核函数支持向量机，AdaBoost，神经网络

深度学习实际是复杂的神经网络的学习，也就是复杂的非线性模型的学习

3）、参数化模型与非参数化模型

参数化模型：假设模型参数的维数固定，模型可以由有限维参数完全刻画

非参数化模型：假设模型参数的维数不固定或者无穷大，随着训练数据量的增大而不断增大

参数化模型：感知机，朴素贝叶斯，逻辑斯蒂回归，k均值，高斯混合模型

非参数化模型：决策树，支持向量机，AdaBoost，k近邻，潜在语义分析，概率潜在语义分析，潜在狄利克雷分配

2、参数化模型适合问题简单的情况，而现实中问题往往比较复杂，非参数化模型更加有效

3、按算法分类

1）、在线学习

在线学习：每次接受一个样本，进行预测，之后学习模型，并不断重复该操作的机器学习

注：在线学习的监督学习学习

2）、批量学习

批量学习：一次性接受所有数据，学习模型，之后进行预测

4、按技巧分类

1）、贝叶斯学习

主要思想：利用贝叶斯定理，计算在给定数据条件下模型的条件概率，即后验概率，并用这个原理进行魔性的估计，以及数据的预测。

特点：将模型，未观测要素及其参数用变量表示，使用模型的先验分布。

计算后验概率 $P(\theta |D)$ : $P(\theta|D )=\frac{P(\theta )P(D|\theta )}{P(D)}$ 。其中，D表示数据，随机变量 $\theta$ 表示模型参数， $P(\theta )$ 是先验概率， $P(D|\theta )$ 是似然函数。

注：进行模型评估时，估计整个后验概率分布 $P(\theta |D)$ 。如果需要给出一个模型，通常取后验概率最大的模型

预测时：计算数据对后验概率分布的期望值： $P(x|D)=\int P(x|\theta ,D)P(\theta |D)d\theta$ x是新样本

注：假设先验分布是均匀分布，取后验概率最大，就能从贝叶斯估计得到极大似然估计。

2）、核方法

核方法：使用核函数表示和学习非线性模型的一种机器学习方法，可以用于监督学习和无监督学习。

把线性模型扩展到非线性模型：直接的做法是显式地定义从输入空间（低维空间）到特征空间（高维空间）的映射，在特征空间中进行内积运算。

核方法的技巧在于不显式地定义这个映射，而是直接定义核函数，即映射之后在特征空间的内积。这样可以简化计算，达到相同的效果。