机器学习专项练习笔记（持续更新）

##1.卷积神经网络计算尺寸

输出尺寸=(输入尺寸-filter尺寸+2*padding）/stride+1

卷积向下取整，池化向上取整

stride=1时,当kernel=3,padding=1或kernel=5,padding=2 卷积前后尺寸不变。

##2.序列模式挖掘
序列：一个序列即是一个完整的信息流。每个序列由不同的元素按顺序有序排列，每个元素由不同项目（也叫事件）组成。

序列数据库：将相同用户ID的记录合并在一起，有时可以忽略每个事务的发生时间，仅保留事务间的偏序关系。

序列、元素、单项：一条序列<(10,20),30,(40,50,60)>里面包含3个元素（3个事务），6个单项（长度为6，也叫6-序列），元素内的单项不考虑顺序关系。

###序列模式挖掘算法概述（未完待续）
算法基石：AprioriALL、AprioriSome、dynamicSome

类Apriori算法：GSP、Spade

基于划分的模式生长算法：FreeSpan、prefixSpan

基于序列的比较算法：Disc-all

##3.贝叶斯判别
假设所有特征之间相互独立
P(wi∣x)=P(wix)P(x)=P(x∣wi∣)P(wi)P(x)=P(x∣wi)P(wi)P(x∣w1)P(w1)+P(x∣w2)P(w2)P(w_i|x)=\frac{P(w_ix)}{P(x)}=\frac{P(x|w_i|)P(w_i)}{P(x)}=\frac{P(x|w_i)P(w_i)}{P(x|w_1)P(w_1)+P(x|w_2)P(w_2)}P(wi∣x)=P(x)P(wix)=P(x)P(x∣wi∣)P(wi)=P(x∣w1)P(w1)+P(x∣w2)P(w2)P(x∣wi)P(wi)

先验概率：P(wi)P(w_i)P(wi)，是指根据以往经验和分析得到的概率.

后验概率：P(wi∣x)P(w_i|x)P(wi∣x)，事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小

类条件概率（似然函数）：P(x∣wi)P(x|w_i)P(x∣wi)，类条件概率中的类指的是把造成结果的所有原因进行列举,分别讨论

贝叶斯公式：结果推原因

全概率公式：原因推结果，P(x)=P(x∣w1)P(w1)+P(x∣w2)P(w2)P(x)=P(x|w_1)P(w_1)+P(x|w_2)P(w_2)P(x)=P(x∣w1)P(w1)+P(x∣w2)P(w2)

###3.1 最小误判概率（最大后验概率）准则判决
if P(w1∣x)<P(w2∣x)P(w_1|x)<P(w_2|x)P(w1∣x)<P(w2∣x) then x∈w1x\in w_1x∈w1

if P(w2∣x)<P(w1∣x)P(w_2|x)<P(w_1|x)P(w2∣x)<P(w1∣x) then x∈w2x\in w_2x∈w2
###3.2 最小损失准则
在3.1的基础上计算出每个后验概率出来

令决策的数目为类数c，如果决策aja_jaj定义为判别x属于wjw_jwj类，

那么对于给定的模式x在采取决策aja_jaj的条件下损失的期望为:

Rj(x)=R(aj∣x)=∑i=1cλijP(wi∣x)R_j(x)=R(a_j|x)=\sum_{i=1}^{c}\lambda_{ij}P(w_i|x)Rj(x)=R(aj∣x)=∑i=1cλijP(wi∣x)

条件期望损失RjR_jRj(x)刻画了在模式为x、决策为aja_jaj条件下的平均损失，故也称为条件平均损失或条件平均风险（Risk）。（做决策aja_jaj的平均损失）

if R1(x)<R2(x)R_1(x)<R_2(x)R1(x)<R2(x) then x∈w1x\in w_1x∈w1

if R1(x)>R2(x)R_1(x)>R_2(x)R1(x)>R2(x) then x∈w2x\in w_2x∈w2

两边分母p(x)约掉:

if λ11P(w1,x)+λ21P(w2,x)<λ12P(w1,x)+λ22P(w2,x)\lambda_{11}P(w_1,x)+ \lambda_{21} P(w_2,x)<\lambda_{12} P(w_1,x)+\lambda_{22} P(w_2,x)λ11P(w1,x)+λ21P(w2,x)<λ12P(w1,x)+λ22P(w2,x)

then x∈w1x\in w_1x∈w1

if λ11P(w1,x)+λ21P(w2,x)>λ12P(w1,x)+λ22P(w2,x)\lambda_{11}P(w_1,x)+ \lambda_{21} P(w_2,x)>\lambda_{12} P(w_1,x)+\lambda_{22} P(w_2,x)λ11P(w1,x)+λ21P(w2,x)>λ12P(w1,x)+λ22P(w2,x)

then x∈w2x\in w_2x∈w2

###3.3 最小最大损失准则
解决在先验概率P(wiw_iwi)不确知或变动的情况下使平均损失变大的问题

if P(x∣w1)P(x∣w2)>(λ21−λ22)(1−P∗(w1))(λ12−λ11)P∗(w1)\frac{P(x|w_1)}{P(x|w_2)}>\frac{(\lambda_{21}-\lambda_{22})(1-P^*(w_1))}{(\lambda_{12}-\lambda_{11})P^*(w_1)}P(x∣w2)P(x∣w1)>(λ12−λ11)P∗(w1)(λ21−λ22)(1−P∗(w1))

then x∈w1x\in w_1x∈w1

else x∈w2x\in w_2x∈w2

###3.4 N-P判决
限定一类错误率条件下使另一类错误率为最小的两类别决策，
即在一类错误率固定的条件下，求另一类错误率的极小值的问题，
直接计算p(x|w1)和p(x|w2)的比值，不需要用到贝叶斯公式

if P(x∣w1)P(x∣w2)>λ\frac{P(x|w_1)}{P(x|w_2)}>\lambdaP(x∣w2)P(x∣w1)>λ then x∈w1x \in w_1x∈w1 else x∈w2x\in w_2x∈w2

##4.判别式模型与生成式模型（逐个了解）
生成式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念，它们的区别在于：（对于输入x，类别标签y）

生成式模型估计它们的联合概率分布P(x,y)
判别式模型估计决策函数F(X)或条件概率分布P(y|x)
生成式式模型可以根据贝叶斯公式得到判别式模型，但反过来不行

生成式模型

判别式分析
朴素贝叶斯Native Bayes
混合高斯型Gaussians
K近邻KNN
隐马尔科夫模型HMM
贝叶斯网络
sigmoid belief networks
马尔科夫随机场Markov random fields
深度信念网络DBN
隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)
多专家模型（the mixture of experts model）

判别式模型

线性回归linear regression
逻辑回归logic regression
神经网络NN
支持向量机SVM
高斯过程Gaussian process
条件随机场CRF
CART(Classification and regression tree)
Boosting
区分性训练

##5.降维算法

LASSO：在回归系数的绝对值之和小于一个常数的约束下，使残差平方和最小化，从而产生某些严格等于 0 的回归系数，得到可解释模型
主成分分析法PCA
聚类分析
小波分析法
线性判别法LDA：给定类别标签下通过找到一个空间使得类内距离最小类间距离最大
拉普拉斯特征映射

##6.范式
L0范数是指向量中非0的元素的个数，难优化求解（NP难问题），实现稀疏

L1范数是指向量中各个元素绝对值之和，是L0范数的最优凸近似，实现稀疏

L2范数是指向量各元素的平方和然后求平方根，得到平滑的权值，防止过拟合，也叫岭回归、权值衰减

##7.特征提取算法

特征提取算法分为特征选择和特征抽取两大类
###特征选择
常见的六种特征选择方法：

DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性
MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向”低频”的特征词。
相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法就会变得低效。
(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。
CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想：首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备则假设：特征词与类别有着很高的关联度。
卡方检验法在生物和金融领域最多。χ2 用来描述两个事件的独立性或者说描述实际观察值与期望值的偏离程度。χ2值越大，则表明实际观察值与期望值偏离越大，也说明两个事件的相互独立性越弱。
WLLR(Weighted Log Likelihood Ration)加权对数似然
WFO（Weighted Frequency and Odds）加权频率和可能性

###特征抽取（降维）
PCA等
##8.隐马尔科夫模型（待学习）
针对以下三个问题，人们提出了相应的算法

评估问题：前向、后向算法，即给定一个模型，求某特定观测序列的概率，用于评估该序列最匹配的模型。
解码问题： Viterbi算法，给定一个模型和某个特定的输出序列，求最可能产生这个输出的状态序列。如通过海藻变化（输出序列）来观测天气（状态序列），是预测问题，通信中的解码问题。
学习问题： Baum-Welch算法(向前向后算法) ，即参数估计，是一种无监督的训练方法，主要通过EM迭代实现；。
##9.线性分类器三种最优准则
Fisher 准则：更广泛的称呼是线性判别分析（LDA），根据两类样本一般类内密集，类间分离的特点，将所有样本投影到一条远点出发的直线，寻找线性分类器__最佳的法线向量方向__，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为__最大化“广义瑞利商”__。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。
感知准则函数：代价函数J=-(W*X+w0)，分类的准则是最小化代价函数，即以使错分类样本到分界面距离之和最小。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。
支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使期望泛化风险尽可能小。
##9.一元线性回归的基本假设（待复习）
随机误差项是一个期望值或平均值为0的随机变量；
对于解释变量的所有观测值，随机误差项有相同的方差；
随机误差项彼此不相关；
解释变量是确定性变量，不是随机变量，与随机误差项彼此之间相互独立；
解释变量之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵是满秩矩阵；
随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的，只是不能使用普通最小二乘法进行估计。
当存在异方差时，普通最小二乘法估计存在以下问题：参数估计值虽然是无偏的，但不是最小方差线性无偏估计。

杜宾-瓦特森（DW）检验，计量经济，统计分析中常用的一种检验序列一阶自相关最常用的方法。

所谓多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响：
（1）完全共线性下参数估计量不存在
（2）近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
（3）参数估计量经济含义不合理
（4）变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外
（5）模型的预测功能失效。变大的方差容易使区间预测的“区间”变大，使预测失去意义。

##10.时间序列模型（待复习）
AR模型：自回归模型，是一种线性模型
MA模型：移动平均法模型，其中使用趋势移动平均法建立直线趋势的预测模型
ARMA模型：自回归滑动平均模型，拟合较高阶模型
GARCH模型：广义回归模型，对误差的方差建模，适用于波动性的分析和预测
##11.集成学习（待复习）
Adaboost与Bagging的区别：

采样方式：Adaboost是错误分类的样本的权重较大实际是每个样本都会使用；Bagging采用有放回的随机采样；
基分类器的权重系数：Adaboost中错误率较低的分类器权重较大；Bagging中采用投票法，所以每个基分类器的权重系数都是一样的。
Bias-variance权衡：Adaboost更加关注bias，即总分类器的拟合能力更好；Bagging更加关注variance，即总分类器对数据扰动的承受能力更强。
##12.概率质量函数、概率密度函数、累积分布函数
概率质量函数 (probability mass function，PMF)是离散随机变量在各特定取值上的概率。
概率密度函数（p robability density function，PDF ）是对连续随机变量定义的，本身不是概率，（在不至于混淆时可以简称为密度函数）是一个描述这个随机变量的输出值，在某个确定的取值点附近的可能性的函数。只有对连续随机变量的取值进行积分后才是概率。
累积分布函数（cumulative distribution function，CDF）能完整描述一个实数随机变量X的概率分布，是概率密度函数的积分。对於所有实数x ，与pdf相对