机器学习中的数学基础--特征函数与中心极限定理，统计学基本概念，极大似然估计，最大后验估计

机器学习中的数学基础--第六天

特征函数与中心极限定理
统计学基本概念
极大似然估计（Maximum likelihood estimation）
最大后验估计（Maximum A Posteriori）

特征函数与中心极限定理

特征函数：

中心极限定理：

独立同分布的中心极限定理：

该定理说明，当n很大时，随机变量近似地服从标准正态分布N(0，1)。因此，当n很大时，近似地服从正态分布N(nμ，nσ2)．该定理是中心极限定理最简单又最常用的一种形式，在实际工作中，只要n足够大，便可以把独立同分布的随机变量之和当作正态变量。这种方法在数理统计中用得很普遍，当处理大样本时，它是重要工具。

统计学基本概念

p-value：假定值，假设几率

ps.P值不是给定样本结果时原假设为真的概率，而是给定原假设为真时样本结果出现的概率。
α：显著性水平，当原假设正确时，拒绝原假设的概率，1-α为置信度（置信区间）
TP、FP、TN、FN:

α和p-value 的区别：转载：知乎@DayDayUp

假设检验：H0（原假设），H1（备择假设）

	True	False
Positive	TP	FP
Negative	TN	FN

充分统计量：数学上，设(X₁， …，Xₑ)是来自总体X的一个随机样本，T=T(X₁， …，Xₑ)是一统计量。若在T=t的条件下，样本的条件分布与未知参数θ无关，则称统计量T是θ的充分统计量。

P（precosion）-R(recall)曲线:
P=TP/(TP+FP)(在预测正确中，真正正确的概率),
R=TP/(TP+FN)（在真正正确中，预测正确的概率）

ROC曲线：TPR（真阳率（True postive rate））-FPR(假阳率（False positive rate）)
FPR=FP/(FP+TN）(所有负样本中有多少被预测为正例)
TPR=TP/(TP+FN)(等同于recall)

ps.图片转载处：ROC及AUC计算方法及原理，大佬讲的挺好！

AUC：AUC（Area Under Curve）被定义为ROC曲线下的面积，因为ROC曲线一般都处于y=x这条直线的上方，所以取值范围在0.5和1之间，使用AUC作为评价指标是因为ROC曲线在很多时候并不能清晰地说明哪个分类器的效果更好，而AUC作为一个数值，其值越大代表分类器效果更好。
转载出处同上

极大似然估计（Maximum likelihood estimation）

定义：
极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

最大后验估计（Maximum A Posteriori）

转载：@知乎夏飞（聊一聊机器学习的MLE和MAP：最大似然估计和最大后验估计）