文章目录

目录
- 1.概率与统计
- - 1.1 机器学习与概率统计之间的关系
  - 1.2 重要的统计量
  - - 1.2.1 期望
    - 1.2.2 方差
    - 1.2.3 协方差，相关系数
    - - 协方差
      - 相关系数
    - 1.2.4 矩
  - 1.3 重要的定理与不等式
  - 1.4 用样本估计参数

统计估计的是一个分布，机器学习训练出来的是一个模型，模型可以包含多个分布。
训练和预测的核心评价指标是模型的误差，误差本身可以为概率的形式
对误差的不同定义方式可以转换为对不同损失函数的定义。
机器学习是概率与统计的进阶版本（不严谨的说法）

1.2 重要的统计量

1.2.1 期望

1.离散型：E(x) = ∑ixipi\sum_{i}x_ip_i∑ixipi
2.连续型：E(x) = ∫−+xf(x)dx\int _-^+xf(x)d_x∫−+xf(x)dx
期望可以理解为数据加权下的平均值
3.性质

无条件成立：E(kx) = kE(x) E(x + y) = E(x) + E(y)
如果x,y为相互独立：E(XY) = E(X) E(Y)

独立：P(AB) = P(A)*P(B)
互斥：P(AB) = 0 P(A+B) = P(A) + P(B)

若：E(XY) = E(X)E(Y)只能说明X和Y不相关。

1.2.2 方差

1.定义：
var(x) = E(x−E(x))2=E(x2)−E2(x)E{(x - E(x))^2}=E(x^2)-E^2(x)E(x−E(x))2=E(x2)−E2(x)

2.性质

无条件成立：
- var(c)=0var(c) = 0var(c)=0
- var(x+c)=var(c)var(x+c) = var(c)var(x+c)=var(c)
- var(kx)=k2var(x)var(kx) = k^2var(x)var(kx)=k2var(x)
当x和y相互独立的时候：
var(x+y)=var(x)+var(y)var(x+y) = var(x) + var(y)var(x+y)=var(x)+var(y)

方差的平方根称为标准差

方差可以理解为整体数据偏移平均值的一个程度。

1.2.3 协方差，相关系数

协方差

1.定义：
cov(x,y) = E{[x-E(x)]*[y-E(y)]}

从定义可以看出，协方差是从方差定义扩张而来的，方差只针对的单变量，而协方差则考量的是2个变量之间的关系。

x和y如果是离散的变量，则x和y的维度必须相等。

2.性质

无条件成立：
- cov(x,y)=cov(y,x)对称性cov(x,y) = cov(y,x) 对称性cov(x,y)=cov(y,x)对称性
- cov(ax+b,cy+d)=accov(x,y)cov(ax+b , cy+d) = accov(x,y)cov(ax+b,cy+d)=accov(x,y)
- cov(x1+x2,y)=cov(x1,y)+cov(x2,y)cov(x_1+x_2,y) = cov(x_1,y) + cov(x_2,y)cov(x1+x2,y)=cov(x1,y)+cov(x2,y)
- cov(x,y)=E(xy)−E(x)∗E(y)cov(x,y) = E(xy) - E(x)*E(y)cov(x,y)=E(xy)−E(x)∗E(y)
当x,y相互独立的时候：cov(x,y)=0

cov(x,y)=0 只能得出变量x,y是不相关，无法得出独立的结论

3.意义：
协方差可以度量两个变量具在相同方向上的变化趋势。

如果cov(x,y) > 0: x,y的变化趋势相同
如果cov(x,y) < 0: x,y的变化趋势相反
如果cov(x,y) > 0: x,y不相关

可以使用协方差来衡量特征和特征，特征和标签之间的相关性，即可以基于协方差来进行特征的筛选。
协方差只能用于衡量2个变量之间的相关性，衡量多个变量之间的相关性需要协方差矩阵。

4.协方差的上界
如果：var(x)=θ12var(x) = \theta_1^2var(x)=θ12 var(y)=θ22var(y) = \theta_2^2var(y)=θ22 则：|cov(x,y) ≤θ1∗θ2\le\theta_1*\theta_2≤θ1∗θ2|

5.协方差矩阵：
对于n个随机变量{x1,x2,....,xnx_1,x_2,....,x_nx1,x2,....,xn},任意两个元素xi,xjx_i , x_jxi,xj都可以得到一个协方差，从而形成一个n*n的矩阵，其中协方差矩阵是对称阵。

1.2.4 矩

1.定义：对于随机变量X，X的K阶原点矩为：E(XK)E(X^K)E(XK)
X的K阶中心矩为：E[X−E(X)]KE[X-E(X)]^KE[X−E(X)]K
从上面给出的矩的定义，我们可以看出期望是一阶原点矩，方差是二阶中心距

变异系数：标准差和均值的比值为变异系数

偏度(skewness):三阶矩

峰度（kurtosis）:四阶矩

1.3 重要的定理与不等式

1.jenson不等式（函数f凸函数）

基本jenson不等式定义：
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(\theta x + (1-\theta)y)\le\theta f(x) + (1-\theta)f(y)f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)

2.如果：θ1,θ2,...,θk≥0\theta _1,\theta_2,...,\theta_k \ge0θ1,θ2,...,θk≥0 且 θ1+θ2+...+θk=1\theta_1+\theta_2+...+\theta_k=1θ1+θ2+...+θk=1 则：f(θ1x1+...+θkxk)≤θ1f(x1)+...+θkf(xk)f(\theta_1x_1 + ...+\theta_kx_k) \le\theta_1f(x_1)+...+\theta_kf(x_k)f(θ1x1+...+θkxk)≤θ1f(x1)+...+θkf(xk)

2.切比雪夫不等式

度量两个变量之间的距离方法有很多，但是要满足一些条件。同时，也可以度量两个分布之间的距离，即度量两个分布之间的相关性，这个对于机器学习是非常有用的，常常可以作为损失函数。

定义：设随机变量X的期望为u ,方差为θ2\theta^2θ2，对于任意的正数ξ\xiξ，有：P(∣X−u∣≤ξ)≤θ2/ξ2P(|X-u|\le\xi)\le\theta^2/\xi^2P(∣X−u∣≤ξ)≤θ2/ξ2
意义：切比雪夫不等式说明，X的方差越小，事件(∣X−u∣≤ξ)(|X-u|\le\xi)(∣X−u∣≤ξ)的发生概率越大。
该不等式证明了方差的意义。
该不等式可以证明大数定理。

3.大数定理

定义：设随机变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn相互独立，并且具有相同的期望u和方差θ2\theta^2θ2，取前K个随机变量，且该K个随机变量的期望为Yn=1/k∑i=1kxiY_n = 1/k\sum_{i=1}^kx_iYn=1/k∑i=1kxi,则有：limn−>∝p(∣Yn−u∣<ξ)=1lim_{n->\propto}p(|Y_n - u| < \xi)=1limn−>∝p(∣Yn−u∣<ξ)=1
意义：当样本的数目足够大时，样本的期望逼近于整体的期望，这是统计方法的基石。
4.中心极限定理
定义：设随机变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn相互独立，且服从同一分布，具有相同的期望u和方差θ2\theta^2θ2，则有：Yn=∑i=1n(xi−n∗u)/((n)∗θ)Y_n=\sum_{i=1}^n(x_i-n*u)/(\sqrt(n)*\theta)Yn=∑i=1n(xi−n∗u)/((n)∗θ)
意义：实际问题中，很多随机变量现象可以看成很多独立影响的综合反应，且这些独立因素服从正太分布。

1.4 用样本估计参数

1.矩估计

基本思想：首先假设整体的满足某个分布，其中给分布中有n个未知的参数。然后，由样本求出n对中心距和原点矩，接着由假设的分布公式求出这n对中心距和原点矩，通过等式关系，解出这n个参数，得出整体的分布。

该方法的计算量比较大，在实践过程中用的比较少。常用于两个分布相关性的比较。

2.最大似然估计

贝叶斯公式：P(D/A)=(P(A/D)∗P(A))/P(D)P(D/A) = (P(A/D)*P(A))/P(D)P(D/A)=(P(A/D)∗P(A))/P(D)
物理意义：公式中D为样本数据，A为模型参数或者随机事件。则P(D/A)P(D/A)P(D/A)表示A在数据D上的后验概率，P(A/D)为A在数据D上的条件概率，P(A)为A的先验概率

发生过的概率就是最大的

设问题A中的模型有3个：m1,m2,m3m_1,m_2,m_3m1,m2,m3，抽取的样本数为K：x1,x2,...,xkx_1,x_2,...,x_kx1,x2,...,xk，设3个模型的分布为：f(m1),f(m2),f(m3)f(m_1),f(m_2),f(m_3)f(m1),f(m2),f(m3)，则已将抽取样本的概率为P=∑i=1kfi(m1)∗fi(m2)∗fi(m3)P=\sum_{i=1}^kf_i(m_1)*f_i(m_2)*f_i(m_3)P=∑i=1kfi(m1)∗fi(m2)∗fi(m3)，然后求概率P最大时对应的参数既可以求出整体的分布。