文章目录

前言
一、微积分基础
- 1.1 夹逼准则
- 1.2 导数/方向导数
- 1.3 梯度
- 1.4 凸函数
二、概率与统计基础
- 2.1 概率
- 2.2 期望值
- 2.3 方差
- 2.4 协方差
- 2.5 相关系数
三、高斯分布
- 3.1 独立同分布
- 3.2 高斯分布
- 3.3 一维正态分布
四、似然函数
- 4.1 似然函数
- 4.2 似然函数与概率
五、离散型随机变量
- 5.1 概念
六、连续性随机变量
- 6.1 概念
- 6.2 实际操作
五、最常用的求导公式

前言

在上一篇博文中大体介绍了何为机器学习以及一些相关的概念。此篇介绍一些关于机器学习涉及到的一些数学相关的知识。

一、微积分基础

这里就指出一些比较重要的关于微积分相关的一些知识点：
1 夹逼准则：用来求极限的一种方法。
2 导数：一阶导数表示曲线变化的快慢，即斜率，二阶导数表示斜率变化的快慢，即凹凸性。
3 方向导数：标量；可以类比一阶导数理解，只不过不是对x方向的求导，而是对某一方向的求导。
4 梯度：矢量；模值表示方向导数的最大值，方向表示方向导数取最大值时的方向。
5 凸函数：Jensen不等式f[E(x)]<=E[f(x)]要理解。
着重学习一下夹逼准则，梯度以及凸函数

1.1 夹逼准则

放缩的常用方法有：

利用简单的放大与缩小
如，nnn个正数之和不超过最大数乘nnn，不小于最小数乘nnn；
有限mmm个正数之和不超过最大数乘mmm，不小于最大数本身；
分子分母同为正数，把分母放大则分数缩小；
若干正数的乘积中，略去小于1的因子则放大，略去大于1的因子则偏小
利用重要的不等式
sin⁡x<x<tan⁡x,0<x<π2\sin x<x<\tan x,0<x<\frac{\pi}{2} sinx<x<tanx,0<x<2π
x1+x<ln⁡(1+x)<x,x>0\frac{x}{1+x}<\ln (1+x)<x, x>0 1+xx<ln(1+x)<x,x>0
ex≥x+1,∀xe^{x} \geq x+1, \forall x ex≥x+1,∀x
ln⁡x≤x−1,x>0;arctan⁡x≤x≤arcsin⁡x,0≤x≤1;x−1<[x]≤x\ln x \leq x-1, x>0 ; \quad \arctan x \leq x \leq \arcsin x, 0 \leq x \leq 1 ; \quad x-1<[x] \leq x lnx≤x−1,x>0;arctanx≤x≤arcsinx,0≤x≤1;x−1<[x]≤x
3.利用闭区间上连续函数必有最大值与最少值
夹逼准则相关介绍

1.2 导数/方向导数

导数/方向导数比较简单，就不在介绍了…

1.3 梯度

来源百度：梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。
设二元函数z=f(x,y)z=f(x,y)z=f(x,y)在平面区域D上具有一阶连续偏导数，则对于每一个点都可定出一个向量
{∂f∂x,∂f∂y}=fx(x,y)i‾+fy(x,y)j‾\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}=f_{x}(x, y) \overline{i}+f_{y}(x, y) \overline{j} {∂x∂f,∂y∂f}=fx(x,y)i+fy(x,y)j
该函数就称为函数在点P(x,y)P(x,y)P(x,y)的梯度，记作gradf(x,y)gradf(x,y)gradf(x,y)或∇f(x,y)\nabla f(x, y)∇f(x,y),即有：
gradf⁡(x,y)=∇f(x,y)={∂f∂x,∂f∂y}=fx(x,y)i‾+fy(x,y)j‾\operatorname{gradf}(x, y)=\nabla f(x, y)=\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}=f_{x}(x, y) \overline{i}+f_{y}(x, y) \overline{j} gradf(x,y)=∇f(x,y)={∂x∂f,∂y∂f}=fx(x,y)i+fy(x,y)j
其中∇=∂∂xi‾+∂∂yj‾\nabla=\frac{\partial}{\partial x} \overline{i}+\frac{\partial}{\partial y} \overline{j}∇=∂x∂i+∂y∂j称为(二维的)向量微分算子或Nabla算子，∇f=∂f∂xi‾+∂f∂yj‾\nabla f=\frac{\partial f}{\partial x} \overline{i}+\frac{\partial f}{\partial y} \overline{j}∇f=∂x∂fi+∂y∂fj。设e={cos⁡α,cos⁡β}e=\{\cos \alpha, \cos \beta\}e={cosα,cosβ}是方向l上的单位向量，则：
∂f∂l=∂f∂xcos⁡α+∂f∂ycos⁡β={∂f∂x,∂f∂y}{cos⁡α,cos⁡β}=grad⁡f(x,y)e=∣grad⁡f(x,y)∣∣e∣cos⁡[grad⁡f(x,y),e]\begin{array}{l}{\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x} \cos \alpha+\frac{\partial f}{\partial y} \cos \beta=\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}\{\cos \alpha, \cos \beta\}} \\ {=\operatorname{grad} f(x, y) e=|\operatorname{grad} f(x, y)||e| \cos [\operatorname{grad} f(x, y), e]}\end{array} ∂l∂f=∂x∂fcosα+∂y∂fcosβ={∂x∂f,∂y∂f}{cosα,cosβ}=gradf(x,y)e=∣gradf(x,y)∣∣e∣cos[gradf(x,y),e]
由于当方向l与梯度方向一致时，有：
cos⁡[grad⁡f(x,y),e]=1\cos [\operatorname{grad} f(x, y), e]=1 cos[gradf(x,y),e]=1
所以当l与梯度方向一致时,方向导数∂f∂l\frac{\partial f}{\partial l}∂l∂f有最大值，且最大值为梯度的模，即：
∣grad⁡f(x,y)∣=(∂f∂x)2+(∂f∂y)2|\operatorname{grad} f(x, y)|=\sqrt{\left(\frac{\partial f}{\partial x}\right)^{2}+\left(\frac{\partial f}{\partial y}\right)^{2}} ∣gradf(x,y)∣=(∂x∂f)2+(∂y∂f)2
因此说，函数在一点沿梯度方向的变化率最大，最大值为该梯度的模。

1.4 凸函数

如函数f的定义成domf为凸集，且满足：
∀x,y∈dom⁡f,0≤θ≤1,有f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)\begin{array}{l}{\forall x, y \in \operatorname{dom} f, 0 \leq \theta \leq 1, 有} \\ {f(\theta x+(1-\theta) y) \leq \theta f(x)+(1-\theta) f(y)}\end{array} ∀x,y∈domf,0≤θ≤1,有f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
则称f(θ)f(\theta)f(θ)为凸函数(convex function)。
为了节约时间，这里就不在多介绍了，以下链接可参考了解凸函数
凸函数相关介绍

二、概率与统计基础

2.1 概率

条件概率：
P(A∣B)=P(AB)P(B)P(A | B)=\frac{P(A B)}{P(B)} P(A∣B)=P(B)P(AB)
全概率公式：
P(A)=∑iP(A∣Bi)P(Bi)P(A)=\sum_{i} P\left(A | B_{i}\right) P\left(B_{i}\right) P(A)=i∑P(A∣Bi)P(Bi)
贝叶斯(Bayes)公式
P(Bi∣A)=P(A∣Bi)P(Bi)∑jP(A∣Bj)P(Bj)P\left(B_{i} | A\right)=\frac{P\left(A | B_{i}\right) P\left(B_{i}\right)}{\sum_{j} P\left(A | B_{j}\right) P\left(B_{j}\right)} P(Bi∣A)=∑jP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
常见的概率分析：

例子：
概率 P 是对随机事件发生的可能性的度量。
例如，小明在期末考试前，统计了下自己在今年的数学考试成绩，结果显示得到80分以下的次数为2次，得80分~90分的次数为10次，得到90分以上次数为3次，那么小明得到 80分以下的概率为
P(<80)=2/(2+10+3)=13.3P( < 80 ) = 2/(2+10+3) = 13.3%P(<80)=2/(2+10+3)=13.3
80~90分的概率为：
P(8090)=10/(2+10+3)=66.7P( 80 ~ 90) = 10/(2+10+3) = 66.7%P(80 90)=10/(2+10+3)=66.7
90分以上的概率：
P(>90)=3/(2+10+3)=20P( > 90) = 3/(2+10+3) = 20%P(>90)=3/(2+10+3)=201、均匀分布概率密度函数
f(x)=1b−a,a<x<b;否则f(x)=0f(x)=\frac{1}{b-a}, a<x<b ; 否则 f(x)=0 f(x)=b−a1,a<x<b;否则f(x)=0均值和方差：
u=a+b2;var⁡=b−a12u=\frac{a+b}{2} ; \operatorname{var}=\frac{b-a}{12} u=2a+b;var=12b−a
2、伯努利分布
逻辑回归二分类的结果就服从伯努利分布，因为逻辑回归二分类就给出两个结果正例负例。既然结果只有0-1两种，那么很显然它的概率分布就是离散型。
伯努利试验是只有两种可能结果的单次随机试验，即对于一个随机变量X而言：
Pr[X=1]=pPr[X=0]=1−p\begin{array}{l}{P_{r}[X=1]=p} \\ {P_{r}[X=0]=1-p}\end{array} Pr[X=1]=pPr[X=0]=1−p
努利试验都可以表达为“是或否”的问题。例如，抛一次硬币是正面向上吗？刚出生的小孩是个女孩吗等等，如果试验EEE是一个伯努利试验，将EEE独立重复地进行nnn次，则称这一串重复的独立试验为nnn重伯努利试验。
进行一次伯努利试验，成功(X=1)(X=1)(X=1)概率为p(0<=p<=1)p(0<=p<=1)p(0<=p<=1)，失败(X=0)(X=0)(X=0)概率为1−p1-p1−p，则称随机变量XXX服从伯努利分布。伯努利分布是离散型概率分布，其概率质量函数为：
f(x)=px(1−p)1−x={pif x=11−pif x=00otherwise f(x)=p^{x}(1-p)^{1-x}=\left\{\begin{array}{ll}{p} & {\text { if } x=1} \\ {1-p} & {\text { if } x=0} \\ {0} & {\text { otherwise }}\end{array}\right. f(x)=px(1−p)1−x=⎩⎨⎧p1−p0 if x=1 if x=0 otherwise

3、二项分布
二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。如果试验EEE是一个nnn重伯努利试验，每次伯努利试验的成功概率为ppp，XXX代表成功的次数，则XXX的概率分布是二项分布，记为XB(n,p)X~B(n,p)X B(n,p)，其概率质量函数为：
P(X=k)=(nk)pk(1−p)n−k(k=0,1,⋯ ,n)\begin{array}{c}{P(X=k)=\left (\begin{array}{c}{n} \\ ^{k} \end{array} \right )p^{k}(1-p)^{n-k}} \\ {(k=0,1, \cdots, n)}\end{array} P(X=k)=(nk)pk(1−p)n−k(k=0,1,⋯,n)∑k=0nP{X=k}=∑k=0nCnkpk(1−p)n−k=[p+(1−p)]n=1\sum_{k=0}^{n} P\{X=k\}=\sum_{k=0}^{n} C_{n}^{k} p^{k}(1-p)^{n-k}=[p+(1-p)]^{n}=1 k=0∑nP{X=k}=k=0∑nCnkpk(1−p)n−k=[p+(1−p)]n=1从定义可以看出，伯努利分布是二项分布在n=1时的特例
二项分布名称的由来，是由于其概率质量函数中使用了二项系数CnkC_{n}^{k}Cnk，该系数是二项式定理中的系数，二项式定理由牛顿提出：
(x+y)n=Cnkxkyn−k(x+y)^{n}=C_{n}^{k} x^{k} y^{n-k} (x+y)n=Cnkxkyn−k
二项分布的典型例子是扔硬币，硬币正面朝上概率为p, 重复扔n次硬币，k次为正面的概率即为一个二项分布概率。

如果实验满足以下两种条件：

在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立；
相互独立，与其它各次试验结果无关；
事件发生与否的概率在每一次独立试验中都保持不变。

则实验的结果对应的分布为二项分布。
当试验次数为1时，二项分布服从0-1分布。
例子：
例如，一堆苹果有好的，有坏的，从中取10次，定义随机变量：从中取得好苹果的个数XXX，那么认为XXX服从二项分布。
实验得到的结果：比如经过10次实验后分布结果为：7好，3坏；再经过10次实验后分布结果为：8好，2坏。经过这20次实验，可以根据最大似然估计求出我们可求出二项分布的参数：从这堆苹果中取到一个好苹果的概率。
因为在20次实验中，出现了15好，5坏，因此一次取到好苹果概率为：15/20 = 0.75，根据最大似然估计，认为从整个样本中取到一个好苹果的概率也为：0.75。
出现这种分布的概率有多大，由二项分布的概率计算公式：
P(X=k)=Cmkpk(1−p)m−kP(X=k)=C_{m}^{k} p^{k}(1-p)^{m-k} P(X=k)=Cmkpk(1−p)m−k其中：kkk表示出现好苹果的个数，ppp表示一次实验出现好苹果的概率，kkk的取值范围为：0m0~m0 m，最小值为0个好苹果，最大值为mmm个好苹果（所有的都是好苹果）。P(X=15)=C20150.75150.255P(X=15)=C_{20}^{15} 0.75^{15} 0.25^{5} P(X=15)=C20150.75150.255
通过以上20次随机试验中，最终得到15个好苹果，如果一次看下好苹果的个数k=0−20k=0-20k=0−20，它们各自的分布概率，变化曲线如下通过python源码实现所示：


# 计算组合数
from scipy.special import comb,perm
import numpy as np
import matplotlib.pyplot as plt# 二项分布概率计算公式
def getp(m,n,pa):if m<n:return 0.0return comb(m,n)*(pa**n)*((1-pa)**(m-n))
# 获取画图数据
klist = np.arange(21)
plist = [getp(m=20,n=k,pa=0.75) for k in klist]
plt.plot(klist,plist) # klist:x轴，plist：y轴plt.xlabel('number of good apples')
plt.ylabel('k-distribution proba')
plt.title('distribution proba')plt.xticks(np.arange(0,22,1))
plt.grid()
plt.show()

如上图结果所示，当k=15时，取得的概率最大，也就是说明，期望值分布中最有可能发生：15个好果子，5个坏果子。二项分布是随机变量为离散型随机变量且当试验次数为1时服从0-1分布，它是重复n次的独立的伯努利试验。这种分布下，对个数的期望等于二项分布中概率发生最大的取值个数

4、泊松分布
假设我们一个产品，统计用户性别比例男性占60%，假设有100个注册新用户，这100个注册用户，有1个为男的概率是多少？有两个为2男的概率是多少？有3个为男的概率是多少？依次下去，显然泊松分布是连续型分布。
P(x)=e−λ(λx/x!)P(x)=e^{-\lambda}\left(\lambda^{x} / x !\right) P(x)=e−λ(λx/x!)有的书里面把P(x;p=0.6)P(x;p=0.6)P(x;p=0.6)为P(x∣p=0.6)P(x|p=0.6)P(x∣p=0.6)看着还挺不舒服的，不知道以为是条件概率。条件概率的话，因为都为变量而不存在常量。
均值与方差：u=λ;var⁡=λu=\lambda ; \operatorname{var}=\lambda u=λ;var=λ

5、指数分布
同样以app用户注册为例，一个小时注册100个，那么在单位时间为一个小时的前提下，一个男的都没有的概率是多少？把x=0带入泊松分布公式.
P(x=0)=e−λP(x=0)=e^{-\lambda} P(x=0)=e−λ则有男性的概率为：P(x!=0)=1−e−λP(x !=0)=1-e^{-\lambda} P(x!=0)=1−e−λ则一般形式：P(x)=1−e−λtP(x)=1-e^{-\lambda t} P(x)=1−e−λt指数分布的应用，如果让你求两个小时内有男人注册的概率你应该会求，对比泊松分布只关注有几个男人注册，而指数分布则只关注是否有男性用户注册。
均值与方差：u=1λ;var=1λ2u=\frac{1}{\lambda} ; v a r=\frac{1}{\lambda^{2}} u=λ1;var=λ21

2.2 期望值

离散型
E(X)=∑ixipiE(X)=\sum_{i} x_{i} p_{i} E(X)=i∑xipi
连续型
E(X)=∫−∞∞xf(x)dxE(X)=\int_{-\infty}^{\infty} x f(x) d x E(X)=∫−∞∞xf(x)dx
例子：
期望值EEE，在一个离散性随机变量实验中，重复很多次实验，每次实验的结果乘以其出现的概率的总和。
如上例中，小明在今年的期末考试，我们对他的期望值大约是多少呢？套用上面的公式，80分以下的值取一个代表性的分数：70分，80~90：85分，90分以上：95分，
E=70∗0.133+85∗0.667+95∗0.2E = 70 * 0.133 + 85 * 0.667 + 95 * 0.2E=70∗0.133+85∗0.667+95∗0.2
计算出的结果为 85，即期末考试我们对小明的合理期望是 85 分左右。

2.3 方差

定义：
Var⁡(X)=E{[X−E(X)]2}=E(X2)−E2(X)\left.\operatorname{Var}(X)=E{}\{[X-E(X)]^{2}\right\}=E\left(X^{2}\right)-E^{2}(X) Var(X)=E{[X−E(X)]2}=E(X2)−E2(X)
无条件成立：
Var⁡(c)=0Var⁡(X+c)=Var⁡(X)Var⁡(kX)=k2Var⁡(X)\begin{array}{l}{\operatorname{Var}(c)=0} \\ {\operatorname{Var}(X+c)=\operatorname{Var}(X)} \\ {\operatorname{Var}(k X)=k^{2} \operatorname{Var}(X)}\end{array} Var(c)=0Var(X+c)=Var(X)Var(kX)=k2Var(X)
X和Y独立X和Y独立X和Y独立
Var⁡(X+Y)=Var⁡(X)+Var⁡(Y)\operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) Var(X+Y)=Var(X)+Var(Y)
除此之外，方差的平方根，称为标准差。
方差 σ2\sigma^{2}σ2，用来度量随机变量取值和其期望值之间的偏离程度：
σ2=∑(X−μ)2N\sigma^{2}=\frac{\sum(X-\mu)^{2}}{N} σ2=N∑(X−μ)2
其中：
X 表示小明的分数这个随机变量
N 表示样本的个数，即在此15个
已经知道小明的15次考试的分数，均值刚才计算出来了为 85分，带入到上面的公式中，便能得出偏离85分的程度大小。那么小明很可能期末考试分数在85分左右。方差开根号，得到标准差，即为 σ\sigma^{}σ。

2.4 协方差

定义：
Cov⁡(X,Y)=E{[X−E(X)][Y−E(Y)]}\operatorname{Cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
性质：
Cov⁡(X,Y)=Cov⁡(Y,X)Cov⁡(aX+b,cY+d)=acCov⁡(X,Y)Cov⁡(X1+X2,Y)=Cov⁡(X1,Y)+Cov⁡(X2,Y)Cov⁡(X,Y)=E(XY)−E(X)E(Y)\begin{array}{c}{\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X)} \\ {\operatorname{Cov}(a X+b, c Y+d)=\operatorname{acCov}(X, Y)} \\ {\operatorname{Cov}\left(X_{1}+X_{2}, Y\right)=\operatorname{Cov}\left(X_{1}, Y\right)+\operatorname{Cov}\left(X_{2}, Y\right)} \\ {\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)}\end{array} Cov(X,Y)=Cov(Y,X)Cov(aX+b,cY+d)=acCov(X,Y)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X,Y)=E(XY)−E(X)E(Y)
其中：
X, Y 是两个随机变量
E(X),E(Y)E(X),E(Y)E(X),E(Y) 是对应两个随机变量的均值
如果两个变量是高度同向的，即X变大，Y也变大，那么对应的协方差也就很大；如果每次X变大，Y就变小，那么X和Y的协方差可能就会为负数。
例如：经过观察，我们发现小明的数学成绩和物理成绩的分数分布情况高度相符，也是70分以下3次，80~90分居多，21次，90分以上1次，那么我们就说小明的数学和物理成绩的协方差很大。

2.5 相关系数

我们考虑具有一般性的公式，通常相关系数的定义如下：
r=Cov⁡(X,Y)σXσYr=\frac{\operatorname{Cov}(X, Y)}{\sigma_{X} \sigma_{Y}} r=σXσYCov(X,Y)
发现这个相关系数与协方差紧密相关，只不过又除以了X的标准差和Y的标准差，也就是说，是一种剔除了X和Y这两个偏离程度量纲的影响，标准化后的特殊协方差。

除了以上的知识点之外还要好多，例如：极限、微分学、泰勒级数、Jensen不等式等等，具体看参考：
https://blog.csdn.net/qq_39975984/article/details/78950339

三、高斯分布

3.1 独立同分布

指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布。
先说说独立这个概念。在预测昆明区域的房屋价值时，房屋样本x1x1x1和样本x2x2x2之间的预测是相互独立的，它们之间不存在任何关系，这也是接近实际的。
同分布是指预测的房屋都是来自于昆明这块区域的，你不能拿北京的某个小三居扔到这个模型中去做预测吧，如果非要这样，误差一定会很大。

3.2 高斯分布

高斯分布（Gaussian distribution），又称为正态分布（Normal distribution），是一个非常重要在各个领域有广泛应用的概率分布
正态曲线的特点是中间高，两头低，左右对称，人们经常称之为钟形曲线。若随机变量XXX服从一个数学期望为μμμ、方差为σ2σ^2σ2的正态分布，记为N(μ，σ2)N(μ，σ^2)N(μ，σ2)。其概率密度函数为正态分布的，期望值μμμ决定了它的位置，标准差σ2σ^2σ2数据的偏离程度。当μ=0,σ=1μ = 0,σ = 1μ=0,σ=1时的高斯分布又称为标准正态分布。

3.3 一维正态分布

若随机变量服从如下的概率密度函数，则表明是一维正态分布：
f(x)=12πσexp⁡(−(x−μ)22σ2)f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) f(x)=2πσ1exp(−2σ2(x−μ)2)
当然，还有多维正态分布，在此不做详述。
其中：exp，高等数学里以自然常数e为底的指数函数。

四、似然函数

4.1 似然函数

似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。
给定输出xxx时，关于参数θθθ的似然函数L(θ∣x)L(θ|x)L(θ∣x)，在数值上它等于给定参数 θ 后变量 X 的概率：
L(θ∣x)=P(X=x∣θ)L(\theta | x)=P(X=x | \theta) L(θ∣x)=P(X=x∣θ)
说白了就是一个条件概率，当然这个是非常重要的！。
举例说明：
举个例子，我们抛掷一枚硬币，这枚硬币不是理论上的一半一半的出现概率，而是动了手脚的，出现正面的概率是0.2，现在我们预测一下抛掷10次，出现正面的次数是多少，如果用XXX表示出现正面的次数，那么
P(X)=0.2P(X) = 0.2P(X)=0.2E(X)=0.2∗10=2次E(X) = 0.2 * 10 = 2 次E(X)=0.2∗10=2次
现在我们抛掷10枚这个硬币，结果显示，有2次出现正面，现在预测下这枚硬币出现正面的概率到底有多大呢？这就是一个似然问题，求解模型本身的一些属性。求解它需要假定误差分布满足高斯分布，然后求出似然函数，因为既然已经发生了，就直接求概率发生的最大值吧，既然求最值，自然就能求出出现正面的概率参数来了。

4.2 似然函数与概率

概率与似然的不同

概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果。而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计：似然是在知道输出结果（比如，对应1万个样本结果），求事物的性质的参数，如线性回归的中的权重参数。

五、离散型随机变量

5.1 概念

一堆苹果，数量一共有5个，有好的，有坏的，如果定义事件：从中取出一个苹果其好坏标签为XXX，那么XXX就是一个随机变量，且 XXX 的可能取值有两种：x0=好果x0 = 好果x0=好果，x1=坏果x1 = 坏果x1=坏果。明显地，这个随机变量XXX取值是离散的，因为只有两种情况。并且，P(X0)+P(X1)=1P(X0) + P(X1) = 1P(X0)+P(X1)=1，因为这个苹果要么是好的，要么是坏的。
然后，我们统计这5个苹果后，发现有2个是好果，3个是坏果，那么如果定义这种事件：从这5个苹果中任意取3个求取得的好苹果的个数 XXX，那么这个随机变量 XXX有什么特点呢？它与上面定义的那个随机变量就不大一样了吧，此时，XXX仍然是离散型随机变量，但是它可能的取值为：取到0个好苹果，1个好苹果，2个好苹果，这三种取值可能吧。
接下来，分析下这个离散型随机变量XXX的分布律，由古典概率的方法得出：
P{X=i}=C2iC33−iC53P\{X=i\}=\frac{C_{2}^{i} C_{3}^{3-i}}{C_{5}^{3}} P{X=i}=C53C2iC33−i其中， i = 0,1,2，可以得出：

可以看到三者的概率和为1，那么随机变量X的分布函数F(x)的图形显示如下：

这里顺便总结下离散型随机变量的分布函数：
分布函数：简单来说是对概率的定积分，是一个区间上的概率累加。
离散型分布函数：是离散变量的概率在有限个变量区间内的概率累加。
如上图所示，F(1)=P(X<=1)=P(X=0)+P(X=1)=0.7F(1) = P(X<=1) = P(X=0) + P(X = 1) = 0.7F(1)=P(X<=1)=P(X=0)+P(X=1)=0.7,F(1.9)=P(X<=1.9)F(1.9) = P(X<=1.9)F(1.9)=P(X<=1.9)，因为是离散的，直到F(2)=P(X<=2)F(2) = P(X<=2)F(2)=P(X<=2)时，F(2)F(2)F(2)才取到1.0。由此可见，离散型随机变量的分布函数呈现阶梯型增长规律。

六、连续性随机变量

6.1 概念

连续型随机变量，顾名思义，它的取值是连续的，而不是有限个，比如庆阳的苹果质量情况，表示为XXX，那么 X=0.4,0.7,0.91X = 0.4, 0.7, 0.91X=0.4,0.7,0.91等等这些值，并且越接近于1.0，这个苹果的质量越好。那么苹果质量情况XXX，在X=0.75X = 0.75X=0.75时的概率是多大呢？我们记为： P(0.75)P(0.75)P(0.75)，在X=0.83X = 0.83X=0.83时的概率呢？P(0.83)P(0.83)P(0.83)，我们称：P(x)P(x)P(x)为连续型随机变量X的概率密度，它刻画了X=xX=xX=x时的取值的可能性大小，而不是取值的概率。那么我们统计下P(X<=0.75)P(X<=0.75)P(X<=0.75)是多大呢？（质量情况不大于0.75的概率密度），此时我们将F(0.75)=P(X<=0.75)F(0.75) = P(X<=0.75)F(0.75)=P(X<=0.75)，那么P(X<=0.5)P(X<=0.5)P(X<=0.5)呢？记为F(0.5)=P(X<=0.5)F(0.5) = P(X<=0.5)F(0.5)=P(X<=0.5)。因此，归纳出一个公式为： F(x)=∫0xp(t)dt\mathrm{F}(\mathrm{x})=\int_{0}^{\mathrm{x}} p(t) d t F(x)=∫0xp(t)dt此处，质量情况不可能为负数，所以定积分的区间：[0,x][0,x][0,x]。称F(x)F(x)F(x)为质量情况XXX 的分布函数，可以看到分布函数是一个区间长度上概率密度的累计。
至于概率密度P(x)P(x)P(x)和F(x)F(x)F(x)的关系，一个是导数，一个是积分，F(x)F(x)F(x)在xxx属于[负无穷，正无穷]是一定等于概率的总和:1。
在考察随机变量XXX的取值xxx的概率密度曲线：P(x)P(x)P(x)，通过概率密度曲线，可以看出随机变量的取值与概率密度的关系。具体看参考如下所示的苹果质量情况XXX满足高斯分布时的曲线。

6.2 实际操作

例子
做出归纳假设：苹果质量情况 X 满足高斯分布。我们收集了20个苹果，每个苹果的质量情况现在出来报告了，如下所示：

data = np.array([ 0.79,  0.78,  0.8 ,  0.79,  0.77,  0.81,  0.74,  0.85,  0.8 ,0.77,  0.81,  0.85,  0.85,  0.83,  0.83,  0.8 ,  0.83,  0.71,   0.76,  0.8 ])

假定这20个苹果质量情况X符合高斯分布，则由一维高斯分布的概率密度公式：
f(x)=12πσexp⁡(−(x−μ)22σ2)f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) f(x)=2πσ1exp(−2σ2(x−μ)2)可以看到，在我们已知了20个样本，也就是xxx，现在要反推高斯分布中的两个关键参数：均值和方差。
已知各个样本和假定模型后，去求解模型的参数，最常用的方法是最大似然估计。根据已有这20个样本和最大似然估计推导得出，均值和方差的公式如下：
μ=120∑i=120xiσ2=120∑i=120(xi−μ)2\begin{array}{l}{\mu=\frac{1}{20} \sum_{i=1}^{20} x_{i}} \\ {\sigma^{2}=\frac{1}{20} \sum_{i=1}^{20}\left(x_{i}-\mu\right)^{2}}\end{array} μ=201∑i=120xiσ2=201∑i=120(xi−μ)2有了这两个参数，就可得到每个xxx对应的概率密度f(x)f(x)f(x)，这样根据20个样本，就可得到概率密度的分布图，具体如下所示：

"""author:jjkdatetime:2019/5/2coding:utf-8project name:Pycharm_workstationProgram function:"""
import numpy as np
import matplotlib.pyplot as plt# 均值
def average(data):return np.sum(data)/len(data)
# 标准差
def sigma(data,avg):sigma_squ = np.sum(np.power((data-avg),2))/len(data)return np.power(sigma_squ,0.5) # 数组元素求n次方# 高斯概率分布-具体参考一维高斯分布的概率密度公式
def prob(data,avg,sig):sqrt_2pi = np.power(2*np.pi,0.5)# 乘pi开根号coef = 1/(sqrt_2pi*sig)powcoef = -1/(2*np.power(sig,2))# sig表示分子mypow = powcoef*(np.power((data-avg),2))# 数据减去均值return coef*(np.exp(mypow)) # np.exp(mypow):e的次方那部分# 样本数据
data = np.array([ 0.79,  0.78,  0.8 ,  0.79,  0.77,  0.81,  0.74,  0.85,  0.8 ,0.77,  0.81,  0.85,  0.85,  0.83,  0.83,  0.8 ,  0.83,  0.71,0.76,  0.8 ])
# 根据样本求高斯分布的平均数
ave = average(data)
# 根据样本求高斯分布的标准差
sig = sigma(data,ave)
# 获取数据
x = np.arange(0.5,1.0,0.01)
p = prob(x,ave,sig)
# 绘制
plt.plot(x,p)
plt.grid()plt.xlabel('apple quality factor')
plt.ylabel('prob density')
plt.yticks(np.arange(0,12,1)) # y轴长度以及间隔
plt.title('Gaussian distribution')plt.show()

几点说明：

可以看到苹果质量在平均数处，大约等于0.8时，取到概率密度的最大值，因为数据样本较少，所以0.5~0.7处概率密度很小。
苹果的质量集中在平均数附近区域
概率密度与x轴所围成的面积为1，等于概率的总和。
p值，即概率密度的值不是一定小于1，它和概率的取值不一致，但是概率密度可以理解成概率，也就是说概率是概率密度量纲后的变量，具有相似的意义

五、最常用的求导公式

求导公式在机器学习的梯度下降中经常使用，因为梯度就意味着要求导，所以将使用频率最高的几个公式罗列在下面，方便查阅。
y=xn,y′=nxn−1y=ax,y′=axln⁡ay=ex,y′=exy=ln⁡x,y′=1x\begin{array}{l}{y=x^{n}, y^{\prime}=n x^{n-1}} \\ {y=a^{x}, y^{\prime}=a^{x} \ln a} \\ {y=e^{x}, y^{\prime}=e^{x}} \\ {y=\ln x, y^{\prime}=\frac{1}{x}}\end{array} y=xn,y′=nxn−1y=ax,y′=axlnay=ex,y′=exy=lnx,y′=x1
在求导这一块，在我们高等数学都学过了，都不难，不懂的直接百度查找：例如：高等数学-相关求导。

【Machine Learning】机器学习之一些数学相关的知识储备相关推荐

Machine Learning机器学习公开课汇总
机器学习目前比较热,网上也散落着很多相关的公开课和学习资源,这里基于课程图谱的机器学习公开课标签做一个汇总整理,便于大家参考对比. 1.Coursera上斯坦福大学Andrew Ng教授的" ...
Useful Things To Know About Machine Learning (机器学习中一些有用的知识)
Useful Things To Know About Machine Learning 原文作者:Jason Brownlee 原文地址:https://machinelearningmastery ...
Machine Learning学习（一）Overview of machine learning机器学习概述
目录 Welcome to machine learning Applications of machine learning Welcome to machine learning Welcome ...
Machine Learning 机器学习
本书展示了机器学习中核心的算法和理论,并阐明了算法的运行过程.本书综合了许多的研究成果,例如统计学.人工智能.哲学.信息论.生物学.认知科学.计算复杂性和控制论等,并以此来理解问题的背景.算法和其中的 ...
Machine Learning | 机器学习简介
什么是机器学习机器学习是人工智能的一个分支.人工智能的研究是从以"推理"为重点到以"知识"为重点,再到以"学习"为重点,一条自然.清晰的脉 ...
When Cyber Security Meets Machine Learning 机器学习安全分析对于安全领域的总结很有用看未来演进方向...
链接:http://ucys.ugr.es/jnic2016/docs/MachineLearning_LiorRokachJNIC2016.pdf https://people.eecs.berke ...
【机器学习-决策树模块-信息论相关必备知识】
决策树--信息论必备知识 --------------------------------------------------------------------------------------- ...
Machine Learning | (2) sklearn数据集与机器学习组成
Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...
Machine Learning:如何选择机器学习算法？
2019独角兽企业重金招聘Python工程师标准>>> Machine Learning Algorithms Overview 关于目前最流行的一些机器学习算法,建议阅读: Mac ...

【Machine Learning】机器学习之一些数学相关的知识储备