数理统计（基于python）

(一) 总体和样本

在一个统计问题中, 我们把研究对象的全体称为总体，构成总体的每个成员称为个体。
总体就是一个概率分布，总体的数量指标就是服从该概率分布的一个随机变量。

一般来说，总体分为：有限总体和无限总体, 大多数所说的总体是无限总体。

由于总体是无限的，又或者说总体的个体数量太多，如果对每一个个体的数量指标都进行研究所花费的成本将是十分巨大的。为了了解总体的分布，从总体中随机地抽取 nnn 个个体，记其指标值为 x1,x2,⋯x_{1}, x_{2}, \cdotsx1,x2,⋯, xnx_{n}xn, 则 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 称为总体的一个样本， nnn 称为样本容量，或简称样本量，样本中的个体称为样品。
样本具有所谓的二重性：一方面, 由于样本是从总体中随机抽取的，抽取前无法预知它们的数值，因此，样本是一个随机变量，用大写字母 X1,X2,⋯,XnX_{1}, X_{2}, \cdots, X_{n}X1,X2,⋯,Xn 表示；另一方面，样本在抽取以后经观测就有确定的观测值，因此，样本又是一组数值，此时用小写字母 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 表示是合适的。为了描述的简单，我们只用小写字母表示样本x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn，不管样本是随机变量还是具体的数值，都用小写字母表示。

简

单随机抽样需要满足两个要求：

从总体中抽取的样本具有代表性：具有代表性要求总体中每一个个体都有同等机会被选入样本中，也就意味着样本中的每一个样品xix_ixi与总体X有相同的分布，简称“同分布”。

从总体中抽取的样本具有独立性：具有独立性即要求样本中每一样品的取值不影响其他样品的取值，也就意味着 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 之间相互独立。

总结：在简单随机抽样这种抽样方法下，样本中的每一个样品x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn之间独立同分布，同分布于总体分布，简称：iid。用简单随机抽样方法得到的样本称为简单随机样本，也简称样本。

设总体 XXX 具有分布函数 F(x),x1,x2,⋯,xnF(x), x_{1}, x_{2}, \cdots, x_{n}F(x),x1,x2,⋯,xn 为取自该总体的容量为 nnn 的样本，则样本联合分布函数为
F(x1,x2,⋯,xn)=∏i=1nF(xi).F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\prod_{i=1}^{n} F\left(x_{i}\right) . F(x1,x2,⋯,xn)=i=1∏nF(xi).
这个公式在极大似然估计的时候会再次碰到，是一条十分重要的公式！

(二) 经验分布函数与直方图

1. 经验分布函数

经验分布函数：使用样本信息构造的分布函数近似未知的总体分布函数

设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 是取自总体分布函数为 F(x)F(x)F(x) 的样本，若将样本观测值由小到大进行排列，记为 x(1),x(2),⋯,x(n)x_{(1)}, x_{(2)}, \cdots, x_{(n)}x(1),x(2),⋯,x(n), 则 x(1),x(2),⋯,x(n)x_{(1)}, x_{(2)}, \cdots, x_{(n)}x(1),x(2),⋯,x(n) 称为有序样本，用有序样本定义如下函数
Fn(x)={0,当 x<x(1),k/n,当 x(k)⩽x<x(k+1),k=1,2,⋯,n−1,1,当 x⩾x(n),F_{n}(x)= \begin{cases}0, & \text { 当 } x<x_{(1)}, \\ k / n, & \text { 当 } x_{(k)} \leqslant x<x_{(k+1)}, k=1,2, \cdots, n-1, \\ 1, & \text { 当 } x \geqslant x_{(n)},\end{cases} Fn(x)=⎩⎪⎨⎪⎧0,k/n,1, 当 x<x(1), 当 x(k)⩽x<x(k+1),k=1,2,⋯,n−1, 当 x⩾x(n),
则 Fn(x)F_{n}(x)Fn(x) 是一非减右连续函数，且满足
Fn(−∞)=0和 Fn(∞)=1.F_{n}(-\infty)=0 \text { 和 } F_{n}(\infty)=1 . Fn(−∞)=0 和 Fn(∞)=1.
由此可见， Fn(x)F_{n}(x)Fn(x) 是一个分布函数，称 Fn(x)F_{n}(x)Fn(x) 为该样本的经验分布函数。

2. 直方图：频数直方图和频率直方图

直方图是数值数据分布的精确图形表示，这是一个连续变量（定量变量）的概率分布的估计
缺点：无法数值化进行研究

# 频数直方图
x_samples = np.random.randn(1000)
plt.hist(x_samples, bins=10,color='blue',alpha=0.6)  # bins=10代表10根柱子
plt.xlabel("x")
plt.ylabel("频数 n")
plt.title("频数直方图")
plt.show()

# 频率直方图
x_samples = np.random.randn(1000)
plt.hist(x_samples, bins=10,color='blue',alpha=0.6,density=True)  # bins=10代表10根柱子
plt.xlabel("x")
plt.ylabel("频率 p")
plt.title("频率直方图")
plt.show()

区别：density=True 的意思是保证该面积的积分为1，并不是概率和为1

(三) 统计量与三大抽样分布

1. 统计量

设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 为取自某总体的样本，若样本函数 T=T(x1,x2,⋯,xn)T=T\left(x_{1}, x_{2}, \cdots, x_{n}\right)T=T(x1,x2,⋯,xn) 中不含有任何末知参数，则称 TTT 为统计量。统计量的分布称为抽样分布。
统计量由样本决定，从而统计量因样本而异，对于同一总体，由于抽取样本是具有随机性的，因此抽取不同的样本，统计量就不同，从而统计量也是一个随机变量。统计量的分布称为抽样分布。虽然统计量不依赖于任何参数，但统计量的分布一般依赖于未知参数。

下面介绍几个常用的统计量及其对应的抽样分布：

1.1 样本均值

设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 为取自某总体的样本，其算术平均值称为样本均值，一般用 xˉ\bar{x}xˉ 表示，即
xˉ=x1+x2+⋯+xnn=1n∑i=1nxi\bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n} \sum_{i=1}^{n} x_{i} xˉ=nx1+x2+⋯+xn=n1i=1∑nxi
如果把样本中的数据与样本均值的差称为偏差，则样本所有偏差之和为 0，即 ∑i=1n(xi−xˉ)=0\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)=0∑i=1n(xi−xˉ)=0。

# 从总体/总体的分布中抽取样本并计算样本均值和计算偏差
## （1）从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean)  # 计算偏差和
print("样本均值为：",x_mean)
print("偏差和为：",x_bias)

## （2）从总体分布中抽取样本，假设总体分布为N（0，1）
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean)  # 计算偏差和
print("样本均值为：",x_mean)
print("偏差和为：",x_bias)

统计量——样本均值的分布，即样本均值的抽样分布当n越来越大时近似服从正态分布，具体来说：
设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 是来自某个总体的样本， xˉ\bar{x}xˉ 为样本均值。
（1）若总体分布为 N(μ,σ2)N\left(\mu, \sigma^{2}\right)N(μ,σ2)，则 xˉ\bar{x}xˉ 的精确分布为 N(μ,σ2/n)N\left(\mu, \sigma^{2} / n\right)N(μ,σ2/n);
（2）若总体分布末知或不是正态分布， E(x)=μ,Var⁡(x)=σ2E(x)=\mu, \operatorname{Var}(x)=\sigma^{2}E(x)=μ,Var(x)=σ2 存在，则 nnn 较大时 xˉ\bar{x}xˉ 的渐近分布为 N(μ,σ2/n)N\left(\mu, \sigma^{2} / n\right)N(μ,σ2/n)。这里渐近分布是指 nnn 较大时的近似分布。

1.2 样本方差与样本标准差

设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 为取自某总体的样本，则它关于样本均值 xˉ\bar{x}xˉ 的平均偏差平方和
sn2=1n∑i=1n(xi−xˉ)2s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} sn2=n1i=1∑n(xi−xˉ)2
称为样本方差。

样本标准差就是样本方差的算术平方根，即：sn=sn2s_{n}=\sqrt{s_{n}^{2}}sn=sn2。

样本方差除了上述的表达式，还有另一个表达式：s2=1n−1∑i=1n(xi−xˉ)2s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}s2=n−11∑i=1n(xi−xˉ)2。s2s^{2}s2常被称为无偏方差，当样本量较大时，sn2s_n^2sn2与s2s^2s2相差不大，可以随意使用，当样本量较小时，计算样本方差最好使用无偏样本方差s2s^2s2。

注意：后面我们所说的样本方差都是指无偏样本方差s2s^2s2而不是sn2s_n^2sn2。

# 从总体/总体的分布中抽取样本并计算样本方差与样本标准差
## （1）从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为：",x_sn2)
print("样本方差s^2为：",x_s2)
print("样本标准差sn^2为：",x_sn)
print("样本标准差s^2为：",x_s)

## （2）从总体分布中抽取样本，假设总体分布为N（0，1）
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为：",x_sn2)
print("样本方差s^2为：",x_s2)
print("样本标准差sn^2为：",x_sn)
print("样本标准差s^2为：",x_s)

设总体为 XXX 方差存在，即 E(X)=μ,Var⁡(X)=σ2<∞,x1,x2,⋯,xnE(X)=\mu, \operatorname{Var}(X)=\sigma^{2}<\infty, x_{1}, x_{2}, \cdots, x_{n}E(X)=μ,Var(X)=σ2<∞,x1,x2,⋯,xn 为从该总体得到的样本， xˉ\bar{x}xˉ 和 s2s^{2}s2 分别是样本均值和样本方差, 则
E(xˉ)=μ,Var⁡(xˉ)=σ2/n,E(s2)=σ2.\begin{gathered} E(\bar{x})=\mu, \quad \operatorname{Var}(\bar{x})=\sigma^{2} / n, \\ E\left(s^{2}\right)=\sigma^{2} . \end{gathered} E(xˉ)=μ,Var(xˉ)=σ2/n,E(s2)=σ2.
此定理表明，样本均值的期望与总体均值相同，而样本均值的方差是总体方差的 1/n1 / n1/n。

1.3 次序统计量及其分布（了解）

最小次序统计量及其分布
最大次序统计量及其分布

1.4 样本分位数与样本中位数及其抽样分布

在概率论中，中位数是指累计概率p=0.5p=0.5p=0.5时对应的随机变量值xxx，而样本抽样后的一组离散个数的取值，因此，我们定义样本中位数只需要查找抽样后的样本中排在中间的那个样品，具体来说：
m0.5={x(n+12),n为奇数, 12(x2)+x(n2+1)),n为偶数. m_{0.5}= \begin{cases}x\left(\frac{n+1}{2}\right), & n \text { 为奇数, } \\ \left.\frac{1}{2}\left(\frac{x}{2}\right)+x\left(\frac{n}{2}+1\right)\right), & n \text { 为偶数. }\end{cases} m0.5={x(2n+1),21(2x)+x(2n+1)),n 为奇数, n 为偶数.
若 n=5n=5n=5，则 m0.5=x(3)m_{0.5}=x_{(3)}m0.5=x(3)，若 n=6n=6n=6, 则 m0.5=12(x(3)+x(4))m_{0.5}=\frac{1}{2}\left(x_{(3)}+x_{(4)}\right)m0.5=21(x(3)+x(4))。

# 从总体/总体的分布中抽取样本并计算样本样本中位数
## （1）从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为：",x_mid)

## （2）从总体分布中抽取样本，假设总体分布为N（0，1）
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为：",x_mid)

样本 ppp 分位数 mpm_{p}mp 可如下定义:
mp={x([np+1]),若 np不是整数, 12(x(np)+x(np+1)),若 np是整数. m_{p}= \begin{cases}x_{([n p+1])}, & \text { 若 } n p \text { 不是整数, } \\ \frac{1}{2}\left(x_{(n p)}+x_{(n p+1)}\right), & \text { 若 } n p \text { 是整数. }\end{cases} mp={x([np+1]),21(x(np)+x(np+1)), 若 np 不是整数, 若 np 是整数.
先将抽样的nnn个样本按从小到大排序，样本ppp分位数就是排在第n×pn\times pn×p位的样品值，当然有可能n×pn\times pn×p不是整数，按上述公式处理。

# 从总体/总体的分布中抽取样本并计算样本样本中位数
## （1）从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_low = np.percentile(x_i,25) # 计算样本下四分位数
x_high = np.percentile(x_i,75) # 计算样本上四分位数
print("样本下四分位数为：",x_low)
print("样本上四分位数为：",x_high)

样本分位数的抽样分布的渐近分布为正态分布，当n越来越大时。具体来说：
设总体密度函数为 p(x),xpp(x), x_{p}p(x),xp 为其 ppp 分位数， p(x)p(x)p(x) 在 xpx_{p}xp 处连续且 p(xp)>p\left(x_{p}\right)>p(xp)> 0 ，则当 n→∞n \rightarrow \inftyn→∞ 时样本 ppp 分位数 mpm_{p}mp 的渐近分布为
N(xp,p(1−p)n⋅p2(xp))N\left(x_{p}, \frac{p(1-p)}{n \cdot p^{2}\left(x_{p}\right)}\right) N(xp,n⋅p2(xp)p(1−p))
特别地, 对于样本中位数来说, 当 n→∞n \rightarrow \inftyn→∞ 时有
N(x0.5,14n⋅p2(x0.5))N\left(x_{0.5}, \frac{1}{4 n \cdot p^{2}\left(x_{0.5}\right)}\right) N(x0.5,4n⋅p2(x0.5)1)

2. 三大抽样分布

2.1 卡方统计量与卡方分布

假设x1,x2,...xnx_1,x_2,...x_nx1,x2,...xn是标准正态分布N(0,1)N(0,1)N(0,1)为总体抽样的得到的样本（x1,x2,...xnx_1,x_2,...x_nx1,x2,...xn独立同分布于N(0,1)N(0,1)N(0,1)），则
χ2=x12+x22+⋯+xn2\chi^{2}=x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2} χ2=x12+x22+⋯+xn2
的分布为自由度为n的χ2\chi^{2}χ2分布，简称χ2∼χ2(n)\chi^{2} \sim \chi^{2}(n)χ2∼χ2(n)，χ2\chi^{2}χ2分布的密度函数为：
p(y)=(1/2)n2Γ(n/2)yn2−1e−y2,y>0p(y)=\frac{(1 / 2)^{\frac{n}{2}}}{\Gamma(n / 2)} y^{\frac{n}{2}-1} \mathrm{e}^{-\frac{y}{2}}, \quad y>0 p(y)=Γ(n/2)(1/2)2ny2n−1e−2y,y>0
用一句话记住卡方分布：nnn个标准正态分布的平方和服从自由度为nnn的卡方分布。

自由度：可以自由变化的变量个数

使用python画出不同自由度nnn下的密度函数图，代码如下：

# 使用scipy计算pdf画图(非自定义函数)
from scipy.stats import chi2
x = np.linspace(0.01,30,10000)
plt.plot(x, chi2.pdf(x,df=4),'r-', lw=5, alpha=0.6, label='chi2(4)',c='red')
plt.plot(x, chi2.pdf(x,df=6),'r-', lw=5, alpha=0.6, label='chi2(6)',c='blue')
plt.plot(x, chi2.pdf(x,df=10),'r-', lw=5, alpha=0.6, label='chi2(10)',c='orange')
plt.xlabel("X")
plt.ylabel("p (x)")
plt.legend()
plt.show()

卡方分布演示，代码如下：

# 使用卡方分布的定义演示卡方分布
from scipy.stats import norm
n = 10
chi2_list = []
for i in range(100000):x_i = norm.rvs(loc=0,scale=1,size=10)chi2_T = np.sum(np.square(x_i))chi2_list.append(chi2_T)
sns.distplot(chi2_list,color='blue')
plt.xlabel("x")
plt.ylabel("频率 p")
plt.title("n="+str(n))
plt.show()

2.2 F统计量与F分布

设随机变量 X1∼χ2(m),X2∼χ2(n),X1X_{1} \sim \chi^{2}(m), X_{2} \sim \chi^{2}(n), X_{1}X1∼χ2(m),X2∼χ2(n),X1 与 X2X_{2}X2 独立，则称 F=X1/mX2/nF=\frac{X_{1} / m}{X_{2} / n}F=X2/nX1/m 的分布是自由度为 mmm 与 nnn 的 FFF 分布，记为 F∼F(m,n)F \sim F(m, n)F∼F(m,n)，其中 mmm 称为分子自由度， nnn 称为分母自由度。F分布的密度函数为：
pF(y)=Γ(m+n2)(mn)m2ym2−1(1+mny)−m+n2Γ(m2)Γ(n2)⋅\begin{aligned} p_{F}(y) &=\frac{\Gamma\left(\frac{m+n}{2}\right)\left(\frac{m}{n}\right)^{\frac{m}{2}} y^{\frac{m}{2}-1}\left(1+\frac{m}{n} y\right)^{-\frac{m+n}{2}}}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} \cdot \end{aligned} pF(y)=Γ(2m)Γ(2n)Γ(2m+n)(nm)2my2m−1(1+nmy)−2m+n⋅

# 使用scipy与matplotlib绘制不同的m，n下的F分布的密度函数
from scipy.stats import f
x = np.linspace(0.01,5,10000)
plt.plot(x, f.pdf(x,4,4000),'r-', lw=5, alpha=0.6, label='F(4,4000)',c='red')
plt.plot(x, f.pdf(x,4,10),'r-', lw=5, alpha=0.6, label='F(4,10)',c='blue')
plt.plot(x, f.pdf(x,4,4),'r-', lw=5, alpha=0.6, label='F(4,4)',c='orange')
plt.plot(x, f.pdf(x,4,1),'r-', lw=5, alpha=0.6, label='F(4,1)',c='yellow')
plt.xlabel("X")
plt.ylabel("p (x)")
plt.legend()
plt.show()

# 使用F统计量的定义演示：
from scipy.stats import norm
m,n = 4,4000
F_list = []
for i in range(100000):chi2_m_sample = np.sum(np.square(norm.rvs(loc=0,scale=1,size=m))) # 卡方m统计量chi2_n_sample = np.sum(np.square(norm.rvs(loc=0,scale=1,size=n))) # 卡方n统计量F_T = (chi2_m_sample/m) / (chi2_n_sample/n)  # # F（m，n）统计量F_list.append(F_T)
sns.distplot(F_list,color='blue')
plt.xlabel("x")
plt.ylabel("频率 p")
plt.title("F(4,4000)")
plt.show()

2.3 t分布及其统计量

设随机变量 X1X_{1}X1 与 X2X_{2}X2 独立且 X1∼N(0,1),X2∼χ2(n)X_{1} \sim N(0,1), X_{2} \sim \chi^{2}(n)X1∼N(0,1),X2∼χ2(n), 则称 t=X1X2/nt=\frac{X_{1}}{\sqrt{X_{2} / n}}t=X2/nX1 的分布为自由度为 nnn 的 ttt 分布，记为 t∼t(n)t \sim t(n)t∼t(n)。

下面，我们使用scipy绘制t分布的密度函数，代码如下：

# 使用scipy与matplotlib绘制不同的n下的t分布的密度函数
from scipy.stats import t
from scipy.stats import norm
x = np.linspace(-6,6,10000)
plt.plot(x, t.pdf(x,4),'--', lw=5, alpha=0.6, label='t (4)',c='red')
plt.plot(x, norm.pdf(x,loc=0,scale=1),'r-', lw=5, alpha=0.6, label='N (0,1)',c='yellow')
plt.plot(x, t.pdf(x,100),'--', lw=5, alpha=0.6, label='t (100)',c='blue')
plt.xlabel("X")
plt.ylabel("p (x)")
plt.legend()
plt.show()

使用样本均值和样本方差构造t统计量：
设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 是来自正态分布 N(μ,σ2)N\left(\mu, \sigma^{2}\right)N(μ,σ2) 的一个样本， xˉ\bar{x}xˉ 与 s2s^{2}s2 分别是该样本的样本均值与样本方差，则有
t=n(xˉ−μ)s∼t(n−1)t=\frac{\sqrt{n}(\bar{x}-\mu)}{s} \sim t(n-1) t=sn(xˉ−μ)∼t(n−1)

正态分布用于大量数据的统计分析；而t分布用于少量数据的统计分析

(四) 参数估计之点估计的概念

估计：通过样本统计量对总体分布的未知参数进行估计。

估计的方法有点估计与区间估计，点估计希望使用一个数估计总体中的位置参数，如μ=0\mu = 0μ=0就是指使用一个数0去估计总体中的参数μ\muμ，而0是由抽样后计算某个样本统计量得来的。换句话说，区间估计指的是使用一个区间估计总体中的参数，区间估计解决了点估计无法评价估计的精度的问题。

设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 是来自总体的一个样本，用于估计未知参数 θ\thetaθ 的统计量 θ^=θ^(x1,x2,⋯,xn)\hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right)θ^=θ^(x1,x2,⋯,xn) 称为 θ\thetaθ 的估计量，或称为 θ\thetaθ 的点估计，简称估计。

(五) 参数估计之点估计的方法：矩估计

1. 总体矩和中心矩

什么是矩？
对于一个随机变量X来说，随机变量X的矩可以分为原点矩和中心矩，具体来说：

设 XXX 为随机变量， kkk 为正整数。如果以下的数学期望都存在，则称
μk=E(Xk)\mu_{k}=E\left(X^{k}\right) μk=E(Xk)
为 XXX 的 kkk 阶原点矩。称
νk=E(X−E(X))k\nu_{k}=E(X-E(X))^{k} νk=E(X−E(X))k
为 XXX 的 kkk 阶中心矩。

数学期望是随机变量的1阶原点矩，方差是随机变量的2阶中心矩。随机变量的矩是随机变量的一类数字特征，随机变量的原点矩刻画了随机变量XXX偏离原点(0,0)(0,0)(0,0)的程度，而中心矩描述了随机变量XXX偏离“中心”的程度，可以使用数学期望和方差做类比。

一类常见的统计量就是样本矩，具体来说：
设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 是样本， kkk 为正整数，则统计量
ak=1n∑i=1nxika_{k}=\frac{1}{n} \sum_{i=1}^{n} x_{i}^{k} ak=n1i=1∑nxik
称为样本 kkk 阶原点矩。特别地，样本一阶原点矩就是样本均值。统计量
bk=1n∑i=1n(xi−xˉ)kb_{k}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{k} bk=n1i=1∑n(xi−xˉ)k
称为样本 kkk 阶中心矩。特别地，样本二阶中心矩就是样本方差。

在python如何计算样本矩：

# 假设总体是标准正态分布，求3阶原点矩和中心矩
from scipy.stats import norm
x_i = norm.rvs(loc=0, scale=1, size=10000)
a3 = np.mean(np.power(x_i,3))
b3 = np.mean(np.power((x_i-np.mean(x_i)), 3))
print("3阶原点矩：",a3)
print("3阶中心矩：",b3)

2. 矩估计

替换原理：使用样本矩（样本原点矩和样本中心矩）替换总体矩（原点矩和中心矩），如：使用样本均值xˉ\bar{x}xˉ替换总体均值E(X)E(X)E(X)、使用样本方差s2s^2s2替换总体方差Var(X)Var(X)Var(X)。

矩估计（拓展下的替换原理）：使用样本均值xˉ\bar{x}xˉ估计总体均值E(X)E(X)E(X)、使用样本方差s2s^2s2估计总体方差Var(X)Var(X)Var(X)、用事件的频率估计事件的概率、使用样本分位数估计总体分位数等。

(六) 参数估计之点估计的方法：极大似然估计

极大似然估计的思想，充分利用了样本的二重性，即：可以把样本想象成黑盒子，打开前样本是一个随机变量，打开后就是确定的值。具体来说：极大似然估计就是利用已知的样本结果信息，反推最有可能（最大概率）导致这些样本结果出现的模型参数值。

对正态总体 N(μ,σ2),θ=(μ,σ2)N\left(\mu, \sigma^{2}\right), \theta=\left(\mu, \sigma^{2}\right)N(μ,σ2),θ=(μ,σ2) 是二维参数，设有样本 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn，求总体参数μ\muμ和σ2\sigma^2σ2。
L(μ,σ2)=∏i=1n(12πσexp⁡{−(xi−μ)22σ2})=(2πσ2)−n/2exp⁡{−12σ2∑i=1n(xi−μ)2}ln⁡L(μ,σ2)=−12σ2∑i=1n(xi−μ)2−n2ln⁡σ2−n2ln⁡(2π)\begin{aligned} L\left(\mu, \sigma^{2}\right)=& \prod_{i=1}^{n}\left(\frac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right\}\right)=\left(2 \pi \sigma^{2}\right)^{-n / 2} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}\right\} \\ & \ln L\left(\mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-\frac{n}{2} \ln \sigma^{2}-\frac{n}{2} \ln (2 \pi) \end{aligned} L(μ,σ2)=i=1∏n(2πσ1exp{−2σ2(xi−μ)2})=(2πσ2)−n/2exp{−2σ21i=1∑n(xi−μ)2}lnL(μ,σ2)=−2σ21i=1∑n(xi−μ)2−2nlnσ2−2nln(2π)
为了求解对数似然函数的最大化，需要lnL(μ,σ2)ln L(\mu, \sigma^2)lnL(μ,σ2)对μ\muμ和σ2\sigma^2σ2求偏导函数，然后求偏导函数的零点。
∂ln⁡L(μ,σ2)∂μ=1σ2∑i=1n(xi−μ)=0∂ln⁡L(μ,σ2)∂σ2=12σ4∑i=1n(xi−μ)2−n2σ2=0.\begin{gathered} \frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)=0 \\ \frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \sigma^{2}}=\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-\frac{n}{2 \sigma^{2}}=0 . \end{gathered} ∂μ∂lnL(μ,σ2)=σ21i=1∑n(xi−μ)=0∂σ2∂lnL(μ,σ2)=2σ41i=1∑n(xi−μ)2−2σ2n=0.
解这个方程组，就可以得到：
μ^=1n∑i=1nxi=xˉ\hat{\mu}=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\bar{x} μ^=n1i=1∑nxi=xˉ
和
σ^2=1n∑i=1n(xi−xˉ)2=sn2\hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=s_{n}^{2} σ^2=n1i=1∑n(xi−xˉ)2=sn2
正态分布的μ\muμ和σ2\sigma^2σ2的极大似然估计是样本均值xˉ\bar{x}xˉ和有偏样本方差sn2s_n^2sn2。一般来说，估计的结果都与从该分布抽样的样本组成的样本统计量有关，如样本均值xˉ\bar{x}xˉ样本方差s2s^2s2 等等。

(七) 参数估计之点估计的评价：无偏性与有效性

1. 无偏性

使用某个统计量估计总体参数时，由于样本具有随机性，统计量始终与总体参数有一定的差距，这种差距时而偏大，时而偏小，但是平均起来统计量与总体参数之间的差距为0。可以想像成一个箭靶，箭靶中心是总体参数，我们最想要的就是一击必中靶心，但是由于各种因素，我们每次实际的射击（统计量）与实际靶心有一定的差距，有时射出的箭位于靶心上方，有时射出的箭位于靶心的下方，但是平均起来这种差距会被抵消为0。即：

设 θ^=θ^(x1,x2,⋯,xn)\hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right)θ^=θ^(x1,x2,⋯,xn) 是 θ\thetaθ 的一个估计， θ\thetaθ 的参数空间为 Θ\ThetaΘ，若对任意的 θ∈Θ\theta \in \Thetaθ∈Θ，有
Eθ(θ^)=θ,E_{\theta}(\hat{\theta})=\theta, Eθ(θ^)=θ,
则称 θ^\hat{\theta}θ^ 是 θ\thetaθ 的无偏估计，否则称为有偏估计。

2. 有效性

对于同一个总体参数的估计统计量的构造方式多种多样，同时对于同一个总体参数的无偏估计也有很多个统计量进行估计，因此如何从众多的无偏估计统计量中选择合适的统计量估计总体参数呢？其实，最直观的方式是：如果该统计量围绕总体分布的参数值波动越小越好，因此波动越小，由于随机性导致的统计量每次估计总体分布参数时不会差别太大。波动可以使用方差来衡量，因此应该选择无偏估计的统计量中方差最小的统计量作为最有效的统计量。具体来说：

设 θ^1,θ^2\hat{\theta}_{1}, \hat{\theta}_{2}θ^1,θ^2 是 θ\thetaθ 的两个无偏估计，如果对任意的 θ∈Θ\theta \in \Thetaθ∈Θ 有
Var⁡(θ^1)⩽Var⁡(θ^2),\operatorname{Var}\left(\hat{\theta}_{1}\right) \leqslant \operatorname{Var}\left(\hat{\theta}_{2}\right), Var(θ^1)⩽Var(θ^2),
且至少有一个 θ∈Θ\theta \in \Thetaθ∈Θ 使得上述不等号严格成立，则称 θ^1\hat{\theta}_{1}θ^1 比 θ^2\hat{\theta}_{2}θ^2 有效。

使用样本均值估计正态总体μ\muμ总是无偏且有效的！

(八) 参数估计之区间估计（了解）

区间估计：构造统计量的分布，即抽样分布，然后使用一个区间估计总体分布的参数。

设 θ\thetaθ 是总体的一个参数，其参数空间为 Θ,x1,x2,⋯,xn\Theta, x_{1}, x_{2}, \cdots, x_{n}Θ,x1,x2,⋯,xn 是来自该总体的样本, 对给定的一个 α(0<α<1)\alpha(0<\alpha<1)α(0<α<1)，假设有两个统计量 θ^L=θ^L(x1,x2,⋯,xn)\hat{\theta}_{L}=\hat{\theta}_{L}\left(x_{1}, x_{2}, \cdots, x_{n}\right)θ^L=θ^L(x1,x2,⋯,xn) 和 θ^U=\hat{\theta}_{U}=θ^U= θ^U(x1,x2,⋯,xn)\hat{\theta}_{U}\left(x_{1}, x_{2}, \cdots, x_{n}\right)θ^U(x1,x2,⋯,xn)，若对任意的 θ∈Θ\theta \in \Thetaθ∈Θ，有
Pθ(θ^L⩽θ⩽θ^U)⩾1−α,P_{\theta}\left(\hat{\theta}_{L} \leqslant \theta \leqslant \hat{\theta}_{U}\right) \geqslant 1-\alpha, Pθ(θ^L⩽θ⩽θ^U)⩾1−α,
则称随机区间 [θ^L,θ^V]\left[\hat{\theta}_{L}, \hat{\theta}_{V}\right][θ^L,θ^V] 为 θ\thetaθ 的置信水平为 1−α1-\alpha1−α 的置信区间，或简称 [θ^L,θ^V]\left[\hat{\theta}_{L}, \hat{\theta}_{V}\right][θ^L,θ^V] 是 θ\thetaθ 的 1−α1-\alpha1−α 置信区间， θ^L\hat{\theta}_{L}θ^L 和 θ^U\hat{\theta}_{U}θ^U 分别称为 θ\thetaθ 的 (双侧) 置信下限和置信上限。

如何构造一个置信区间？
枢轴量法；简便方法可以选择bootstrap方法

# 使用bootstrap方法计算N(0,1)的mu的置信区间：样本量为1000，重抽样样本量为500, 重抽样的次数为100000次
T_list = []
N, N_re = 1000, 500
total_times = 10000
alpha = 0.05
x_i = np.random.randn(N)  # 抽样1000个
for i in range(total_times):x_re = np.random.choice(x_i, N_re, replace=True) # 从样本中重抽样T = np.mean(x_re)T_list.append(T)
left = np.percentile(np.array(T_list), 100*alpha/2)
right = np.percentile(np.array(T_list), 100*(1-alpha/2))
print("正态总体的mu的置信区间为：["+str(left)+", "+str(right)+"]")

(九) 假设检验之基本思想

1. 假设检验的基本概念

假设检验是对某一个说法做出检验，提出这个说法是正确还是错误。

2. 假设检验的步骤

2.1 建立假设

根据实际情况，假设可能发生的可能性
提出问题的原假设H0H_0H0与备择假设H1H_1H1

2.2 选择统计量并给出拒绝域的形式

问题的原假设H0H_0H0与备择假设H1H_1H1是关于总体的假设，需要使用样本信息推断总体的假设是否是正确的。可以想像成有两个空间，一个能让我们通过样本信息拒绝原假设的拒绝域WWW，另一个是让我们通过样本信息接受原假设的接受域Wˉ\bar{W}Wˉ，拒绝域WWW和接受域Wˉ\bar{W}Wˉ都是可以通过样本信息构造出来的。因此，如果（检验）统计量落在拒绝域WWW则拒绝原假设，相反如果落在接受域Wˉ\bar{W}Wˉ则接受原假设。
构造拒绝域：由于我们的原假设是正态总体的数学期望θ≥1\theta \ge 1θ≥1，因此样本均值xˉ\bar{x}xˉ是一个不错的统计量。如果正态总体的数学期望θ\thetaθ越大，xˉ\bar{x}xˉ越大则支持原假设的力度就会越大，反之xˉ\bar{x}xˉ越小则越拒绝原假设。因此，当xˉ\bar{x}xˉ小到一定的程度，就拒绝原假设，拒绝域的形式也随之出来：
W={(x1,x2,⋯,xn):xˉ⩽c}={xˉ⩽c}W=\left\{\left(x_{1}, x_{2}, \cdots, x_{n}\right): \bar{x} \leqslant c\right\}=\{\bar{x} \leqslant c\} W={(x1,x2,⋯,xn):xˉ⩽c}={xˉ⩽c}
其中，ccc是未确定的。

当拒绝域确定以后，如果某次的样本统计量位于拒绝域WWW则拒绝原假设，如果某次的统计量位于接受域Wˉ\bar{W}Wˉ则接受原假设。

2.3 选择显著性水平

考虑到由于样本具有随机性，因此每次抽样的统计量的值都不一样，因此某次抽样的样本统计量可能会位于拒绝域，也有可能位于接受域。

2.4 给出拒绝域

(十) 假设检验之正态总体参数的假设检验

对正态总体的参数μ\muμ和σ2\sigma^2σ2的各种检验：

单个正态总体均值的检验
两个正态总体均值差的检验
正态总体方差的检验

(十一) 假设检验之似然比检验与Bootstrap方法

设 x1,x2,⋯,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,⋯,xn 为来自密度函数为 p(x;θ),θ∈Θp(x ; \theta), \theta \in \Thetap(x;θ),θ∈Θ 的总体的样本，考虑如下检验问题:
H0:θ∈Θ0vs H1:θ∈Θ1=Θ−Θ0H_{0}: \theta \in \Theta_{0} \quad \text { vs } \quad H_{1}: \theta \in \Theta_{1}=\Theta-\Theta_{0} H0:θ∈Θ0 vs H1:θ∈Θ1=Θ−Θ0
令
Λ(x1,x2,⋯,xn)=sup⁡θ∈Θp(x1,x2,⋯,xn;θ)sup⁡θ∈Θ0p(x1,x2,⋯,xn;θ),\Lambda\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\frac{\sup _{\theta \in \Theta} p\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)}{\sup _{\theta \in \Theta_{0}} p\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)}, Λ(x1,x2,⋯,xn)=supθ∈Θ0p(x1,x2,⋯,xn;θ)supθ∈Θp(x1,x2,⋯,xn;θ),
则我们称统计量 Λ(x1,x2,⋯,xn)\Lambda\left(x_{1}, x_{2}, \cdots, x_{n}\right)Λ(x1,x2,⋯,xn) 为假设的似然比 ( likelihood ratio), 有时也称之为广义似然比。
Λ(x1,x2,⋯,xn)\Lambda\left(x_{1}, x_{2}, \cdots, x_{n}\right)Λ(x1,x2,⋯,xn) 也可以写成如下形式：
Λ(x1,x2,⋯,xn)=p(x1,x2,⋯,xn;θ^)p(x1,x2,⋯,xn;θ^0),\Lambda\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\frac{p\left(x_{1}, x_{2}, \cdots, x_{n} ; \hat{\theta}\right)}{p\left(x_{1}, x_{2}, \cdots, x_{n} ; \hat{\theta}_{0}\right)}, Λ(x1,x2,⋯,xn)=p(x1,x2,⋯,xn;θ^0)p(x1,x2,⋯,xn;θ^),
其中 θ^\hat{\theta}θ^ 表示在全参数空间 Θ\ThetaΘ 上 θ\thetaθ 的最大似然估计， θ^0\hat{\theta}_{0}θ^0 表示在子参数空间 Θ0\Theta_{0}Θ0 上 θ\thetaθ 的最大似然估计。也就是说, Λ(x1,x2,⋯,xn)\Lambda\left(x_{1}, x_{2}, \cdots, x_{n}\right)Λ(x1,x2,⋯,xn) 的分子表示没有假设时的似然函数最大值，分母表示在原假设成立条件下的似然函数最大值。

GitModel数学建模 —— 动手学数理统计相关推荐

做数学建模，学matlab还是python？
大家好,我是北海. 刚开始参与数学建模的同学,往往会面临一个问题:做数模离不开编程,而matlab和python都挺适合做数模的,究竟是学matlab还是python? 本文就给大家分析一下matla ...
备战数学建模19-数学规划问题
目录一.线性规划 1-线性规划的概念 2-线性规划的实例与定义 3-线性规划MATLAB与lingo实现 4-可转化为线性规划的问题 5-线性规划问题实战案例二.整数规划 1-整数规划相关概念 2 ...
数学建模概率论与数理统计
概率论与数理统计概率模型统计模型概率空间是概率论研究的起点实际问题抽象为数学模型常微方程偏微方程三元组(Ω,F,P)概率空间 Ω--样本空间 F--事件域 P--概率测度研究随机现象由 ...
数学建模进入“新课标”，告别了“刷题”“押题”数学应该怎么学？
前段时间,光明日报教育周刊发表了一篇题为<靠刷题.押题还能得高分吗>的文章,并用一整个版面来探讨"双减"后的数学教育问题.各大媒体纷纷转发,一时间刷爆朋友圈. < ...
数学建模--数理统计
数学建模--司守奎摘录文章目录数学建模--司守奎摘录第七章数理统计一.经验分布函数二.Q-Q图三.非参数检验四.非参数Bootstrap方法五.方差分析单因素方差分析双因素方 ...
学数学建模算法对计算机的好处,数学建模中常见十种算法 (期末论文).doc
数学建模中常见十种算法 (期末论文) 数学系毕业论文论文 (设计)题目: 数学建模中常见的十种算法姓名黄小芬______ 学号 100501313 专业数学与应用数学班级 ...
什么是数学建模？如何在数学建模中拿奖？通过建模学到了啥？
个人大学四年经验分享之数学建模无论什么水平,看过此文章后必有收获! 一.数学建模到底是什么? 1,数学模型 2,数学建模二.如何在数学建模中拿奖(三个方面) 1.组队 2,知识准备 3,比赛过程 ...
学计算机加数模社团,数学建模社团简介
数学建模(Mathematical Modeling)&数学建模社团简介 Q1:什么是数学建模? A: 通过应用相关经济,管理,金融.生物.医学.环境.地质.人口.交通等领域的背景知识,从实际 ...
数字图像学笔记——13. 图像退化与复原（退化函数的评估方法：观察法、实验法、数学建模法与湍流导致的退化）
在对受到多种原因影响的图像进行复原时,我们经常需要先行评估对图像质量产生影响的退化函数,有时甚至需要尝试建模.通过这些手段,能够最大程度上恢复图像上的噪音,并重建高清的图像细节. 文章目录线性位置不 ...

GitModel数学建模 —— 动手学数理统计