统计推断-经典统计推断
统计推断-经典统计推断
- 基本问题
- 统计学与概率论
- 贝叶斯统计与经典统计
- 推断模型与推断变量
- 术语解释
- 经典参数估计
- 术语
- 最大似然估计
- 均值和方差的估计
- 置信区间
- 求近似的置信区间
- 基于方差近似估计量的置信区间
- 线性回归
- 最小二乘法合理性
- 贝叶斯线性回归
- 多元线性回归
- 非线性回归
- 线性规划注意事项
- 简单假设检验
- 内曼-皮尔逊引理
- 显著性检验
- 广义似然比和拟合优度检验
基本问题
- 统计推断是什么?
统计推断是从观测数据推断未知变量或未知模型的有关信息的过程。 - 统计推断的用途是什么?
统计推断可用于“参数估计”,“假设检验”,“显著性检验” - 统计推断的研究思路是什么?
主要有两种思路:“贝叶斯统计推断” 和“经典统计推断”。(大局方法) - 统计推断具体使用的"算法"有哪些?
最大后验概率准则,最小均方估计,最大似然估计,回归,似然比检验等。(小方法)
统计学与概率论
“统计学”与“概率论”在认识论上有明显的区别。
概率论是建立在概率公理上的系统自我完善的数学课题。我们会假设一个完整的特定的概率模型满足概率公理,然后用数学方法研究模型的一些性质。概率模型无需与现实世界相一致,它值对概率公理负责。
统计学是针对一个具体的问题,寻求合理的研究方法,希望得到合理的结论。这就存在很大的自由度,采取不同的研究方法,结论可能不同。通常我们会附加一些限制条件,以便得到“理想结论”。
正是由于统计学的这种特征,现实社会存在许多人为制造的"理想结论",这些结论可能来源于真实的数据,但研究方法是人为选定的。
贝叶斯统计与经典统计
贝叶斯统计与经典统计(频率学派)是两种突出但对立的思想学派。
最重要的区别就是如何看待未知模型或变量。贝叶斯学派将其看成已知分布的随机变量。而经典统计将其看成未知的待估计的量。
贝叶斯方法将统计拉回“概率论”的研究领域,使得每个问题只有一个答案。经典统计将未知量看作一种参数,它是一个常数,未知需要估计。
从现实角度来看,贝叶斯统计主张将假设的先验分布公开,即研究过程公开了。贝叶斯统计推断涉及到多维度积分,计算困难,所以贝叶斯学派的最新成功可能集中于如何计算上。
推断模型与推断变量
这两种问题有细微的区别。推断模型是为了研究某种现象或过程的一般规律,以期能够预测未来现象的结果。推断变量是从已知的量,推测未知的量,例如从gps信息推断所处于的位置。
术语解释
- 参数估计:对参数进行估计,使得在某种概率意义下估计接近真实值。
- 假设检验:未知参数根据对立的假设可能取有限个值,选择一个假设,目标是使犯错误的概率最小。
- 显著性检验:对于一个给定的假设,希望发生错误(“接受错误”与“拒绝正确”)的概率适当地小.
- 最大似然估计:在选择参数θ\thetaθ时,使得观测数据最有可能出现,即观测到当前数据的概率达到最大。
- 线性回归:对于给定的一组观测数据,采用线性拟合的方式建立模型。约束条件是使观测数据与模型值的差的平方和最小。(最小二乘法)
- 似然比检验:对于给定的两个假设,根据他们发生的可能性的比值选择其中一个,使得犯错的概率适当小。
经典参数估计
虽然把θ\thetaθ当作常数,而不是随机变量,但仍然把θ\thetaθ估计量当作随机变量Θ^\hat\ThetaΘ^,因为θ^\hat\thetaθ^一般而言是xxx的函数,θ^=g(x)\hat\theta=g(x)θ^=g(x),所以也有:Θ^=g(X)\hat\Theta=g(X)Θ^=g(X)。也可以写成Θ^=g(X;θ)\hat\Theta=g(X;\theta)Θ^=g(X;θ),这个式子的意思是Θ^\hat\ThetaΘ^是θ\thetaθ的数值函数。
术语
Θ^n\hat\Theta_nΘ^n是未知参数θ\thetaθ的估计量,也即nnn个观测X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn(XXX的分布依赖于θ\thetaθ)的函数:
- 估计误差:Θ~n=Θ^n−θ\tilde \Theta_n=\hat\Theta_n-\thetaΘ~n=Θ^n−θ
- 估计量偏差:bθ(Θ^n)=E(Θ^)−θb_\theta(\hat\Theta_n)=E(\hat\Theta)-\thetabθ(Θ^n)=E(Θ^)−θ
- 估计量的偏差,方差,期望是\theta的函数,而估计误差是(X1,X2,....,Xn,θ)(X_1,X_2,....,X_n,\theta)(X1,X2,....,Xn,θ)的函数
- 无偏估计的定义:如果E(Θ^)=θE(\hat\Theta)=\thetaE(Θ^)=θ对θ\thetaθ所有可能的取值都成立
- 渐进无偏的定义:如果limn→∞E(Θ^n)=θ\lim _{n\rightarrow \infty}{E(\hat\Theta_n)}=\thetalimn→∞E(Θ^n)=θ.
- 称Θ^\hat\ThetaΘ^是θ\thetaθ的相合估计序列,如果对于所有的θ\thetaθ可能的取值,Θ^\hat\ThetaΘ^依概率收敛到参数θ\thetaθ的真值:∀ϵ>0,limn→∞P(∣Θ^−θ∣>ϵ)=0.\forall \epsilon >0,\lim _{n\rightarrow \infty}{P(|\hat\Theta - \theta|>\epsilon)=0.}∀ϵ>0,limn→∞P(∣Θ^−θ∣>ϵ)=0.
- E(Θ~2)=E[(Θ^n−θ)2]=var(Θ^n−θ)+E2(Θ^n−θ)=var(Θ^n)+bθ2(Θ^)E(\tilde\Theta ^2)=E[(\hat\Theta_n-\theta)^2]=var(\hat\Theta_n-\theta)+E^2(\hat\Theta_n-\theta)=var(\hat\Theta_n)+b^2 _\theta(\hat\Theta)E(Θ~2)=E[(Θ^n−θ)2]=var(Θ^n−θ)+E2(Θ^n−θ)=var(Θ^n)+bθ2(Θ^),这个式子建立了估计均方误差、估计量方差、估计偏差的关系。可以看出均方误差也是θ\thetaθ的函数。如果均方误差不变,则减小方差会增大偏差,减小偏差会增大方差。
最大似然估计
定义:设观测向量X=(X1,X2,...,Xn)X=(X_1,X_2,...,X_n)X=(X1,X2,...,Xn)的联合分布列为pX1,X2,..,Xn(x1,x2,...,xn;θ)=pX(x1,x2,...,xn;θ)p_{X_1,X_2,..,X_n}(x_1,x_2,...,x_n;\theta)=p_{X}(x_1,x_2,...,x_n;\theta)pX1,X2,..,Xn(x1,x2,...,xn;θ)=pX(x1,x2,...,xn;θ),最大似然估计就是寻求参数θ=θ^\theta=\hat\thetaθ=θ^使得关于θ\thetaθ的函数pX(x1,x2,...,xn;θ)p_{X}(x_1,x_2,...,x_n;\theta)pX(x1,x2,...,xn;θ)达到最大,即寻求参数θ=θ^\theta=\hat\thetaθ=θ^使得观测值XXX最有可能出现。
当XXX为连续随机变量时,pXp_XpX用概率密度函数fX(x1,x2,...,xn;θ)f_X(x_1,x_2,...,x_n;\theta)fX(x1,x2,...,xn;θ)代替。
如果X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn是相互独立的,那么pX=pX1pX2...pXn,p_X=p_{X_1}p_{X_2}...p_{X_n},pX=pX1pX2...pXn,此时可用对数似然函数来简化计算:ln(pX)=lnpX1+...+lnpXnln(p_X)=lnp_{X_1}+...+lnp_{X_n}ln(pX)=lnpX1+...+lnpXn
与贝叶斯最大后验概率准则对比:
最大后验概率准则:求θ=θ^\theta=\hat\thetaθ=θ^使得pΘ(θ)pX∣Θ(x∣θ)p_\Theta( \theta)p_{X|\Theta}(x|\theta)pΘ(θ)pX∣Θ(x∣θ)取最大值。
最大似然估计:求θ=θ^\theta=\hat\thetaθ=θ^使得pX(X;θ)p_{X}(X;\theta)pX(X;θ)取最大值。
可以看出当Θ\ThetaΘ是均匀分布时,最大后验准则等价于最大似然估计。均匀分布即Θ\ThetaΘ取任何值的概率都相等,这就是经典统计推断与贝叶斯统计推断的不同之处。
如果θ\thetaθ的最大似然估计是θ^\hat\thetaθ^,那么g(θ)g(\theta)g(θ)的最大似然估计是g(θ^)g(\hat\theta)g(θ^).这里要求g(x)g(x)g(x)是一一映射函数。
举例:某人上班迟到时间是一个随机变量X,服从参数为[0,θ][0,\theta][0,θ]上的均匀分布,θ\thetaθ未知,是随机变量Θ\ThetaΘ的一个值,Θ\ThetaΘ服从[0,1][0,1][0,1]上的均匀分布。假设某次迟到时间为x。用最大似然估计来估计θ\thetaθ。
流程:
fX(x;θ)=1θf_X(x;\theta)=\frac{1} {\theta}fX(x;θ)=θ1
画出θ−x\theta-xθ−x的取值范围图:
θ\thetaθ的取值范围图中阴影部分。对于观测值x=x0,θx=x_0,\thetax=x0,θ的取值范围为图中红线部分。显然当θ=x\theta =xθ=x时能使fXf_XfX达到最大。所以θ\thetaθ的最大似然估计Θ^=X\hat\Theta=XΘ^=X.
均值和方差的估计
利用经典统计推断一个概率分布的均值和方差(不一定是“最大似然估计”)。
这里的目标是通过样本推断总体的无偏估计均值和方差。
假设条件:
- 观测向量(X1,X2,...,Xn)(X_1,X_2,...,X_n)(X1,X2,...,Xn)是独立同分布
- 均值为未知参数θ\thetaθ.方差为未知参数v=σ2v=\sigma^2v=σ2
对于均值最自然的估计量是样本均值:
Θ^=Mn=X1+X2+...+Xnn\hat\Theta=M_n=\frac{X_1+X_2+...+X_n}{n}Θ^=Mn=nX1+X2+...+Xn
样本均值当作均值估计量时有:
- E(Mn)=θE(M_n)=\thetaE(Mn)=θ,所以MnM_nMn是θ\thetaθ的无偏估计量。
- E(XiMn)=θ2=E(Xi)E(Mn)E(X_iM_n)=\theta^2=E(X_i)E(M_n)E(XiMn)=θ2=E(Xi)E(Mn),所以MnM_nMn和XiX_iXi不相关。
- var(Mn)=var(X1+X2+...+Xn)/n2=v/nvar(M_n)=var(X_1+X_2+...+X_n)/n^2=v/nvar(Mn)=var(X1+X2+...+Xn)/n2=v/n.可见方差和均方不依赖
- 均方误差E[(Θ^−θ)2]=E[(Mn−θ)2]=E[(Mn−E(Mn))2]=var(Mn)E[(\hat\Theta-\theta)^2]=E[(M_n-\theta)^2]=E[(M_n-E(M_n))^2]=var(M_n)E[(Θ^−θ)2]=E[(Mn−θ)2]=E[(Mn−E(Mn))2]=var(Mn),对于无偏估计量总有方差等于均方误差。上式也说明估计量MnM_nMn的方差和均方误差都不依赖于θ\thetaθ(不是所有的估计量都有这个性质).
- 样本均值MnM_nMn不一定是方差最小的估计量。例如取Θ^=0\hat\Theta=0Θ^=0,此时方差是0,由于“均方误差=方差+偏差的平方”,此时偏差不是0,均方误差也依赖于θ\thetaθ了。
对于方差vvv的估计量最自然的选择:
V^=1n∑i=1n(Xi−Mn)2=S‾n2\hat V=\frac{1}{n}\sum _{i=1}^{n}(X_i-M_n)^2=\overline S_n^2V^=n1i=1∑n(Xi−Mn)2=Sn2
那么S‾n2\overline S_n^2Sn2是否是vvv的无偏估计量呢?
E(V^)=E(S‾n2)=1n∑i=1n[E(Xi2)−2E(XiMn)+E(Mn2)]=1n[n(v+θ2)−v−nθ2]=v−vn=n−1nvE(\hat V)=E(\overline S_n^2)=\frac{1}{n} \sum_{i=1}^{n}[E(X_i^2)-2E(X_iM_n)+E(M_n^2)]\\=\frac{1}{n}[n(v+\theta^2)-v-n\theta^2]\\=v-\frac{v}{n}=\frac{n-1}{n}vE(V^)=E(Sn2)=n1∑i=1n[E(Xi2)−2E(XiMn)+E(Mn2)]=n1[n(v+θ2)−v−nθ2]=v−nv=nn−1v
说明S‾2\overline S^2S2不是vvv的无偏估计量,比方差vvv少v/nv/nv/n,但S‾2\overline S^2S2是渐进无偏的.为了得到vvv的无偏估计量,可以对S‾2\overline S^2S2进行一定的缩放:
E(S^n2)=E[nn−1∗S‾n2]=vE(\hat S_n^2)=E[\frac{n}{n-1}*\overline S_n^2]=vE(S^n2)=E[n−1n∗Sn2]=v
所以方差的估计量有两个:
S‾2=1n∑i=1n(Xi−Mn)2,S^2=1n−1∑i=1n(Xi−Mn)2\overline S^2=\frac{1}{n}\sum _{i=1}^{n}(X_i-M_n)^2,\hat S^2=\frac{1}{n-1}\sum _{i=1}^{n}(X_i-M_n)^2S2=n1i=1∑n(Xi−Mn)2,S^2=n−11i=1∑n(Xi−Mn)2
无偏估计方差为什么会出现有(n-1)?
方差的计算式子中E[(X−μ)2]E[(X-\mu)^2]E[(X−μ)2]中μ\muμ是常数,方差为0.而在这里的估计过程中,期望和方差都是待估计量,都不是常数。所以样本的方差S‾n2\overline S_n^2Sn2包含了样本均值的方差v/nv/nv/n和样本的无偏方差S^n2\hat S_n^2S^n2.
置信区间
粗略地说,置信区间的作用是使用"区间估计"代替“点估计”,使得"区间"包含真值的概率达到适当的水平。这个适当的水平即"置信水平",通常设为1−α1-\alpha1−α.置信区间设为[Θ^n−,Θ^n+][\hat\Theta_n^-,\hat\Theta_n^+][Θ^n−,Θ^n+],要求置信区间包含真值的概率达到置信水平:
P(Θ^n−≤θ≤Θ^n+)≥(1−α)P(\hat\Theta_n^- \le \theta \le \hat\Theta_n^+)\ge (1-\alpha)P(Θ^n−≤θ≤Θ^n+)≥(1−α)
称[Θ^n−,Θ^n+][\hat\Theta_n^-,\hat\Theta_n^+][Θ^n−,Θ^n+]为(1−α)(1-\alpha)(1−α)置信区间。
请注意,这里随机变量是与区间相关的。例如假设[0,1][0,1][0,1]是θ\thetaθ的0.950.950.95置信区间,准确的理解是[0,1][0,1][0,1]包含θ\thetaθ的概率是0.950.950.95,而不能说θ\thetaθ落在[0,1][0,1][0,1]内的概率是0.950.950.95.
求近似的置信区间
在很多重要的模型中Θ^\hat\ThetaΘ^的分布是渐进正态无偏的(中心极限定理),在n→∞n\rightarrow \inftyn→∞时,E(Θ^)→θE(\hat\Theta) \rightarrow \thetaE(Θ^)→θ,所以:
Zn=Θ^n−θvar(Θ^)Z_n=\frac{\hat\Theta_n - \theta}{\sqrt{var(\hat\Theta)}}Zn=var(Θ^)Θ^n−θ
服从标准正态分布.
查表Φ(1.96)=P(Zn≤1.96)=0.975\Phi(1.96)=P(Z_n\le1.96)=0.975Φ(1.96)=P(Zn≤1.96)=0.975
假设θ\thetaθ处于置信区间的中点,那么Θ^−=Θ^−l,Θ^+=Θ^+l\hat\Theta^-=\hat\Theta-l,\hat\Theta^+=\hat\Theta+lΘ^−=Θ^−l,Θ^+=Θ^+l,于是有:
P(−l≤Θ^−θ≤+l)≥(1−α)P(-l \le \hat\Theta-\theta \le +l)\ge (1-\alpha)P(−l≤Θ^−θ≤+l)≥(1−α)
(Θ^−θ)(\hat\Theta-\theta)(Θ^−θ)正态分布的对称轴是0(因为均值为0).
如图阴影部分面积为(1−α)(1-\alpha)(1−α),那么就应该有Φ(L)=1−α/2\Phi(L)=1-\alpha/2Φ(L)=1−α/2
如果α=0.05\alpha =0.05α=0.05,置信水平是0.950.950.95,查表Φ(1.96)=1−0.25=0.975\Phi(1.96)=1-0.25=0.975Φ(1.96)=1−0.25=0.975,
所以L=1.96=Θ^−θvar(Θ^)L=1.96=\frac{\hat\Theta-\theta}{\sqrt{var(\hat\Theta)}}L=1.96=var(Θ^)Θ^−θ,
Θ^−Lvar(Θ^)≤θ≤Θ^+Lvar(Θ^)\hat\Theta - L\sqrt{var(\hat\Theta)} \le \theta \le \hat\Theta + L\sqrt{var(\hat\Theta)}Θ^−Lvar(Θ^)≤θ≤Θ^+Lvar(Θ^)
其中Φ(L)=1−α/2\Phi(L)=1-\alpha/2Φ(L)=1−α/2.上式就是(1−α)(1-\alpha)(1−α)置信水平的置信区间。
假设θ\thetaθ是固定的,运用相同的统计过程建立了n个0.950.950.95置信区间。可以预期在n个置信区间中,将有95%的置信区间包含θ\thetaθ.
基于方差近似估计量的置信区间
在上面的置信区间式子中包含估计量的方差var(Θ^)var(\hat\Theta)var(Θ^),如果用样本均值Θ^=Mn=X1+X2+...+Xnn\hat\Theta=M_n=\frac{X_1+X_2+...+X_n}{n}Θ^=Mn=nX1+X2+...+Xn
来估计θ\thetaθ,用无偏估计量:
S^2=1n−1∑i=1n[(Xi−θ)2]\hat S^2=\frac{1}{n-1}\sum _{i=1}^{n}[(X_i-\theta)^2]S^2=n−11i=1∑n[(Xi−θ)2]
来估计方差.那么就可以用S^2/n\hat S^2/nS^2/n来估计var(Θ^)=var(Mn)=v/nvar(\hat\Theta)=var(M_n)=v/nvar(Θ^)=var(Mn)=v/n。
对于给定的α\alphaα,可以构造一个近似的(1−α)(1-\alpha)(1−α)的置信区间,即:
[Θ^−LS^n,Θ^+LS^n][\hat\Theta-L\frac{\hat S}{\sqrt n},\hat\Theta+L\frac{\hat S}{\sqrt n}][Θ^−LnS^,Θ^+LnS^],
其中Φ(L)=1−α/2\Phi(L)=1-\alpha/2Φ(L)=1−α/2.
整个过程有两个近似:
- 将Θ^\hat\ThetaΘ^看作正态分布的随机变量
- 用估计S^2/n\hat S^2/nS^2/n来代替来Θ^\hat\ThetaΘ^真实的方差var(Θ^)var(\hat\Theta)var(Θ^)
所以这里实际上是用正态分布去近似了一个不是正态分布的概率。为了Φ(L)=1−α/2\Phi(L)=1-\alpha/2Φ(L)=1−α/2更精确,用一个比正态分布更好的ttt-分布去计算LLL.
现在定义一个随机变量:
Tn=Θ^S^n/nT_n=\frac{\hat\Theta}{\hat S_n /\sqrt n}Tn=S^n/nΘ^
,称TnT_nTn为自由度n−1n-1n−1的ttt-分布。
此时LLL的计算式子为:
Ψn−1(L)=1−α/2\Psi_{n-1}(L)=1-\alpha/2Ψn−1(L)=1−α/2.
其中Ψn−1(z)\Psi_{n-1}(z)Ψn−1(z)是自由度为n−1n-1n−1的t-分布的概率分布函数.
由t-分布和正态分布的关系,可以得出t-分布应该和正态分布函数的图像近似。
举例:利用电子天平得到一个物体重量的八次测量,观测值是真实的质量加上一个随机误差,随机误差服从(0,v)(0,v)(0,v)的正态分布,假设每次观测误差都是相互独立的,观测值如下:
X=(0.5547,0.5404,0.6364,0.6438,0.4917,0.5674,0.5664,0.6066)X=(0.5547,0.5404,0.6364,0.6438,0.4917,0.5674,0.5664,0.6066)X=(0.5547,0.5404,0.6364,0.6438,0.4917,0.5674,0.5664,0.6066)
计算95%置信区间。
这类不知道方差的情况,使用t-分布来近似计算置信区间.
流程:
- 计算均值和方差.
θ=E(Θ^)=E(Mn)=0.574\theta=E(\hat \Theta)=E(M_n)=0.574θ=E(Θ^)=E(Mn)=0.574,方差的估计是S^2n=1n−1∑i=1n[(Xi−θ)2]=3.2952∗10−4\frac{\hat S^2}{n}=\frac{1}{n-1}\sum _{i=1}^{n}[(X_i-\theta)^2]=3.2952*10^{-4}nS^2=n−11∑i=1n[(Xi−θ)2]=3.2952∗10−4
因而标准差估计为:3.2952∗10−4=0.0182\sqrt{3.2952*10^{-4}}=0.01823.2952∗10−4=0.0182 - 查t-分布表
查表使得:Ψ7(L)=1−α/2=0.975=Ψ(2.365)\Psi_{7}(L)=1-\alpha/2=0.975=\Psi(2.365)Ψ7(L)=1−α/2=0.975=Ψ(2.365) - 计算置信区间[Θ^−LS^n,Θ^+LS^n][\hat\Theta-L\frac{\hat S}{\sqrt n},\hat\Theta+L\frac{\hat S}{\sqrt n}][Θ^−LnS^,Θ^+LnS^]
置信区间为:[Θ^−0.043,Θ^+0.043][\hat\Theta-0.043,\hat\Theta+0.043][Θ^−0.043,Θ^+0.043].使用样本均值作为Θ^\hat\ThetaΘ^的估计则0.950.950.95置信区间为:[0.531,0.617][0.531,0.617][0.531,0.617]
方差的估计方式可以有多种,所以答案不是唯一的,这里采用的是样本的无偏估计方差S^2\hat S^2S^2。
线性回归
线性回归的典型应用:已知nnn组数据对(xi,yi)(x_i,y_i)(xi,yi),使用线性回归y=cx+dy=cx+dy=cx+d来拟合x,yx,yx,y之间的关系。
用最小二乘法推导计算公式:
{cx1+d=y1cx2+d=y2...cxn+d=yn\begin{cases} cx_1+d=y_1 \\ cx_2+d=y_2 \\ ... \\ cx_n+d=y_n \end{cases}⎩⎪⎪⎪⎨⎪⎪⎪⎧cx1+d=y1cx2+d=y2...cxn+d=yn
将此式写成矩阵形式Az=bAz=bAz=b:
A=(x11x21......xn1),z=(cd),b=(y1y2...yn)A=\begin{pmatrix}x_{1} & 1 \\x_2 & 1 \\... & ... \\x_n & 1\end{pmatrix}, z=\begin{pmatrix} c \\ d \end{pmatrix}, b=\begin{pmatrix} y1 \\ y2 \\...\\y_n \end{pmatrix}A=⎝⎜⎜⎛x1x2...xn11...1⎠⎟⎟⎞,z=(cd),b=⎝⎜⎜⎛y1y2...yn⎠⎟⎟⎞
Az=b,ATAz=ATbAz=b,A^TAz=A^TbAz=b,ATAz=ATb
z=(ATA)−1ATbz=(A^TA)^{-1}A^Tbz=(ATA)−1ATb
计算:
AT=(x1x2...xn11...1)A^T=\begin{pmatrix} x_1 & x_2 & ... & x_n \\ 1 & 1 & ... & 1 \end{pmatrix}AT=(x11x21......xn1)
ATA=(∑xi2∑xi∑xin)A^TA=\begin{pmatrix} \sum x_i^2 & \sum x_i \\ \sum x_i & n \end{pmatrix}ATA=(∑xi2∑xi∑xin)
由于:(abcd)−1=1ad−bc(d−b−ca)\begin{pmatrix} a & b \\ c& d \end{pmatrix}^{-1}=\frac{1}{ad-bc}\begin{pmatrix} d & -b \\ -c & a \end{pmatrix}(acbd)−1=ad−bc1(d−c−ba)
(ATA)−1=1n∑xi2−(∑xi)2(n−∑xi−∑xi∑xi2)(A^TA)^{-1}=\frac{1}{n\sum x_i^2-(\sum x_i)^2}\begin{pmatrix} n & -\sum x_i \\ -\sum x_i & \sum x_i^2 \end{pmatrix}(ATA)−1=n∑xi2−(∑xi)21(n−∑xi−∑xi∑xi2)
ATb=(∑(xiyi)∑yi)A^Tb=\begin{pmatrix} \sum(x_iy_i) \\ \sum y_i \end{pmatrix}ATb=(∑(xiyi)∑yi)
z=(ATA)−1ATb=1n∑xi2−(∑xi)2(n−∑xi−∑xi∑xi2)(∑(xiyi)∑yi)z=(A^TA)^{-1}A^Tb=\frac{1}{n\sum x_i^2-(\sum x_i)^2}\begin{pmatrix} n & -\sum x_i \\ -\sum x_i & \sum x_i^2 \end{pmatrix} \begin{pmatrix} \sum(x_iy_i) \\ \sum y_i \end{pmatrix}z=(ATA)−1ATb=n∑xi2−(∑xi)21(n−∑xi−∑xi∑xi2)(∑(xiyi)∑yi)
=1n∑xi2−(∑xi)2(n∑(xiyi)−∑xi∑yi−∑xi∑(xiyi)+∑(xi2)∑yi)=\frac{1}{n\sum x_i^2-(\sum x_i)^2} \begin{pmatrix} n\sum(x_iy_i)-\sum x_i \sum y_i \\ -\sum x_i \sum(x_iy_i)+\sum(x_i^2)\sum y_i \end{pmatrix}=n∑xi2−(∑xi)21(n∑(xiyi)−∑xi∑yi−∑xi∑(xiyi)+∑(xi2)∑yi)
设nx‾=∑(xi),ny‾=∑yin\overline x=\sum (x_i),n\overline y=\sum y_inx=∑(xi),ny=∑yi,则有:
∑x‾2=1/n∗∑(x1+x2+...+xn)y‾=∑xix‾\sum \overline x^2 =1/n*\sum (x_1+x_2+...+x_n)\overline y=\sum x_i\overline x∑x2=1/n∗∑(x1+x2+...+xn)y=∑xix
∑x‾y‾=∑(xiy‾)=∑(x‾yi)\sum \overline x\overline y=\sum (x_i\overline y)=\sum (\overline x y_i)∑xy=∑(xiy)=∑(xyi)
推导一个分母:
n(x12+x22+...+xn2)−(x1+x2+...+xn)2=n(x12+x22+...+xn2)−(nx‾)2=n[(x12+x22+...+xn2)−nx‾2]=n∑(xi2−x‾2)=n∑(xi2−2xix‾+x‾2)=n∑(xi−x‾)2n(x_1^2+x_2^2+...+x_n^2)-(x_1+x_2+...+x_n)^2=n(x_1^2+x_2^2+...+x_n^2)-(n\overline x)^2\\=n[(x_1^2+x_2^2+...+x_n^2)-n\overline x^2]=n\sum (x_i^2-\overline x^2)=n\sum(x_i^2-2x_i\overline x + \overline x^2)\\=n\sum(x_i-\overline x)^2n(x12+x22+...+xn2)−(x1+x2+...+xn)2=n(x12+x22+...+xn2)−(nx)2=n[(x12+x22+...+xn2)−nx2]=n∑(xi2−x2)=n∑(xi2−2xix+x2)=n∑(xi−x)2
类似的,最终可以化称下面这个式子:
c=∑(xi−x‾)(yi−y‾)∑(xi−x‾)2c=\frac{\sum (x_i-\overline x)(y_i-\overline y)}{\sum (x_i-\overline x)^2}c=∑(xi−x)2∑(xi−x)(yi−y)
d=y‾−cx‾d=\overline y - c\overline xd=y−cx
最小二乘法合理性
这一节是尝试说明最小二乘法的合理性,它同统计理论的许多方法类似。
在贝叶斯线性最小均方估计中,假设估计量和观测向量是线性关系,即:Y^=aX+b\hat Y=aX+bY^=aX+b.求得的线性最小均方估计为:
Θ^=cov(Y,X)σX2(X−μX)+μY\hat\Theta=\frac{cov(Y,X)}{\sigma _X^2}(X-\mu_X)+\mu_YΘ^=σX2cov(Y,X)(X−μX)+μY
即a=cov(Y,X)σX2,b=μY−aμXa=\frac{cov(Y,X)}{\sigma _X^2},b=\mu _Y-a\mu _Xa=σX2cov(Y,X),b=μY−aμX
由于不知道(X,Y)(X,Y)(X,Y)的分布,如果用样本均值代替上式中的分布参数:
μX=x‾,μY=y‾\mu _X=\overline x,\mu _Y=\overline yμX=x,μY=y
cov(X,Y)=E[(X−μX)(Y−μY)]=∑[(xi−x‾)(yi−y‾)]/ncov(X,Y)=E[(X-\mu _X)(Y-\mu _Y)]=\sum [(x_i-\overline x)(y_i-\overline y)]/ncov(X,Y)=E[(X−μX)(Y−μY)]=∑[(xi−x)(yi−y)]/n
σX2=[∑(xi−x‾)2]/n\sigma_X^2=[\sum(x_i-\overline x)^2]/nσX2=[∑(xi−x)2]/n
则
a=∑[(xi−x‾)(yi−y‾)]∑(xi−x‾)2a=\frac {\sum [(x_i-\overline x)(y_i-\overline y)]}{\sum(x_i-\overline x)^2}a=∑(xi−x)2∑[(xi−x)(yi−y)]
可见最小二乘法和线性最小均方估计是类似的。
贝叶斯线性回归
线性回归是一种方法,用线性关系拟合两个量之间的关系,其特点是观测量到拟合直线的距离的平方和最短。所以无论是经典统计推断还是贝叶斯统计推断,凡是要求这种拟合关系的场合,都可以运用线性回归。
多元线性回归
多元线性回归的公式,比一元复杂得多。结合最小二乘法和矩阵的知识,则相对容易求解。常见思路:y=a+a1x1+a2x2+a3x3y=a+a_1x_1+a_2x_2+a_3x_3y=a+a1x1+a2x2+a3x3,先考虑能否求得x2=h2(x1),x3=h3(x1)x_2=h_2(x_1),x_3=h_3(x_1)x2=h2(x1),x3=h3(x1),这样就能使多远线性规划问题化为一元线=线性回归问题。
非线性回归
非线性回归通常没有闭合式解,对于具体问题需要具体的应对方法。
线性规划注意事项
在解决实际问题问题时,线性回归分析需要考虑以下问题:
- 异方差性。实际问题中观测值的分布的方差可能具有很大的差异性,这样方差很大的观测值对于参数估计将造成不恰当的影响,适当的补救办法是采用加权最小二乘准则。
- 非线性。实际问题并非近似线性关系,用线性回归处理就不合适量。
- 多重共线性。如果有真实关系:y=2x+1,z=xy=2x+1,z=xy=2x+1,z=x,那么对于y=ax+bz+cy=ax+bz+cy=ax+bz+c,就无法区分x,zx,zx,z对yyy的贡献。
- 过度拟合。用8次多项式拟合8个数据点,显然这是不合适的。经验:数据点的数量应当是待估参数的5~10倍.
- 线性关系不是因果关系,而只是说明相关性。
简单假设检验
假如未知参数θ\thetaθ只有两种取值{θ0,θ1}\{\theta_0,\theta_1\}{θ0,θ1},假设检验就是判断接受哪一种假设,分别设为{H0,H1}\{H_0,H_1\}{H0,H1}.
现将观测向量XXX的空间分为两类:1.拒绝域RRR:若X∈RX\in RX∈R,则认定H0H_0H0为假,拒绝;2.接受域RcR^cRc.
- 第一类错误:错拒.即H0H_0H0正确而拒绝.α(R)=P(X∈R;H0)\alpha(R)=P(X\in R;H_0)α(R)=P(X∈R;H0)
- 第二类错误:受假.H0H_0H0错误而接受。β(R)=P(X∉R;H1)\beta(R)=P(X\notin R;H_1)β(R)=P(X∈/R;H1)
- 似然比:两种假设情形下概率的比值():
L(x)=pX(x;H1)pX(x;H0)L(x)=\frac{p_X(x;H_1)}{p_X(x;H_0)}L(x)=pX(x;H0)pX(x;H1)
似然比的临界值需要根据问题来适当选取。
举例子说明。
现在想检验一骰子是否六面均匀,给出两个假设:
H0H_0H0:骰子均匀。pX(x;H0)=1/6p_X(x;H_0)=1/6pX(x;H0)=1/6.
H1H_1H1:骰子不均匀。pX(x;H1)={1/4,x=1,21/8,x=3,4,5,6p_X(x;H_1)=\begin{cases} 1/4,x=1,2 \\ 1/8,x=3,4,5,6 \end{cases}pX(x;H1)={1/4,x=1,21/8,x=3,4,5,6
1.先计算似然比函数:
L(x)={3/2,当x=1,23/4,当x=3,4,5,6L(x)=\begin{cases} 3/2, 当x=1,2 \\ 3/4,当x=3,4,5,6 \end{cases}L(x)={3/2,当x=1,23/4,当x=3,4,5,6
2.现在要选取临界值ξ\xiξ.临界值会影响拒绝域RRR。
当L(x)>ξL(x)>\xiL(x)>ξ时,更倾向于H1H_1H1,即拒绝H0H_0H0;
当L(x)<ξL(x)<\xiL(x)<ξ时,更倾向于H0H_0H0,即接受H0H_0H0。
对这个问题似然比L(x)L(x)L(x)只有两个值,如果取ξ<3/4\xi<3/4ξ<3/4,那么L(x)>ξL(x)>\xiL(x)>ξ总是成立的,即拒绝H0H_0H0.如果取ξ>3/2\xi>3/2ξ>3/2,那么L(x)<ξL(x)<\xiL(x)<ξ总是成立的,即接受H0H_0H0.当ξ\xiξ在这两个范围时,拒绝域不依赖于观测值,这是不合适的。所以ξ\xiξ选取区间为[3/4,3/2][3/4,3/2][3/4,3/2].
用错误类型描述上述分析:
第一类错误(H0H_0H0真,而拒绝。即拒绝H0H_0H0的概率)
α(ξ)={1,当ξ<3/413,当3/4<ξ<3/20,当ξ>3/2\alpha(\xi)=\begin{cases}1,当\xi<3/4 \\ \frac{1}{3} , 当3/4<\xi<3/2 \\ 0,当\xi>3/2 \end{cases}α(ξ)=⎩⎪⎨⎪⎧1,当ξ<3/431,当3/4<ξ<3/20,当ξ>3/2
第二类错误(H0H_0H0假,而接受.即接受H0H_0H0的概率)
β(ξ)={0,当ξ<3/41/2,当3/4<ξ<3/21,当ξ>3/2\beta(\xi)=\begin{cases}0,当\xi<3/4 \\ 1/2 , 当3/4<\xi<3/2 \\ 1,当\xi>3/2 \end{cases}β(ξ)=⎩⎪⎨⎪⎧0,当ξ<3/41/2,当3/4<ξ<3/21,当ξ>3/2
这里ξ\xiξ的选取,犯第一类错误和犯第二类错误的概率是此消彼长的关系。由于这种平衡存在,没有一种最优的方法选取ξ\xiξ.下面是一种常见的方法。
3.选取ξ\xiξ
- 确定错误拒绝H0H_0H0的目标概率α\alphaα
- 选择ξ\xiξ使得P(L(x)>ξ;H0)=αP(L(x)>\xi;H_0)=\alphaP(L(x)>ξ;H0)=α.
- 观测xxx的值,若L(x)>ξL(x)>\xiL(x)>ξ则拒绝H0H_0H0
- α\alphaα的典型值是:0.1,0.01,0.05
内曼-皮尔逊引理
内容:现有确定的似然比临界值ξ\xiξ(同时确定了拒绝域RRR),使得犯两类错误的概率分别为:
P(H1;H0)=P(L(x)>ξ;H0)=αP(H_1;H_0)=P(L(x)>\xi;H_0)=\alphaP(H1;H0)=P(L(x)>ξ;H0)=α
P(H0;H1)=P(L(x)<ξ;H1)=βP(H_0;H_1)=P(L(x)<\xi;H_1)=\betaP(H0;H1)=P(L(x)<ξ;H1)=β
则:
如果有另一个拒绝域使得:
P(H1;H0)=P(L(x)>ξ;H0)≤αP(H_1;H_0)=P(L(x)>\xi;H_0) \le \alphaP(H1;H0)=P(L(x)>ξ;H0)≤α,则会有P(H0;H1)=P(L(x)<ξ;H1)≥βP(H_0;H_1)=P(L(x)<\xi;H_1) \ge \betaP(H0;H1)=P(L(x)<ξ;H1)≥β.
这个引理是说在假设检验中,如果减少犯第一类错误的概率(错误拒绝),那么就会增大犯第二类错误的概率(错误接受).
考虑假设检验的过程,如果H0H_0H0真假的概率已确定,减少犯第一类错误的概率就是更加倾向于接受H0H_0H0,所以很自然地,错误接受的概率会相应增大。
显著性检验
当假设检验问题中的可供选择的结果多于2个时,简单假设检验的方法不再适用,“显著性检验”就是为了处理这类问题。“显著性检验”没有确定的解决办法,基本思想是对于一个"假设",找“证据”去“支持/反驳"该假设。
虽然可供选择的结果多余2个,但我们关心的是某一个假设,即原假设H0H_0H0.我们根据观测向量X,决定接受还是拒绝H0H_0H0.此时相对于原假设的反面,是备择假设H1H_1H1:即H0H_0H0不正确.
举例:投掷一枚硬币n=1000次,每次投掷互相独立,θ\thetaθ是硬币朝上的概率,现有原假设θ=0.5\theta=0.5θ=0.5,备择假设θ≠0.5\theta \neq 0.5θ̸=0.5.
解决流程:
选择合适统计量SSS表达观测数据:S=g(X1,X2,...,Xn)S=g(X_1,X_2,...,X_n)S=g(X1,X2,...,Xn)
此处SSS可以选择S=x1+x2+...+xn,xi∈{0,1}S=x_1+x_2+...+x_n,x_i \in \{0,1\}S=x1+x2+...+xn,xi∈{0,1}确定拒绝域RRR
当SSS落入拒绝域RRR时拒绝H0H_0H0.当然集合RRR是跟目前未知的临界值ξ\xiξ有关的.这里拒绝域可定为:∣S−500∣>ξ|S-500|>\xi∣S−500∣>ξ选择显著性水平:第一类错误的概率P(接受H1;H0为真)=αP(接受H_1;H_0为真)=\alphaP(接受H1;H0为真)=α
此处选择α=0.05\alpha=0.05α=0.05选择临界值ξ\xiξ
可用正态分布近似二项分布,在H0H_0H0的条件下(S-500)服从参数为(0,250)(0,250)(0,250),
P(∣S−500∣>ξ;H0)=0.05,Φ(1.96)=1−0.25=0.975P(|S-500|>\xi;H_0)=0.05,\Phi(1.96)=1-0.25=0.975P(∣S−500∣>ξ;H0)=0.05,Φ(1.96)=1−0.25=0.975
ξ−0250=1.96,ξ=31\frac{\xi-0}{\sqrt {250}}=1.96,\xi=31250ξ−0=1.96,ξ=31
如果观测到S=472,∣S−500∣=28<ξS=472,|S-500|=28<\xiS=472,∣S−500∣=28<ξ,则可以说:在5%的显著性水平下不拒绝假设H0H_0H0.这里5%的意思是该论断犯错误的概率小于5%.“不拒绝”隐含的意思是只倾向于不拒绝,而不是接受。虽然在数学上两者是一个意思。但在这里显然θ=0.499999,0.499999,0.499999999\theta=0.499999,0.499999,0.499999999θ=0.499999,0.499999,0.499999999都是可以接受的,不能人为接受其中一个就代表其他的都拒绝。这说明原假设可认为代表一个小的范围,在这个范围里面的取值都是可以的。类似于置信区间的味道。
广义似然比和拟合优度检验
问题:检验给定的分布列是否和观测数据一致,这类问题称为"拟合优度检验"。
给定离散随机变量X的分布列为P(X=k)=qX(k)P(X=k)=q_X(k)P(X=k)=qX(k),则可以认为这类问题的原假设为(接受分布列):
H0:pX=(qX(1),qX(2),...,qX(n))H_0:p_X=(q_X(1),q_X(2),...,q_X(n))H0:pX=(qX(1),qX(2),...,qX(n))
H1:P≠(qX(1),qX(2),...,qX(n))H_1:P \neq (q_X(1),q_X(2),...,q_X(n))H1:P̸=(qX(1),qX(2),...,qX(n))
现在为了对H0H_0H0进行判断,采用"广义似然比"的方法。“广义似然比”就是假设H1H_1H1为最大似然估计:
H1:P=(θ^1,θ^2,...,θ^n)H_1:P=(\hat\theta_1,\hat\theta_2,...,\hat\theta_n)H1:P=(θ^1,θ^2,...,θ^n),其中θ^i\hat\theta_iθ^i是pX(k)p_X(k)pX(k)的最大似然估计.
这里用qX(k)q_X(k)qX(k)表示这是一条假设的分布列,用以区分X的真实分布列pX(k)p_X(k)pX(k).
广义似然比为:
P(X=x1,x2,...,xn;q)P(X=x1,x2,...,xn;θ^)\frac{P(X=x_1,x_2,...,x_n;q)}{P(X=x_1,x_2,...,x_n;\hat\theta)}P(X=x1,x2,...,xn;θ^)P(X=x1,x2,...,xn;q)
通常采用对数的方法,可以简化计算。
统计推断-经典统计推断相关推荐
- casella pdf 统计推断_统计推断_PDF图书下载_George Casella,Roger L. Berger_免费PDF电子书下载_第一图书网...
内容概要 本书从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不能见而广为使用的分布.其内容包括工科概率论入门.经典统计和现代统计的基础,又加进了不少近 ...
- 概率论与统计推断(四) ------ 统计推断
本节目标 : 一.概率论与统计推断的关系 根据观测到的有限数据,反向思考其数据生成过程,是因为以下两个定理 : 二.总体与样本 总体: 样本: 三.直方图与箱线图(机器学习的数据探索部分会用上) 频率 ...
- 【学习笔记】计算机时代的统计推断(Bradley Efron and Trevor Hastie 著)
序言 英文版教材免费下载地址: CASI 笔者本来是打算写来作为期末复习使用的, 但是发现写着写着变成了翻译教材, 实在是太草了; 本来以为提前一个星期动笔一定可以趁复习时顺手做完这本教材的摘要, 现 ...
- 数学知识——概率统计(8)统计推断之参数估计:极大似然估计和最大后验概率
目录 1. 统计推断 概念 问题表述 小结 参数估计 抽样分布 假设检验 2. 两大估计方法后面的学派 概率的定义 本质区别 3. 参数估计的思想 3.1 最大似然估计(MLE) 3.2 贝叶斯估计: ...
- 机器学习中的特征建模(特征工程)和算法选型建模 - 以暴力破解识别为例
catalogue 1. 特征工程是什么?有什么作用? 2. 特征获取方案 - 如何获取这些特征? 3. 特征观察 - 运用各种统计工具.图标等工具帮助我们从直观和精确层面认识特征中的概率分布 4. ...
- 概率论与统计的基础知识(概率空间、最基本的分布、数字特征)
了解最基础的概率论知识,参考来自<概率导论>和<波利亚罐子模型的相关分布> 1 样本空间与概率 1.2概率模型 1.2.1 样本空间和事件 每个概率模型对应一个试验,这个 ...
- matlab之经验分布图
文章目录 1.原理: 2.效果图: 3.代码: 1.原理: 经典统计推断主要的思想就是用样本来推断总体的状态,因为总体是未知的,我们只能通过多次试验的样本(即实际值)来推断总体.而经验分布图可以直观的 ...
- AI数学基础——经验分布,熵
经验分布 经验分布函数是与样本经验测度相关的分布函数. 该分布函数是在n个数据点中的每一个上都跳跃1 / n的阶梯函数. 其在测量变量的任何指定值处的值是小于或等于指定值的测量变量的观测值的数. 经验 ...
- 大数据研究的若干科学问题——徐宗本
什么是大数据? 维基百科:大数据是指无法在容许的时间内用常规的软件工具对其内容进行抓取.管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在十几TB和PB之间. 大数据:不能 ...
- 徐宗本院士讲座《关于大数据研究下的若干问题》摘记
今天早上屁颠屁颠地跑去听了徐宗本院士的:关于大数据研究的若个问题 觉得还不错,由于徐教授横跨数学与管理两方面,所以讲的角度还有深度刚刚好 在我的接受范围内.讲座主要从下面三个方面来讲的: 1 关于大数 ...
最新文章
- 转载:谁都别惯着(3)- 客户不能惯
- Windows 8.1 重复数据删除——规划部署(二)
- Python剑指offer:数组中数值和下标相等的元素
- MySQL 怎么变快_如何让mysql索引更快一点
- Wifi模块—源码分析Wifi热点扫描2(Android P)
- 《构架之美》阅读笔记三
- RabbitMQ是如何运转的?
- 计算机基础与应用教程计算机硬件,计算机基础系列一:计算机硬件
- 回忆2020年,这一年有你们真好~
- linux下用C计算某一个目录总大小
- [练习]QQ登陆界面-测试用例的编写
- TwinCAT 3 报警程序
- SGI STL中内存池的实现 - 内脏坏了 - 博客园
- Python自动化处理和分析Excel数据的基本方法
- Photoshop支持ICO图片格式(咋个办呢 zgbn)
- MOOC 形势与政策 2020年9月
- 写在入职两周年纪念日
- 某公路边坡支护设计(lunwen+计算书+cad图纸+施工组织设计)
- Red Giant Trapcode Suite,Mac红巨星粒子插件
- ECCV 2020 oral | CondInst:沈春华团队新作,将条件卷积引入实例分割