http://antkillerfarm.github.io/

概率分布(2)

上一篇《概率分布(1)》写的意犹未尽,这里继续写。本篇主要关注χ2\chi^2分布、t分布和F分布,也就是统计学的三大祖师爷各自的看家本领。

χ2\chi^2分布

设X1,…,XnX_1,\dots,X_n是来自总体N(0,1)N(0,1)的样本,则称统计量

χ2=X21+⋯+X2n(1)

\chi^2=X_1^2+\dots+X_n^2\tag{1}

服从自由度为n的χ2\chi^2分布(chi-squared distribution),记作χ2∼χ2(n)\chi^2\sim \chi^2(n)。其PDF为:

f(x;n)=⎧⎩⎨⎪⎪⎪⎪x(n/2−1)e−x/22n/2Γ(n2),0,x>0;otherwise.

f(x;\,n) = \begin{cases}\dfrac{x^{(n/2-1)} e^{-x/2}}{2^{n/2} \Gamma\left(\frac n 2 \right)}, & x > 0; \\ 0, & \text{otherwise}. \end{cases}

t分布

设X∼N(0,1),Y∼χ2(n)X\sim N(0,1),Y\sim\chi^2(n),并且X、Y独立,则称随机变量

t=XY/n−−−−√(2)

t=\frac{X}{\sqrt{Y/n}}\tag{2}

服从自由度为n的t分布(t distribution),记作t∼t(n)t\sim t(n)。其PDF为:

f(t)=Γ(n+12)nπ−−−√Γ(n2)(1+t2n)−n+12

f(t) = \frac{\Gamma(\frac{n+1}{2})} {\sqrt{n\pi}\,\Gamma(\frac{n}{2})} \left(1+\frac{t^2}{n} \right)^{\!-\frac{n+1}{2}}

F分布

设U∼χ2(d1),V∼χ2(d2)U\sim \chi^2(d_1),V\sim\chi^2(d_2),并且U、V独立,则称随机变量

F=U/d1V/d2(3)

F=\frac{U/d_1}{V/d_2}\tag{3}

服从自由度为(d1,d2)(d_1,d_2)的F分布(F distribution),记作F∼F(d1,d2)F\sim F(d_1,d_2)。其PDF为:

f(x;d1,d2)=(d1x)d1dd22(d1x+d2)d1+d2−−−−−−−−−√xB(d12,d22)=1B(d12,d22)(d1d2)d12xd12−1(1+d1d2x)−d1+d22

\begin{align} f(x; d_1,d_2) &= \frac{\sqrt{\frac{(d_1\,x)^{d_1}\,\,d_2^{d_2}} {(d_1\,x+d_2)^{d_1+d_2}}}} {x\,\mathrm{B}\!\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \\ &=\frac{1}{\mathrm{B}\!\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \left(\frac{d_1}{d_2}\right)^{\frac{d_1}{2}} x^{\frac{d_1}{2} - 1} \left(1+\frac{d_1}{d_2}\,x\right)^{-\frac{d_1+d_2}{2}} \end{align}

显然:

1F∼F(d2,d1)

\frac{1}{F}\sim F(d_2,d_1)

假设检验

假设检验就是根据样本对所提出的假设H0H_0作判断。

如果P{拒绝H0|H0为真}≤αP\{拒绝H_0\vert H_0为真\}\le \alpha,则接受H0H_0。

这里的α\alpha被称作显著性水平。假设检验H0H_0所涉及的统计量被称作检验统计量

下表是正态总体均值、方差的检验法表格:

H0H_0 检验统计量 H0H_0为真时的统计量分布
μ=μ0(σ2已知)\mu=\mu_0(\sigma^2已知) z=x¯−μ0σ/n√z=\frac{\overline x-\mu_0}{\sigma/\sqrt n} N(0,1)N(0,1)
μ=μ0(σ2未知)\mu=\mu_0(\sigma^2未知) t=x¯−μ0s/n√t=\frac{\overline x-\mu_0}{s/\sqrt n} t(n−1)t(n-1)
μ1−μ2=δ(σ21,σ22已知)\mu_1-\mu_2=\delta(\sigma_1^2,\sigma_2^2已知) Z=x¯−y¯−δσ21n1+σ22n2√Z=\frac{\overline x-\overline y-\delta}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} N(0,1)N(0,1)
μ1−μ2=δ(σ21=σ22=σ2未知)\mu_1-\mu_2=\delta(\sigma_1^2=\sigma_2^2=\sigma^2未知) t=x¯−y¯−δsw1n1+1n2√,s2w=(n1−1)s21+(n2−1)s22n1+n2−2t=\frac{\overline x-\overline y-\delta}{s_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}},s_w^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} t(n1+n2−2)t(n_1+n_2-2)
σ2=σ20(μ未知)\sigma^2=\sigma_0^2(\mu未知) χ2=(n−1)s2σ20\chi^2=\frac{(n-1)s^2}{\sigma_0^2} χ2(n−1)\chi^2(n-1)
σ21=σ22(μ1,μ2未知)\sigma_1^2=\sigma_2^2(\mu_1,\mu_2未知) F=s21s22F=\frac{s_1^2}{s_2^2} F(n1−1,n2−1)F(n_1-1,n_2-1)
μd=0(成对数据)\mu_d=0(成对数据) t=d¯−0s/n√t=\frac{\overline d-0}{s/\sqrt n} t(n−1)t(n-1)

上面这些和χ2\chi^2分布、t分布、F分布有关的假设检验,又被称作χ2\chi^2检验、t检验和F检验。对均值的假设检验,被称为μ\mu检验。

上面这些都是正态样本的参数检验。

对于非参数检验或者非正态样本检验,其他的检验方法还有Wilcoxon signed-rank test、Kruskal–Wallis test、Friedman test等。

注:Frank Wilcoxon,1892~1965,美国化学家。康奈尔大学博士。先后供职于几家美国化工企业的研究机构。

William Henry (“Bill”) Kruskal,1919~2005,美国数学家。哥伦比亚大学博士,芝加哥大学教授。

Milton Friedman,1912~2006,美国经济学家。哥伦比亚大学博士,芝加哥大学教授。1976年获诺贝尔经济学奖。芝加哥学派第二代的领军人物。

Wilson Allen Wallis,1912~1998,美国经济学家。先后就读于明尼苏达大学和芝加哥大学,但是没有博士学位。罗彻斯特大学校长。从艾森豪威尔到里根的历届共和党总统的顾问。Milton Friedman的至交。其父Wilson Dallam Wallis为美国人类学家,明尼苏达大学教授。

一元线性回归的显著性检验

假设y关于x的回归具有形式a+bxa+bx,则H0:b=0H_0:b=0。

这里使用t检验法进行假设检验。

首先,不加证明的给出如下结论:

推论1:y¯∼N(a+bx¯,σ2/n)\overline y\sim N(a+b\overline x,\sigma^2/n)

推论2:b^∼N(b,σ2/Sxx)\hat b\sim N(b,\sigma^2/S_{xx})

推论3:y^0=a^+b^x0=y¯+b^(x0−x¯)∼N(a+bx0,[1n+(x0−x¯)2Sxx]σ2)\hat y_0=\hat a+\hat b x_0=\overline y+\hat b(x_0-\overline x)\sim N\left(a+bx_0,\left[\frac{1}{n}+\frac{(x_0-\overline x)^2}{S_{xx}}\right]\sigma^2\right)

推论4:Qe/σ2∼χ2(n−2)Q_e/\sigma^2\sim \chi^2(n-2)

推论5:y¯,b^,Qe\overline y,\hat b,Q_e相互独立。

推论6:若y0=a+bx0+ϵ0y_0=a+bx_0+\epsilon_0与y1,…,yny_1,\dots,y_n独立,则y0,y^0,Qey_0,\hat y_0,Q_e相互独立。

其中,y¯\overline y表示y的均值,而y^\hat y表示y的估计值,SxxS_{xx}表示方差,QeQ_e为残差平方和∑ni=1(yi−y^i)2\sum_{i=1}^n(y_i-\hat y_i)^2。

由推论4可得:

E(Qe/σ2)=n−2

E(Q_e/\sigma^2)=n-2

即:

Qe=σ^2(n−2)(3)

Q_e=\hat\sigma^2(n-2)\tag{3}

由推论2和5、公式2和3,可得:

b^−bσ2/Sxx−−−−−−√/(n−2)σ^2σ2/(n−2)−−−−−−−−−−−−−−−−√∼t(n−2)

\frac{\hat b-b}{\sqrt{\sigma^2/S_{xx}}}\bigg /\sqrt{\frac{(n-2)\hat \sigma^2}{\sigma^2}\bigg /(n-2)}\sim t(n-2)

即:

b^−bσ^Sxx−−−√∼t(n−2)

\frac{\hat b-b}{\hat \sigma}\sqrt{S_{xx}}\sim t(n-2)

当假设H0H_0被拒绝时,认为回归效果是显著的,反之就认为回归效果不显著。

不显著的原因可能有以下几种:

1.影响y取值的,除了x,还有其他不可忽略因素。

2.y与x的关系不是线性的,存在其他的关系。

3.y与x不存在关系。

KS检验

Kolmogorov–Smirnov test用于对样本是否属于某种分布进行假设检验。

注:Andrey Nikolaevich Kolmogorov,1903~1987,二十世纪俄国最伟大的数学家之一。莫斯科州立大学博士和教授。俄罗斯科学院院士,挪威科学院和英国皇家学会外籍院士。沃尔夫奖获得者(1980年)。他在数学的许多领域都有重要贡献,以他的名字命名的理论竟有30项之多。

由于Nobel Prizes没有数学奖,因此数学界的最高奖一般有三个:
1.Fields Medal。获奖难度最高,因为有40岁的年龄限制。在国内比较知名的丘成桐、陶哲轩都是该奖的获奖者。
不过他们还不是最屌的。Grigori Perelman(Poincaré conjecture的证明者)直接拒绝了Fields Medal。除此之外,他还拒绝了EMS Prize和Millennium Prize,其中后者奖金高达100万美元,而且还不知道下一个获奖者什么时候诞生(该奖不是年度奖,而是数学难题奖,数学难题的解决周期,你懂的)。
Perelman犹如一个特立独行的隐士,谁的账都不买,包括名利。他将他的伟大证明随手扔进arXiv这样一个非正规网站,但却被《Science》评为年度科学突破。数学界已经很多年没有这样的荣誉了。
补充一下,Perelman就读的中学是Kolmogorov创建的。
2.Abel Prize。和Nobel Prizes的规则相同,由于不限年龄,水平是最高的。缺点是这个奖是2001年才创建的,影响力略差。
3.Wolf Prize。在Abel Prize创建之前,被誉为数学界的Nobel Prizes。

Nikolai Vasilyevich Smirnov,1900~1966,俄国数学家。莫斯科大学博士,斯塔克罗夫数学研究所研究员。

Vladimir Andreevich Steklov,1864~1926,俄国数学家、物理学家。哈尔科夫大学博士,其导师是圣彼得堡学派第二代人物中,仅次于Andrey Markov的Aleksandr Lyapunov。哈尔科夫大学和圣彼得堡大学教授,1919年创建斯塔克罗夫数学研究所。

斯塔克罗夫数学研究所是一家专职研究没有教学任务和科研任务的研究机构。Grigori Perelman在这里,曾有6年时间没有发表一篇论文。二十世纪俄罗斯绝大多数的数学发现都源自这里。

上图的红线是某随机变量假设分布的CDF,而蓝线是该随机变量样本的累积分布曲线,即ECDF(Empirical Distribution Function)。

显然若假设正确的话,两条曲线应该是基本重合的。反之,若两条曲线差异较大,则该假设检验不成立。这就是KS检验的基本原理。

KS检验的统计量定义如下:

Dn=supx|Fn(x)−F(x)|

D_n= \sup_x |F_n(x)-F(x)|

其中sup\sup表示最小上界,

Fn(x)=1n∑i=1nI[−∞,x](Xi)

F_n(x)={1 \over n}\sum_{i=1}^n I_{[-\infty,x]}(X_i)

I[−∞,x](Xi)={1,0,Xi≤xotherwise

I_{[-\infty,x]}(X_i)=\begin{cases} 1, & X_i \le x \\ 0, & \text{otherwise} \\ \end{cases}

KS检验更深入的解释,涉及到布朗运动和维纳过程,这里不再赘述。

自相关&互相关&卷积

1.自相关(Autocorrelation)。这个最简单,就是平移之后,自己和自己比。显然当平移为0的时候,自相关值最大,因此这类操作通常用于信号的检测。信号接收端模拟发射端的信号序列,对实际接收到的信号进行相关操作,只有当两者的序列接近重合时,才会检测到信号峰值。

2.互相关(Cross-correlation)。检测两个序列的相似度,显然两者越相似,互相关值越大。这在统计学方面用的比较多。

3.卷积(Convolution)。卷积主要用于线性时不变系统的信号处理。相比于互相关操作,卷积有个旋转180度的操作,这里解释一下它的物理意义。

例如,当一个拳击选手遭到对方连续两次击打身体的同一部位时,第二次被击打时他感觉到的疼痛是第一次被击打所遗留的疼痛与第二次被击打的疼痛之和。即:

f(2)=f1(2)+f2(1)

f(2)=f_1(2)+f_2(1)

其中,fi(t)f_i(t)中,i表示第i次击打,t表示击打发生之后经过的时间。可以看出i和t的顺序正好是相反的,这也就是Convolution这个名词的本意。这里假设g为常数。

4.这三个操作在离散域最终都可以变为求和操作,也就是向量内积运算。我们一般使用a⋅ba\cdot b或者⟨a,b⟩\langle a,b\rangle表示向量的内积运算。即:

⟨a,b⟩=a0b0+a1b1+⋯+anbn

\langle a,b\rangle=a_0b_0+a_1b_1+\dots+a_nb_n

数学狂想曲(五)——概率分布(2), 自相关互相关卷积相关推荐

  1. 数学狂想曲(十)——复变函数, 平稳离散时间随机过程, 功率谱

    熵(续) 信息熵 信息熵和热力学熵的假设相同,因此有类似结论不足为奇,毕竟数学上都是同一个微分方程. 信息熵:编码方案完美时,最短平均编码长度的是多少. 交叉熵:编码方案不一定完美时(由于对概率分布的 ...

  2. 目标反射回波检测算法及其FPGA实现 之二:互相关/卷积/FIR电路的实现

    目标反射回波检测算法及其FPGA实现之二: 互相关/卷积/FIR电路的实现 前段时间,接触了一个声呐目标反射回波检测的项目.声呐接收机要实现的核心功能是在含有大量噪声的反射回波中,识别出发射机发出的激 ...

  3. 【公式小记】自相关、卷积、能量信号、功率信号

    整理思路主要参考了B站UP主AI破壁者二元论的视频,同时加了一些自己的理解. 1 自相关.卷积与功率谱 自相关(Auto-correlation)又叫序列相关,是一个信号与其自身在不同时间点的互相关. ...

  4. 数学狂想曲(十二)——熵(2), 阴影面积, 肺炎版《黄冈密卷》

    熵 继<数学狂想曲(九)>之后,再谈谈熵. Landauer's Erasure Principle 在量子力学中,如同电荷.质量.时间有最小单位一样,热力学熵也有最小单位.Landaue ...

  5. 数学狂想曲(十一)——高阶统计, 最速降线, 泛函 变分

    高阶统计 Cumulants(续) 在介绍Cumulants之前,我们首先看一下Moment-generating function: MX(t):=E⁡[etX],t∈RM_X(t) := \ope ...

  6. 正弦定理和余弦定理_高三 | 数学必修五正弦定理和余弦定理应用举例考点梳理...

    高三数学必修五<正弦定理和余弦定理应用举例> 考点梳理 一.正.余弦定理解三角形的常见题型 测量距离问题.高度问题.角度问题.计算面积问题.航海问题.物理问题等. 二.正.余弦定理中的常用 ...

  7. 水箱建模最小二乘法_北师大版小学数学下册五年级第四单元长方体(二)整理复习电子课本练习同步教学视频...

    点击蓝字关注我 点击关注蓝色字体智奥学园,本公众号陆续上线珠心算.奥数.英语等更多精彩的免费课程推送给大家,如果觉得好请转发给亲朋好友. (本课内容往下拉) 往期精彩回顾 1.北师大版小学数学下册五年 ...

  8. 数学/数论专题-学习笔记:狄利克雷卷积

    数学/数论专题-学习笔记:狄利克雷卷积 1. 前言 2. 一些基础函数 3. 积性函数 4. 狄利克雷卷积 5. 总结 6. 参考资料 1. 前言 狄利克雷卷积,是学习与继续探究 μ\muμ 函数和 ...

  9. 高中数学必修五数列知识点总结归纳

    数列是以正整数集为定义域的函数,是一列有序的数.数列中的每一个数都叫做这个数列的项.下面肖博老师给大家分享高中数学必修五数列知识点总结. 一.数列的概念和简单表示法 1.了解数列的概念和几种简单的表示 ...

最新文章

  1. 《C++primer》第二章--变量和基本内置类型
  2. PE文件和COFF文件格式分析——RVA和RA相互计算
  3. linux内核seq_file接口
  4. linux下网卡安装
  5. Oracle 数据库 - 使用UEStudio修改dmp文件版本号,解决imp命令恢复的数据库与dmp本地文件版本号不匹配导致的导入失败问题,“ORACLE error 12547”问题处理
  6. 瑞星linux u盘引导盘杀毒教程,瑞星杀毒U盘怎样用U盘启动电脑
  7. collection集合 多少钱_Java 集合(2)-- Iterator接口源码超级详细解析
  8. spring mvc学习(44):springMVC运行原理
  9. 【youcans 的 OpenCV 例程 200 篇】105. 湍流模糊退化模型
  10. ubuntu14.04部署kickstart
  11. Nginx(代理)+Tomcat(Java)+Apache(PHP)共用80端口
  12. QQ/微信表情代码表
  13. 乐谱xml文件转为VOCALOID3的输入文件格式vsqx
  14. python使用二分搜索求log以2为底10的近似值
  15. 超强可视化图表工具:Smartbi!!
  16. 如何建立一套简单又高效的研发管理体系
  17. 怎样做一个iOS App的启动分层引导动画?
  18. MySQL-实操:部门、员工信息与管理
  19. 最新Axure RP 9.0.0.3675 授权码 license
  20. 熔断器熔断时间标准_正确认识熔断器的熔断时间

热门文章

  1. Vuex State模块化
  2. matlab运行支持向量机不出f,求助各位大神关于libsvm,svmpredict总是出不来结果,调试了好久还是不行...
  3. WEB前端学习一 JS预解释
  4. js vue将后台返回的url图片地址以图片形式保存到本地
  5. (一)数据结构与算法简介
  6. ElementUI中实现表单刷新重置,保存在全局方法中
  7. python字符串title函数_python字符串内建函数-capitalize、title、upper
  8. clion 快捷键_Ctrl+Shift系列快捷键的16个应用技巧都不掌握,那就真的Out了
  9. mybatis.mapper-locations 配置多个mapper路径
  10. JNI传递字符串数组J-StringArray