目录

四、分布(卡方分布)

五、t分布

六、F分布

七、各分布的总结


四、分布(卡方分布)

1、定义:设随机变量X1,X2,……Xn相互独立,且XI(i=1,2,……,n)服从标准正态分布,则它们的平方和服从自由度为n的X2分布。

2、性质特点:

  • 因卡方分布是平方和,所以分布的变量值始终为正;
  • 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布(右偏分布),但随着自由度的增大逐渐趋向对称;

  • 常用于方差的估计和假设检验,以及列联分析中;
  • 期望为:E(x2)=n,方差为:D(x2)=2n(n为自由度);
  • 可加性:若U和V为两个独立的x2分布随机变量,U~x2(n1),V~x2(n2),则U+V这一随机变量服从自由度为n1+n2的x2分布;
  • 当自由度增加到足够大时,卡方分布的概率密度曲线趋于对称,当n —>+∞时,x2分布的极限分布是正态分布。

理解:卡方分布是相互独立的标准正态分布的平方和。

五、t分布

1、定义:设随机变量X~N(0,1),Y~x2(n),且X与Y独立,则其分布称为t分布,记为t(n),其中n为其自由度。

2、性质和特点:

  • 当n≥2时,t分布的数学期望E(t)=0;
  • 当n≥3时,t分布的方差D(t)=n/(n-2);
  • 自由度为1的t分布称为柯西分布;
  • 随着n自由度的增加,t分布的密度函数越来越接近标准正态分布的密度函数。实际中,当n≥30时,t分布与标准正态分布就非常接近;

3、理解:

  • 公式理解:X是标准分布,Y是卡方分布,卡方分布是标准分布的平方和,我们可以换算,后面的公式就是k=2时的幂平均公式。因此我们也可以从另个角度解读这个公式:就是拿一个标准分布除以其一堆标准分布的平均值。
  • t分布实际是z分布(标准正态分布)小时候的样子(矮一些胖一些),自由度就是它的年龄随着年龄的增大,它逐渐变高变瘦变成了z分布;
  • 做小样本的时候要用t分布,只有在样本量足够大的时候才能用z分布。
  • 做研究的时候大多数是用小样本实验,所以一般是用t分布,如果结果还要换算称z分布工程会很复杂,因此很多研究和教材都默认是用t分布。

六、F分布

1、由R.A.Fisher(费希尔)提出,定义:设若U服从自由度为m的x2分布,即U~x2(m),V服从自由度为n的x2分布,即V~x2(n),且U和V相互独立。则,称F为服从自由度m和n的F分布。记F~F(m,n)

2、特征:

  • F分布的数学期望E(t)=n/(n-2),n>2;方差D(t)=2n2(m+n-2)/(m(n-2)(n-4)),n>4;
  • F分布是右偏分布;
  • F分布与t分布的关系:如果随机变量X服从t(n)分布,则X2服从F(1,n)的F分布。公式推导:

公式理解:

t分布是标准分布/卡方分布平方根,t2=(标准分布)2/n的卡方分布,而标准分布的平方不就是自由度n为1的卡方分布吗,[N(0,1)]2=x2(1)/1,因此t分布平方是服从m=1和n自由度的F分布。

  • F分布在方差分析、回归方程的显著性检验中都有重要地位。

3、理解:

  • F~F(m,n)里的m和n自由度是不能随便调换位置,因为m和n调换位置就意味着公式的m和n也要调换位置。F(m,n)是F(n,m)的倒数。

七、各分布的总结

1、各分布之间的关系:

  • 标准分布的平方构造出卡方分布;
  • 标准分布/卡方分布即是t分布;
  • t分布的平方是F(1,n)分布;
  • 两个卡方分布构造出F分布;
  • 随着自由度增大,卡方、t分布、F分布最终都会趋向正态分布。
  • 对称分布:正态分布、标准正态分布、t分布;
  • 右偏分布:卡方分布、F分布。

2、用查表方法计算各分布的分布函数和分位点

查表之前,我们需要了解两个指标Zɑ和Ф(x),以标准分布为例:

  • 分布函数Ф(x):表示在N(0,1)中,X=x左侧的面积,是用x值查表得到左侧面积。
  • 分为点Zɑ:表示在N(0,1)中,右侧的面积为ɑ的点,是用ɑ右侧面积查表得到值。

我们在查表的时候,首先要弄清楚我们拿到的表是分为点表还是分布函数表,以及是什么分布的表。如下图

【例子】设在标准分布下,求Z0.05,Z0.025,Z0.005

【解答】方法一,用分布函数表查:

  • 先将右侧面积转成左侧面积,1-ɑ=1-0.05=0.95
  • 查表是查中间的值等于0.95,查的是在1.64~1.65之间,取中间1.645,所以Z0.05=1.645

方法二,用分为点表查

  • 不用转换,直接查得:Z0.025=1.96,Z0.005=2.576

  • t分布、F分布和卡方分布表的查询方法和标准分布是一样的。例子:t分布下,自由度n=10,求t0.025.

  • 从t分布-分为点表可以看出,当自由度增大,值就越接近标准分布。也解释了所有分布最终状态是正态分布。(t分布在自由度无限增大时,t0.025≈Z0.025≈1.96

3、分为点Zɑ和分布函数表Ф(x)的关系:

  • Ф(x)也可以写成P(x)或P(z),P指的是概率0-1,是图形分布中间的面积,x、z是统计量值,是图形x轴的值,正无穷到负无穷。
  • Zɑ中Z指的是z分布的统计量,也可以写x2、t分布,是图形x轴的值,分为点,正无穷到负无穷。ɑ指的是概率0-1。
  • Zɑ与Ф(x),z就是x,ɑ就是Ф。
  • Zɑ中因为ɑ概率是大于0,所以ɑ概率面积是右侧面积,所以,如果我们刚拿到ɑ值要先弄明白求的是左侧分为点还是右侧分为点。左侧就需要1-ɑ。
  • P(x)[或Ф(x)]中,x是可以正负数的,求出的p值是大于0的左侧面积
  • Zɑ是用概率密度ɑ(面积)求得分为点;
  • P(x)[或Ф(x)]是用分为点x求得概率密度p(面积);

(无力吐槽……CSDN公式编辑真的很不智能,我从word写好的笔记复制过来,公式左下角和右上角的值都跑出来了……)

【数据挖掘数学基础】02常用分布(下)相关推荐

  1. 一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

    一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念 接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析 ...

  2. 长尾分布下的分类问题

    长尾分布下的分类问题 ​ 基于深度学习的分类算法应用于长尾分布数据集时,识别效果不好.对尾部类别的学习效果很差.为解决长尾分类下的识别问题,有多种不同思想的优化方法.最简单的方法是重采样(re-sam ...

  3. 【FinE】正态分布和t分布下的CVaR

    导航 CVaR and VaR Model normal distribution student t distribution Case Study Reference CVaR and VaR C ...

  4. [python skill]利用python计算T分布下的置信区间

    上篇博文中的置信区间计算代码在使用过程中并不准确,本人没并没有搞清楚原因 - - 求大神解答: import numpy as np from scipy import statsX1=np.arra ...

  5. Linux常用命令下,以及再CentOS7下搭建apache网站服务,以及同一服务器上搭建第二个网站

    Linux常用命令下,以及再CentOS7下搭建apache网站服务,以及同一服务器上搭建第二个网站 Linux 常用命令ls -l 以长格式显示-a 显示.. 和 .-A 不显示 . 和 ..-d ...

  6. 常用的linux远程管理方法,常用windows下远程管理Linux服务器的方法

    常用windows下远程管理Linux服务器的方法 来源:互联网 作者:佚名 时间:2013-04-14 12:48 随着互联网的高速发展以及Linux企业应用的成熟,Linux被广泛应用于服务器领域 ...

  7. 一种崭新的长尾分布下分类问题的通用算法|NeurIPS 2020

    ↑ 点击蓝字 关注视学算法 作者丨汤凯华@知乎 来源丨https://zhuanlan.zhihu.com/p/259569655 编辑丨极市平台 本文主要介绍我们组今年被NeurIPS 2020接收 ...

  8. 数据挖掘进行数据分析常用的方法

    利用数据挖掘进行数据分析常用的方法主要有分类.回归分析.聚类.关联规则.特征.变化和偏差分析.Web页挖掘等, 它们分别从不同的角度对数据进行挖掘. ① 分类.分类是找出数据库中一组数据对象的共同特点 ...

  9. matlab如何表示三峰正态分布,正态分布及常用分布的matlab编程实现

    <正态分布及常用分布的matlab编程实现>由会员分享,可在线阅读,更多相关<正态分布及常用分布的matlab编程实现(3页珍藏版)>请在人人文库网上搜索. 1.functio ...

最新文章

  1. IE9会颠覆传统的上网模式?
  2. 笔记整理-信息技术服务标准-ITSS生命周期
  3. 在 C++ 中使用 PPL 进行异步编程
  4. spark中的广播变量broadcast
  5. android监控指纹信息变化,android监听指纹变化(解决反射思路在android10不生效的问题)...
  6. php如何导入数据,““php中如何将execl的数据导入到数据库中
  7. python混合asp_asp后段如何调用python
  8. Linux - 查看软件安装与安装路径
  9. 学php什么自考专业,什么自考专业容易过自学考试哪些专业好考(已帮助356690人)...
  10. np.expand_dims
  11. 实现内外网互通-概述
  12. 我的spark学习之路(一)
  13. Excel隐身术了解一下,让自己的数据更安全
  14. Nature重磅:AI直接从大脑中合成脑电波
  15. 【HTML5】字体加粗代码
  16. 利元转债,奕瑞转债上市价格预测
  17. 为什么要分库分表?一个业务场景来理顺它!
  18. laravel db类
  19. layui.layer 弹出层使用
  20. Android无障碍服务开发

热门文章

  1. ZooKeeper和Kafka集群部署
  2. 阿里巴巴《SQL基础知识》PDF高清版,限时下载!
  3. 【无标题】lead与lag函数
  4. mysql 修改字段类型
  5. 用matlab实现bpsk,用MATLAB实现的BPSK调制解调源程序(国外英文资料).doc
  6. App携带参数安装是什么,具体能实现哪些功能?
  7. E: Couldn't find package lib32z-dev
  8. 在美团工作是种什么样的体验?
  9. C++ 圆与圆之间的距离是不能一概而论的
  10. 数学教科书中编排不太合理的地方(来自网络)