从今天开始要学习数理统计。
概率论:是专门研究随机现象的一门学科,定量描述随机现象及其规律。
数理统计:数理统计的研究对象是数据,包括对数据的采集、整理、分析、建模。主要任务是获取样本、描述样本,从样本得到总体的分布情况和分布参数。

基本概念

 总体:研究对象的全体。
 个体:总体中的成员。
 总体的容量:总体中包含的个体数。
 有限总体:容量有限的总体。
 无限总体:容量不可数的总体。有限总体量非常大的时候,也看作是无限总体。
 总体的某个指标X,对于不同个体,有不同的值。X可以看做是随机变量。假设X的分布函数为F(X),也称总体X具有分布函数F(X)。

数据收集

 数据收集方法有两种。1 调查记录,例如是否做过家教。2 试验记录。例如药物反应。

抽样

 数理统计的目标是从样本推总体。使用的方法是抽样。
 样本:从总体中抽取到的部分个体叫样本。
 简单随机样本:满足以下两个条件的随机样本(X1,X2...XnX_1,X_2...X_n)称为容量为n的简单随机样本:1 每个XiX_i与X同分布;2 X1,X2...XnX_1,X_2...X_n是相互独立的随机变量。详细解释第一个条件。一批灯泡的寿命服从π(λ)\pi(\lambda)。这个总体中任何一个样本的寿命都是服从π(λ)\pi(\lambda),所以任意抽取一个就可以。如果这里面混入了别人家的产品,这个产品服从π(λ1)\pi(\lambda_1),那这个抽样就要出问题了。或者这里混入了IBM笔记本。笔记本寿命可能就不符合泊松分布了。
 一个容量为n的样本X1,X2...XnX_1,X_2...X_n是指n个独立的与总体分布相同的随机变量。
 样本观察值:对样本进行一次观察,得到实际的值。
 抽样分不放回抽样、放回抽样。
 统计量:样本的不包含任何未知参数的函数。
 样本均值:X¯¯¯=1n∑ni=1Xi\overline{X}=\dfrac{1}{n}\sum_{i=1}^{n}X_i
 样本方差:S2=1n−1∑ni=1(Xi−X¯¯¯)2S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2
 标准差:S=S2−−−√S=\sqrt{S^2}
 k阶矩:Ak=1n∑ni=1XkiA_k=\dfrac{1}{n}\sum_{i=1}^{n}X_i^k
 k阶中心矩:Bk=1n∑ni=1(Xi−X¯¯¯)kB_k=\dfrac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^k
 B2=n−1nS2B_2=\dfrac{n-1}{n}S^2

样本分位数

 样本p分位数:1至少有np个观察值小于等于xpx_p;2 至少有n(1-p)个观察值大于等于xpx_p。(0<<script type="math/tex" id="MathJax-Element-16"><</script>p<1)。样本中位数M、第一四分位数Q1Q_1、第三四分位数Q3Q_3。
 例如:一组容量为18的样本值如下:
 122 126 122 140 145 149 150 157
 162 166 175 177 183 188 199 212
 x0.2=x(n∗0.2)=x([18∗0.2]+1)=x([3.6]+1)=x4=140x_{0.2}=x_{(n*0.2)}=x_{([18*0.2]+1)}=x_{([3.6]+1)}=x_4=140
 x0.25=x(n∗0.25)=x([18∗0.25]+1)=x([4.5]+1)=x5=145x_{0.25}=x_{(n*0.25)}=x_{([18*0.25]+1)}=x_{([4.5]+1)}=x_5=145
 x0.5=?x_{0.5}=? :18*0.5=9;x0.5=12∗(157+162)=159.5x_{0.5}=\dfrac{1}{2}*(157+162)=159.5
 箱线图:最小值Min,第一四分位数Q1Q_1、样本中位数M、第三四分位数Q3Q_3、样本最大值Max,五个数据画成的图。

重要的抽样分布

 统计量的分布称为抽样分布。
 几个重要的抽样分布:正态分布、卡方分布、t分布、F分布。

卡方分布

 定义:设随机变量X1,...XnX_1,...X_n相互独立,且都服从N(0,1),则称卡方分布=∑ni=1X2i卡方分布=\sum_{i=1}^{n}X_i^2服从自由度为n的卡方分布。
 概率密度函数:
 性质:
 1 E(卡方分布)=n,D(卡方分布)=2n。
 2 可加性。Y1 卡方分布(n1)Y_1~卡方分布(n_1),Y2 卡方分布(n2)Y_2~卡方分布(n_2),且Y1,Y2Y_1,Y_2相互独立,则Y1+Y2 卡方分布(n1+n2)Y_1+Y_2~卡方分布(n_1+n_2)。
 上α\alpha分位数

t分布

 定义:设随机变量X~N(0,1)N(0,1),Y~卡方分布(n),X与Y相互独立,则称变量T=XY/n−−−−√T=\dfrac{X}{\sqrt{Y/n}} 服从 t(n)。
 概率密度函数:
 上α\alpha分位数

F分布

 定义:设随机变量X~卡方分布(n1)卡方分布(n_1),Y~卡方分布(n2n_2),X与Y相互独立,则称变量F=X/n1Y/n2F=\dfrac{X/n_1}{Y/n_2} 服从F(n1,n2)F(n_1,n_2)。
 概率密度函数:
 性质:
 1 如果F服从F(n1,n2)F服从 F(n_1,n_2),则1F\dfrac{1}{F}~F(n2,n1)F(n_2,n_1).
 上α\alpha分位数
  

单个正态总体的抽样分布

 设总体X的均值为μ\mu,方差为σ2\sigma^2,X1,X2,...XnX_1,X_2,...X_n是来自X的一个样本,样本均值X¯¯¯=1n∑ni=1Xi\overline{X}=\dfrac{1}{n}\sum_{i=1}^{n}X_i,样本方差S2=1n−1∑ni=1(Xi−X¯¯¯)2S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2,则有E(X¯¯¯)=μE(\overline{X})=\mu,D(X¯¯¯)=σ2nD(\overline{X})=\frac{\sigma^2}{n},E(S2)=σ2E(S^2)=\sigma^2。
 
 定理一:总体XX~N(μ,σ2)N(\mu,\sigma^2),X1,X2,...XnX_1,X_2,...X_n是样本,样本均值X¯¯¯=1n∑ni=1Xi\overline{X}=\dfrac{1}{n}\sum_{i=1}^{n}X_i,样本方差S2=1n−1∑ni=1(Xi−X¯¯¯)2S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2,则
 
 (1)X¯¯¯服从N(μ,σ2n)\overline{X} 服从 N(\mu,\dfrac{\sigma^2}{n})
 (2)(n−1)S2σ2\dfrac{(n-1)S^2}{\sigma ^2}~卡方分布(n-1),S2S^2与X¯¯¯\overline{X}相互独立。
 定理二:总体X~N(μ,σ2)N(\mu,\sigma^2),X1,X2,...XnX_1,X_2,...X_n是样本,样本均值X¯¯¯=1n∑ni=1Xi\overline{X}=\dfrac{1}{n}\sum_{i=1}^{n}X_i,样本方差S2=1n−1∑ni=1(Xi−X¯¯¯)2S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2,则X¯¯¯−μS/n√\dfrac{\overline{X}-\mu}{S/\sqrt{n}}~t(n-1)

两个正态总体的抽样分布

 定理三:设样本(X1,X2...XnX_1,X_2...X_n)和(Y1,Y2...YnY_1,Y_2...Y_n)分别来自总体N(μ1,σ21)N(\mu_1,\sigma_1^2)和N(μ2,σ22)N(\mu_2,\sigma_2^2),并且它们相互独立,样本均值分别为X¯¯¯\overline{X}、Y¯¯¯\overline{Y};样本方差分为别S21S_1^2、S22S_2^2,则可以得到以下抽样分布:
 1 F=S21/σ21S22/σ22=S21/S22σ21/σ22F=\dfrac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}=\dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}~F(n1−1,n2−1)F(n_1-1,n_2-1)。
 
 2 (X¯¯¯−Y¯¯¯)σ21n1+σ22n2−−−−−−−−√服从N(0,1)\dfrac{(\overline{X}-\overline{Y})}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}} 服从 N(0,1)
 3 当σ21=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2时,(X¯¯¯−Y¯¯¯)Sw1n1+1n2−−−−−−−−√服从t(n1+n2−2)\dfrac{(\overline{X}-\overline{Y})}{S_w\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}} 服从 t(n_1+n_2-2),其中S2w=(n1−1)S21+(n2−1)S22n1+n2−2S_w^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2},Sw=S2w−−−√S_w=\sqrt{S_w^2}。

总结

1 设样本X1,X2...XnX_1,X_2...X_n是来自总体X的样本,不管X服从什么分布,只要期望和方差存在,具有E(X)=μE(X)=\mu,D(X)=σ2D(X)=\sigma^2,则有E(X¯¯¯)=μE(\overline X)=\mu,D(X¯¯¯)=σ2nD(\overline X)=\dfrac{\sigma^2}{n}。
2 总体XX~N(μ,σ2)N(\mu,\sigma^2),X1,X2,...XnX_1,X_2,...X_n是样本,样本均值X¯¯¯=1n∑ni=1Xi\overline{X}=\dfrac{1}{n}\sum_{i=1}^{n}X_i,样本方差S2=1n−1∑ni=1(Xi−X¯¯¯)2S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2,则
 
 (1)X¯¯¯服从N(μ,σ2n)\overline{X} 服从 N(\mu,\dfrac{\sigma^2}{n})
 (2)(n−1)S2σ2\dfrac{(n-1)S^2}{\sigma ^2}~卡方分布(n-1)
 (3)S2S^2与X¯¯¯\overline{X}相互独立。
 (4)X¯¯¯−μS/n√\dfrac{\overline{X}-\mu}{S/\sqrt{n}}~t(n-1)
3 对于两个正态总体,有三条重要的结果。

第五章数理统计--样本和抽样分布相关推荐

  1. 概率论与数理统计--样本及抽样分布

    文章目录 总体和样本 统计量 三大分布 四大定理 总体和样本 统计量 三大分布 四大定理

  2. 概率论与数理统计系列笔记之第五章——统计量及其分布

    概率论与数理统计笔记(第五章--统计量及其分布) 对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的<概率论与数理统计教程&g ...

  3. 2020年余丙森概率统计强化笔记-第五章 大数定律和中心极限定理 第六章 数理统计

    文章目录 第五章 大数定律和中心极限定理 第六章 数理统计 第五章 大数定律和中心极限定理 第六章 数理统计

  4. 李弘毅机器学习笔记:第五章—分类

    李弘毅机器学习笔记:第五章-分类 例子(神奇宝贝属性预测) 分类概念 神奇宝贝的属性(水.电.草)预测 回归模型 vs 概率模型 回归模型 其他模型(理想替代品) 概率模型实现原理 盒子抽球概率举例 ...

  5. 《数据挖掘导论》Pangaea-Ning Tan 读书笔记 ----第五章 分类其他技术

    文章目录 第五章 分类:其他技术 5.1 基于规则的分类 5.1.1 基于规则的分类器的工作原理 5.1.2 规则的排序方案 5.2 最近邻算法(KNN) 无监督最近邻 KDTree和BallTree ...

  6. 统计-样本及抽样分布

    第六章 样本及抽样分布 在概率中,我们所研究的随机变量的分布都是假设已知的. 在数理统计中,我们研究的随机变量的分布是未知的,或者是不完全知道的.我们通过对随机变量进行大量重复.独立的观察,收集书记, ...

  7. 第五章 RNA-seq分析

    第五章 RNA-seq分析 主要为RNA-seq相关知识,部分内容作笔记自查使用.如有错误或遗漏还请海涵,可评论或邮箱联系. 最后修改时间:2020-09-01 16:11:38 星期二 转录组研究方 ...

  8. 《Credit Risk Scorecard》第五章: Development Database Creation

    第五章:Scorecard Development Process, Stage 3: Development Database Creation Selection of Characteristi ...

  9. 吴恩达机器学习(第五章)——Logistic回归

    第五章-Logistic回归 文章目录 第五章-Logistic回归 分类 假设陈述 决策边界 代价函数 代价函数的定义 简化代价函数与梯度下降 公式的推导 高级优化 多元分类:一对多 分类 在分类问 ...

最新文章

  1. linux proxy服务器
  2. 苹果6怎么截屏_蓝苹果多肉怎么养,掌握这6种养殖方法
  3. Python自动化一--接口测试基础知识,jmeter操作介绍
  4. 【Paper】英文论文写作小技巧
  5. 运放搭建主动滤波电路
  6. CodeForces 362B Petya and Staircases
  7. Js获取当前日期时间及其它操作(转)
  8. python中 is 和== 的区别
  9. 常见的锁策略、synchronized中的锁优化机制
  10. [Usaco2015 dec]Breed Counting
  11. as ssd中文版测试软件,AS SSD Benchmark
  12. win7系统升级ie11,在KB2729094更新失败时的解决方法
  13. Xweibo for Discuz!X1.5V1.1安装教程
  14. 雷士灯wifi控制方法_雷士照明驱动 WiFi 可调光 怎么设置
  15. 钢笔与矢量形状—文字路径制作印章效果
  16. python数据可视化matplotlib之grid
  17. 一种很轻松的Excel关键字方式进行网页Web自动化测试(Java+Selenium+TestNG+Excel)
  18. 39《黑客与画家 : 硅谷创业之父Paul Graham文集》 -豆瓣评分8.8
  19. DNF 单机游戏 手机游戏 网络游戏 推荐游戏 TXT 小说 外挂 辅助
  20. Android 自定义表格显示数据

热门文章

  1. android开发之 SQLite(数据库)
  2. Java多线程异常处理
  3. Linux 命令快捷键
  4. css定位:相对定位
  5. ABAP 弹出框自建内容POPUP
  6. 基于visual Studio2013解决面试题之0203栈实现
  7. setsockopt()用法(转载)
  8. 公众号出现该公众号提供的服务出现故障分析
  9. 博客园文章方块背景格式
  10. Android Runnable与Handler和Thread的使用,Handler构造方法弱引用实现