1.中心极限定理(Central Limit Theorem)

中心极限定理:假设我们有一个分布,它有定义好的均值和方差。用X表示服从这个分布的变量。进行n次实验(n很大),每次实验得到的结果是对这个分布的抽样,将每次实验结果用表示,则n次实验均值

的分布将趋近于正态分布。无论原数据分布是什么,这个定理都成立。

这里有一个重要的分布:

样本均值的抽样分布(Sampling Distribution of the sample mean)

,也就是的分布。与X一样,都是一个随机变量,只是它的值由n个随机过程决定。

网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html上提供了一个演示程序可以让我们更好地理解中心极限定理。

第一行是原始分布,它可以是任意一个奇怪的分布。第二行是采样的过程,在最终的结果中不显示。第三行和第四行分别是当抽样次数为5和15时,所有样本的均值的分布。可以看到当N=5时,样本均值的分布已经可以看出正态分布的形状,当N增大到16时,这个样本均值的分布是一个方差更小的正态分布。

当样本容量N增大时,样本均值的抽样分布越来越接近正态分布,并且分布的方差/标准差随着N的增大而减小。

关于样本均值的抽样分布的几个重要结论:

1.样本均值的抽样分布的均值与总体均值相等。即:

2.样本均值的抽样分布的方差与样本数成反比,并有一个确定的关系:

标准差:

样本均值的抽样分布的标准差又称为均值标准误差(standard error of the mean)。

这里插播两个正态分布的概念:

偏度(Skew)

如果是一个完美的正态分布,则skew=0;如果偏度为正,则意味着右侧尾部较长;如果偏度为负,则意味着左侧尾部较长。

峰度(Kurtosis)

如果时一个完美的正态分布,则峰度为0时;当峰度为负时,正态分布的顶部较肥,尾部较陡峭;当峰度为正时,正态分布的顶部较瘦,尾部较平缓。

2.伯努利分布(Bernoulli Distribution)

伯努利分布是最简单的二项分布。伯努利分布中的事件只会出现两种结果。我们假设其中一种结果为“成功”,其概率为p,另外一种结果为“失败”,其概率为1-p。则有以下结果:

均值:

方差:

标准差:

3.置信区间(confidence interval)

有这个一样问题:

从农场的200,000个苹果中取出36个苹果进行采样。样本的平均重量为112g,样本的标准差为40g。请问:总体200,000个苹果的平均重量的95%置信区间是多少?

我们得到的只是样本的信息,如何根据极少的样本信息得到总体信息呢?思路如下:

1.从总体中抽取36个样本得到的样本均值是样本均值的抽样分布的一个抽样,也就是一个正态分布的抽样;

2.用样本的标准差作为总体标准差的估计,并计算样本均值的抽样分布的标准差:

3.样本均值为,总体均值为,则这两个概率相等:P(的n个标准差范围内)=P(的n个标准差范围内);

4.  3中的概率值可以通过经验法则或 查表计算。

说明:因为使用样本的标准差作为总体标准差的估计,并不准确,所以这里说的是“置信”区间,而不是确定的。

t 分布(t distribution)用于小样本容量时置信区间的估计

当样本数很小时,样本均值的抽样分布并不服从于正态分布,不能用正态分布的经验法则或表格进行概率计算。有专门的t分布计算表格。t分布与正态分布的差别是:t分布有“肥”尾,这是因为低估了抽样分布的标准差。

今天没时间啦,暂时先写这么多,之后再补充~

参考:

可汗学院:统计学  http://open.163.com/special/Khan/khstatistics.html

可汗学院统计学笔记(二)相关推荐

  1. 可汗学院统计学笔记1

    可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 问题 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...

  2. 可汗学院统计学笔记(一)

    基本概念 1.总体(Population)与样本(Sample) 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力.因此通过对总体进行抽样得到可以代表总体的样本.注意:采样过程应该是随机 ...

  3. 可汗学院统计学笔记 42-81集

    假设检验 假设检验是推论统计中用于检验统计假设的一种方法.而"统计假设"是可通过观察一组随机变量的模型进行检验的科学假说.一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出 ...

  4. 方差分析 可汗学院统计学 笔记

    总均值,也即几组数据的总均值,等于各组数据均值的均值. 数据的总波动可由组内波动+组间波动来描述 所有数据的离差平方和=组内的离差平方和+组间离差平方和 假设组数为m,组内数据有n个,上面的自由度分别 ...

  5. 可汗学院统计学17-24课笔记

    [转载请注明出处:https://leytton.blog.csdn.net/article/details/103730081] [第17课] 随机变量介绍 离散随机变量(discrete rand ...

  6. 可汗学院统计学1-16课笔记

    [第1课] 均值 中位数 众数 均值(平均值) = 数据之和 / 数据个数 中位数 = 数据排序后,处在中间的数(如果两位数取平均值) 众数 = 出现次数最多的数,一组数据可以有多个众数 import ...

  7. 可汗学院金融学(二)

    卖空 卖空是指股票市场的一种行为.通过对当前的情况判断,一些精明的投资者或许会预感到股票价格将会下跌,这时,他们可能会从股票经纪人那里借一些股票.经纪人那里有许多客户的股票,客户和其经纪人都可以买卖这 ...

  8. 可汗学院 统计学(12到34集)

    学习之前,需强调:概率是已知模型和参数,推数据:而统计是已知数据,推模型和参数. 第十二集:样本与总体 首先,为何需要样本呢?因为人类并不能总是获取总体数据,例如:人类的身高数据,全世界每秒都有人出生 ...

  9. 可汉学院python_A可汗学院-统计学python实现1-10

    [第 1集] 均值 中位数 众数平均数(Mean):指在一组数据中所有数据之和再除以这组数据的个数. 中位数(Median):按顺序排列的一组数据中居于中间位置的数,如果观察值有偶数个,通常取最中间的 ...

最新文章

  1. mysql status改变_mysql 配置详解mysql SHOW STATUS 详解
  2. python无法读取文件-Python读取文件
  3. Hive旺旺讨论(关于mapjoin)
  4. Full_of_Boys训练4总结
  5. asp.net MD5加密函数(c#)
  6. Git 各指令的本质,真是通俗易懂啊
  7. 微信小程序批量获取input的输入值,监听输入框,数据同步
  8. 关于使用_bstr_t的一个坑
  9. 屏幕坏点检测图片_【沙发管家】教你自己测试智能电视屏幕
  10. Developer Zone Android*
  11. 计算机t恤,PS一分钟技巧!给T恤加个图案竟然这么简单
  12. 遥控器的辨型 对码 对拷和焊码
  13. MySQL字段约束及多表查询---讲解三
  14. CDN缓存原理和介绍
  15. 安卓开发--运行你的APP
  16. js将数字转换为汉字
  17. 好记性不如烂笔头-linux学习笔记4apache相关知识
  18. 剑指offer-矩阵中的路径
  19. 解决git上传文件出错[rejected] master -> master (fetch first) error: failed to push some refs to ‘
  20. opensl es 调试中的问题

热门文章

  1. 实验 4 在分支循环结构中调用自定义函数 为了倡导居民节约用电,某省电力公司执行“阶梯电价...
  2. 调制深度(modulation depth)
  3. py2exe转换参数
  4. 如果有一天我不再烦你,你会想我吗?
  5. 电商订单技术方案梳理
  6. Springboot ApplicationRunner 详解
  7. springboot服务使用策略模式
  8. mysql远程连接命令
  9. python win32com在读取word文档时,遇到的问题
  10. text-align:center设置居中不起作用