可汗学院统计学笔记(二)
1.中心极限定理(Central Limit Theorem)
中心极限定理:假设我们有一个分布,它有定义好的均值和方差。用X表示服从这个分布的变量。进行n次实验(n很大),每次实验得到的结果是对这个分布的抽样,将每次实验结果用表示,则n次实验均值
的分布将趋近于正态分布。无论原数据分布是什么,这个定理都成立。
这里有一个重要的分布:
样本均值的抽样分布(Sampling Distribution of the sample mean)
,也就是的分布。
与X一样,都是一个随机变量,只是它的值由n个随机过程决定。
网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html上提供了一个演示程序可以让我们更好地理解中心极限定理。
第一行是原始分布,它可以是任意一个奇怪的分布。第二行是采样的过程,在最终的结果中不显示。第三行和第四行分别是当抽样次数为5和15时,所有样本的均值的分布。可以看到当N=5时,样本均值的分布已经可以看出正态分布的形状,当N增大到16时,这个样本均值的分布是一个方差更小的正态分布。
当样本容量N增大时,样本均值的抽样分布越来越接近正态分布,并且分布的方差/标准差随着N的增大而减小。
关于样本均值的抽样分布的几个重要结论:
1.样本均值的抽样分布的均值与总体均值相等。即:
2.样本均值的抽样分布的方差与样本数成反比,并有一个确定的关系:
标准差:
样本均值的抽样分布的标准差又称为均值标准误差(standard error of the mean)。
这里插播两个正态分布的概念:
偏度(Skew)
如果是一个完美的正态分布,则skew=0;如果偏度为正,则意味着右侧尾部较长;如果偏度为负,则意味着左侧尾部较长。
峰度(Kurtosis)
如果时一个完美的正态分布,则峰度为0时;当峰度为负时,正态分布的顶部较肥,尾部较陡峭;当峰度为正时,正态分布的顶部较瘦,尾部较平缓。
2.伯努利分布(Bernoulli Distribution)
伯努利分布是最简单的二项分布。伯努利分布中的事件只会出现两种结果。我们假设其中一种结果为“成功”,其概率为p,另外一种结果为“失败”,其概率为1-p。则有以下结果:
均值:
方差:
标准差:
3.置信区间(confidence interval)
有这个一样问题:
从农场的200,000个苹果中取出36个苹果进行采样。样本的平均重量为112g,样本的标准差为40g。请问:总体200,000个苹果的平均重量的95%置信区间是多少?
我们得到的只是样本的信息,如何根据极少的样本信息得到总体信息呢?思路如下:
1.从总体中抽取36个样本得到的样本均值是样本均值的抽样分布的一个抽样,也就是一个正态分布的抽样;
2.用样本的标准差作为总体标准差的估计,并计算样本均值的抽样分布的标准差:;
3.样本均值为,总体均值为
,则这两个概率相等:P(
在
的n个标准差范围内)=P(
在
的n个标准差范围内);
4. 3中的概率值可以通过经验法则或 查表计算。
说明:因为使用样本的标准差作为总体标准差的估计,并不准确,所以这里说的是“置信”区间,而不是确定的。
t 分布(t distribution)用于小样本容量时置信区间的估计
当样本数很小时,样本均值的抽样分布并不服从于正态分布,不能用正态分布的经验法则或表格进行概率计算。有专门的t分布计算表格。t分布与正态分布的差别是:t分布有“肥”尾,这是因为低估了抽样分布的标准差。
今天没时间啦,暂时先写这么多,之后再补充~
参考:
可汗学院:统计学 http://open.163.com/special/Khan/khstatistics.html
可汗学院统计学笔记(二)相关推荐
- 可汗学院统计学笔记1
可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 问题 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...
- 可汗学院统计学笔记(一)
基本概念 1.总体(Population)与样本(Sample) 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力.因此通过对总体进行抽样得到可以代表总体的样本.注意:采样过程应该是随机 ...
- 可汗学院统计学笔记 42-81集
假设检验 假设检验是推论统计中用于检验统计假设的一种方法.而"统计假设"是可通过观察一组随机变量的模型进行检验的科学假说.一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出 ...
- 方差分析 可汗学院统计学 笔记
总均值,也即几组数据的总均值,等于各组数据均值的均值. 数据的总波动可由组内波动+组间波动来描述 所有数据的离差平方和=组内的离差平方和+组间离差平方和 假设组数为m,组内数据有n个,上面的自由度分别 ...
- 可汗学院统计学17-24课笔记
[转载请注明出处:https://leytton.blog.csdn.net/article/details/103730081] [第17课] 随机变量介绍 离散随机变量(discrete rand ...
- 可汗学院统计学1-16课笔记
[第1课] 均值 中位数 众数 均值(平均值) = 数据之和 / 数据个数 中位数 = 数据排序后,处在中间的数(如果两位数取平均值) 众数 = 出现次数最多的数,一组数据可以有多个众数 import ...
- 可汗学院金融学(二)
卖空 卖空是指股票市场的一种行为.通过对当前的情况判断,一些精明的投资者或许会预感到股票价格将会下跌,这时,他们可能会从股票经纪人那里借一些股票.经纪人那里有许多客户的股票,客户和其经纪人都可以买卖这 ...
- 可汗学院 统计学(12到34集)
学习之前,需强调:概率是已知模型和参数,推数据:而统计是已知数据,推模型和参数. 第十二集:样本与总体 首先,为何需要样本呢?因为人类并不能总是获取总体数据,例如:人类的身高数据,全世界每秒都有人出生 ...
- 可汉学院python_A可汗学院-统计学python实现1-10
[第 1集] 均值 中位数 众数平均数(Mean):指在一组数据中所有数据之和再除以这组数据的个数. 中位数(Median):按顺序排列的一组数据中居于中间位置的数,如果观察值有偶数个,通常取最中间的 ...
最新文章
- mysql status改变_mysql 配置详解mysql SHOW STATUS 详解
- python无法读取文件-Python读取文件
- Hive旺旺讨论(关于mapjoin)
- Full_of_Boys训练4总结
- asp.net MD5加密函数(c#)
- Git 各指令的本质,真是通俗易懂啊
- 微信小程序批量获取input的输入值,监听输入框,数据同步
- 关于使用_bstr_t的一个坑
- 屏幕坏点检测图片_【沙发管家】教你自己测试智能电视屏幕
- Developer Zone Android*
- 计算机t恤,PS一分钟技巧!给T恤加个图案竟然这么简单
- 遥控器的辨型 对码 对拷和焊码
- MySQL字段约束及多表查询---讲解三
- CDN缓存原理和介绍
- 安卓开发--运行你的APP
- js将数字转换为汉字
- 好记性不如烂笔头-linux学习笔记4apache相关知识
- 剑指offer-矩阵中的路径
- 解决git上传文件出错[rejected] master -> master (fetch first) error: failed to push some refs to ‘
- opensl es 调试中的问题