为什么样本大小很重要
样本大小指在一次实验研究中参与个体或收集记录的数量。样本大小很重要,因为它会直接影响估计总体参数的精度。本文针对该主题,通过示例让你对样本大小、置信度、置信区间有基本的理解。
什么是置信区间
实际应用中通常对衡量总体参数感兴趣,总体参数是描述总体的一些特征。
假如我们想了解某个地区所有人员的平均身高。但如果对每个人进行测量太费时费力,通常做法是从总体随机抽取一些样本,然后使用样本估计总体参数。
举例,我们在城市中随机抽取100人,收集样本的身高数据。然后计算样本的平均身高,但我们不能确定样本均值就是总体均值。当然样本选取要有代表性,不能产生幸存者偏差,本文不讨论样本抽取方法。
考虑到不确定性,我们可以使用置信区间。置信区间是包含具有一定置信水平的总体参数值范围。
总体均值置信区间计算公式:
置信区间 = x ‾ + / − z ∗ ( s / n ) \overline{x} +/- z*(s/\sqrt{n}) x+/−z∗(s/n )
- x ‾ \overline{x} x 样本均值
- z 选择的z值(又称为标准分数)
- s 样本标注差
- n 样本大小
选择的z值取决于你选择的置信水平,下表显示了常用置信水平/(置信度)对应的z值:
置信水平(Confidence Level) | z-value |
---|---|
0.90 | 1.645 |
0.95 | 1.96 |
0.99 | 2.58 |
样本大小与置信区间
假设要估计海龟种群的平均重量。我们随机收集了一些海龟样本,并提供了以下信息:
样本大小为n=25
样本平均重量为 x ‾ \overline{x} x=300磅
样本标准差为s=18.5
下面计算90%置信度的总体平均重量的置信区间:
- 90%置信区间:300 +/- 1.644*(18.5/ 25 \sqrt{25} 25 ) = [293.91, 306.09]
这表示有90%把握说明海龟总体真实平均重量在 [293.91, 306.09]范围。
现状假设我们收集了50个样本,而不是25个样本,那么再次计算90%置信度的置信区间:
- 90%置信区间:300 +/- 1.644*(18.5/ 50 \sqrt{50} 50 ) = [295.79, 304.30]
我们看到这个置信区间比上面的更窄,也就是说这个估计比上面更精确。下面我们再次加大样本数据,计算100个样本的置信区间:
- 90%置信区间:300 +/- 1.644*(18.5/ 100 \sqrt{100} 100 ) = [296.96, 303.04]
100个样本比上面更精确了。我们看下表三个范围对比:
样本大小 | 90% 置信宽度 |
---|---|
25 | 12.18 |
50 | 8.51 |
100 | 6.08 |
结论是:样本量越大,我们就能越精确地估计总体参数。
为什么样本大小很重要相关推荐
- [BetterExplained]如何有效地记忆与学习
你所拥有的知识并不取决于你记得多少,而在于它们能否在恰当的时候被回忆起来. 让我稍微说得更详细一点:学习新知识并将其存放于大脑中,最终的目的是要在恰当的时候能够想得起来去使用.因此,学习的有效性显然应 ...
- 极大似然估计、拉普拉斯平滑定理、M-估计详解
注意: (1) 原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8765536 (2) 英文原文链接:http://www ...
- 层次聚类分析代码_4个步骤,用聚类分析法实现用户分析!
- 点击上方"中国统计网"订阅我吧!- 聚类分析(cluster analysis)是常见的数据挖掘手段,其主要假设是数据间存在相似性.而相似性是有价值的,因此可以被用于探索数据中 ...
- 如何有效地记忆与学习
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明http://h4ck3r.blogbus.com/logs/88619081.html 你所拥有的知识并不取决于你记得多少,而在于它们 ...
- 如何有效的记忆和提取记忆
[BetterExplained]如何有效地记忆与学习 BY 刘未鹏 – MARCH 28, 2009POSTED IN: 学习方法, 思维改变生活 你所拥有的知识并不取决于你记得多少,而在于它们能 ...
- 4个步骤:聚类分析如何分析用户?
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源:阿萨姆谈AI 聚类分析(cluster analysis)是常见的数据挖掘手段,其主要假设是数据 ...
- 了解并善于利用人类记忆的特点
一件习以为常的事:1+1=? 当你使用做一道题1+1的时候,你先从记忆力提取出 数字1和+的含义,再通过提取并调用加法的知识,返回结果. 什么是记忆?如何记忆?如何提取记忆. 记忆就是人把自己看到听到 ...
- 4个步骤,用聚类分析法实现用户分析!
聚类分析(cluster analysis)是常见的数据挖掘手段,其主要假设是数据间存在相似性.而相似性是有价值的,因此可以被用于探索数据中的特性以产生价值.常见应用包括: 用户分割:将用户划分到不同 ...
- 加载tf模型 正确率很低_深度学习模型训练全流程!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:黄星源.奉现,Datawhale优秀学习者 本文从构建数据验证集. ...
最新文章
- snmpd 子代理模式编译测试
- linux mysql忘记root_linux下mysql-5.6忘记root密码,重置root密码详细过程
- clang-format-3.6格式化代码
- 用RadASM开发窗口程序(2)
- 源码搭建lamp环境
- python爬虫的技能_关于 Python 爬虫可能涉及到的技能点
- net core 中间件(MiddleWare)
- java joda 获取utc时间_java – JodaTime – 如何获取UTC的当前时间
- php json_decode NULL
- 并发编程 07—— 任务取消
- C语言编写一个计算器(附全源代码)
- native2ascii
- java中 移位运算符_java中的移位运算符心得总结
- android手机品牌排行,智能手机品牌排行榜2019前十名
- 论文常用 | FineBI v6.0 新图表 | 箱形图
- 农村信用社计算机类资料,农村信用社笔试复习资料:计算机知识(3)
- Python培训价格多少
- 神奇的汉诺塔(图文解析)
- Jextson tx2,AGX xavier,GTX 1080Ti,Quadro P4000, i5 cpu,计算能力对比
- android系统模拟麦克风,在Android模拟器中使用麦克风(Java Android初学者)