本文来源:小麦研究联盟

今天跟大家详细总结一下我们农业试验数据统计中常用的 量,图,和线。


如果不想看下边长篇大论,请看小编给您总结的懒人包:


标准差:

群体的标准差是群体中所有数据方差的平方根,它衡量的是群体中某个测量值的离散程度。

我们可以看到下面左图中三个群体(正态分布曲线)的某个测量值的均值是相同的(x = u),但测量值的离散程度不同(标准差不同)。右边的图大家应该比较熟悉,它的意义是判断某个值是否是小概率事件,比如某个个体的测量值在三个标准差之外,我们就说这个数据点是个小概率事件(p< 0.01),在我们农业试验中也即意味着这个数据是个outlier,很有可能是混杂的种子,或者是测量出错了,数据输错了。

用于描述这种测量值离散程度的图大多为Histogram(直方图)和Box plot(箱式图)。我们以后再介绍这两个图,尤其箱式图,是一个很不错的工具。

这里要特别提醒一下:以上举的例子是以整个群体为对象的,但在我们实际操作过程中,我们拿到的数据一般都只是一个群体中的一部分样本(比如一个200个RIL的作图panel是从所有可能的RIL个体中随机挑选出来的),对于样本的标准差的公式如下:分子是n-1,而不是n。所以大家在Excel中计算SD的时候应该用STDEV.S,而不是STDEV.P。

均值的标准误:

接下来我们来看标准误。标准误衡量的是样本均值的离散程度,可以用来衡量样本的均值和整个群体实际均值之间的差别。也就是标准误越小,就说明样本的均值越接近于整个群体实际的均值。下面是标准误的计算公式,我们可以看到所取的样本量越大,标准误就越小,我们得到的均值就越接近于整个群体实际的均值。

基于SEM的这个统计学意义,当我们用t-test 测验两个样本均值是否有差异时,在均值上添加SEM更恰当,而非SD。当然,不得不说的是,现在大部分RNA表达的图都是用柱状图和标准差来做,我想其中一个罪魁祸首就是Excel吧,竟然没有直接SEM的计算公式,我以前用Excel处理数据时就只知道Average和SD,自然而然的就就采用这两个来做图了。另外一个原因也是现实情况所致,当一个试验的样本量特别大的时候,SEM就会非常小,甚至接近于0,画在柱状图上就看不到了,这也是有人选择标准差做error bar的原因吧。

均值的置信区间:

另外描述均值分布的还有均值的置信区间(Confidence Interval of the mean),用来估计均值误差范围的区间。它的计算公式如下:

其中S/√n为标准误,t = TINV(0.05, N-1), N 为样本大小,在Excel中输入此公式就可以得到t值,然后再代入均值置信区间的公式。从下面的t表来看,当样本量足够大时,t接近c的值1.96(a=0.05),这个c值用于大家平常在网上查到的均值置信区间的公式(如下),但我们平常的农业试验单因素样本量很少能达到500,所以此公式慎用。

至于原因以及关于均值置信区间的计算公式的推导,具体参考这个网页:https://zhuanlan.zhihu.com/p/35389951。

另外,从这个表中,我们也可以看到,当样本量小于10的时候,置信区间范围将比SD还要大。大家可以根据SD,SEM和CI of the mean三者的公式自行推算。

这里要注意标准误(Standard Error:SE)和置信区间(Confidence Interval:CI)都只是一个统称,它们既可以描述均值,也可以描述中位数,甚至可以描述标准差。也就是说在文章中SE和CI后面一定要有定语。只有当它们用于描述均值的时候才成了Standard Error of the mean(SEM)和CI of the mean。

另一点要注意的是:判断两组数据的均值差异是否显著,不能只看均值大小,误差线,或者p值;而是应该结合起来看:当样本比较少时,标准误也就大,这时计算的value可能不显著,但增加了样本数量后,标准误降低了,p值可能就显著了。

小提琴图示例

说了这么多理论,下面我们用三种图(柱状图,点状图和小提琴图)来展示一下SD, SEM,和CI of the mean 之间的区别。下面用到了三组数据:左边的和右边两组是极显著差异,右边两组没有显著差异。

1.左图是柱状图加SD,右边是小提琴图加SD。本来好好的极显著差异就这样被埋没了:尤其是柱状图加SD,很难看出极显著。

2.左图是柱状图加SEM,右边是小提琴图加SEM。加SEM显然要比SD“好看”很多。尤其是小提琴图,由于比柱状图在纵坐标上有优势,看起来就是极显著。但加SEM也有“缺点”,第二组和第三组数据的均值有差异,二且SEM没有重叠,给人一种二者也是显著差异的感觉。

3.左图是柱状图加CI of the mean,右边是小提琴图加CI ofthe mean。对于这三组数据,最佳方案就是均值加均值的置信区间了。完美的避免了上面所提到的缺点:既可以明显看出极显著差异,又可以化解不显著的差异。

有没有老师告诉过你:误差线重叠,差异就不显著了!下面我们给你总结了最全面的说法:

置信区间没有重叠,二者肯定有显著差异。但置信区间有重叠,不一定说明二者没有显著差异。

标准误有重叠,二者肯定没有显著差异。但标准误没有重叠,不能说明二者就一定有显著差异。

点状图示例:

另一组示例,还是左边的和右边两组是极显著差异,右边两组没有显著差异。这个示例主要是看当样本量很小时(比如RNA 表达实验),采用SEM更恰当,因为CI of the mean太大了。。。三个图从左到右依次为点状图加SD,SEM,和CIof the mean.

重要提醒:

由于微信平台改版,公号内容将不再以时间排序展示,为方便粉丝朋友第一时间看到我们的推送,强烈建议设为星标、点亮【在看】。星标具体步骤为:

(1)点击页面最上方“论文项目硕博招聘”,进入公众号主页

(2)点击右上角的小点点,在弹出页面点击“设为星标”

感谢支持,比心

相关阅读:

SCI投稿各阶段邮件模板,必备请收藏!

各地大学教师自曝2018年收入,最真实一手数据!

因提前返校,两名学生被所在大学通报!

原来我熬到博士毕业,才刚够应聘辅导员的资格……

最新一区二区杂志清单(按学科排列)

博士100万、硕士80万安家补助,聘期满可提副处,杭州某区开出的择优引进党政储备人才公告

微信加群:

浙江高校群、国基交流群、青椒交流群、博士交流群、求职交流群,Python学习交流群、论文学术交流群,加小编微信sqzhang3322

版权申明:

本文系网络转载文章,公众号不声明拥有版权、转载不涉及任何商业目的,也不代表我平台的观点立场,如涉侵权,请联系后台,我们会及时处理。

点个“在看” ↓↓

比较两组数据的差异用什么图更直观_试验数据统计中常用的 量,图,和线再也不担心文章的统计用图了!...相关推荐

  1. 比较两组数据的差异用什么图更直观_芯片数据分析中常见的一些图的作用

    今天给大家讲讲芯片数据分析中常见的一些图的作用,让大家伙儿知道它们在BB些啥. 箱式图(Box plot) 基因芯片的原始数据是需要进行标准化处理的,主要目的是消除由于实验技术(如荧光标记效率.扫描参 ...

  2. 比较两组数据的差异用什么图更直观_科研数据可视化:巧妙运用各种形式的图表...

    导读: 图片和表格不仅是讲述科研故事的有力工具,也是科学出版物的重要组成部分.科研论文数量种类庞杂,在这个快节奏的时代,为了更高效地获取论文的重要信息,读者通常会跳过稿件的正文,而主要查看文中图表所传 ...

  3. 比较两组数据的差异用什么图更直观_你真的懂如何展示数据吗?

    ↑ 关注 + 星标 ~ 有趣的不像个技术号每晚九点,我们准时相约  偶尔应金主爸爸要求改时间  大家好,我是朱小五 如何来展现的你的数据?是你有时不得不去思考的一个问题. 不同的展示方法,其效果往往差 ...

  4. 比较两组数据的差异用什么图更直观_标准差、Z分数到底是什么鬼??标准差与Z分数的原理与实例介绍 | 心理统计学...

    阿猫同志目前在职读研的专业是应用心理学,2月完成了心理与教育测量学的学习,3月目前在自学心理与教育统计学,每日上班+学习的充实生活,让我想说一句 心理测量学需要有心理统计学基础,当时阿猫在学习常模参照 ...

  5. 比较两组数据的差异用什么图更直观_用8分钟给你讲讲line graph的写法

    我是雅思写作老师宋京航,这是我的第一篇教学文章/视频.按照常规操作,我可能需要给你讲一下考试介绍和考情分析,但是那些百度能搜到的废话我确实不想写.那么, 我们直接进入正题.以上有吹拉弹唱视频版,以下润 ...

  6. 比较两组数据的差异用什么图更直观_扩增子图表解读7三元图:三组差异数量和关系...

    点击上方蓝色「宏基因组」关注我们!专业干货每日推送! 背景介绍(Introduction) 宏基因组学 宏基因组学目前的主要研究方法包括:16S/ITS/18S扩增子.宏基因组.宏转录组和代谢组,其中 ...

  7. 比较两组数据的差异用什么图更直观_用Excel制作旋风图

    旋风图是较为常用的数据对比图表,这种"背靠背"式的图表可以更直观地对比两组数据. 基本形态的制作 第一步 首先选取数据(数据我自己编的,以此为例)插入簇状条形图 之后你会得到这样一 ...

  8. python 分析两组数据的差异_R语言limma包差异基因分析(两组或两组以上)

    使用limma包进行差异基因分析时,做最多的是两分类的,例如control组和disease组,但也会碰到按照序列进行的分组.这时,如果逐一使用两两比较求差异基因则略显复杂.其实开发limma包的大神 ...

  9. 比较两组数据的差异用什么图更直观_用好这11种可视化图表,数据可视化技能秒提升...

    可视化不是单纯的数据展示,其真正价值是设计出可以被读者轻松理解的数据展示.数据与合适的图形结合,不仅能够让复杂的统计数字简单化.形象化,还能给读者一种视觉的享受. 今天,就让我们根据数据分析软件亿信A ...

最新文章

  1. Bioinformatics: Assembling Genomes (week 1-2)
  2. Web安装项目创建桌面快捷方式
  3. 安装Mongodb并解决用户授权问题
  4. 用计算机算出鞋子的鞋码,【鞋子尺码对照】鞋子尺码怎么算_鞋子尺码怎么量 - 妈妈网百科...
  5. USACO 6.1.3 Cow XOR
  6. python词云改颜色_一种用Python生成词云
  7. java 反射 单例类_利用反射机制破坏单例模式
  8. IBM SVC (2145-CF8) node脱机故障恢复分享
  9. div中定义局部变量_中高级前端必须要了解的--JS中的内存管理
  10. AcWing 9. 分组背包问题(分组背包模板)
  11. 编译原理--中间代码生成(自己看)
  12. 2种方式(线程间通信/互斥锁)实现两个线程,一个线程打印1-52,另一个线程打印字母A-Z,打印顺序为12A34B56C......5152Z...
  13. linux ssh 正向代理与反向代理
  14. java学习之单件模式
  15. CheckedListBoxControl 赋值,取值的方法 KKK笔记
  16. 【20考研】汤家凤:考研数学最好的复习开端就是现在!
  17. 最简单DIY基于ESP8266的智能彩灯⑤(用C#调色板UI通过串口控制WS2812彩灯)
  18. 软件测试可用性常用指标
  19. 学习总结-在Icepak模型中修改和增加零件
  20. 入侵手游服务器修改数据库,如何入侵手游服务器数据库

热门文章

  1. JQ+CSS实现老虎机抽奖效果
  2. 【Unity3DRPG入门学习笔记第一卷】创建项目导入素材
  3. vscode编辑python时跳转到.pyi而不是源码的问题
  4. 我们现在使用的电子计算机是第几代,已让时间逆转几分之一秒!科学家使用量子计算机来逆转时间!...
  5. 百度刷相关wf5搜_朱一龙和杨紫百度指数这是买数据了吧
  6. 【Python学习】--pythonf笔记
  7. linux3.x 驱动程序,Arm Linux3.x的设备树 - 龙芯开源社区
  8. 物通博联丨工程工具车远程运营物联网解决方案
  9. 国旗升降系统程序及原理图资料
  10. 第一次使用爱斯维尔(Elsevier)论文模板注意事项