作者:曹毛毛  R语言中文社区专栏作者   北京协和医学院在读硕士


前言

在本章开始之前请思考几个问题,年龄、体重、性别在统计学中属于同一种数据形式吗?如果不是则分别是哪种?搞清楚数据类型是数据分析的第一步,当然在此之前你已经有了一份已经清洗干净的数据库。

在统计领域内数据可简单以下几类:

  • 计量资料

  • 计数资料

  • 等级资料

根据研究目的还可以将资料进行计量——等级——计数资料转化。不过要记住不能相互转化,只能由高级像低级转化,其实很好理解,因为计数资料信息量较少,转化能力自然较弱。

以人群身高为例,按照某个标准规定160以下为较矮,高于160则为高,这样可以将身高计量资料转化为计数资料高矮。

下面简单的回答一下章节开头的小问题:

年龄和体重如29岁,80kg是可以由一些测量工具准确得到的值,因此为计量资料。

性别不可以用工具测量其值,它是一种类别,反映事物的某种属性,因此是分类资料也可称为计数资料。

在调查公司员工对经理的满意程度,分为非常满意、满意、一般、不满意四类,这样收集到的数据则是反应某种等级,称为等级资料。相信你也不敢说不满意~

了解基本数据类型后,赶紧开启你的统计之旅吧~本章仅涉及计量资料统计方法应用:

t检验用于判断两个总体均值是否具有差异,来源于正态分布

t检验的应用条件是:样本含量较小且满足正态、方差齐

单样本t检验:用于样本均数和已知总体均数之间的比较

例1. 研究表明,汉族足月正常生产男婴双顶径均数为9.3cm,某医生记录某山区12名汉族足月正常生产男婴双顶径资料如下:9.95 9.33 9.49 9.00 10.09 9.15 9.52 9.33 9.16 9.37 9.11 9.27(数据来源于医学统计学第二版,刘桂芬主编)

试问该山区男婴的双顶径是否大于一般男婴双顶径?

解决的问题:该山区男婴的双顶径是否大于一般男婴双顶径,换句话说即判断该山区男孩是否和已知总体是同一总体。

基本概念

先来理解一下基本概念

12名男婴是该山区的一个有代表性的小样本,一个山区不可能只有12名足月正常生产的男婴,当然如果对该山区的所有男婴进行测量,任务量未免过重。实际应用中不可能把总体全部均进行检测。这种从总体(该山区所有足月正常生产男婴)中抽取一部分(12名足月正常生产男婴)具有代表性的集合叫做样本,而这个搜集样本的过程叫做抽样。理解了样本与总体的区别,再来体会一下假设检验的概念。依托于小概率反证法的思想,对总体的统计学特征做出两种对立的假设以此题为例,假设:该山区男婴和已知总体是同一个总体,据此计算出样本的某个统计量的概率,若这个概率特别小,小到这件事情不可能发生,则拒绝原假设。若这个概率较大,说明发生的可能性还是很大的,则没有足够把握拒绝原假设,该山区男孩和已知总体可能就是来自于同一个总体。

无效假设(nullhypothesis)H0:该山区男婴双顶径和一般男婴双顶径没有区别

备择假设(alternativehypothesis)H1:该山区男婴双顶径大于一般男婴双顶径

均数,标准差,t值

均数反应一组符合正态分布或者近似正态分布资料的平均水平

标准差:反应一组符合正态分布或者近似正态分布资料的离散趋势,即变异程度

例如体重,一般人群体重在50kg左右,而有的人过重达到70kg,而有的人过轻40kg,距离平均值越远,离散值就越大,标准差越大

用R实现以上手工过程~~毕竟足够大的样本量会让你计算到怀疑人生

代码实现

T检验的第一种变身:


#构建数据集合mydata<-c(9.95,9.33,9.49,9.00,10.09,9.15,9.52,9.33,9.16,9.37,9.11,9.27)#判断样本是否满足正态shapiro.test(mydata)

结果得:

#单样本t检验t.test(mydata, alternative = "greater", mu = 9.3

结果得:

结果显示t=1.0257p=0.1635>0.05 说明在此假设的基础上还是很有可能发生此事情,因此不能拒绝原假设,还不能认为该山区正常产男婴双顶径大于一般男孩双顶径

T检验的第二种变身:配对t检验

适用于配对资料的计量资料

主要有三种应用情形:

  1. 同质受试对象分别接受两种不同的处理

  2. 同一受试对象分别接受两种不同的处理

  3. 同一受试对象自身前后比对

着重理解配对的含义同一个受试者接受两种不同的处理。无论哪种配对情形,均有共同点,就像一根树枝在同一点分叉,再比较两个小岔之间的区别,实在想像不出分叉的树枝可以低头看看自己分叉的发尾~

判断简便法和常规法测定胆碱酯酶活性有无统计意义,对8人同时用两种方法进行测定,所得结果如下表所示,试分析简便法测量胆碱酯酶活性是否优于常规法。

#构造数据集合c1<-c(3.28,2.60,3.32,2.72,2.38,3.64,2.98,4.40)c2<-c(2.36,2.40,2.40,2.52,3.04,2.64,2.56,2.40)t.test(c1,c2,alternative = "greater",paired=T)

结果得:

第三种变形:完全随机两样本比较t检验

推论两样本均数所代表的两总体均数是否相等,其设计原理是将受试对象完全随机分为两组,分别接受两种不同的处理

分为两种情况:

1.方差齐

试比较南北身高是否有差异

c1<-c(152,176,159,165,166,155,178,160,166,150)c2<-c(165,158,166,168,160,180,169,180,174,170)data<-c(c1,c2)a <-factor(c(rep(1,10),rep(2,10)))bartlett.test(data~a)

结果得:

t.test(high,low,paired = FALSE)

结果得:

2.方差不齐

(这个情况大家可以自己举例,用代码探索如何实现,欢迎你将自己的成果分享在评论区

总结:

相信到这里,t检验你已经可以应用自如啦,其实三种t检验的变形之间是互通的,均是以样本的均数和总体的均数做比较,总体均数可以是一个已知的某个值也可以是0。

公众号后台回复关键字即可学习

回复 爬虫             爬虫三大案例实战  
回复 Python        1小时破冰入门

回复 数据挖掘      R语言入门及数据挖掘
回复 人工智能      三个月入门人工智能
回复 数据分析师   数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

我怎么这么好看

R语言实现基本统计分析之t检验相关推荐

  1. R语言生物群落数据统计分析

    R 语言作的开源.自由.免费等特点使其广泛应用于生物群落数据统计分析.生物群落数据多样而复杂,涉及众多统计分析方法.本文以生物群落数据分析中的最常用的统计方法回归和混合效应模型.多元统计分析技术及结构 ...

  2. 当当网 R 语言学习资料统计分析

    当当网 R 语言学习资料统计分析 一.网络数据的抓取 二.数据清洗与保存 (一)工作目录的修改 (二)导入数据并修改列名 1. 交互式编辑器 2. names()函数 3. rename()函数 (三 ...

  3. R语言的基本统计分析

    通过综合案例,使用R语言掌握基本统计分析的各种指标的并掌握统计分析结果的可视化方法. 1.背景介绍 Consolidated食品公司在新墨西哥州.亚利桑那州和加利福尼亚州经营连锁超市.它举办了一个促销 ...

  4. R语言与非参数检验之单样本位置检验

    学习笔记 学习书目:<统计学:从数据到结论>–吴喜之 非参数检验 啥是非参数检验 很多检验都假定了总体的背景分布,但也有些检验没有假定总体分布的具体形式,这些检验多根据数据观测值的相对大小 ...

  5. R语言回归中的Hosmer-Lemeshow拟合优度检验

    在依赖模型得出结论或预测未来结果之前,我们应尽可能检查我们假设的模型是否正确指定.也就是说,数据不会与模型所做的假设冲突. 我们围绕回归技术进行一些咨询,帮助客户解决独特的业务问题.对于二元结果,逻辑 ...

  6. R语言学习——一元与多元正态分布检验(也可以用于其他分布的检验)

    文章目录 1 一元正态的评估 1.1 图像法 1.1.1 直方图 1.1.2 Q-Q图 1.2 峰度和偏度 1.3 统计检验 1.3.1 Shapiro-Wilks检验 1.3.2 Kolmogoro ...

  7. R语言_基本统计分析

    #基本统计分析#整体描述性统计分析,针对数值变量 attach(mtcars) opar = par(no.readnoly=TRUE) d = mtcars[c("mpg",&q ...

  8. r语言plotmds_多元统计分析R语言建模| 11 多维标度法MDS

    定义:利用客体间相似性数据去解释它们之间的空间关系的统计分析方法 多维变量--二维三维空间表示,标度到低维空间上 种类: 度量化模型:相似性数据游距离.比例尺度测得 非度量化模型:顺序量表(有序)水平 ...

  9. R语言实战(统计分析1)

    基本内容 描述型统计分析 频数表和列联表 卡方检验 相关系数和协方差 t检验 描述型统计量 首先我们以mtcars数据集为例,先看一下这个数据集前几行的内容 ,主要有英里数(mpg),马力(hp),车 ...

  10. R语言之基本统计分析

    准备工作 加载需要使用的库 library(pastecs) library(psych) library(ggm) 读取数据,使用H1N1流感数据集和波士顿房价数据集. flu <- read ...

最新文章

  1. python三目运算符_Python十日谈
  2. python转载[编码问题]
  3. Windows phone 应用开发[2]-数据缓存
  4. VMware下安装CentOS7 无法通过桥接模式进行联网
  5. SAP Fiori里Contact Support的按钮渲染逻辑
  6. windows server 2019 服务器搭建的方法步骤(图文)
  7. Python基础(注释/算数运算符/变量类型/拼接字符串)
  8. CSS3 高斯模糊与动画效果
  9. PyQt5-QTextEdit控件使用
  10. 【2019-1期 QFC素质拓展活动】圆满结束
  11. jQuery API 中文文档
  12. 美丽的夜,一个程序员的思考
  13. 计算机老师教育感言,66句震撼人心的老师教育感言
  14. 计算机sci四区论文,sci四区发表论文是什么水平
  15. MemCache详解
  16. Python网络爬虫实践简答题
  17. 分享Silverlight/Windows8/WPF/WP7/HTML5周学习导读(6月18日-6月24日)
  18. button按钮居中
  19. 近地面无人机植被定量遥感与生理参数反演
  20. 如何搭建一个http服务器

热门文章

  1. 后端服务慢成狗?试试这 7 招!
  2. HTTPS 的五大误区,千万别理解错了!
  3. 不能All in的人别去创业公司
  4. 微服务架构实战(一):微服务架构的优势与不足
  5. 其实,我被 Fenng 拉黑过!
  6. MH370 找到个毛!
  7. 从工程师到架构师,Android程序员的进阶之路
  8. Task5.NB_SVM_LDA
  9. 学习日记12、list集合中根据某个字段进行去重复操作
  10. SpringMVC的拦截器(Interceptor)和过滤器(Filter)的区别与联系