基于R实现统计中的检验方法---卡方检验
作者:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据。
知乎:
https://www.zhihu.com/people/parkson-19/posts
前言
卡方检验是一种确定两个分类变量之间是否存在显着相关性的统计方法。就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
1.适用条件
1)每组的理论次数都要大于5;
2)应用卡方测验的次数资料不应是测量的观察值或以百分数表示的相对数。
2.分类
1)检验样本方差的齐性;
2)适合性检验,比较观测值与理论值是否符合(孟德尔遗传定律);
3)独立性检验,比较两个或两个以上的因子相互之前是独立的还是互相影响的。
3.R实例
代码部分只体现卡方独立性检验
R语言中实现卡方检验的函数是chisq.test(data),data以列联表的形式展现。
1#以MASS包中Cars93数据集为例。检验汽车销售类型(Type)和安全气囊(AirBag)类型之间是否具有显著相关性。 2library(MASS) 3car.data<-table(Cars93$AirBags,Cars93$Type)#构建列联表 4car.data 5 Compact Large Midsize Small Sporty Van 6 Driver & Passenger 2 4 7 0 3 0 7 Driver only 9 7 11 5 8 3 8 None 5 0 4 16 3 6 9chisq.test(car.data)1011 Pearson's Chi-squared test1213data: car.data14X-squared = 33.001, df = 10, p-value = 0.000272315#结果显示,p<0.01,表明销售汽车类型和安全气囊具有极显著相关性。可以估计哪种类型的汽车可以更好地16#销售哪种类型的气囊。
备注
1)卡方检验的结果,值是越大越好,还是越小越好?
答:与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端,所对应的概率值越小。如果试验设计合理、数据正确,显著或不显著都是客观反映。没有什么好与不好。
参考
T检验与F检验的区别_f检验和t检验的关系 - Little_Rookie - 博客园
https://www.cnblogs.com/nxld/p/6185433.html
往期精彩:
R语言实现基本统计分析之t检验
R中数据结构与数据的输入
R语言:以多列标准筛选特定行
用R语言实现信息度量
公众号后台回复关键字即可学习
回复 爬虫 爬虫三大案例实战
回复 Python 1小时破冰入门
回复 数据挖掘 R语言入门及数据挖掘
回复 人工智能 三个月入门人工智能
回复 数据分析师 数据分析师成长之路
回复 机器学习 机器学习的商业应用
回复 数据科学 数据科学实战
回复 常用算法 常用数据挖掘算法
给我【好看】
你也越好看!
基于R实现统计中的检验方法---卡方检验相关推荐
- bartlett方差齐性检验_基于R实现统计中的检验方法方差分析
作者:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎: https://www.zhihu.com/people/parkson-19/posts 前言 方差分析(均数的显著性 ...
- 《机器学习与数据科学(基于R的统计学习方法)》——2.11 R中的SQL等价表述...
本节书摘来异步社区<机器学习与数据科学(基于R的统计学习方法)>一书中的第2章,第2.11节,作者:[美]Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区& ...
- 《机器学习与数据科学(基于R的统计学习方法)》——2.8 读取JSON文件
本节书摘来异步社区<机器学习与数据科学(基于R的统计学习方法)>一书中的第2章,第2.8节,作者:[美]Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区&q ...
- 《机器学习与数据科学(基于R的统计学习方法)》——1.2 机器学习的实际案例...
本节书摘来异步社区<机器学习与数据科学(基于R的统计学习方法)>一书中的第1章,第1.2节,作者:[美]Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区&q ...
- 机器学习与数据科学 基于R的统计学习方法(基础部分)
1.1 机器学习的分类 监督学习:线性回归或逻辑回归, 非监督学习:是K-均值聚类, 即在数据点集中找出"聚类". 另一种常用技术叫做主成分分析(PCA) , 用于降维, 算法的评 ...
- 基于R对数据中分类变量按照某一个分类变量的类别计算频数
常常在问卷数据分析中,我们需要根据多个分类变量,比如性别,年龄,职业,学历等,计算在某一个目标变量,如工资水平(分为多个等级)上 的频数,得到一个多维的交叉列联表,从而方便了解这些在变量(年龄,职业, ...
- r语言平均值显著性检验_最全的R语言统计检验方法_数据挖掘中R语言的运用
最全的R语言统计检验方法_数据挖掘中R语言的运用 统计检验是将抽样结果和抽样分布相对照而作出判断的工作.主要分5个步骤:建立假设 求抽样分布 选择显著性水平和否定域 计算检验统计量 判定 假设检验(h ...
- 检验int值在list中是否存在_R语言统计与绘图:卡方检验
卡方检验在计数资料中的应用,包括推断两个总体率或构成比之间有无差别.多个总体率或构成比之间有无差别.多个样本率间的多重比较.两个分类变量之间有无关联性.多维列联表的分析和频数分布拟合优度的卡方检验. ...
- 统计学习导论:基于R应用——第二章习题
目前在看统计学习导论:基于R应用,觉得这本书非常适合入门,打算把课后习题全部做一遍,记录在此博客中. 第二章习题 1. (a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高 ...
- 基于R树索引的点面关系判断以及效率优化统计
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.背景 在之前的博客中,我分别介绍了基于网格的空间索引(http:// ...
最新文章
- Android 判断SD卡是否存在及容量查询
- 贪心 ---- 贪心 + STL维护 + 划分集合 L. Neo-Robin Hood(好题)
- libtorch调用模型
- 关于ES、PES、PS以及TS码流
- rabbitmq 连接报错 An unexpected connection driver error occured(亲测)
- C# ASP.NET MVC 微信和支付宝H5支付开发及Demo
- 信息学奥赛一本通 2059:【例3.11】买笔
- Struts1中execute实现过滤控制
- C#:winform开发的System.AccessViolationException错误,已解决
- 阻塞和非阻塞队列下两种生产者消费者实现
- 谈谈几个SpringCloud常见面试题及答案
- [MySQL 5.6] MySQL 5.6 group commit 性能测试及内部实现流程
- [转载] 致 Python 初学者
- unity 中文 离线文档下载安装
- 英语语态,语态 被动:be的时态变化,一般过去时:一般现在时:一般将来时:主将从现:主祈从现:并列将来:现在完成时:
- 如何打出日语中的叠字符号「々」
- 在react-native fetch中 then res res.json 是什么意思
- qq小程序开发者工具无法编写代码
- android麦克风录音格式,Android 中使用MIC(麦克风)录音
- 芯片引脚外围电容有何作用?
热门文章
- 你用过Mybatis的动态SQL后,就知道写SQL有多爽了!
- 5000字详解:计算机网络在 Spark 的应用(建议收藏)
- 凌晨!腾讯紧急宣布再度延期复工时间到24号;上班感染肺炎算工伤;小米VIVO完成统一推送适配...
- 懵圈了,面试官问一个 TCP 连接可发多少个 HTTP 请求?
- Linux 运维必备的 13 款实用工具,拿好了~
- 前端性能优化如何做到极致?
- python tensorflow 智能家居_用GPU加速深度学习: Windows安装CUDA+TensorFlow教程
- java resource放入的文件没有生成在classes中_Java的classpath到底指什么
- python 删除第三方库_python中通过pip安装的第三方库在哪里
- 对Python中列表和数组的赋值,浅拷贝和深拷贝的实例讲解