之前已经介绍的变量分析:

①相关分析:一个连续变量与一个连续变量间的关系。

②双样本t检验:一个二分分类变量与一个连续变量间的关系。

③方差分析:一个多分类分类变量与一个连续变量间的关系。

本次介绍:

卡方检验:一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。

如果其中一个变量的分布随着另一个变量的水平不同而发生变化时,那么两个分类变量就有关系。

卡方检验并不能展现出两个分类变量相关性的强弱,只能展现两个分类变量是否有关。

/ 01 / 数据挖掘的技术与方法

数据挖掘的方法分为描述性与预测性两种。

两类方法均是基于历史数据进行分析。

描述性模型用于直观反映历史状况,为后续分析提供灵感。

预测性模型从历史数据中寻找规律,并用于预测未来。

描述性数据挖掘常用算法:聚类分析、关联规则分析。

预测性数据挖掘常用算法:线性回归、逻辑(Logistic)回归、神经元网络、决策树、支持向量机。

/ 02 / 卡方检验

01 列联表

列联表是一种分类汇总表。

将待分析的两分类变量中的一个变量的每一个类别设为列变量。

另一个变量的每一个类别设为行变量,中间对应着不同类别下的频数。

下面以书中的数据为例,即探索分类变量是否违约与分类变量是否破产的关系。

使用的数据可以通过阅读原文去获取。

import pandas as pd

df = pd.read_csv('accepts.csv')

# crosstab:交叉表,margins:显示总和

cross_table = pd.crosstab(df['bankruptcy_ind'], df['bad_ind'], margins=True)

print(cross_table)

输出结果。

这里并不好判断之间的关系,下面转换为频率。

# div:转换列表为频率数据

cross_table_last = cross_table.div(cross_table['All'], axis=0)

print(cross_table_last)

输出结果。

这里可以看出差异并不是很大,但是我们还不能直接得出结论。

只能说有较大的可能,是否破产与是否违约不相关。

接下来通过卡方检验,来确定结论,使其具有统计学意义。

02 卡方检验

卡方检验在于比较期望频数和实际频数的吻合程度。

实际频数就是单元格内实际的观测数量,实际频率的分母为总样本数。

期望频数为变量相互独立时的频数,通过期望频率计算得来,期望频率由实际频率得来。

卡方检验的原假设是期望频数等于实际频数,即两个分类变量无关,备择假设则是有关。

通过公式计算得出卡方统计量,其值服从卡方分布。

卡方分布图如下,横轴为卡方统计量值,纵轴为P值,n为自由度。

本次案例我个人觉得自由度应该为1,不知为何书中说自由度为2???

下面用Python对数据进行卡方检验。

from scipy import stats

# chi2_contingency:卡方检验,chisq:卡方统计量值,expected_freq:期望频数

print('chisq = %6.4f\n p-value = %6.4f\n dof = %i\n expected_freq = %s' %stats.chi2_contingency(cross_table))

输出结果。

卡方值为2.9167,P值为0.5719,取显著性水平为0.05,表明没有理由拒绝原假设。

即两个分类变量无关,是否违约与是否破产无关系。

/ 03 / 总结

这里总结一下有关自由度的知识。

作为一个学机械的,自由度对我而言应该就只有6个。

三个旋转和三个移动,对于X、Y、Z轴。

但是统计学上却并不是这样的。

①自由度是指当以样本的统计量来估计总体参数时,样本中独立或能自由变化的数据的个数。

②自由度就是能独立变化的数据数目,只要n-1个数确定,第n个数就确定了,它不能自由变化。

说实话还是有点晕...

文末点个赞,比心!!!

推荐阅读

···  END  ···

python卡方检验计算pvalue值_Python数据科学:卡方检验相关推荐

  1. python分类变量相关性分析_Python数据科学:相关分析

    目前手上有两本书,一本<利用Python进行数据分析>,一本<Python数据科学>.app 对于学习什么东西,都有它的「道」和「术」.「道」即原理,「术」即技巧.dom 经过 ...

  2. python 分组箱线图_Python数据科学实践 | 绘图模块4

    点击关注了解更多精彩内容!! 大家好,基于Python的数据科学实践课程又到来了,大家尽情学习吧.本期内容主要由智亿同学与政委联合推出. 本次将继续学习如何用Plotly绘制更加美观的统计图.具体的, ...

  3. python编写计算二项式值_python二项式期权定价方法

    金融科技的蓬勃发展,为了科技业注入了一股新的活水,确让传统的金融业者倍感威胁.但与其墨守成规,金融业界应该思考的是该怎么活用机器学习.人工智能等新兴技术,将智能灌注在既有的资料上,打造 的金融业务面貌 ...

  4. python数据科学课后答案_Python数据科学-技术详解与商业实践-第五讲作业

    作者:Ben,著有<Python数据科学:技术详解与商业实践>.<用商业案例学R语言数据挖掘>.<胸有成竹-数据分析的SAS EG进阶>作者.2005年进入数据科学 ...

  5. python数据科学常国珍_python数据科学:技术详解与商业实践

    前言 章数据科学家的武器库 1.1数据科学的基本概念 1.2数理统计技术 1.2.1描述性统计分析 1.2.2统计推断与统计建模 1.3数据挖掘的技术与方法 1.4描述性数据挖掘算法示例 1.4.1聚 ...

  6. python推荐算法课程_Python数据科学:全栈技术详解4-推荐算法

    作者:Ben,多本数据科学畅销书作家,先后在亚信.德勤.百度等企业从事电信.金融行业数据挖掘工作. 配套学习教程:数据科学实战:Python篇 https://edu.hellobi.com/cour ...

  7. python数据挖掘商业案例_Python数据科学-技术详解与商业实践-第八讲作业

    作者:Ben,著有<Python数据科学:技术详解与商业实践>.<用商业案例学R语言数据挖掘>.<胸有成竹-数据分析的SAS EG进阶>作者.2005年进入数据科学 ...

  8. python 桌面备忘录_Python数据科学备忘单

    python 桌面备忘录 The printable version of this cheat sheet 该备忘单的可打印版本 It's common when first learning Py ...

  9. python最优分箱计算iv值_Python计算woe和iv值

    计算逻辑 先计算WOE值,再计算IV值. 其中Y或N分别是YES,NO,反应在因变量中,就是1和0. Yi是第i组中1的个数,YT是所有(Total)为1的个数. Ni是第i组中0的个数,NT是所有( ...

  10. python数据科学导论 中南_Python数据科学导论

    译者序 前言 关于本书 关于作者 关于封面插图 章 大数据世界中的数据科学1 1.1 数据科学和大数据的好处和用途2 1.2 数据种类3 1.2.1 结构化数据3 1.2.2 非结构化数据3 1.2. ...

最新文章

  1. ORB + OPENCV
  2. 1349. 修理牛棚【难度: 中 / 思维 贪心】
  3. Cisco路由器密码恢复方法
  4. MongoDB主键是您的朋友
  5. Linux之GDB调试命令
  6. 如何开发小程序开发者工具?
  7. websocket传输数据大小限制_WebSocket基础知识笔记
  8. 施密特:乔布斯影响力还没有完全释放
  9. 《上古卷轴5重制版》支线任务
  10. Oracle基础--PL/SQL编程基本语法
  11. 百度贴吧签到(基于python3)
  12. 获取各大电商平台,item_get_app - 获得淘宝app商品详情原数据API返回数据说明
  13. 【国庆献礼】浅谈国产数据库
  14. android 最新 九宫格,Android开发中怎么显示一个九宫格图片
  15. C语言实验——整除 (sdut oj)
  16. jdk的环境配置..
  17. ATECC508A芯片开发笔记(六):产生CSR以及申请证书(X.509)流程及其内容分析
  18. glsl函数之向量函数
  19. List集合中的常见面试题以及简单思路
  20. [如何在VS code中使用mysql](使用sqltools插件)

热门文章

  1. 如何使用4G模块通过MQTT协议传输温湿度数据到onenet
  2. Exception in thread Thread-0 java.lang.NullPointerException
  3. 汇编实现吃豆子小程序
  4. vue 实现ps图片编辑_详解vue项目中实现图片裁剪功能
  5. Centos7 | etc 目录下文件详解
  6. 字节跳动+阿里+华为+小米等10家大厂面试真题,已开源
  7. 第八章第六题(代数:两个矩阵相乘的方法)(Algebra: a method of multiplying two matrices)
  8. 仿牛客网论坛项目资料整理
  9. MAX3485芯片资料整理
  10. 日期相关(类与方法)