<此部分理论内容结合统计学教材学习>

列联分析

1. 收集样本数据产生二维或多维交叉列联表;
2. 对两个分类变量的相关性进行检验(假设检验)

pandas.crosstab(index,columns,margins,normalize)

- margins默认为False不带合计数据
 - normalize=True频率列联表

salary_reform.scv

结果为列联表

补充的内容

列联表的期望分布

根据比例求出的各个变量的期望值

RT为给定单元所在行的合计,CT为给定单元所在列的合计,n为样本量

卡方检验

- 当样本量较大时,上述统计量服从自由度为(r-1)(c-1)的卡方分布

- 用于衡量实际值与理论值的差异程度(有差异表示自变量对因变量有影响)

- 返回值:统计量,p值,自由度
        - p值:可以理解为落在极端值上的概率
        - 计算方法:已知统计量的值,求对应卡方分布的概率,过大则拒绝原假设(独立)

课堂练习一

作列联表

期望值分析

​​​​​​​

卡方检验

结果分析:p值较小,说明race对于工资水平的影响不显著


方差分析

比较多个总体的均值是否相等;
研究一个或多个分类型自变量与一个数值型因变量的关系;

假设:
(1)每个总体都应服从正态分布(如何检验样本是否服从正态分布?);
(2)各个总体的方差必须相同;
(3)观测值是独立的

单因素方差分析

方差齐性检验levene

H0: ,         H1: 不全相等(自变量对因变量有显著影响)

构建统计量F检验
SST:总平方和;SSA:组间平方和;SSE:组内平方和
 

若原假设成立,则表明没有系统误差,组间方差MSA与组内方差MSE的比值不会太大,F>Fa,拒绝原假设

方差来源分析及检验过程anova_lm()

运算符

说明

+

将运算符左右两边的数据都纳入生成的数据集中

-

将运算符左边的纳入,右边的移除

:

计算运算符两边的交集(交互效应),生成一列数据

*

a+b+a:b形式的简写

关系强度的测量


组间误差占总误差比例越高,相关度越高

多重比较

通过对总体均值之间的两两比较来检验哪些均值之间存在差异

LSD检验

已知总体方差的联合估计量

组内方差

k = 2时,

构造统计量:

,认为差异是显著的,拒绝原假设。

HSD检验

基于学生化极差的成对比较。

计算HSD统计量,如果两组均数的差异大于该极差,认为差异是显著的,拒绝原假设。

HSD检验较LSD检验更保守,更不易发现显著差异,一般用于样本容量相同的组之间的均值比较

多因素方差分析

不存在交互效应的多因素方差分析

tv.csv

结果解释:“品牌”的p值过小,拒绝“品牌”的原假设,可认为品牌对销售量有显著影响。

存在交互效应的多因素方差分析

traffic.csv

结果解释:路段对通行时间有显著影响;时段对通行时间有显著影响;没有证据表明路段和时段的交互作用对通行时间有显著影响。

python数据分析(一):列联分析与方差分析相关推荐

  1. SPSS数据分析之列联分析与卡方检验、方差分析与LSD方法【操作详解】

    文章目录 1.列联分析与卡方检验 2.方差分析 1.列联分析与卡方检验 (1)依次打开选项卡中的<分析>,<描述统计>,<交叉表> (2)然后依次选择列联表的行与列 ...

  2. 数理统计笔记7:分类数据分析-拟合优度检验和列联分析

    引言 数理统计笔记的第7篇介绍了分类数据分析的方法,包括拟合优度检验和列联分析,给出了两者的卡方检验量的表达式,并且用例子进行了说明,最后谈了列联分析需要注意的问题. 引言 什么是分类型数据 拟合优度 ...

  3. 【Python数据分析】文本情感分析——电影评论分析(二)

    接上一篇<[Python数据分析]文本情感分析--电影评论分析(一)>. 目录 文本向量化 词袋模型 TF-IDF 建立模型 构建训练集与测试集 特征选择 方差分析 逻辑回归 朴素贝叶斯 ...

  4. python数据分析实战之用户分析及RFM模型分析

    理论基础知识可以看我之前的博客: 1.python之Numpy知识点详细总结 2.python最最最重要的数据分析工具之pandas 3.pandas之表连接与高级查询 也可以进入我的专栏:欢迎订阅哦 ...

  5. 【Python数据分析】文本情感分析——电影评论分析(一)

      情感分析是文本分析的一种,它能够从一段文本描述中理解文本的感情色彩,是褒义.贬义还是中性.常见的情感分析的使用场景就是客户对商品或服务的评价.反馈,传统模式下的人工审核,不仅消耗大量人力,而且效率 ...

  6. 【Python基础】Python数据分析实战之分布分析

    ◆ ◆ ◆  ◆ ◆ 前言 分布分析法,一般是根据分析目的,将数据进行分组,研究各组别分布规律的一种分析方法.数据分组方式有两种:等距或不等距分组. 分布分析在实际的数据分析实践中应用非常广泛,常见的 ...

  7. python数据分析案例-利用生存分析Kaplan-Meier法与COX比例风险回归模型进行客户流失分析与剩余价值预测

    目录 1. 概述 1.1 背景 1.2 目的 1.3 数据说明 2. 相关概念 2.1 事件 2.2 生存时间 2.3 删失 2.4 生存概率 2.5 中位生存时间 2.6 风险概率 3. 数据处理 ...

  8. Python数据分析练手:分析知乎大V

    知乎,可以说是国内目前最大的问答类社区.与微博.贴吧等产品不同,知乎上面的内容更多是用户针对特定的问题分享知识.经验和见解.咱们编程教室就有不少读者是从知乎上了解到我们的. 那么,知乎上都有哪些&qu ...

  9. Python数据分析项目讲解:分析世界五百强企业数据

    前言 哪个国家的世界五百强企业数量最多?今天带你用python来处理数据,并实现数据可视化,解决对现有数据产生的疑问. 本次代码是在 Jupyter Notebook 里面编写的 先导入本次代码需要的 ...

最新文章

  1. 客户需求分析8个维度_CRM准确数据分析,把控客户需求
  2. 机器学习笔记(七)贝叶斯分类器
  3. Boost:bimap双图property地图的测试程序
  4. CRM、DMP、CDP的区别
  5. duckduckgo 国内_DuckDuckGo的Instant Answers项目的7课
  6. PAT Basic 1011
  7. C#中声明、调用和配置事件的演示源码
  8. MSP430使用wifi模块发送数据(上,测试连接)
  9. 将RT-Thread Nano移植到STM32F401CCU6
  10. [渝粤教育] 中国地质大学 大学语文 复习题 (2)
  11. html5 img圆角,用 CSS3 给 图片添加圆角
  12. 万条票房数据看2019春节档各地影院表现
  13. 使用Android studio 制作完app运行安装没问题,但是打开显示。。。keeps stopping
  14. 计算机创建修改ip知识,恢复系统后让每台计算机自动修改IP和计算机名的方法...
  15. 李峋同款 爱心动态代码 步骤教程,可自定义修改自己喜爱照片背景(附代码)
  16. 文件复制 要求边读边写
  17. 关于图片锯齿产生的原因和如何消除
  18. linux怎么新建html文件,HTML 编辑器
  19. 互联网日报 | 5月9日 星期日 | 特斯拉Model3宣布涨价;奈雪回应“6月中上旬上市”;FF91将在纽约与消费者见面...
  20. Docker 配置网络教程 - host 网络

热门文章

  1. 拜托,使用 Three.js 让二维图片具有 3D 效果超酷的
  2. 四川大学计算机学院男女生比例,2019年四川各大高校男女比例排行,电子科技大学4比1...
  3. 免费使用腾讯云每天定时签到京东领取京豆
  4. 学java的就业方向_学Java以后的就业方向
  5. typescript学习笔记1-tsconfig.json配置和变量类型声明
  6. 设计师使用的网站推荐
  7. Merged region A1 must contain 2 or more cells
  8. ROS noetic rosrun tf view_frames 报错
  9. 编写优质嵌入式C程序(转)
  10. 人生是一个连续的过程,没什么东西能影响人的一生,怎么选择不是问题。问题是每天都要努力 (转)...