本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立

假设检验

假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。

在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分别从这些总体中抽取样本,根据这些样本的统计量作出统计推断,籍此比较总体参数是否相同。由于存在抽样误差,总体参数与样本统计量并不恰好相同,因此判断两个或多个总体参数是否相同是一件很困难的事情。

基本的解决方法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t—检验法、χ2检验法、F—检验法,秩和检验等。

χ2独立性检

χ2检验是一种无参数的假设检验。

考虑这以一个问题:某地区有10000合法选民,现统计了男性和女性分别有多少人参加了投票。

       Men Women
_____________________________
Voted       2792    3591
Didn't vote    1486    2131

问“性别”和“投票”是不是相互独立的?

下面就使用假设检验的方法解决这个问题。

我们假设H0:性别和投票相互独立。备选假设H1:性别与投票相关。

计算上表的行和与列和。

 OBSERVED TABLEMen Women   Total
_____________________________ |______
Voted       2792    3591  | 6383
Didn't vote    1486    2131  | 3617
_____________________________________
Total       4278    5722  | 10000

原始表中的数据用Aij表示,行和用A表示,列和用A·j表示,全部元素的和用A··表示。

投票的概率:

选民为男性的概率:

在H0下,我们认为投票与性别无关,所以男性参加投票的概率为:

这样可以算出男性投票的期望值:0.2731×10000=2731。于是就得到了下面这张“期望表”

     EXPECTED TABLEMen Women   Total
_____________________________ |______
Voted       2731    3652  | 6383
Didn't vote    1547    2070  | 3617
_____________________________________
Total       4278    5722  | 10000

观察值与期望值的差值为误差。对于每一个观察值我们计算误差的平方与期望值的比值。

c11 = (2792-2731)^2/2731
c12 = (3591-3652)^2/3652
c21 = (1486-1547)^2/1547
c22 = (2131-2070)^2/2070

χ2=c11+c12+c21+c22=6.584283457

定义自由度为(rows-1)*(cols-1),在我们的例子中自由度为1。

查表:

Degrees offreedom  99%  ...    10% 5%  1%
_____________________________________________________
1       0.00016     2.71    3.84    6.64
2       0.020       4.60    5.99    9.21

由于χ2介于3.84和6.64之间,所以P值介于5%和1%之间,也就是说我们接收假设H0的把握还不到5%,因此拒绝它。

最后给出CHI-Square独立检测的公式:

自由度,r表示行数,c表示列数

期望值,nr是行和,nc是列和,n是所有元素的和

统计量,Or,c是观察值

由(3)式可以推出,对于一个2×2的contigency table,χ2统计量可以由(4)式来计算。

 Variable 2  Data type 1  Data type 2  Totals
 Category 1  a b a + b
 Category 2  c d c + d
 Total a + c b + d a + b + c + d = N

基于χ2的特征项选择

既然χ2统计量可以独立性检验,从独立性检验的对立面来考虑,χ2统计量也可以用来作相关性的度量。χ2越小说明变量之间越独立,χ2越大说明变量之间越相关。

  文档类别Cj Cj的补集
词条w a b
w的补集 c d

a表示词条w在类别Cj中出现的频数;b表示词条w在Cj以外的其他类别中出现的频数;c表示除w以外的其他词条在Cj中出现的频数;d表示除w以外的其他词条在除Cj外的类别中出现的频数。

利用公式(4)计算每个词条对于每种分类的χ2统计量,记为χ2(w,Cj)。说明词条与分类正相关;说明词条与分类负相关。

则词条对整个语料库的记χ2值为

根据(5)式计算每个词条的平均χ2值,选最大的K个作为特征项。

秩和检验

秩和检验也是一种无参数的假设检验。它从两个未知分布的总体中独立、随机地抽取容量分别为n1、n2的样本,设n1<n2。然后把两个样本混合在一起进行排序,得到每个样本单位的秩次。当几个数据的大小相同秩次却不相同时,最终的秩次取其算术平均。

数据: 5 6 6 7 7 8 8 9 10 10 11
秩号: 1 2.5 2.5 4.5 4.5 6.5 6.5 8 9.5 9.5 11

红颜色的数据来自一个总体,黑颜色的来自另一个总体。n1=5,n2=6。

原假设:两个总体服从相同的分布。

备选假设:两个总体服从不同的分布。

总体Ⅰ的秩和   T=2.5+4.5+6.5+6.5+9.5=29.5

取显著水平α=0.05,进行双侧检验,查“秩和检验表”,n1=5,n2=6,得临界值T1(α)=20,T2(α )=40。
20<29.5<40,样本落入接受域,所以接受原假设。 

基于卡方的独立性检验相关推荐

  1. 逻辑回归预测事件发生的概率_通过逻辑回归,对信用卡申请数据使用卡方分箱法预测违约率建模...

    一. 建模步骤 (1)从数据中衍生特征 (2)对类别型变量和数值型变量进行补缺 (3)基于卡方分箱法对变量进行分箱 (4)WOE编码后的单变量分析与多变量分析 (5)应用逻辑回归模型 (6)尺度化 ( ...

  2. 特征工程之特征分箱(决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)

    特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...

  3. 7. R语言【独立性检验】:卡方独立性检验、Fisher精确检验 、Cochran-Mantel-Haenszel检验

    文章目录 1. 卡方检验 2. 费希尔精确检验(Fisher Exact Test) 3. Cochran-Mantel-Haenszel检验 独立性检验:用来判断变量之间相关性的方法,如果两个变量彼 ...

  4. R卡方独立性检验(Chi-Square Test of Independence)

    R卡方独立性检验(Chi-Square Test of Independence) 目录 R卡方独立性检验(Chi-Square Test of Independence) R卡方独立性检验 数据创建

  5. 卡方 python_卡方优度检测 (Python 实现) --基于jupyter

    卡方独立性检验 import numpy as np from scipy.stats import chi2_contingency # 列联表分析 from scipy.stats import ...

  6. 2×3卡方检验prism_卡方独立性检验原理

    这篇文章主要讲了两个部分,一个是卡方检验的推导,一个是卡方检验应该取多少样本量. 卡方独立性检验是为了检验两个变量是否独立,我们先来回顾一下卡方独立性检验的流程: 1.统计列联表,计算观察值: 表一 ...

  7. 卡方分布的期望和方差_卡方独立性检验原理

    这篇文章主要讲了两个部分,一个是卡方检验的推导,一个是卡方检验应该取多少样本量. 卡方独立性检验是为了检验两个变量是否独立,我们先来回顾一下卡方独立性检验的流程: 1.统计列联表,计算观察值: 表一 ...

  8. 卡方独立性检验chisq.test()

    先引用一段R IN ACTION 的话:R提供了多种检验类别型变量独立性的方法.本节中描述的三种检验分别为卡方独立性检验.Fisher精确检验和Cochran-Mantel–Haenszel检验. 你 ...

  9. 卡方分箱--基于四格表方法

    import pandas as pd import numpy as npdef ceshi(df,col,target,max_interval=5):colLevels = set(df[col ...

最新文章

  1. oracle 管道化表函数(Pipelined Table) [转]
  2. java笔试之字符串反转
  3. dijkstra+priority_queue+vector
  4. HTML简介与历史版本
  5. Node.js、express、mongodb 实现分页查询、条件搜索
  6. 2021-10-11 CTF-KX(第一场)-RSA10
  7. RoomIt屏幕画笔工具
  8. 分析113个前缀在各大考纲词汇中的作用(二)总结精选篇
  9. There appears to be trouble with your network connection.Retrying
  10. 魔兽世界服务器的研究
  11. 当人们流行“炮轰”联想时:没想到的联想
  12. 文件与磁盘空间管理---外存分配方式、存储空间管理
  13. 牛人分析如何高效学习嵌入式
  14. 超实数与布尔巴基学派
  15. 三种批量删除PLSQL写法效率的比对
  16. 基于WEB的水果电商平台设计
  17. 线性卷积、循环卷积、周期卷积的定义、计算方法及三者之间的关系
  18. 移相全桥的分析与计算
  19. 华为硬件笔试部分题目
  20. 一些问题的解决,分析

热门文章

  1. 什么是禅?《禅与计算机程序设计艺术》 / 陈光剑
  2. 如何正确使用步道乐跑
  3. 【贪玩巴斯】带你一起攻克英语语法长难句—— 第五章——尾声的凯旋:状语和状语从句 ——2022年2月25日-3月17日
  4. 浅谈IT行业加班有没有价值
  5. 【Java面试】Linux
  6. 展锐T618/T610安卓4G核心板/开发板/方案定制
  7. Android自动化测试框架uiautomator2详解
  8. 戴尔 成铭3980台式计算机,戴尔成铭3980台式机电脑适合家用吗?-dell成铭3980改win7,dell3980改win7bios设置...
  9. 如何通过cdm连接mysql_CDM云数据迁移服务入门教程
  10. ea服务器和微软服务器,任天堂和微软竟然合作了?消息太过震撼,连推特服务器都挤爆了...