本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立。你可能会参考另一篇博客相关性检验。

假设检验

假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。

在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分别从这些总体中抽取样本,根据这些样本的统计量作出统计推断,籍此比较总体参数是否相同。由于存在抽样误差,总体参数与样本统计量并不恰好相同,因此判断两个或多个总体参数是否相同是一件很困难的事情。

基本的解决方法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t—检验法、χ2检验法、F—检验法,秩和检验等。

χ2独立性检

χ2检验是一种无参数的假设检验。

考虑这以一个问题:某地区有10000合法选民,现统计了男性和女性分别有多少人参加了投票。

       Men Women
_____________________________
Voted       2792    3591
Didn't vote    1486    2131

问“性别”和“投票”是不是相互独立的?

下面就使用假设检验的方法解决这个问题。

我们假设H0:性别和投票相互独立。备选假设H1:性别与投票相关。

计算上表的行和与列和。

 OBSERVED TABLEMen  Women   Total
_____________________________ |______
Voted       2792    3591  | 6383
Didn't vote    1486    2131  | 3617
_____________________________________
Total       4278    5722  | 10000

原始表中的数据用Aij表示,行和用A表示,列和用A·j表示,全部元素的和用A··表示。

投票的概率:

选民为男性的概率:

在H0下,我们认为投票与性别无关,所以男性参加投票的概率为:

这样可以算出男性投票的期望值:0.2731×10000=2731。于是就得到了下面这张“期望表”

   EXPECTED TABLEMen Women   Total
_____________________________ |______
Voted       2731    3652  | 6383
Didn't vote    1547    2070  | 3617
_____________________________________
Total       4278    5722  | 10000

观察值与期望值的差值为误差。对于每一个观察值我们计算误差的平方与期望值的比值。

c11 = (2792-2731)^2/2731
c12 = (3591-3652)^2/3652
c21 = (1486-1547)^2/1547
c22 = (2131-2070)^2/2070

χ2=c11+c12+c21+c22=6.584283457

定义自由度为(rows-1)*(cols-1),在我们的例子中自由度为1。

查表:

Degrees offreedom  99%  ...    10% 5%  1%
_____________________________________________________
1       0.00016     2.71    3.84    6.64
2       0.020       4.60    5.99    9.21

由于χ2介于3.84和6.64之间,所以P值介于5%和1%之间,也就是说我们接收假设H0的把握还不到5%,因此拒绝它。

最后给出CHI-Square独立检测的公式:

自由度,r表示行数,c表示列数

期望值,nr是行和,nc是列和,n是所有元素的和

统计量,Or,c是观察值

由(3)式可以推出,对于一个2×2的contigency table,χ2统计量可以由(4)式来计算。

 Variable 2  Data type 1  Data type 2  Totals
 Category 1  a b a + b
 Category 2  c d c + d
 Total a + c b + d a + b + c + d = N

基于χ2的特征项选择

既然χ2统计量可以独立性检验,从独立性检验的对立面来考虑,χ2统计量也可以用来作相关性的度量。χ2越小说明变量之间越独立,χ2越大说明变量之间越相关。

  文档类别Cj Cj的补集
词条w a b
w的补集 c d

a表示词条w在类别Cj中出现的频数;b表示词条w在Cj以外的其他类别中出现的频数;c表示除w以外的其他词条在Cj中出现的频数;d表示除w以外的其他词条在除Cj外的类别中出现的频数。

利用公式(4)计算每个词条对于每种分类的χ2统计量,记为χ2(w,Cj)。说明词条与分类正相关;说明词条与分类负相关。

则词条对整个语料库的记χ2值为

根据(5)式计算每个词条的平均χ2值,选最大的K个作为特征项。

秩和检验

秩和检验也是一种无参数的假设检验。它从两个未知分布的总体中独立、随机地抽取容量分别为n1、n2的样本,设n1<n2。然后把两个样本混合在一起进行排序,得到每个样本单位的秩次。当几个数据的大小相同秩次却不相同时,最终的秩次取其算术平均。

数据: 5 6 6 7 7 8 8 9 10 10 11
秩号: 1 2.5 2.5 4.5 4.5 6.5 6.5 8 9.5 9.5 11

红颜色的数据来自一个总体,黑颜色的来自另一个总体。n1=5,n2=6。

原假设:两个总体服从相同的分布。

备选假设:两个总体服从不同的分布。

总体Ⅰ的秩和   T=2.5+4.5+6.5+6.5+9.5=29.5

取显著水平α=0.05,进行双侧检验,查“秩和检验表”,n1=5,n2=6,得临界值T1(α)=20,T2(α )=40。
20<29.5<40,样本落入接受域,所以接受原假设。 
原文来自:博客园(华夏35度)http://www.cnblogs.com/zhangchaoyang 作者:Orisun

数据挖掘基础:独立性检验相关推荐

  1. 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  2. 数据挖掘基础学习一:VMware虚拟机Ubuntu上安装Python和IPython Notebook(Jupyter Notebook)完整步骤及需要注意的问题(以ubuntu-18.04.3为例)

    数据挖掘基础学习一:VMware虚拟机Ubuntu上安装Python和IPython Notebook(Jupyter Notebook)完整步骤及需要注意的问题 (以ubuntu-18.04.3-d ...

  3. 视频教程-数据挖掘基础:零基础学Python数据分析-大数据

    数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...

  4. 数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL

    坑DIE的住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,买房更难,首付更难凑... 数据挖掘基础之数据清理:用python把深圳二手房参考价PDF保存为EXCEL,以便其他分析 ...

  5. 数据分析系列之数据挖掘基础

    了解什么是数据挖掘 1.假设背景 1. 在传统企业现状,以连锁餐饮为例? 今年来餐饮企业面临原材料上涨,房租上涨,人力成本升高的必然趋势,导致净利润大幅度下降,同时同业竞争的加剧的环境下,如何在保证产 ...

  6. 数据挖掘基础知识整理

    数据挖掘是在大型数据存储库中,自动地发现有用信息的过程. 利用了如下领域的思想: 1)来自统计学的抽样,估计和假设检验 2)人工智能,模式识别和机器学习的搜索算法,建模技术和学习理论 3)最优化,进化 ...

  7. 数据挖掘 基础知识 收集

    A Tutorial on Clustering Algorithms-聚类小知识 俗话说:"物以类聚,人以群分",在自然科学和社会科学中,存在着大量的分类问题.所谓类,通俗地说, ...

  8. 机器学习与数据挖掘: 基础概念

    如何成为机器学习工程师 https://keras-cn.readthedocs.... http://www.tensorfly.cn/tfdoc... 机器学习 vs 数据分析 数据特点 数据分析 ...

  9. 数据挖掘基础知识-矩阵(分解)

    from: http://blog.csdn.net/u010140338/article/details/42191047 1. 矩阵知识: //特征值,行列式,秩,对称矩阵,单位矩阵,正定半正定, ...

最新文章

  1. idea缩写快捷键_IDEA快捷键大全 快速页面重构
  2. vcenter converter 转换xenserver下linux的错误
  3. 无人驾驶还有多久才能全面推开?
  4. 滇西应用技术大学计算机专业在哪里,滇西应用技术大学
  5. Android IOS WebRTC 音视频开发总结(四二)-- webrtc开发者大会
  6. 自然语言处理hanlp的入门基础
  7. Numpy基础(part1)--ndarray数组
  8. 4.数据库(增删改查)备份及恢复
  9. Taro多端开发实现原理与项目实战(二)
  10. 计算机保研-中科大计算机
  11. 【ubantu18.04 有线网络驱动安装 r8215-9.007.01】
  12. 基于C++的菜鸟驿站
  13. echarts柱状图参数详解
  14. 当下的力量-埃克哈特·托利
  15. Oracle中insert into select from用法、table (fn_split())用法、select中的as扩展替代字段用法、Oracle序列
  16. python学习笔记(2)—— 控制流
  17. Matlab 线性拟合 非线性拟合
  18. npm包--淘宝镜像下载
  19. 基于Docker搭建DzzOffice与OnlyOffice线上协同办公服务器
  20. Revit 视图范围的知识总结

热门文章

  1. LeetCode 9. 回文数 Palindrome Number
  2. MSP432蓝牙遥控小车
  3. 为Repository添加自定义方法
  4. 手把手教你玩转 Excel 数据透视表
  5. [JavaScript高级程序设计]JavaScript介绍
  6. Wilson(威尔逊)定理
  7. CorelDRAW常用工具之渐变工具
  8. 小程序性能优化之页面预加载方案——让你的小程序运行如飞 进阶篇
  9. 基于JavaWeb+MySQL的简历信息管理系统
  10. F矩阵的自由度是多少?