在看这篇文章之前,如果对卡方检验不熟悉,可以先参考:卡方检验

Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。

1. 首先import包和实验数据:

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

from sklearn.datasets import load_iris

#导入IRIS数据集

iris = load_iris()

iris.data#查看数据结果输出:

array([[ 5.1, 3.5, 1.4, 0.2],

[ 4.9, 3. , 1.4, 0.2],

[ 4.7, 3.2, 1.3, 0.2],

[ 4.6, 3.1, 1.5, 0.2],

[ 5. , 3.6, 1.4, 0.2],

[ 5.4, 3.9, 1.7, 0.4],

[ 4.6, 3.4, 1.4, 0.3],

2. 使用卡方检验来选择特征

model1 = SelectKBest(chi2, k=2)#选择k个最佳特征

model1.fit_transform(iris.data, iris.target)#iris.data是特征数据,iris.target是标签数据,该函数可以选择出k个特征结果输出为:

array([[ 1.4, 0.2],

[ 1.4, 0.2],

[ 1.3, 0.2],

[ 1.5, 0.2],

[ 1.4, 0.2],

[ 1.7, 0.4],

[ 1.4, 0.3],

可以看出后使用卡方检验,选择出了后两个特征。如果我们还想查看卡方检验的p值和得分,可以使用第3步。

3. 查看p-values和scores

model1.scores_ #得分

得分输出为:

array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])

可以看出后两个特征得分最高,与我们第二步的结果一致;

model1.pvalues_ #p-values

p值输出为:

array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26, 2.50017968e-15])

可以看出后两个特征的p值最小,置信度也最高,与前面的结果一致。

也可以参考官方的帮助文档:selectKbest帮助文档

python卡方检验关键词,特征选择——卡方检验(使用Python sklearn进行实现)相关推荐

  1. python新闻关键词次数_使用python抓取百度搜索、百度新闻搜索的关键词个数

    由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过pyth ...

  2. python分类时特征选择_关于python:是否有可用于分类数据输入的特征选择算法?...

    我正在训练一个具有10个左右分类输入的神经网络. 在对这些分类输入进行一次热编码之后,我最终将大约500个输入馈入网络. 我希望能够确定我每个分类输入的重要性. Scikit-learn具有许多功能重 ...

  3. python中一共有多少个关键字-Python中关键字有多少个?

    Python中关键词有多少个?Python中关键词目前有31个,可以利用Python的内置的keyword模块进行输出查看. keyword模块Help on module keyword: NAME ...

  4. python中一共有多少个关键字-Python中有几个关键字

    Python中关键词有多少个?Python中关键词目前有31个,可以利用Python的内置的keyword模块进行输出查看. keyword模块 Help on module keyword: NAM ...

  5. python 卡方检验批量筛选_基于Python的遥感特征筛选—卡方检验筛选

    引言 目前,遥感图像在模式识别.图像分割.地面参数反演研究中有着广泛的应用.遥感图像一般具有多个波段,每个波段均反映了地物的不同波谱特性.相对于图像分类而言,不同的波长位置的波谱反射可能存在较多的信息 ...

  6. 2×3卡方检验prism_分类变量的相关性:五分钟掌握卡方检验「从理论到Python实战」...

    卡方检验 当衡量两个连续变量间的线性关系时,我们可以使用Pearson相关系数.那么当我们面对的数据是两个分类变量呢?没错,看过下面这张图的应该还记得,我们可以用列联表结合卡方检验来分析分类变量间的相 ...

  7. python之信贷风险数据分析及逻辑回归预测,sklearn特征工程

    最近看的一些风险信贷相关的一些写的比较详细的博客,还有使用sklearn进行特征工程的博客,单纯的进行简单整理和记录,详细的可以点击链接. 文章目录 1.Python案例分析之客户信贷预测模型 2.利 ...

  8. python 实现关键词提取

    Python 实现关键词提取 看到一篇很好的关键词提取的论文,<融合LDA与TextRank算法的主题信息抽取方法>.里面对LDA和TextRank的发展过程描述的很详细.如果你跟我一样对 ...

  9. jupyter分割代码块_科研分享—Python根据关键词自动抓取Pubmed文献标题(附全部代码)文末有福利...

    写在前面:接触Python应该是8月初的一篇公众号文章,大致内容是使用py爬取数据库并汇总到本地.正好手头需要对某个领域的文献进行调研,不妨学习一下. 什么是Python? 百度说:Python (计 ...

最新文章

  1. 前端书签归纳(持续更新)
  2. 开发板与pc之间文件传输:kermit and lrzsz
  3. 虚函数和纯虚函数的区别?
  4. 数据连接池druid 和 大数据框架druid
  5. 肺功能曲线图怎么看_QQ或将推出已读功能?!你怎么看?| 微博报
  6. telnet 无法连接_Telnet 为什么不能以 root 身份登录系统?
  7. The Turn Model for Adaptive Routing中的west-first算法
  8. c语言五个整数排列,刚学c语言,老师让用if编一个五个数字从大到小的排序,有那个大神能帮我,谢谢啦...
  9. 解决jquery组件样式冲突 jPicker实例
  10. java面试之String的理解(自我理解)
  11. ccfb类会议有哪些_CCF推荐的国际学术会议和期刊目录修订版发布
  12. 截图文字识别工具(OCR),图片上的文字也能轻松复制
  13. 大数据生态系统组件基础学习
  14. 类中的静态成员变量和静态成员函数
  15. 边打包边压缩边传输边解压
  16. 江苏省职称计算机考试internet,江苏省直2017年4月职称计算机考试报名时间通知...
  17. 大数据产品价值主张_大数据背景下新零售商业模式探究
  18. ural 1998 The old Padawan
  19. 【软考系统架构设计师】2017下系统架构师案例分析历年真题
  20. sb版 java后端(spring boot)应用Conflux Java SDK尝试交互Conflux实录

热门文章

  1. Java基础学习总结(143)——SimpleDateFormat线程安全问题重现、原因分析及解决方案
  2. Maven学习总结(46)——Maven跳过单元测试的两种方法及其区别(-Dmaven.test.skip=true与-DskipTests)
  3. Maven学习总结(25)——Eclipse Maven Update 时JDK版本变更问题
  4. Android平板app图标,安卓手机应用图标显示为默认的机器人,平板显示正常
  5. java mysql_num_rows_JAVA MYSQL sql_calc_found_rows和found_rows()实践
  6. 河南淅川高考成绩查询2021,2021年河南高考成绩查询网址,河南高考成绩查询系统时间安排...
  7. 材料凝固计算机模拟,颗粒增强金属基复合材料凝固过程的计算机模拟_谢国宏.pdf...
  8. android log长字符串显示不全,如何解决Android的Log显示不全的问题
  9. 一图读懂|H3C SecPath ACG1050-X1应用控制网关
  10. 太空大战背景移动的几种方式