卡方检验——离散型特征相关性分析
import pandas as pd #导入读入数据的包
from sklearn.feature_selection import SelectKBest #卡方检验->判断离散型特征是否相关
from sklearn.feature_selection import chi2#读取数据
data = pd.read_csv('./2013年八城市融合数据.csv',encoding='gbk')x= data[['归属感有无(0:有 1:无)','户口性质(0:农业 1:非农业)','体制内人员(0:非体制内 1:体制内)','大学以上学历(0:大学以下 1:大学以上)','本地人愿意接受我(0:同意 1:不同意)']]
y = data['本地养老(0:非本地 1:本地)']
selectKBest = SelectKBest(chi2, k=5)
X_new = selectKBest.fit_transform(x, y)
p_values = zip(select_k_best.scores_,select_k_best.pvalues_)
dict_p_values = dict(zip(['归属感有无(0:有 1:无)','户口性质(0:农业 1:非农业)','体制内人员(0:非体制内 1:体制内)','大学以上学历(0:大学以下 1:大学以上)','本地人愿意接受我(0:同意 1:不同意)'],p_values))sorted(dict_p_scores.items(),key=lambda x:x[1],reverse=False)
# 当p值小于0.05时,就说这个独立变量与输出结果有关系
for i in list(select_k_best.pvalues_):if i<0.05:print('True')
卡方检验——离散型特征相关性分析相关推荐
- 多取值离散型特征工程_特征工程(完)
机器学习入门系列(2)--如何构建一个完整的机器学习项目,第六篇! 这也是特征工程系列最后一篇文章,介绍特征提取.特征选择.特征构建三个工作,通常特征工程被认为分为这三方面的内容,只是我将前面的数据& ...
- 【特征工程】机器学习中离散型特征的处理 —— 独热码 (one-hot)
[原文链接]https://www.cnblogs.com/daguankele/p/6595470.html 1.什么是独热码 独热码,在英文文献中称做 one-hot code, 直观来说就是有多 ...
- 不同类型特征变量之间相关性分析
站在2022的第一天想说点啥总结却迟迟不知道该如何下笔,年前的立的各种风控技能Flag还没一一勾除又有新的Flag要立,风控人不容易-不管怎样,学习总是必要的,今天带来番茄风控2022年第一篇实操干货 ...
- 系统学习机器学习之特征工程(二)--离散型特征编码方式:LabelEncoder、one-hot与哑变量*
转自:https://www.cnblogs.com/lianyingteng/p/7792693.html 在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参 ...
- 一文了解类别型特征的编码方法
来源:Unsplash,作者:an Rizzari 2019 年第 78 篇文章,总第 102 篇文章 目录: 问题描述 数据准备 标签编码 自定义二分类 one-hot 编码 总结 问题描述 一般特 ...
- 如何处理类别型特征?
目录: 问题描述 数据准备 标签编码 自定义二分类 one-hot 编码 问题描述 一般特征可以分为两类特征,连续型和离散型特征,而离散型特征既有是数值型的,也有是类别型特征,也可以说是字符型,比如说 ...
- 11种离散型变量编码方式及效果对比
首先介绍一个关于离散型编码的Python库,里面封装了十几种(包括文中的所有方法)对于离散型特征的编码方法,接口接近于Sklearn通用接口,非常实用.下面是这个库的链接:Category Encod ...
- 【CTR预估】CTR模型如何加入稠密连续型和序列型特征?
" CTR预估任务中除了广泛使用的稀疏离散型特征外,还会用到稠密连续型以及一些序列类型的特征,本文为大家简要梳理几种特征的处理方式-" 稠密连续类型特征的处理 在点击率预估问题中, ...
- 离散型特征编码方式:one-hot与哑变量
转载:离散型特征编码方式:one-hot与哑变量 在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等 ...
最新文章
- numpy使用diagonal函数和sum函数计算矩阵的迹(trace)、使用T函数对矩阵进行转置(transpose matrix)
- 27亿参数的「野生版」GPT-3开源,GitHub项目2.9K Star量
- 文件的特殊权限:suid sgid sticky
- 挑战蓝牙/Wi-Fi NFA争食无线音频应用大饼(转)
- AI时代的摩尔定律?黄氏定律预测AI性能将逐年翻倍
- vl02n 批次拆分
- svm硬间隔与软间隔
- python财务报表预测股票价格_机器学习股票价格预测从爬虫到预测-数据爬取部分...
- tomcat端口冲突解决 Address already in use: JVM_Bind :8080
- mysql关于日期的函数_MySQL中关于日期函数汇总
- layui select动态赋值_layui与 VUE 配合使用时动态渲染 select 坑
- 转载在linux下执行java窗口被锁定问题
- python学习网站-关于python学习,最系统的学习网站看这里
- 在Vue项目中添加vue router
- Iocomp ActiveX v5 SP6 带OPC -Crack
- R语言入门-安装R和Rstuido软件
- 带宽总结:3dB带宽、零点到零点带宽、均方根带宽等
- HTML颜色名称和颜色代码表
- wordpress企业站模板
- 【3-hexo】为啥我又搭建了一个博客?【服务器自建博客】