统计所有带有null的特征
以下代码仅仅适用于numerical特征,不适用于category特征
代码如下:
#统计有缺失值的特征列
np.set_printoptions(threshold=2000)#全部输出
pd.set_option('display.max_colwidth',2000)#全部输出
pd.set_option('max_colwidth',2000)
pd.set_option('display.max_rows',None)
pd.set_option('display.max_columns',None)def missing_values(df):df1 = pd.DataFrame(df.isnull().sum()).reset_index()df1.columns = ['features', 'freq']df1['percentage'] = df1['freq']/df.shape[0]df1.sort_values('percentage', ascending = False, inplace = True)return df1missing_train = missing_values(train)
missing_train.columns = ['features', 'freq_tr', 'percentage_tr']
missing_train
结果如下:
第三列freq_tr是缺失值数量
第四列percentage_tr是缺失值比例
既可以用来看训练集,也可以用来看测试集:
missing_test = missing_values(test)
missing_test.columns = ['features', 'freq_te', 'percentage_te']
missing_test
也可以训练集和测试集按照特征纵向拼接以后,看总体的缺失值情况:
missing = missing_train.merge(missing_test, on = 'features')
missing.head(10)
也可以指定只看一个特征的null情况:
missing[missing['features']=='D7']
统计所有带有null的特征相关推荐
- Python之pandas:利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略
Python之pandas:利用describe函数统计[类别型]特征/离散型变量的描述性统计信息(包括个数count.unique.top及其freq.first.last)之详细攻略 目录 利用d ...
- 【数据竞赛】99%情况下都有效的特征筛选策略--Null Importance。
作者:杰少 Null Importance特征筛选 简介 目前数据量越来越大,数据特征维度也越来越高,这不仅对我们的计算存储带来了较大的挑战,与此同时,还会对模型的效果带来较大的损益. 如何既能节省内 ...
- 风控特征—时间滑窗统计特征体系
" 本文介绍了风控业务中构建时间滑窗特征的一些实践经验,是一篇既能让读者快速上手特征工程又能加深其业务理解的深度好文." 作者:求是汪在路上 来源:知乎专栏 风控模型算法. 编辑: ...
- 特征选取之单变量统计、基于模型选择、迭代选择
目录 单变量统计 方差分析 代码实现 SelectKBest特征选取 递归特征消除(RFE)
- 关于mysql设置varchar 字段的默认值''和null的区别,以及varchar和char的区别
一.背景 根据业务需求,发现以前的同事在设计表的时候,很多字段都没有设置默认值.在mysql5.7版本之后,没有设定默认值的字段,在严格模式下是很容易报错的,所以我这边需要先给每个字段加上一个默认值. ...
- mysql char null_关于mysql设置varchar 字段的默认值''和null的区别,以及varchar和char的区别...
一.背景 根据业务需求,发现以前的同事在设计表的时候,很多字段都没有设置默认值.在mysql5.7版本之后,没有设定默认值的字段,在严格模式下是很容易报错的,所以我这边需要先给每个字段加上一个默认值. ...
- 【推荐系统】特征工程技巧(kaggle比赛技巧、tx的做法)
内容总结 前面6点均是常见的特征工程基础知识,第7点时kaggle比赛中常用特征交叉.特征筛选等技巧,第8点从特征提取(数值型.类别型.embedding特征).特征选择(过滤式.封装式.嵌入式).特 ...
- MATLAB教室人数统计开源代码(包含 GUI 注释 课题分析)
MATLAB教室人数统计(免费开源代码) 本人参考了很多的资料最后总结整出来的,如果能够该博客对你的学习有所帮助的话,希望大家可以帮我点个赞,本人是抱着学习的态度进行分享,大家如果能在我的基础上进行二 ...
- 天池- IJCAI-18 阿里妈妈搜索广告转化预测新手入门经历(一:数据预处理、特征工程)
第一次正式参加数据挖掘类的比赛,投入了三个星期.结果没有进入复赛,但是学到了许多经验.感谢技术圈和github的大佬们提供的baseline,让我少走了很多弯路. 第一次写博客,其一为了防止以后忘记, ...
最新文章
- 从大厂“出逃”,今天又有三位程序员联手敲钟:市值 40 亿
- delphi dbgrideh 遍历每一个单元格_用Python解数独[1]:求每个单元格的行值域
- STC12C5A60S2笔记8(串口)
- PAT甲级 -- 1041 Be Unique (20 分)
- 人工神经网络之激活函数 -softmax函数
- 【直播 】ASP.NET Core解密底层设计逻辑
- Oracle教程-安装、结构(一)
- 吴裕雄--天生自然 高等数学学习:微分方程的幂级数解法
- 网站建设十大忠告,新手建站必看
- 贝叶斯分析——从数值积分到MCMC
- url 转码 java_HttpClient请求URL字符集转码问题解决方法
- 导热材料在电子产品散热系统中的重要性
- 计算机语言学考研考什么,语言学及应用语言学考研有哪些内容-考研经验
- Android分享文件到qq没反应,Android 微信,qq分享文件
- 2019HDU多校第一场 HDU6578 Blank
- Linux复制粘贴快捷键
- 使用Autoit3 自动登录163邮箱
- 教你文件重命名快速操作
- gitlab运行后修改存储位置
- 电灯泡实验应该怎么做_物理小实验 教你测量小灯泡的电功率的方法