python填补缺失值数据驱动代码_python填补缺失值数据驱动代码_python数据预处理之缺失值的各种填补方式...
对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式:
(1)删掉缺失值数据
(2)不对其进行处理
(3)利用插补法对数据进行补充
第一种方式是极为不可取的,如果你的样本数够多,删掉数据较少,这种情况下还是可取的,但是,如果你的数据本身就比较少,而且还删除数据,这样会导致大量的资源浪费,将丢弃了大量隐藏在这些记录中的信息.利用插补法对数据进行补充,是极为推荐的一个方式.
常见的插补法有以下几种:
1.用固定值插补
#输出文件名
outputfile = "data.xls"
#读入文件
catering_sale = "catering_sale.xls"
#填补数据
data['空缺值所在列名'] = data['空缺值所在列名'].fillna('填补的数据')
#输出到指定文件
data.to_excel(outputfile)
2.用均值插补
#输出文件名
outputfile = "data.xls"
#读入文件
catering_sale = "catering_sale.xls"
#填补数据
data['空缺值所在列名'] = data['空缺值所在列名'].fillna(data['空缺值所在列名'].mean())
#输出到指定文件
data.to_excel(outputfile)
3.用众数插补
#输出文件名
outputfile = "data.xls"
#读入文件
catering_sale = "catering_sale.xls"
#填补数据
data['空缺值所在列名'] = data['空缺值所在列名'].fillna(data['空缺值所在列名'].mode()[0])
#输出到指定文件
data.to_excel(outputfile)
这里强调一下,看了很多其他的博客,在用众数填充时,都是直接data['空缺值所在列名'].mode(),我尝试了很多遍,发现一直填充不进去,后来查阅资料才发现pandas返回的是一个series(因为众数不止一个),而不像median,mean这些返回特定一个值,所以必须在后面加上下标值【0】,才能进行填充(必须加下标值,必须加下标值,必须加下标值,重要的话说三遍)
4.用中位数插补
#输出文件名
outputfile = "data.xls"
#读入文件
catering_sale = "catering_sale.xls"
#填补数据
data['空缺值所在列名'] = data['空缺值所在列名'].fillna(data['空缺值所在列名'].median())
#输出到指定文件
data.to_excel(outputfile)
5.用上下数据插补
用前一个数据填补
#输出文件名
outputfile = "data.xls"
#读入文件
catering_sale = "catering_sale.xls"
#填补数据
data['空缺值所在列名'] = data['空缺值所在列名'].fillna(method='pad')
#输出到指定文件
data.to_excel(outputfile)
用下一个数据填补
#输出文件名
outputfile = "data.xls"
#读入文件
catering_sale = "catering_sale.xls"
#填补数据
data['空缺值所在列名'] = data['空缺值所在列名'].fillna(method='bfill')
#输出到指定文件
data.to_excel(outputfile)
6.用插值法插补
#输出文件名
outputfile = "data.xls"
#读入文件
catering_sale = "catering_sale.xls"
#填补数据
data['空缺值所在列名'] = data['空缺值所在列名'].interpolate()
#输出到指定文件
data.to_excel(outputfile)
python填补缺失值数据驱动代码_python填补缺失值数据驱动代码_python数据预处理之缺失值的各种填补方式...相关推荐
- 机器学习数据预处理之缺失值:样本删除
机器学习数据预处理之缺失值:样本删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...
- 机器学习数据预处理之缺失值:最小值最大值填充
机器学习数据预处理之缺失值:最小值最大值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时 ...
- R语言使用xgboost构建回归模型:vtreat包为xgboost回归模型进行数据预处理(缺失值填充、缺失值标识、离散变量独热onehot编码)、构建出生体重的xgboost模型回归模型
R语言使用xgboost构建回归模型:vtreat包为xgboost回归模型进行数据预处理(缺失值填充.缺失值标识.离散变量独热onehot编码).构建出生体重的xgboost模型回归模型 目录
- 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)
机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...
- 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值
机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...
- 机器学习数据预处理之缺失值:插值法填充+多项式插值
机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...
- 机器学习数据预处理之缺失值:特征删除
机器学习数据预处理之缺失值:特征删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...
- 机器学习数据预处理之缺失值:众数(mode)填充
机器学习数据预处理之缺失值:众数(mode)填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很 ...
- 机器学习数据预处理之缺失值:固定值填充
机器学习数据预处理之缺失值:固定值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...
- 机器学习数据预处理之缺失值:中位数填充
机器学习数据预处理之缺失值:中位数填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...
最新文章
- 点击展开 表格_Excel里面如何设置默认的表格和透视表样式
- 我的WCF之旅(7):面向服务架构(SOA)和面向对象编程(OOP)的结合——如何实现Service Contract的继承...
- VirtualBox 启动时提示“获取 VirtualBox COM 对象失败”的解决
- 是什么调性_协调性训练 | 单脚跳
- mysql5.5 配置_MySQL5.5 安装配置方法教程
- Python学习-文件的调用-读取
- asterisk通话无声音_对讲机的语音通话间距到底有多远?对讲机的常见问题?
- 楼市调控是安防行业是一门重要课题
- mvn创建flink项目
- 巧妙实现表格奇偶行换色
- 昆腾的反思:对象存储解困大数据
- windows 2008 R2 断电进入修复模式,并且无法使用usb键盘鼠标的解决方法
- 记一次Prometheus完整监控案例
- java开发一个简单的通讯录
- R语言学习:方差分析
- adb命令删除offline离线手机设备
- plotly系列| 使用plotly在地图上绘制散点图和密度图
- python数据分析基础试题_Python数据分析基础知识
- Python爬虫学习-Day7
- 计算机网络方面国际三大顶尖会议 - MOBICOM - SIGCOMM - INFOCOM