对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式:

(1)删掉缺失值数据

(2)不对其进行处理

(3)利用插补法对数据进行补充

第一种方式是极为不可取的,如果你的样本数够多,删掉数据较少,这种情况下还是可取的,但是,如果你的数据本身就比较少,而且还删除数据,这样会导致大量的资源浪费,将丢弃了大量隐藏在这些记录中的信息.利用插补法对数据进行补充,是极为推荐的一个方式.

常见的插补法有以下几种:

1.用固定值插补

#输出文件名

outputfile = "data.xls"

#读入文件

catering_sale = "catering_sale.xls"

#填补数据

data['空缺值所在列名'] = data['空缺值所在列名'].fillna('填补的数据')

#输出到指定文件

data.to_excel(outputfile)

2.用均值插补

#输出文件名

outputfile = "data.xls"

#读入文件

catering_sale = "catering_sale.xls"

#填补数据

data['空缺值所在列名'] = data['空缺值所在列名'].fillna(data['空缺值所在列名'].mean())

#输出到指定文件

data.to_excel(outputfile)

3.用众数插补

#输出文件名

outputfile = "data.xls"

#读入文件

catering_sale = "catering_sale.xls"

#填补数据

data['空缺值所在列名'] = data['空缺值所在列名'].fillna(data['空缺值所在列名'].mode()[0])

#输出到指定文件

data.to_excel(outputfile)

这里强调一下,看了很多其他的博客,在用众数填充时,都是直接data['空缺值所在列名'].mode(),我尝试了很多遍,发现一直填充不进去,后来查阅资料才发现pandas返回的是一个series(因为众数不止一个),而不像median,mean这些返回特定一个值,所以必须在后面加上下标值【0】,才能进行填充(必须加下标值,必须加下标值,必须加下标值,重要的话说三遍)

4.用中位数插补

#输出文件名

outputfile = "data.xls"

#读入文件

catering_sale = "catering_sale.xls"

#填补数据

data['空缺值所在列名'] = data['空缺值所在列名'].fillna(data['空缺值所在列名'].median())

#输出到指定文件

data.to_excel(outputfile)

5.用上下数据插补

用前一个数据填补

#输出文件名

outputfile = "data.xls"

#读入文件

catering_sale = "catering_sale.xls"

#填补数据

data['空缺值所在列名'] = data['空缺值所在列名'].fillna(method='pad')

#输出到指定文件

data.to_excel(outputfile)

用下一个数据填补

#输出文件名

outputfile = "data.xls"

#读入文件

catering_sale = "catering_sale.xls"

#填补数据

data['空缺值所在列名'] = data['空缺值所在列名'].fillna(method='bfill')

#输出到指定文件

data.to_excel(outputfile)

6.用插值法插补

#输出文件名

outputfile = "data.xls"

#读入文件

catering_sale = "catering_sale.xls"

#填补数据

data['空缺值所在列名'] = data['空缺值所在列名'].interpolate()

#输出到指定文件

data.to_excel(outputfile)

python填补缺失值数据驱动代码_python填补缺失值数据驱动代码_python数据预处理之缺失值的各种填补方式...相关推荐

  1. 机器学习数据预处理之缺失值:样本删除

    机器学习数据预处理之缺失值:样本删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

  2. 机器学习数据预处理之缺失值:最小值最大值填充

    机器学习数据预处理之缺失值:最小值最大值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时 ...

  3. R语言使用xgboost构建回归模型:vtreat包为xgboost回归模型进行数据预处理(缺失值填充、缺失值标识、离散变量独热onehot编码)、构建出生体重的xgboost模型回归模型

    R语言使用xgboost构建回归模型:vtreat包为xgboost回归模型进行数据预处理(缺失值填充.缺失值标识.离散变量独热onehot编码).构建出生体重的xgboost模型回归模型 目录

  4. 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)

    机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...

  5. 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值

    机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...

  6. 机器学习数据预处理之缺失值:插值法填充+多项式插值

    机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...

  7. 机器学习数据预处理之缺失值:特征删除

    机器学习数据预处理之缺失值:特征删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

  8. 机器学习数据预处理之缺失值:众数(mode)填充

    机器学习数据预处理之缺失值:众数(mode)填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很 ...

  9. 机器学习数据预处理之缺失值:固定值填充

    机器学习数据预处理之缺失值:固定值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...

  10. 机器学习数据预处理之缺失值:中位数填充

    机器学习数据预处理之缺失值:中位数填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...

最新文章

  1. 点击展开 表格_Excel里面如何设置默认的表格和透视表样式
  2. 我的WCF之旅(7):面向服务架构(SOA)和面向对象编程(OOP)的结合——如何实现Service Contract的继承...
  3. VirtualBox 启动时提示“获取 VirtualBox COM 对象失败”的解决
  4. 是什么调性_协调性训练 | 单脚跳
  5. mysql5.5 配置_MySQL5.5 安装配置方法教程
  6. Python学习-文件的调用-读取
  7. asterisk通话无声音_对讲机的语音通话间距到底有多远?对讲机的常见问题?
  8. 楼市调控是安防行业是一门重要课题
  9. mvn创建flink项目
  10. 巧妙实现表格奇偶行换色
  11. 昆腾的反思:对象存储解困大数据
  12. windows 2008 R2 断电进入修复模式,并且无法使用usb键盘鼠标的解决方法
  13. 记一次Prometheus完整监控案例
  14. java开发一个简单的通讯录
  15. R语言学习:方差分析
  16. adb命令删除offline离线手机设备
  17. plotly系列| 使用plotly在地图上绘制散点图和密度图
  18. python数据分析基础试题_Python数据分析基础知识
  19. Python爬虫学习-Day7
  20. 计算机网络方面国际三大顶尖会议 - MOBICOM - SIGCOMM - INFOCOM

热门文章

  1. 哈工大计算机系统lab7——微壳
  2. SM2椭圆曲线公钥密码算法的JAVA实现
  3. 三星note10 android q,当之无愧的安卓机皇!三星Note10+测评,结果难以想象
  4. 脉冲发生器c语言程序,可编程脉冲信号发生器的.doc
  5. 99%没用过的奇怪网站,黑科技应用网站推荐
  6. 基于unity无人机3D仿真《一》
  7. 2021年R1快开门式压力容器操作考试及R1快开门式压力容器操作考试资料
  8. elementui3
  9. 动态路由id会拼接到地址栏中,如何获取这个id
  10. html的css怎么设置深度,vue css 深度选择器