机器学习数据预处理之缺失值:特征删除

garbage in, garbage out.

没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。

如果某个特征缺失比例过大,则可以将这个特征删除;

# 仿真数据集;

import numpy as np
import pandas as pd# 构造数据
def dataset():col1 = [1, 2, 3, 4, 5, 6, 7, 8, 9,10]col2 = [3, 1, 7, np.nan, 4, 0, 5, 7, 12, np.nan]col3 = [3, np.nan, np.nan, np.nan, 9, np.nan, 10, np.nan, 4, np.nan]y = [10, 15, 8, 12, 17, 9, 7, 14, 16, 20]data = {'feature1':col1, 'feature2':col2, 'feature3':col3, 'label':y}df = pd.DataFrame(data)return dfdata = dataset()
data

# 删除属性或者特征;

# 删除属性
def delete_feature(df):N =

机器学习数据预处理之缺失值:特征删除相关推荐

  1. 机器学习数据预处理之缺失值:样本删除

    机器学习数据预处理之缺失值:样本删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

  2. 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)

    机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...

  3. 机器学习数据预处理之缺失值:最小值最大值填充

    机器学习数据预处理之缺失值:最小值最大值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时 ...

  4. 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值

    机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...

  5. 机器学习数据预处理之缺失值:插值法填充+多项式插值

    机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...

  6. 机器学习数据预处理之缺失值:众数(mode)填充

    机器学习数据预处理之缺失值:众数(mode)填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很 ...

  7. 机器学习数据预处理之缺失值:固定值填充

    机器学习数据预处理之缺失值:固定值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...

  8. 机器学习数据预处理之缺失值:中位数填充

    机器学习数据预处理之缺失值:中位数填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...

  9. 机器学习数据预处理之缺失值:前向填充

    机器学习数据预处理之缺失值:前向填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

最新文章

  1. 如何基于消息中间件实现分布式事务?万字长文给你答案!!
  2. Linux_指令杂烩
  3. oracle 尖括号_Oracle常用函数整理
  4. 自学python找到工作-学完python能找到工作么
  5. 怎样提升Mac读写速度
  6. Linux运维:查看磁盘空间的大小
  7. opencv-python 学习笔记2:实现目光跟随(又叫人脸跟随)
  8. 【通信仿真】基于matlab多域网络仿真【含Matlab源码 1794期】
  9. 练习1,从文件到数据库
  10. Mina(1):快速上手
  11. 国内外IGS数据及产品下载网站
  12. html优秀作品展示,31个漂亮的作品展示网页设计
  13. spring-boot 与 elasticsearch 版本对应
  14. 自学单片机怎么买开发板?
  15. 华为交换机配置acl规则
  16. CVPR2021论文列表(中英对照)
  17. 关于Ceisum中的heading、pitch、roll的定义
  18. antv L7地图 绘制大小不受控制bug
  19. 关于pandownload源码的一般性研究与挖掘
  20. 2. OSPF术语,邻居和NBMA环境下的邻居

热门文章

  1. python 2.* 升级到python3.*的过程
  2. MySQL必知必会读书笔记
  3. 重磅直播|光学3D测量技术原理及应用
  4. Clipper: 开源的基于图论框架的鲁棒点云数据关联方法(ICRA2021)
  5. 用深度学习实现异常检测/缺陷检测
  6. SLAM综述-Lidar SLAM
  7. CVPR2020:点云分类的自动放大框架:PointAugment
  8. Request header field token is not allowed by Access-Control-Allow-Headers in
  9. R语言基础练习与入门实践
  10. VS2015+openGL配置