机器学习数据预处理之缺失值:特征删除
机器学习数据预处理之缺失值:特征删除
garbage in, garbage out.
没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。
如果某个特征缺失比例过大,则可以将这个特征删除;
# 仿真数据集;
import numpy as np
import pandas as pd# 构造数据
def dataset():col1 = [1, 2, 3, 4, 5, 6, 7, 8, 9,10]col2 = [3, 1, 7, np.nan, 4, 0, 5, 7, 12, np.nan]col3 = [3, np.nan, np.nan, np.nan, 9, np.nan, 10, np.nan, 4, np.nan]y = [10, 15, 8, 12, 17, 9, 7, 14, 16, 20]data = {'feature1':col1, 'feature2':col2, 'feature3':col3, 'label':y}df = pd.DataFrame(data)return dfdata = dataset()
data
# 删除属性或者特征;
# 删除属性
def delete_feature(df):N =
机器学习数据预处理之缺失值:特征删除相关推荐
- 机器学习数据预处理之缺失值:样本删除
机器学习数据预处理之缺失值:样本删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...
- 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)
机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...
- 机器学习数据预处理之缺失值:最小值最大值填充
机器学习数据预处理之缺失值:最小值最大值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时 ...
- 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值
机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...
- 机器学习数据预处理之缺失值:插值法填充+多项式插值
机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...
- 机器学习数据预处理之缺失值:众数(mode)填充
机器学习数据预处理之缺失值:众数(mode)填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很 ...
- 机器学习数据预处理之缺失值:固定值填充
机器学习数据预处理之缺失值:固定值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...
- 机器学习数据预处理之缺失值:中位数填充
机器学习数据预处理之缺失值:中位数填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...
- 机器学习数据预处理之缺失值:前向填充
机器学习数据预处理之缺失值:前向填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...
最新文章
- 如何基于消息中间件实现分布式事务?万字长文给你答案!!
- Linux_指令杂烩
- oracle 尖括号_Oracle常用函数整理
- 自学python找到工作-学完python能找到工作么
- 怎样提升Mac读写速度
- Linux运维:查看磁盘空间的大小
- opencv-python 学习笔记2:实现目光跟随(又叫人脸跟随)
- 【通信仿真】基于matlab多域网络仿真【含Matlab源码 1794期】
- 练习1,从文件到数据库
- Mina(1):快速上手
- 国内外IGS数据及产品下载网站
- html优秀作品展示,31个漂亮的作品展示网页设计
- spring-boot 与 elasticsearch 版本对应
- 自学单片机怎么买开发板?
- 华为交换机配置acl规则
- CVPR2021论文列表(中英对照)
- 关于Ceisum中的heading、pitch、roll的定义
- antv L7地图 绘制大小不受控制bug
- 关于pandownload源码的一般性研究与挖掘
- 2. OSPF术语,邻居和NBMA环境下的邻居
热门文章
- python 2.* 升级到python3.*的过程
- MySQL必知必会读书笔记
- 重磅直播|光学3D测量技术原理及应用
- Clipper: 开源的基于图论框架的鲁棒点云数据关联方法(ICRA2021)
- 用深度学习实现异常检测/缺陷检测
- SLAM综述-Lidar SLAM
- CVPR2020:点云分类的自动放大框架:PointAugment
- Request header field token is not allowed by Access-Control-Allow-Headers in
- R语言基础练习与入门实践
- VS2015+openGL配置