数据预处理和数据特征工程

数据预处理

from sklearn.preprocessing import MinMaxScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
import pandas as pd
pd.DataFrame(data)
scaler = MinMaxScaler() #实例化,默认在0~1之间，也可指定范围
scaler = scaler.fit(data)
result = scaler.transform(data)
result

#按极差缩放
scaler = MinMaxScaler(feature_range=[5,10]) #实例化,默认在0~1之间，也可指定范围
scaler = scaler.fit(data)
result = scaler.transform(data)
result

#按标准差缩放
from sklearn.preprocessing import StandardScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
scaler = StandardScaler()
scaler = scaler.fit(data)
print(scaler.mean_)
print(scaler.var_)

#缺失值处理
df1 = pd.DataFrame({'A':['A0','A1','A2','A4'],'C':['C0','C1','C2',None]})
df1

from sklearn.preprocessing import MinMaxScaler
import pandas as pd
data = [[-1,2],[3,4],[5,6],[1,10]]
pd.DataFrame(data)##数据归一化
scalar = MinMaxScaler()
scalar_fit = scalar.fit(data)
scalar.transform(data)##数据标准化
from sklearn.preprocessing import StandardScaler
scalar = StandardScaler()
scalar_fit = scalar.fit(data)
scalar.transform(data)##空值填充
ti_train = pd.read_csv(r'titanic_train.csv')
ti_train['Age'] =ti_train['Age'].fillna(ti_train['Age'].mean())
ti_train01 = ti_train[['Age','PassengerId']]
ti_train01.info()#sklearn 空值填充
from sklearn.impute import SimpleImputer
mode = SimpleImputer(strategy='mean')
mode_fit = mode.fit(ti_train['Age'].values.reshape(-1, 1))
ti_train['Age']=mode.transform(ti_train['Age'].values.reshape(-1, 1))
ti_train01 = ti_train[['Age','PassengerId']]
ti_train01.info()
# 1、空值、异常值处理 （数据、业务）
# 2、分析数据 函数关系
# 3、离散型（要不要oneHot）连续型变量（要不要离散化）
# 4、归一化、标准化
# 5、特征工程
# 以上步骤可以说是数据过滤，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

数据特征工程

特征选择：方差过滤、卡方检验、皮尔逊相关系数、F检验、互信息法

数据预处理和数据特征工程相关推荐

数据预处理 | 机器学习之特征工程
点击"阅读原文"直接打开[北京站 | GPU CUDA 进阶课程]报名链接作者:苏小保(jacksu) 华为工程师擅长分布式系统.大数据.机器学习.github地址:https ...
ML之FE：对爬取的某平台二手房数据进行数据分析以及特征工程处理
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理目录对爬取的某平台二手房数据进行数据分析以及特征工程处理 1.定义数据集 2.特征工程(数据分析+数据处理) 对爬取的某平台二手房数 ...
机器学习项目中的数据预处理与数据整理之比较
要点在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...
数据预处理Part9——数据降维
文章目录 1. 什么是数据降维? 2. 为什么要进行数据降维? 3. 降维是如何实现的? 4. sklearn中的降维算法 4.1 主成分分析PCA 4.2 因子分析FA 4.3 独立成分分析ICA ...
竞赛专题 | 数据预处理-如何处理数据中的坑？
点击上方"Datawhale",选择"星标"公众号第一时间获取价值内容为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...
【Python实战】数据预处理（数据清理、集成、变换、归约）
[Python实战]数据预处理前言数据预处理概述数据清理异常数据处理 1.异常数据分析 2.异常数据处理方法缺失值处理噪声数据处理数据集成 1.实体识别 2.冗余属性 3.数据不一致数 ...
数据预处理Part4——数据离散化
文章目录离散化,对数据做逻辑分层 1. 什么是数据离散化? 2. 为什么要将数据离散化 3. 如何将数据离散化? 3.1 时间数据离散化 3.2 多值离散数据离散化 3.3 连续数据离散化 3.4 ...
数据预处理Part2——数据标准化
文章目录数据标准化 1. 实现归一化的Max-Min 2. 实现中心化和正态分布的Z-Score 3. 用于稀疏数据的MaxAbs 4. 针对离群点的RobustScaler 5. 标准化后数据可视 ...
PyTorch源码解析--torchvision.transforms（数据预处理、数据增强）
PyTorch框架中有一个很常用的包:torchvision torchvision主要由3个子包构成:torchvision.datasets.torchvision.models.torchvis ...
数据预处理—-（数据探索、数据清理、数据集成、数据规约、数据变换）
数据挖掘概念与技术定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价第一章.数据挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体 ...

数据预处理和数据特征工程

数据预处理

数据特征工程

数据预处理和数据特征工程相关推荐

最新文章

热门文章