数据预处理

from sklearn.preprocessing import MinMaxScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
import pandas as pd
pd.DataFrame(data)
scaler = MinMaxScaler() #实例化,默认在0~1之间,也可指定范围
scaler = scaler.fit(data)
result = scaler.transform(data)
result

#按极差缩放
scaler = MinMaxScaler(feature_range=[5,10]) #实例化,默认在0~1之间,也可指定范围
scaler = scaler.fit(data)
result = scaler.transform(data)
result

#按标准差缩放
from sklearn.preprocessing import StandardScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
scaler = StandardScaler()
scaler = scaler.fit(data)
print(scaler.mean_)
print(scaler.var_)

#缺失值处理
df1 = pd.DataFrame({'A':['A0','A1','A2','A4'],'C':['C0','C1','C2',None]})
df1


from sklearn.preprocessing import MinMaxScaler
import pandas as pd
data = [[-1,2],[3,4],[5,6],[1,10]]
pd.DataFrame(data)##数据归一化
scalar = MinMaxScaler()
scalar_fit = scalar.fit(data)
scalar.transform(data)##数据标准化
from sklearn.preprocessing import StandardScaler
scalar = StandardScaler()
scalar_fit = scalar.fit(data)
scalar.transform(data)##空值填充
ti_train = pd.read_csv(r'titanic_train.csv')
ti_train['Age'] =ti_train['Age'].fillna(ti_train['Age'].mean())
ti_train01 = ti_train[['Age','PassengerId']]
ti_train01.info()#sklearn 空值填充
from sklearn.impute import SimpleImputer
mode = SimpleImputer(strategy='mean')
mode_fit = mode.fit(ti_train['Age'].values.reshape(-1, 1))
ti_train['Age']=mode.transform(ti_train['Age'].values.reshape(-1, 1))
ti_train01 = ti_train[['Age','PassengerId']]
ti_train01.info()
# 1、空值、异常值处理 (数据、业务)
# 2、分析数据 函数关系
# 3、离散型(要不要oneHot)连续型变量(要不要离散化)
# 4、归一化、标准化
# 5、特征工程
# 以上步骤可以说是数据过滤,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

数据特征工程

特征选择:方差过滤、卡方检验、皮尔逊相关系数、F检验、互信息法

数据预处理和数据特征工程相关推荐

  1. 数据预处理 | 机器学习之特征工程

    点击"阅读原文"直接打开[北京站 | GPU CUDA 进阶课程]报名链接 作者:苏小保(jacksu) 华为工程师 擅长分布式系统.大数据.机器学习.github地址:https ...

  2. ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理

    ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理 目录 对爬取的某平台二手房数据进行数据分析以及特征工程处理 1.定义数据集 2.特征工程(数据分析+数据处理) 对爬取的某平台二手房数 ...

  3. 机器学习项目中的数据预处理与数据整理之比较

    要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...

  4. 数据预处理Part9——数据降维

    文章目录 1. 什么是数据降维? 2. 为什么要进行数据降维? 3. 降维是如何实现的? 4. sklearn中的降维算法 4.1 主成分分析PCA 4.2 因子分析FA 4.3 独立成分分析ICA ...

  5. 竞赛专题 | 数据预处理-如何处理数据中的坑?

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...

  6. 【Python实战】数据预处理(数据清理、集成、变换、归约)

    [Python实战]数据预处理 前言 数据预处理概述 数据清理 异常数据处理 1.异常数据分析 2.异常数据处理方法 缺失值处理 噪声数据处理 数据集成 1.实体识别 2.冗余属性 3.数据不一致 数 ...

  7. 数据预处理Part4——数据离散化

    文章目录 离散化,对数据做逻辑分层 1. 什么是数据离散化? 2. 为什么要将数据离散化 3. 如何将数据离散化? 3.1 时间数据离散化 3.2 多值离散数据离散化 3.3 连续数据离散化 3.4 ...

  8. 数据预处理Part2——数据标准化

    文章目录 数据标准化 1. 实现归一化的Max-Min 2. 实现中心化和正态分布的Z-Score 3. 用于稀疏数据的MaxAbs 4. 针对离群点的RobustScaler 5. 标准化后数据可视 ...

  9. PyTorch源码解析--torchvision.transforms(数据预处理、数据增强)

    PyTorch框架中有一个很常用的包:torchvision torchvision主要由3个子包构成:torchvision.datasets.torchvision.models.torchvis ...

  10. 数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)

    数据挖掘概念与技术 定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价 第一章.数据 挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体 ...

最新文章

  1. C#调用C++ dll类型对照表汇总
  2. Scala 学习笔记(1)
  3. jquery 表格(鼠标悬停改变改变行背景+隔行换色)
  4. word2html文档,Word2HTML用户手册.doc
  5. 【转】敏捷开发,你真的做对了吗?
  6. 根据经纬度算出两个位置之间的距离
  7. Python+django网页设计入门(5):自定义用户注册与登录功能
  8. 数据结构c语言版第二版第三章课后答案,数据结构(C语言版)习题集答案第三章.doc...
  9. 趣谈网络协议(一):综述及二层到三层
  10. html字体样式圆体,网红字体“柚圆体”出现,书写工整又清新,老师也被这种字体圈粉...
  11. Vc++安装包_Visual C++ 6.0中文版安装包下载及安装教程
  12. android好玩的app,6款好用又好玩的黑科技APP,第3款居然是蚁帮,凭什么?
  13. FPGA-小梅哥时序约束
  14. 中国传统文化的现代意义
  15. 一號倉:《漫》--《3D》
  16. 当初为了有机会进大厂,狠心复习了这9门核心知识点,熬夜整理成思维导图送给大家
  17. 语句摘抄——第12周
  18. 常见的NoSQL数据库有哪些
  19. linux与 win上装pyhive
  20. 数据库中间件Mycat诞生记2

热门文章

  1. 一些碰到的陌生的技术名词搜集(持续更新……)
  2. 【Webcam设计】视频的采集和动态显示
  3. pyspark 手写Apriori算法
  4. 逆天!百度AI音箱重磅升级:最大梦想实现
  5. 第九周-每周例行报告
  6. MySQL查询语句格式总结
  7. 阿里云市场联合犀思云开启云V认证 首推“严选”模式企业采购更安心
  8. 计算机视觉方面书籍推荐
  9. IOS之UI--自定义按钮实现代理监听点击事件
  10. Windows Phone 7开发人员向导已经发布