机器学习(1)---有监督学习之数据预处理

如图所示,通过6步完成数据预处理。

此例用到的数据,代码。

第1步:导入库

import numpy as np
import pandas as pd

第2步:导入数据集

dataset = pd.read_csv('Data.csv')//读取csv文件
X = dataset.iloc[ : , :-1].values//.iloc[行,列]
Y = dataset.iloc[ : , 3].values  // : 全部行 or 列;[a]第a行 or 列// [a,b,c]第 a,b,c 行 or 列

第3步:处理丢失数据

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

第4步:解析分类数据

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

创建虚拟变量

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

第5步:拆分数据集为训练集合和测试集合

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

第6步:特征量化

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

机器学习(1)---数据预处理相关推荐

  1. 机器学习PAL数据预处理

    机器学习PAL数据预处理 本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集. 前提条件 完成数据准备,详情请参见准备数据. 操作步骤 登录PAI控制台. 在左侧导航栏,选择模型开发和训 ...

  2. 机器学习之数据预处理——归一化,标准化

    机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...

  3. 机器学习之数据预处理——数据清洗(缺失值、异常值和重复值的处理)

    机器学习之数据预处理--数据清洗缺失值.异常值和重复值的处理 基础知识 技术点总结 数据列缺失的处理方法 1.丢弃(缺失值处理) 1.生成一份随机数据 2.查看哪些值缺失 3.获得含有NA的列 4.获 ...

  4. 机器学习之数据预处理——特征编码(标签编码,独热编码)

    机器学习之数据预处理--特征编码 数据预处理--特征编码 离散数据的编码 标签编码 sklearn LabelEncoder(使用fit_transform函数) sklearn LabelEncod ...

  5. 机器学习之数据预处理

    在sklearn之数据分析中总结了数据分析常用方法,接下来对数据预处理进行总结 当我们拿到数据集后一般需要进行以下步骤: (1)明确有数据集有多少特征,哪些是连续的,哪些是类别的 (2)检查有没有缺失 ...

  6. 负数如何归一化处理_机器学习之数据预处理

    第一节:前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的地位. 特征工程:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能 ...

  7. [机器学习-sklearn]数据预处理要点总结

    数据预处理要点总结 1. 为什么要数据预处理 2. 数据中存在缺失值 2.1 查看数据的完整性(missingno) 2.2 简单删除法 2.3 人工填写(filling manually) 2.4 ...

  8. 数据标准化处理方法_机器学习系列-数据预处理-数据标准化(归一化)-理论

    在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...

  9. 机器学习中数据预处理——标准化/归一化方法(scaler)

    由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...

  10. 深入浅出Python机器学习9——数据预处理、降维、特征提取及聚类

    数据预处理 使用 StandScaler 进行数据预处理 首先手工生成一些数据:        用make_blobs 函数时,指定了样本数量 n_samples 为 40,分类 centers 为 ...

最新文章

  1. 0x0000050蓝屏srvsys_win7电脑蓝屏,显示的应该是srv.sys造成的,是什么情况?应该如何处理?...
  2. BZOJ1054(搜索)
  3. 用Yum安装最新的MySQL版本
  4. 密钥生成并配置_如何在 CentOS 8 上设置 SSH 密钥
  5. 微软.NET程序员必上的网站
  6. 数据可视化插件 echart
  7. 测试开发面试题汇总20200422
  8. 半导体器件与集成电路实验 实验十 集成运算放大器参数的测量
  9. 135编辑器中html使用方法,135编辑器使用小技巧 135编辑器特色功能使用技巧方法...
  10. 机器学习和深度学习资源汇总(陆续更新)
  11. Codeforces Round #247 (Div. 2) - k-Tree
  12. 【人脸识别(三)】:使用face_recognition库实现人脸识别,python实现
  13. 项羽ol网站服务器,《项羽OL》今日开服 全新新服务器“巨鹿之战”开启
  14. abp学习日志九(总结)
  15. 门禁系统一定要服务器吗,门禁系统服务器功能配置
  16. EIP712以太坊签名和验签
  17. 安卓手机软键盘弹起的问题
  18. 快速有效查找和下载美国专利
  19. 小游戏《塔防》开发(二)
  20. 广和通l610二次开发|广和通l610 CAT.1模组opencpu开发《二》cola_os移植

热门文章

  1. micropython教程nucleo-f767zi开发板_教你做CMSIS-DAP仿真器(基于Nucleo-F767ZI)
  2. 【STM32】【STM32CubeMX】STM32CubeMX的使用之三:UART串口通信
  3. 用Openswan组建Linux IPSec ---第二部分
  4. 目的入口(dst_entry)
  5. QT5开发及实例学习之九基本对话框(二)
  6. android 刷新标题栏,Android 自定义标题栏的实例详解
  7. 我的世界服务器改地皮生态系统,我的世界服务器怎么把地皮世界改为和平模式?...
  8. 实验大作业c语言实现简单ftp,C 语言实现 FTP 服务器
  9. 让oracle跑得更快——oracle 10g性能分析与优化思路,[让Oracle跑得更快.Oracle.10g性能分析与优化思路]概要1.doc...
  10. 力扣53.最大子序和 多种方法