机器学习(1)---数据预处理
机器学习(1)---有监督学习之数据预处理
如图所示,通过6步完成数据预处理。
此例用到的数据,代码。
第1步:导入库
import numpy as np import pandas as pd
第2步:导入数据集
dataset = pd.read_csv('Data.csv')//读取csv文件 X = dataset.iloc[ : , :-1].values//.iloc[行,列] Y = dataset.iloc[ : , 3].values // : 全部行 or 列;[a]第a行 or 列// [a,b,c]第 a,b,c 行 or 列
第3步:处理丢失数据
from sklearn.preprocessing import Imputer imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0) imputer = imputer.fit(X[ : , 1:3]) X[ : , 1:3] = imputer.transform(X[ : , 1:3])
第4步:解析分类数据
from sklearn.preprocessing import LabelEncoder, OneHotEncoder labelencoder_X = LabelEncoder() X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
创建虚拟变量
onehotencoder = OneHotEncoder(categorical_features = [0]) X = onehotencoder.fit_transform(X).toarray() labelencoder_Y = LabelEncoder() Y = labelencoder_Y.fit_transform(Y)
第5步:拆分数据集为训练集合和测试集合
from sklearn.model_selection import train_test_split X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
第6步:特征量化
from sklearn.preprocessing import StandardScaler sc_X = StandardScaler() X_train = sc_X.fit_transform(X_train) X_test = sc_X.transform(X_test)
机器学习(1)---数据预处理相关推荐
- 机器学习PAL数据预处理
机器学习PAL数据预处理 本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集. 前提条件 完成数据准备,详情请参见准备数据. 操作步骤 登录PAI控制台. 在左侧导航栏,选择模型开发和训 ...
- 机器学习之数据预处理——归一化,标准化
机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...
- 机器学习之数据预处理——数据清洗(缺失值、异常值和重复值的处理)
机器学习之数据预处理--数据清洗缺失值.异常值和重复值的处理 基础知识 技术点总结 数据列缺失的处理方法 1.丢弃(缺失值处理) 1.生成一份随机数据 2.查看哪些值缺失 3.获得含有NA的列 4.获 ...
- 机器学习之数据预处理——特征编码(标签编码,独热编码)
机器学习之数据预处理--特征编码 数据预处理--特征编码 离散数据的编码 标签编码 sklearn LabelEncoder(使用fit_transform函数) sklearn LabelEncod ...
- 机器学习之数据预处理
在sklearn之数据分析中总结了数据分析常用方法,接下来对数据预处理进行总结 当我们拿到数据集后一般需要进行以下步骤: (1)明确有数据集有多少特征,哪些是连续的,哪些是类别的 (2)检查有没有缺失 ...
- 负数如何归一化处理_机器学习之数据预处理
第一节:前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的地位. 特征工程:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能 ...
- [机器学习-sklearn]数据预处理要点总结
数据预处理要点总结 1. 为什么要数据预处理 2. 数据中存在缺失值 2.1 查看数据的完整性(missingno) 2.2 简单删除法 2.3 人工填写(filling manually) 2.4 ...
- 数据标准化处理方法_机器学习系列-数据预处理-数据标准化(归一化)-理论
在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...
- 机器学习中数据预处理——标准化/归一化方法(scaler)
由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...
- 深入浅出Python机器学习9——数据预处理、降维、特征提取及聚类
数据预处理 使用 StandScaler 进行数据预处理 首先手工生成一些数据: 用make_blobs 函数时,指定了样本数量 n_samples 为 40,分类 centers 为 ...
最新文章
- 0x0000050蓝屏srvsys_win7电脑蓝屏,显示的应该是srv.sys造成的,是什么情况?应该如何处理?...
- BZOJ1054(搜索)
- 用Yum安装最新的MySQL版本
- 密钥生成并配置_如何在 CentOS 8 上设置 SSH 密钥
- 微软.NET程序员必上的网站
- 数据可视化插件 echart
- 测试开发面试题汇总20200422
- 半导体器件与集成电路实验 实验十 集成运算放大器参数的测量
- 135编辑器中html使用方法,135编辑器使用小技巧 135编辑器特色功能使用技巧方法...
- 机器学习和深度学习资源汇总(陆续更新)
- Codeforces Round #247 (Div. 2) - k-Tree
- 【人脸识别(三)】:使用face_recognition库实现人脸识别,python实现
- 项羽ol网站服务器,《项羽OL》今日开服 全新新服务器“巨鹿之战”开启
- abp学习日志九(总结)
- 门禁系统一定要服务器吗,门禁系统服务器功能配置
- EIP712以太坊签名和验签
- 安卓手机软键盘弹起的问题
- 快速有效查找和下载美国专利
- 小游戏《塔防》开发(二)
- 广和通l610二次开发|广和通l610 CAT.1模组opencpu开发《二》cola_os移植
热门文章
- micropython教程nucleo-f767zi开发板_教你做CMSIS-DAP仿真器(基于Nucleo-F767ZI)
- 【STM32】【STM32CubeMX】STM32CubeMX的使用之三:UART串口通信
- 用Openswan组建Linux IPSec ---第二部分
- 目的入口(dst_entry)
- QT5开发及实例学习之九基本对话框(二)
- android 刷新标题栏,Android 自定义标题栏的实例详解
- 我的世界服务器改地皮生态系统,我的世界服务器怎么把地皮世界改为和平模式?...
- 实验大作业c语言实现简单ftp,C 语言实现 FTP 服务器
- 让oracle跑得更快——oracle 10g性能分析与优化思路,[让Oracle跑得更快.Oracle.10g性能分析与优化思路]概要1.doc...
- 力扣53.最大子序和 多种方法