本篇文章给大家带来的内容是关于Python中数据预处理(代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。1、导入标准库import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

2、导入数据集dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件

#创建一个包含所有自变量的矩阵,及因变量的向量

#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。

X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。

y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3、缺失数据from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理

#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行

imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)

imputer = imputer.fit(X[:, 1:3])#拟合fit

X[:, 1:3] = imputer.transform(X[:, 1:3])4、分类数据from sklearn.preprocessing import LabelEncoder,OneHotEncoder

labelencoder_X=LabelEncoder()

X[:,0]=labelencoder_X.fit_transform(X[:,0])

onehotencoder=OneHotEncoder(categorical_features=[0])

X=onehotencoder.fit_transform(X).toarray()

#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字

labelencoder_y=LabelEncoder()

y=labelencoder_y.fit_transform(y)

5、将数据集分为训练集和测试集from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)

#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)

#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重

#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集6、特征缩放#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))

from sklearn.preprocessing import StandardScaler

sc_X=StandardScaler()

X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放

X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7、数据预处理模板

(1)导入标准库

(2)导入数据集

(3)缺失和分类很少遇到

(4)将数据集分割为训练集和测试集

(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上就是Python中数据预处理(代码)的详细内容,更多请关注php中文网其它相关文章!

本文转载于:博客园,如有侵犯,请联系a@php.cn删除

python数据预处理代码_Python中数据预处理(代码)相关推荐

  1. js如何运行python代码_python中执行javascript代码

    python中执行javascript代码: 1.安装相应的库,我使用的是PyV8 2.import PyV8 ctxt = PyV8.JSContext() ctxt.enter() func = ...

  2. python如何保存列表_python中数据的保存

    1.将list中的数据写入到excel文件中 利用python包numpy(实现方式应该有许多种,这里只是记录成功实现的一种)中的savetxt 局限性:要保存的list可以为[1,2,3,4,5]这 ...

  3. python对数字排序_Python中数据的排序

    目录 列表的排序 列表的排序可以使用列表自带的 sort() 方法,也可以使用 sorted() 函数 sort() 方法是修改原列表:而 sorted() 函数是对列表的复制再排序,返回一个新的列表 ...

  4. python批量转换数据类型_python中数据类型转换

    1.list转str 假设有一个名为test_list的list,转换后的str名为test_str 则转换方法: test_str = "".join(test_list) 例子 ...

  5. python结束代码_Python中的退出代码

    The optional argument arg can be an integer giving the exit status (defaulting to zero), or another ...

  6. python算法和数据结构_Python中的数据结构和算法

    python算法和数据结构 To 至 Leonardo da Vinci 达芬奇(Leonardo da Vinci) 介绍 (Introduction) The purpose of this ar ...

  7. python元编程运用_Python 中的元编程

    就像元数据是有关数据的数据一样,元编程就是编写用于操纵程序的某些程序.人们普遍认为,元程序就是生成其他程序的某些程序,但范式更加广泛.所有旨在自我读取.分析.转换或修改的程序都是元编程的范例.例如: ...

  8. TF学习——TF数据读取:TensorFlow中数据读这三张图片的5个epoch +把读取的结果重新存到read 文件夹中

    TF学习--TF数据读取:TensorFlow中数据读这三张图片的5个epoch +把读取的结果重新存到read 文件夹中 目录 实验展示 代码实现 实验展示 代码实现 1.如果设置shuffle为T ...

  9. python填补缺失值数据驱动代码_python填补缺失值数据驱动代码_python数据预处理之缺失值的各种填补方式...

    对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式: (1)删掉缺失值数据 (2)不对其进行处理 (3)利用插补法对数据进行补充 第一种方式是极为不可 ...

最新文章

  1. FPGA笔试题解析(三)
  2. 轻量级神经网络:ShuffleNetV2解读
  3. ibatis 的 This SQL map does not contain a MappedStatement的错误
  4. 教你打造千万用户的海量视频网站、保卫云端安全!
  5. 净化网络环境!可信数字内容版权服务解决方案发布
  6. ICCV 2017《Unsupervised Laerning of Important Objects from First-Person Videos》论文笔记
  7. 养成一个SQL好习惯带来一笔大财富
  8. SAP ABAP Netweaver Note download debug
  9. ABAP和Java的destination和JNDI
  10. 从壹开始 [Admin] 之五 ║ 实现『按钮』级别权限配置
  11. kali linux编辑记事本,kali linux操作系统
  12. phoenix的元数据一般存在哪里_Phoenix的一些问题
  13. 日历视图的XML属性
  14. python怎么设计奥运五环_python 相关语法 图形绘制 奥运五环
  15. linux 渲染程序图层管理,Linux驱动多图层开发--lcdc/framebuffer的注册(RK平台)
  16. 51Nod-1182 完美字符串【排序+字符统计】
  17. 给实践者的算法学习指南
  18. php5.3.3以后php-fpm进程管理方式
  19. Redux的学习笔记-(一)(B站学习笔记)
  20. 计算机组成原理平均cpi怎么算_计算机组成原理(一)

热门文章

  1. python调用jar 性能_亲自有效---python 调用jar
  2. filter导致跨域失效_【SpringMVC】与权限拦截器冲突导致的Cors跨域设置失效问题...
  3. python画roc曲线需要什么数据,我如何根据这些数据绘制ROC曲线?
  4. linux 查看网卡是否万兆_linux 如何查看网卡带宽
  5. 个人计算机有控制器和运算器吗,cpu是由控制器和运算器组成的对还是错
  6. 时间组件选择一个时间段_衡南(光伏支架组件安装)施工队
  7. dbref java_查询mongodb dbref内部字段
  8. python3 rid1.7.4.2 控制台中文乱码_TL;DR - 有关 Python 2 和 Sublime Text 中文 Unicode 编码问题的分析与理解...
  9. Shell—grep、sed、awk
  10. 三层神经网络实现手写数字的识别(基于tensorflow)