数据预处理是准备原始数据并使其适用于机器学习模型的过程。这是创建机器学习模型的第一步,也是至关重要的一步。

在创建机器学习项目时,我们并不总是遇到干净且格式化的数据。并且在对数据进行任何操作时,必须对其进行清理并以格式化的方式放置。所以为此,我们使用数据预处理任务。

为什么我们需要数据预处理?

真实世界的数据通常包含噪声、缺失值,并且可能采用无法直接用于机器学习模型的不可用格式。数据预处理是清理数据并使其适用于机器学习模型的必要任务,这也提高了机器学习模型的准确性和效率。

它涉及以下步骤:

  1. 获取数据集
  2. 导入相关库
  3. 导入数据集
  4. 查找缺失的数据
  5. 编码分类数据
  6. 将数据集拆分为训练集和测试集
  7. 特征缩放

一、获取数据集

要创建机器学习模型,我们需要的第一件事是数据集,因为机器学习模型完全适用于数据。以适当格式收集的特定问题的数据称为数据集

数据集可能有不同的格式用于不同的目的,例如,如果我们想为商业目的创建关于肝病患者的机器学习模型,那么数据集将是肝病患者所需的数据集。数据集我们通常将其放入 CSV文件中。但是,有时,我们可能还需要使用 HTML 或 xlsx 文件。

什么是 CSV 文件?CSV 代表“逗号分隔值”文件;它是一种文件格式,允许我们保存表格数据,例如电子表格。它对于庞大的数据集很有用,并且可以在程序中使用这些数据集。

二、导入常见库

为了使用 Python 进行数据预处理,我们需要导入一些预定义的 Python 库。这些库用于执行一些特定的工作。我们将使用三个特定的库进行数据预处理,它们是:

  1. numpy
  2. matplotlib
  3. pandas

三、导入数据集

3.1 读取数据

一般使用pandas来读取文件:

data_set =  pd .read_csv('Dataset.csv')

data_set是存储数据集的变量的名称,在函数内部,我们传递了数据集的名称。一旦我们执行了上面这行代码,它将成功地在我们的代码中导入数据集。

这里以心脏病数据集为例:

import pandas as pddata=pd.read_csv('heart.csv')data

读取如下:

3.2提取因变量和自变量

在机器学习中,区分特征矩阵(自变量)和因变量与数据集很重要。在我们的数据集中,有三个自变量age,sex…其中target是因变量。

提取自变量

x= data.iloc[:,:-1].values  x

如下:

为了提取自变量,我们将使用Pandas 库的iloc[ ]方法。它用于从数据集中提取所需的行和列。在上面的代码中,第一个冒号(

机器学习中的数据预处理方法与步骤相关推荐

  1. sklearn中的数据预处理方法学习汇总

    文章目录 sklearn中的数据预处理方法学习 一.标准化 Z-score标准化 Z-score标准化学习 Z-score标准化实现 Min-max标准化 MaxAbs标准化 二.非线性转换 映射到均 ...

  2. 机器学习中的数据预处理(sklearn preprocessing)

    Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布).实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的 ...

  3. 阅读宋立恒《AI制胜:机器学习极简入门》第2章:机器学习中的数据预处理

    文章目录 一.数据预处理的重要性和原则 二.数据预处理方法介绍 (一)数据预处理案例--标准化.归一化.二值化 1.标准化.归一化.二值化 2.范例程序 (二)数据预处理案例--缺失值补全.标签化 1 ...

  4. 数据挖掘中的数据预处理方法总结

    1.原始数据存在的几个问题:不一致:重复:含噪声:维度高. 2.数据预处理包含数据清洗.数据集成.数据变换和数据归约几种方法. 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据 ...

  5. 深度学习中常用数据预处理方法

    数据归一化处理,比较简单公式为 (x-min)/(max-min),主要目的是将数据的范围缩小至0-1之间,因而对数据绝对值的大小不敏感 2.数据标准化处理,也比较简单,公式为(x-avg)/sigm ...

  6. 机器学习中数据预处理方法

    在知乎上也看到了这个,不知道哪个是原创,这里粘上链接 https://zhuanlan.zhihu.com/p/51131210 前言 数据预处理的重要性? 熟悉数据挖掘和机器学习的小伙伴们都知道,数 ...

  7. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  8. 机器学习项目中的数据预处理与数据整理之比较

    要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...

  9. sklearn中常用的数据预处理方法

    常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardization or Mean Removal and Variance Scali ...

  10. 机器学习之金融信贷风控(二)申请评分卡中的数据预处理和特征衍生(未完待续)

    申请评分卡中的数据预处理和特征衍生 模型处理的一般流程: 构建信用风险模型的特征 获取数据 链接:https://pan.baidu.com/s/1CsY11ArZ6YK3o1icghWj2w 提取码 ...

最新文章

  1. optimize table
  2. sap business one 笑谈
  3. php设置at定时,laravel定时任务
  4. 独家|OpenCV 1.2 如何用OpenCV扫描图像、查找表和测量时间(附链接)
  5. Linux下du加强版,灵活快速定位硬盘使用情况,无需安装
  6. pmcaff系列活动《走进今日头条》
  7. OpenStack 的Nova组件详解
  8. 实时计算-多级订单金额,及下级人数
  9. HLG1116-选美大赛
  10. ROS教程(四):RVIZ使用教程(详细图文)
  11. 疲劳测试分析软件,ANSYS nCode DesignLife高级疲劳耐久性分析_ANSYS仿真工具_其他软件_工业软件_安世亚太...
  12. 史上最全的Java学习路线
  13. Opencv 笔记7 凸包算法-Graham扫描法
  14. 欲买桂花同载酒,终不似,少年游
  15. SQL Server 学习笔记——T-SQL
  16. 华为数通HCIE面试看这个就够了系列——MPLS V*N
  17. 给ubuntu服务器文件创建Url下载链接
  18. 软硬件运维主要包括哪些个方面 需要注意哪些关键问题,一共八百字
  19. 【Android】Android 集成佳博80打印机打印票据
  20. 关于EasyExcel的invoke方法读取多少列

热门文章

  1. 理解之软件需求说明书
  2. Navicat premium11 一键破解 无需注册码
  3. [绍棠] Xcode9无线调试教程
  4. 【资源】16个在线机器学习视频与教程
  5. 伍德里奇计量经济学导论之计算机操作题的R语言实现(多元回归:估计)
  6. electron 软件 出现进程 XXX 可能无法关闭 解决方法
  7. java飞机大战boss素材_java小游戏飞机大战 源代码以及素材
  8. hijson,64位百度云永久免费,这是一个爱分享的世界
  9. java反编译 luyten_Java——反编译工具 JD-GUI procyon-decompiler luyten crf (转)
  10. 预测算法用java实现