机器学习中的数据预处理方法与步骤
数据预处理是准备原始数据并使其适用于机器学习模型的过程。这是创建机器学习模型的第一步,也是至关重要的一步。
在创建机器学习项目时,我们并不总是遇到干净且格式化的数据。并且在对数据进行任何操作时,必须对其进行清理并以格式化的方式放置。所以为此,我们使用数据预处理任务。
为什么我们需要数据预处理?
真实世界的数据通常包含噪声、缺失值,并且可能采用无法直接用于机器学习模型的不可用格式。数据预处理是清理数据并使其适用于机器学习模型的必要任务,这也提高了机器学习模型的准确性和效率。
它涉及以下步骤:
- 获取数据集
- 导入相关库
- 导入数据集
- 查找缺失的数据
- 编码分类数据
- 将数据集拆分为训练集和测试集
- 特征缩放
一、获取数据集
要创建机器学习模型,我们需要的第一件事是数据集,因为机器学习模型完全适用于数据。以适当格式收集的特定问题的数据称为数据集。
数据集可能有不同的格式用于不同的目的,例如,如果我们想为商业目的创建关于肝病患者的机器学习模型,那么数据集将是肝病患者所需的数据集。数据集我们通常将其放入 CSV文件中。但是,有时,我们可能还需要使用 HTML 或 xlsx 文件。
什么是 CSV 文件?CSV 代表“逗号分隔值”文件;它是一种文件格式,允许我们保存表格数据,例如电子表格。它对于庞大的数据集很有用,并且可以在程序中使用这些数据集。
二、导入常见库
为了使用 Python 进行数据预处理,我们需要导入一些预定义的 Python 库。这些库用于执行一些特定的工作。我们将使用三个特定的库进行数据预处理,它们是:
- numpy
- matplotlib
- pandas
三、导入数据集
3.1 读取数据
一般使用pandas来读取文件:
data_set = pd .read_csv('Dataset.csv')
data_set是存储数据集的变量的名称,在函数内部,我们传递了数据集的名称。一旦我们执行了上面这行代码,它将成功地在我们的代码中导入数据集。
这里以心脏病数据集为例:
import pandas as pddata=pd.read_csv('heart.csv')data
读取如下:
3.2提取因变量和自变量
在机器学习中,区分特征矩阵(自变量)和因变量与数据集很重要。在我们的数据集中,有三个自变量age,sex…其中target是因变量。
提取自变量
x= data.iloc[:,:-1].values x
如下:
为了提取自变量,我们将使用Pandas 库的iloc[ ]方法。它用于从数据集中提取所需的行和列。在上面的代码中,第一个冒号(
机器学习中的数据预处理方法与步骤相关推荐
- sklearn中的数据预处理方法学习汇总
文章目录 sklearn中的数据预处理方法学习 一.标准化 Z-score标准化 Z-score标准化学习 Z-score标准化实现 Min-max标准化 MaxAbs标准化 二.非线性转换 映射到均 ...
- 机器学习中的数据预处理(sklearn preprocessing)
Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布).实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的 ...
- 阅读宋立恒《AI制胜:机器学习极简入门》第2章:机器学习中的数据预处理
文章目录 一.数据预处理的重要性和原则 二.数据预处理方法介绍 (一)数据预处理案例--标准化.归一化.二值化 1.标准化.归一化.二值化 2.范例程序 (二)数据预处理案例--缺失值补全.标签化 1 ...
- 数据挖掘中的数据预处理方法总结
1.原始数据存在的几个问题:不一致:重复:含噪声:维度高. 2.数据预处理包含数据清洗.数据集成.数据变换和数据归约几种方法. 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据 ...
- 深度学习中常用数据预处理方法
数据归一化处理,比较简单公式为 (x-min)/(max-min),主要目的是将数据的范围缩小至0-1之间,因而对数据绝对值的大小不敏感 2.数据标准化处理,也比较简单,公式为(x-avg)/sigm ...
- 机器学习中数据预处理方法
在知乎上也看到了这个,不知道哪个是原创,这里粘上链接 https://zhuanlan.zhihu.com/p/51131210 前言 数据预处理的重要性? 熟悉数据挖掘和机器学习的小伙伴们都知道,数 ...
- 机器学习-特征工程中的数据预处理
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习项目中的数据预处理与数据整理之比较
要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...
- sklearn中常用的数据预处理方法
常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardization or Mean Removal and Variance Scali ...
- 机器学习之金融信贷风控(二)申请评分卡中的数据预处理和特征衍生(未完待续)
申请评分卡中的数据预处理和特征衍生 模型处理的一般流程: 构建信用风险模型的特征 获取数据 链接:https://pan.baidu.com/s/1CsY11ArZ6YK3o1icghWj2w 提取码 ...
最新文章
- optimize table
- sap business one 笑谈
- php设置at定时,laravel定时任务
- 独家|OpenCV 1.2 如何用OpenCV扫描图像、查找表和测量时间(附链接)
- Linux下du加强版,灵活快速定位硬盘使用情况,无需安装
- pmcaff系列活动《走进今日头条》
- OpenStack 的Nova组件详解
- 实时计算-多级订单金额,及下级人数
- HLG1116-选美大赛
- ROS教程(四):RVIZ使用教程(详细图文)
- 疲劳测试分析软件,ANSYS nCode DesignLife高级疲劳耐久性分析_ANSYS仿真工具_其他软件_工业软件_安世亚太...
- 史上最全的Java学习路线
- Opencv 笔记7 凸包算法-Graham扫描法
- 欲买桂花同载酒,终不似,少年游
- SQL Server 学习笔记——T-SQL
- 华为数通HCIE面试看这个就够了系列——MPLS V*N
- 给ubuntu服务器文件创建Url下载链接
- 软硬件运维主要包括哪些个方面 需要注意哪些关键问题,一共八百字
- 【Android】Android 集成佳博80打印机打印票据
- 关于EasyExcel的invoke方法读取多少列
热门文章
- 理解之软件需求说明书
- Navicat premium11 一键破解 无需注册码
- [绍棠] Xcode9无线调试教程
- 【资源】16个在线机器学习视频与教程
- 伍德里奇计量经济学导论之计算机操作题的R语言实现(多元回归:估计)
- electron 软件 出现进程 XXX 可能无法关闭 解决方法
- java飞机大战boss素材_java小游戏飞机大战 源代码以及素材
- hijson,64位百度云永久免费,这是一个爱分享的世界
- java反编译 luyten_Java——反编译工具 JD-GUI procyon-decompiler luyten crf (转)
- 预测算法用java实现