机器学习(4)特征预处理
目录
一、基础理论
1、定义
2、特征数据的无量纲化
3、归一化、标准化分析
归一化
标准化
二、归一化
1、归一化基本原理
过程:
1、读取待处理数据
2、创建归一化转换器
3、归一化处理(调用fit_transform)
代码
三、标准化
1、标准化基本原理
2、API
过程:
1、读取待处理数据
2、创建标准化转换器
3、标准化处理
代码
总代码
一、基础理论
1、定义
特征预处理:通过一些转换函数,将特征数据转换成更加适合计算的算法模型。
2、特征数据的无量纲化
归一化、标准化
3、归一化、标准化分析
归一化
归一化要用到最大值、最小值对数据处理,那如果最大、最小值出了问题,归一化结果很容易受到影响。 (鲁棒性(健壮性)较差)
标准化
标准化要用到均值、标准差对数据处理,有较强的鲁棒性(健壮性)
缺点显而易见,所以,标准化更常用。(标准化更适合嘈杂的大数据场景)
二、归一化
1、归一化基本原理
对原始数据进行变换,把数据映射到(0,1)之间。
(max、min分别为某一特征最大、最小值)(默认值:mx为1,mi为0)
例:
过程:
1、读取待处理数据
读取数据:
# 1、读取待归一化的数据data = pd.read_csv('dating.txt')print(data)
保留待归一化的数据(忽略掉不需要归一化的部分):
# 保留需要归一化的数据(前三列)data = data.iloc[:, :3]print(data)
2、创建归一化转换器
# 2、创建归一化转换器transfer = MinMaxScaler()
3、归一化处理(调用fit_transform)
# 3、归一化处理(调用fit_transform)new_data = transfer.fit_transform(data)print(new_data)
归一化缺陷:由于本身是根据最大、最小值求出来的,那如果最大、最小值出了问题,归一化结果很容易受到影响。 (鲁棒性较差)
代码
# 归一化处理
def Normalize():# 1、读取待归一化的数据data = pd.read_csv('dating.txt')# print(data)# 保留需要归一化的数据(前三列)data = data.iloc[:, :3]print(data)# 2、创建归一化转换器transfer = MinMaxScaler()# 3、归一化处理(调用fit_transform)new_data = transfer.fit_transform(data)print(new_data)
三、标准化
1、标准化基本原理
定义:
通过对原始数据进行变换,把数据变换到均值为0,标准差为1的范围。
公式:
(即:result = (x-均值)/标准差)
标准化优势:
便于处理异常点。(少量异常点对均值和标准差影响不大)
2、API
sklearn.preprocessing.StandardScaler
过程:
1、读取待处理数据
和上面一样
# 1、读取待归一化的数据data = pd.read_csv('dating.txt')# print(data)# 保留需要标准化的数据(前三列)data = data.iloc[:, :3]print(data)
2、创建标准化转换器
# 2、创建标准化转换器transfer = StandardScaler()
3、标准化处理
# 3、标准化处理(调用fit_transform)new_data = transfer.fit_transform(data)print(new_data)
代码
# 标准化处理
def Standardize():# 1、读取待归一化的数据data = pd.read_csv('dating.txt')# print(data)# 保留需要标准化的数据(前三列)data = data.iloc[:, :3]print(data)# 2、创建标准化转换器transfer = StandardScaler()# 3、标准化处理(调用fit_transform)new_data = transfer.fit_transform(data)print(new_data)
总代码
# 数据预处理 -- 归一化和标准化
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler# 数据集
data = ['我虽然是一只小菜鸡', '目前比较菜', '但是在不断干饭', '努力成为战斗鸡']# 归一化处理
def Normalize():# 1、读取待归一化的数据data = pd.read_csv('dating.txt')# print(data)# 保留需要归一化的数据(前三列)data = data.iloc[:, :3]print(data)# 2、创建归一化转换器transfer = MinMaxScaler()# 3、归一化处理(调用fit_transform)new_data = transfer.fit_transform(data)print(new_data)# 标准化处理
def Standardize():# 1、读取待归一化的数据data = pd.read_csv('dating.txt')# print(data)# 保留需要标准化的数据(前三列)data = data.iloc[:, :3]print(data)# 2、创建标准化转换器transfer = StandardScaler()# 3、标准化处理(调用fit_transform)new_data = transfer.fit_transform(data)print(new_data)if __name__ == '__main__':# 归一化处理# Normalize()# 标准化处理Standardize()
机器学习(4)特征预处理相关推荐
- 自动预测保险理赔:机器学习之特征预处理(Kaggle保险索赔竞赛案例)
原文地址:https://yq.aliyun.com/articles/65158?spm=5176.8091938.0.0.3Wl7HH 摘要: 针对Kaggle保险索赔竞赛给定的数据集,本文详细介 ...
- 自动预测保险理赔:用具体案例讲解机器学习之特征预处理
首发地址:https://yq.aliyun.com/articles/65158 本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译. 以下为译文: 机器学习:特征预处理 我正在参加Kag ...
- 【机器学习】特征预处理
特征预处理 目标 了解数值型数据.类别型数据特点 应用MinMaxScaler实现对特征数据进行归一化 应用StandardScaler实现对特征数据进行标准化 1.什么是特征预处理 特征预处理:通过 ...
- 机器学习系列|从白富美相亲看特征预处理与选择
上篇 1. 引言 再过一个月就是春节,相信有很多码农就要准备欢天喜地地回家过(xiang)年(qin)了.我们今天也打算讲一个相亲的故事. 讲机器学习为什么要讲相亲?被讨论群里的小伙伴催着相亲,哦不, ...
- 机器学习之特征工程--特征预处理(上)
机器学习特征工程--特征预处理(上) 最近又重新看了下常用的特征预处理方法,主要来源是sklearn官方文档,一些关键信息记录下,留存用,有些乱和杂,抽时间再整理. 此为上篇,主要包括:线性转化,非线 ...
- 机器学习算法基础——数据特征预处理
08.特征预处理-归一化 特征处理 通过特定的统计方法(数学方法)将数据转换成算法要求的数据 数值型数据:标准缩放: 归一化 标准化 缺失值 类别型数据:one-hot编码 时间 ...
- 机器学习-3.数据特征预处理与数据降维
特征预处理定义:通过特定的统计方法(数学方法)将数据转换成算法要求的数据. 处理方法 数值型数据:标准缩放(1.归一化,2.标准化):缺失值. 类别型数据:one-hot编码. 时间类型:时间的切分. ...
- 【机器学习】特征工程概述
特征工程 "数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已." 1.概念 维基百科:特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过 ...
- 特征预处理--长尾分布的处理方案
声明:版权所有,转载请联系作者并注明出处 http://blog.csdn.net/u013719780?viewmode=contents log变换的论文:http://snap.stanfor ...
最新文章
- matplotlib模块学习
- Scala类的继承和抽象类
- Oracle 10g数据库基础之基本查询语句-中-函数
- vim 粘贴代码格式
- 前端学习(2565):watch监听
- http 断点续传,Windows下HTTP方式单线程下载
- 【原创】ABAP根据文件路径获取文件所在目录
- STM32F103自定义的printf函数的实现
- 做生意失败是一种什么体验?创业中有哪些雷区需要注意?
- Dw cs6的详细下载安装教程对网页设计需要cs6的同学
- Android实现查看预览PDF文件功能
- 触发器引起的删除对象报错ORA-00604 ORA-20001的排查
- 黑苹果 版本 安装 驱动 usb 显卡 声卡 网卡 8169 kext 变色龙
- 虚拟机中ip地址总是自动变化解决办法
- Win7共享文件夹别人访问不了?
- mysql怎么截取时分秒_mysql获取表中日期的年月日时分秒
- 谈个人网站发展及赚钱
- 直播预告|ICML专场最后一场啦!来蹲守直播间呀
- 梯度下降的超参数大于等于2什么意思_大白话5分钟带你走进人工智能-第七节梯度概念和梯度迭代过程(2)...
- 寺库TRYTRY CMO欧泽超:技术向善,科学变美