【Python】特征工程:数值特征的缩放与编码
数值特征是结构化竞赛中重要的特征,也是需要处理的特征。一般而言数值特征的操作,包括如下几个方面:
离群点处理
缺失值填充
缩放处理
编码处理
缺失值填充
如果使用非树模型,则需要考虑对数值特征进行填充。缺失值填充的基础方法包括:
使用统计值填充(均值/中位数/常数)
最近邻样本填充(行维度)
基于模型的填充
缩放处理
数值特征在归一化后直接加到深度模型中,直接对原始特征做归一化,或者通过BN层来做归一化。
RankGuass
将数值进行排序,然后将转换到[-1, 1]范围内,然后使用逆误差函数进行转换。
详细案例见:https://zhuanlan.zhihu.com/p/330333894
标准化
最大最小缩放
最大绝对值缩放
鲁邦缩放
计算数值具体的分位点Q1和Q3,
对数转换
分位点转换
计算数值分布的分位点,将分布转为均匀分布或正态分布。
幂变换
将数值转换为更加偏向正态分布的形态
Box-Cox 变换
Yeo-Johnson 变换
编码处理
原始特征
用原始的数值作为特征,或者在数值上面做一些计算。
二值化/分箱处理
对数值按照大小进行划分,可以直接使用pd.cut
实现。
Rank值
统计数值具体大小次序。
离散嵌入
利用分点可以将数值进行离散化,然后作为ID类特征加到模型中,正常参与模型训练。离散化有两个好处:一是引入非线性,二是可以过滤一些异常值。
域嵌入
将一个域内的数值型特征共享一个field embedding,可以理解为使用一个向量来转换。
树编码
通过树模型节点的划分对不同特征值划分到不同的节点,从而对其进行离散化。
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件
本站qq群851320808,加入微信群请扫码:
【Python】特征工程:数值特征的缩放与编码相关推荐
- 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)
机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...
- 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)
机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- ML之FE:数据处理—特征工程之特征三化(标准化【四大数据类型(数值型/类别型/字符串型/时间型)】、归一化、向量化)简介、代码实现、案例应用之详细攻略
ML之FE:数据处理-特征工程之特征三化(标准化[四大数据类型(数值型/类别型/字符串型/时间型)].归一化.向量化)简介.代码实现.案例应用之详细攻略 目录 真正意义的标准化与归一化 1.标准化/Z ...
- 特征工程常用于特征提取方法——数值特征
1 基本数值特征 本文以bilibili上的学习视频为笔记,代码原图 1.1 离散值处理 np.unique()看一下有多少类别 1.2 标签编码 LabelEncoder 将离散值映射为计算机可以识 ...
- AI基础:特征工程-数字特征处理
0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第二部 ...
- AI基础:特征工程-文本特征处理
0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第三部 ...
- 金融风控--申请评分卡模型--特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融风
金融风控-->申请评分卡模型-->特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融 ...
- 机器学习笔记七——特征工程之特征处理
特征处理 1.类别型特征的处理-特征编码 1.1 处理少量特征 1.2处理大量的类别特征 2.文本特征的处理--文本形式转换为向量形式 2.1 词集模型 2.2 词袋(Bag-of-Words,Bow ...
- 机器学习 笔记05——特征工程之特征处理:字典特征提取、文本特征提取
目录 1.类别型特征的处理-特征编码 1.1 处理少量特征 1.2 处理大量的类别特征 1.3 字典特征提取(特征离散化) ⭐ 1.4 文本特征提取(英文+中文)⭐ 1.4.1 英文数据演示 1. ...
最新文章
- java多线程实现方法
- C++中的运算符优先级
- 关于各种JOIN连接的解释说明【原创】
- iOS网络请求认证挑战
- Win10配置VSCode+Opencv3(C++) GCC环境
- linux5.5 里dns,linux red hat 5.5 dns 问题求解
- python基础数据类型操作系统_python基础数据类型
- excel 中一些单词的意思
- SOT23-6封装随机数发生芯片,串行接口
- 解决WORD无法多次编辑保存
- 如何给计算机关闭网络连接,win10系统的电脑怎么把网络连接关闭?
- 2021年顶级服务器备份软件和解决方案
- ubuntu 18.04 install tensorflow-nightly-gpu and tfp-nightly
- arm开发板与windows下的pjsip建立通话
- shortcut和残差连接
- css中“~”(波浪号)、“,”(逗号)、 “ + ”(加号)和 “ ”(大于号)是什么意思?
- 项目沟通管理流程的6大规范步骤
- 身体检查 生化全套 血常规 微量元素
- RecycleView简介及基本使用
- SDSC2019【游记】
热门文章
- Redis中的发布与订阅
- UTF-8编码的字符串拆分成单字、获取UTF-8字符串的字符个数的代码及原理(c++实现)...
- 用DateTime.ToString(string format)输出不同格式的日期
- .NET 2.0 RC的一个Bug
- 如何优化页面的响应速度 以及如何减少项目初次加载时间(转https://www.cnblogs.com/MarcoHan/p/5295398.html)...
- wannalfy 挑战赛8 F 白云的树(树形dp)
- 判断IE浏览器的版本号
- leetcode 18 -- 4Sum
- 安装phproject之一
- Windows CE授权费用