1. 机器学习-特征工程
1. 为什么常常需要对数值型数据的特征做归一化?
为了消除数据特征之间的量纲影响,使不同指标之间具有可比性。数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。
归一化的方法主要有:(1)线性函数归一化;
(2)零均值归一化(标准化)。
如果对输出结果范围有要求,或者数据较为稳定,不存在极端的取值的清况下,可以使用线性归一化;如果数据存在较多异常或噪声时,可以使用标准化.
通过梯度下降法求解的模型通常是需要归一化的,包括线性回归/逻辑回归/支持向量机/神经网络模型等,但是对于决策树模型则并不适用。
2. 怎样处理类别型特征?
类别型特征主要是指只在有限项内取值的特征。
常见的转换有以下三种:
(1)序号编码;用于处理类别间具有大小关系的数据
(2)独热码;用于处理类别间不具有大小关系的特征,在独热编码下,特征向量只有某一维取1,其他位置均取0.
(3)二进制编码;先用序号编码给每一个类别赋予一个类别ID,再用该类别ID的二进制编码作为结果。相比独热码,它的维数一般较少,节省了存储空间。
转载于:https://www.cnblogs.com/xl2432/p/10875003.html
1. 机器学习-特征工程相关推荐
- 机器学习特征工程之连续变量离散化:聚类法进行分箱
机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...
- 机器学习特征工程之连续变量离散化:等频分箱
机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
- 机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)
机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...
- 机器学习特征工程之连续变量离散化:等宽分箱
机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
- 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)
机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...
- 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)
机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- 双样本T检验——机器学习特征工程相关性分析实战
最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识.在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两 ...
- 机器学习-特征工程中的特征降维
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习-特征工程中的特征选择
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
最新文章
- Juniper SRX 常用命令
- django 1.8 官方文档翻译: 3-4-2 基于类的内建通用视图
- 又学一招,记录之,数字日期互转
- vue - .babelrc
- pytorch的backward参数
- NSX控制平面和静态路由更新流程1
- linux下Oracle 10g的安装
- 生成和解析二维码(zxing)
- RSA 算法图解+数学证明
- python 京东签到_Python实战—京东用户行为分析
- 通过浏览器中的F12中来查看接口的入参、出参和网页响应时间(新手教程)
- Grid布局练习案例
- Matlab中在一个矩阵后面加apos是什么意思?绘图时出现错误该如何修改,麻烦解答一下,谢谢了
- hihoCoder#1082 : 然而沼跃鱼早就看穿了一切
- 协处理器CP15介绍—MCR/MRC指令
- 计算机毕业设计之java+ssm基于微信小程序的游戏美术外包管理信息系统
- 超详细 quartus 新建工程 及 quartus 和 modelsim 联合仿真 以及 modelsim 的简易教程
- python手写答题卡识别_基于 Python OpenCV 的简易答题卡识别
- 开模锻造压力机行业调研报告 - 市场现状分析与发展前景预测
- 7个Linux手机平台比较 (1):进程间通信的异同
热门文章
- 【Java Web后台实验与开发】关于SSH框架的探索
- python【力扣LeetCode算法题库】6-Z 字形变换
- python基础练习(二)
- react实战项目_前端学习路线图--从网页设计到项目开发
- mac地址修改_快速更改WiFi MAC地址
- mysql更新linux_MySQL更新语句UPDATE深入探索
- 西安思源中学2021高考成绩查询入口,西安思源中学隆重举行2020-2021学年第二学期开学典礼...
- a标签被选择的底色_实施特殊管理,婴配乳粉标签书写有规矩(下)
- Ubuntu 18.04 Authentication Error
- stealwatch里的安全功能——ETA结果会显示加密套件以及key长度,还有流量大小(例如41MB)...