1. 为什么常常需要对数值型数据的特征做归一化?

为了消除数据特征之间的量纲影响,使不同指标之间具有可比性。数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。

归一化的方法主要有:(1)线性函数归一化;
(2)零均值归一化(标准化)。

如果对输出结果范围有要求,或者数据较为稳定,不存在极端的取值的清况下,可以使用线性归一化;如果数据存在较多异常或噪声时,可以使用标准化.

通过梯度下降法求解的模型通常是需要归一化的,包括线性回归/逻辑回归/支持向量机/神经网络模型等,但是对于决策树模型则并不适用。

2. 怎样处理类别型特征?

类别型特征主要是指只在有限项内取值的特征。
常见的转换有以下三种:
(1)序号编码;用于处理类别间具有大小关系的数据
(2)独热码;用于处理类别间不具有大小关系的特征,在独热编码下,特征向量只有某一维取1,其他位置均取0.
(3)二进制编码;先用序号编码给每一个类别赋予一个类别ID,再用该类别ID的二进制编码作为结果。相比独热码,它的维数一般较少,节省了存储空间。

转载于:https://www.cnblogs.com/xl2432/p/10875003.html

1. 机器学习-特征工程相关推荐

  1. 机器学习特征工程之连续变量离散化:聚类法进行分箱

    机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...

  2. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  3. 机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)

    机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...

  4. 机器学习特征工程之连续变量离散化:等宽分箱

    机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  5. 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)

    机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  6. 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)

    机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...

  7. 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)

    机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  8. 双样本T检验——机器学习特征工程相关性分析实战

    最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识.在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两 ...

  9. 机器学习-特征工程中的特征降维

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  10. 机器学习-特征工程中的特征选择

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

最新文章

  1. Juniper SRX 常用命令
  2. django 1.8 官方文档翻译: 3-4-2 基于类的内建通用视图
  3. 又学一招,记录之,数字日期互转
  4. vue - .babelrc
  5. pytorch的backward参数
  6. NSX控制平面和静态路由更新流程1
  7. linux下Oracle 10g的安装
  8. 生成和解析二维码(zxing)
  9. RSA 算法图解+数学证明
  10. python 京东签到_Python实战—京东用户行为分析
  11. 通过浏览器中的F12中来查看接口的入参、出参和网页响应时间(新手教程)
  12. Grid布局练习案例
  13. Matlab中在一个矩阵后面加apos是什么意思?绘图时出现错误该如何修改,麻烦解答一下,谢谢了
  14. hihoCoder#1082 : 然而沼跃鱼早就看穿了一切
  15. 协处理器CP15介绍—MCR/MRC指令
  16. 计算机毕业设计之java+ssm基于微信小程序的游戏美术外包管理信息系统
  17. 超详细 quartus 新建工程 及 quartus 和 modelsim 联合仿真 以及 modelsim 的简易教程
  18. python手写答题卡识别_基于 Python OpenCV 的简易答题卡识别
  19. 开模锻造压力机行业调研报告 - 市场现状分析与发展前景预测
  20. 7个Linux手机平台比较 (1):进程间通信的异同

热门文章

  1. 【Java Web后台实验与开发】关于SSH框架的探索
  2. python【力扣LeetCode算法题库】6-Z 字形变换
  3. python基础练习(二)
  4. react实战项目_前端学习路线图--从网页设计到项目开发
  5. mac地址修改_快速更改WiFi MAC地址
  6. mysql更新linux_MySQL更新语句UPDATE深入探索
  7. 西安思源中学2021高考成绩查询入口,西安思源中学隆重举行2020-2021学年第二学期开学典礼...
  8. a标签被选择的底色_实施特殊管理,婴配乳粉标签书写有规矩(下)
  9. Ubuntu 18.04 Authentication Error
  10. stealwatch里的安全功能——ETA结果会显示加密套件以及key长度,还有流量大小(例如41MB)...