机器学习特征工程之特征缩放+无量纲化:行归一化(范数化,Normalizer)

在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling)。进行缩放后,多维特征将具有相近的尺度,这将帮助梯度下降算法更快地收敛。

你的预处理数据集中可能包含各种各样、不同比例的特征字段,比如美元、千克、价格,有的特征列数值范围在100以内,有的却达到几百万,差异很大。

很多机器学习模型不希望有这样大的差异,如果数据集各个属性之间的数值差异越小,则模型表现的会越好。

1) 提升模型的收敛速度
如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏)

2)提升模型的精度
归一化的另一好处是提高精度,这在涉及到一些距离计算的算法时效果显著&

机器学习特征工程之特征缩放+无量纲化:行归一化(范数化,Normalizer)相关推荐

  1. 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)

    机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  2. 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)

    机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...

  3. 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)

    机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  4. 机器学习项目实战-能源利用率 Part-3(特征工程与特征筛选)

    博主前期相关的博客可见下: 机器学习项目实战-能源利用率 Part-1(数据清洗) 机器学习项目实战-能源利用率 Part-2(探索性数据分析) 这部分进行的特征工程与特征筛选. 三 特征工程与特征筛 ...

  5. AI基础:特征工程-文本特征处理

    0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第三部 ...

  6. AI基础:特征工程-数字特征处理

    0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第二部 ...

  7. 【特征工程】特征工程技术与方法

    引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特 ...

  8. ML之FE:数据处理—特征工程之特征三化(标准化【四大数据类型(数值型/类别型/字符串型/时间型)】、归一化、向量化)简介、代码实现、案例应用之详细攻略

    ML之FE:数据处理-特征工程之特征三化(标准化[四大数据类型(数值型/类别型/字符串型/时间型)].归一化.向量化)简介.代码实现.案例应用之详细攻略 目录 真正意义的标准化与归一化 1.标准化/Z ...

  9. ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测

    ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测 目录 输出结果 设计思路 核心代码 输出 ...

  10. 线性稀疏自编码机_特征工程之特征缩放amp;特征编码

    机器学习入门系列(2)--如何构建一个完整的机器学习项目,第五篇! 本篇文章会继续介绍特征工程的内容,这次会介绍特征缩放和特征编码,前者主要是归一化和正则化,用于消除量纲关系的影响,后者包括了序号编码 ...

最新文章

  1. 《社交网站界面设计(原书第2版)》——2.10 自我反省式的出错信息
  2. python fixture_python pytest进阶之xunit fixture详解
  3. python100个免费实例-Python实例100个(基于最新Python3.7版本)
  4. python中文昵称-python3随机生成中文字符(随机生成两字或三字的名字)
  5. oracle 创建存储过程_Oracle存储过程编程:流程控制选择结构和循环结构总结
  6. 机器学习问题总结(02)
  7. C++中引用()基础认识
  8. Chapter1-6_Speech_Recognition(RNN-T Training)
  9. MySQL · 物理备份 · Percona XtraBackup 备份原理
  10. 进程通信方法的特点以及使用场景
  11. 创建Python数据分析的Docker镜像+Docker自定义镜像commit,Dockerfile方式解析+pull,push,rmi操作...
  12. tensorflow之数据集
  13. CF gym101933 K King's Colors——二项式反演
  14. day4:单用户及救援模式及互相登录
  15. 西门子200PLC指令详解——比较指令
  16. Python:导出QQ聊天记录-让我们看看逗比群友都在聊什么
  17. Flutter 开源社交电商项目Flutter_Mycommunity_App
  18. 道可道,非常道 ---8个做事之“理”
  19. 织梦屏蔽广告法极限词和敏感词插件【防职业举报者恶意投诉被工商部门天价罚款】
  20. 优化问题-Lagrange函数和共轭函数

热门文章

  1. HDOJ 1164 Eddy's research I(拆分成素数因子)
  2. 大疆rm专属通道算法类投递总结(2022.08)
  3. 查询和01号的同学学习的课程完全相同的其他同学的信息的优化
  4. java使用egl_EGL 学习
  5. [转]汽车ARM攒机指南
  6. 常用计算机键,键盘常用15个功能键(电脑入门基本知识键盘)
  7. 文本文件编码 email编码
  8. 三种近场通信的特点,以及未来近场通信技术的应用场景的分析和预测
  9. 怎么做照片拼图?这些方法值得收藏
  10. [网络安全学习篇3]:批处理、病毒、用户与组管理、破解系统密码(千峰网络安全视频笔记 3 day)