机器学习特征工程之特征缩放+无量纲化:非线性缩放(例如,sigmoid、tanh、arctan等)

在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling)。进行缩放后,多维特征将具有相近的尺度,这将帮助梯度下降算法更快地收敛。

你的预处理数据集中可能包含各种各样、不同比例的特征字段,比如美元、千克、价格,有的特征列数值范围在100以内,有的却达到几百万,差异很大。

很多机器学习模型不希望有这样大的差异,如果数据集各个属性之间的数值差异越小,则模型表现的会越好。

1) 提升模型的收敛速度
如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏)

2)提升模型的精度
归一化的另一好处是提高精度,这在涉及到一些距离计

机器学习特征工程之特征缩放+无量纲化:非线性缩放(例如,sigmoid、tanh、arctan等)相关推荐

  1. 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)

    机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  2. 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)

    机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...

  3. 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)

    机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  4. 特征缩放+无量纲化:最小最大缩放 - Python代码实现

    特征缩放+无量纲化:最小最大缩放 - Python代码实现 在机器学习的特征工程中,对于数据进行特征缩放和无量纲化是非常重要的步骤.其中,最小最大缩放(MinMaxScaler)是一种经典的无量纲化方 ...

  5. 《百面机器学习》第零问:什么是特征工程?什么是结构化数据?什么是非结构化数据?

    机器学习基本概念 1. 特征工程 1.1 特征工程的目的 1.2 怎么做特征工程? 1.2.1 特征构建 1.2.2 特征提取 1.2.2.1特征提取常用方法 1.2.3 特征选择 1.2.3.1 特 ...

  6. 机器学习项目实战-能源利用率 Part-3(特征工程与特征筛选)

    博主前期相关的博客可见下: 机器学习项目实战-能源利用率 Part-1(数据清洗) 机器学习项目实战-能源利用率 Part-2(探索性数据分析) 这部分进行的特征工程与特征筛选. 三 特征工程与特征筛 ...

  7. AI基础:特征工程-文本特征处理

    0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第三部 ...

  8. AI基础:特征工程-数字特征处理

    0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第二部 ...

  9. 【特征工程】特征工程技术与方法

    引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特 ...

  10. ML之FE:数据处理—特征工程之特征三化(标准化【四大数据类型(数值型/类别型/字符串型/时间型)】、归一化、向量化)简介、代码实现、案例应用之详细攻略

    ML之FE:数据处理-特征工程之特征三化(标准化[四大数据类型(数值型/类别型/字符串型/时间型)].归一化.向量化)简介.代码实现.案例应用之详细攻略 目录 真正意义的标准化与归一化 1.标准化/Z ...

最新文章

  1. 4个做管理后才知道的秘密
  2. stm 32 IO重映射
  3. HDOJ 1253 HDU 1253 胜利大逃亡 ACM 1253 IN HDU
  4. iOS事件机制(一)
  5. 引用和指针的差别,数组和指针的差别
  6. 我的邮局系统,欢迎大家注册!hotxf.com
  7. 案例 银行取款 java 1615136927
  8. nginx ssl 双向认证
  9. vs2017_enterprise正式版离线安装包bt下载
  10. 5.3.6 原子操作对非原子的操作排序
  11. 爱默生电梯维修服务器,爱默生电梯故障代码及导致原因和解决方法
  12. 《软件测试的艺术》读后感及笔记集合
  13. 多线程QThread的两种启用用法
  14. 虚拟计算机累加乘法,乘法指令之: MLA乘-累加指令
  15. 怎么用爬虫筛选简历_筛选数据分析师简历全流程
  16. vue日历加法定假假日
  17. android 儿童 汉字 学习 游戏,儿童学汉字游戏app
  18. Matlab-VISSIM联合仿真
  19. RTCP(一): RR--Receiver Reports 接收者报告
  20. Authorware自制拼图游戏

热门文章

  1. python for ArcGIS 绘制上海市环线地图
  2. linux快速扫ip段端口,小巧快速的IP地址和端口扫描工具Angry IP Scanner
  3. matlab中disparity,matlab disparity函数
  4. discuzdiy图片模块_Discuz各类幻灯片的制作方法 - 完全支持DIY
  5. 在字典中查找兄弟单词
  6. 无人驾驶感知篇之传感器标定(二)
  7. MQTT QOS Retained Message
  8. 正版饥荒搜不到服务器,饥荒正版无法刷出服务器问题的解决方法
  9. bp神经网络及ROC曲线绘制
  10. IDS-IPS入侵防御原理与实践