在现实生活中,一个目标变量(y)可以认为是由多个特征变量(x)影响和控制的,那么这些特征变量的量纲和数值的量级就会不一样,比如x1 = 10000,x2 = 1,x3 = 0.5 可以很明显的看出特征x1和x2、x3存在量纲的差距;x1对目标变量的影响程度将会比x2、x3对目标变量的影响程度要大(可以这样认为目标变量由x1掌控,x2,x3影响较小,一旦x1的值出现问题,将直接的影响到目标变量的预测,把目标变量的预测值由x1独揽大权,会存在高风险的预测)而通过标准化处理,可以使得不同的特征变量具有相同的尺度(也就是说将特征的值控制在某个范围内),这样目标变量就可以由多个相同尺寸的特征变量进行控制,这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了。比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
简而言之:对数据标准化的目的是消除特征之间的差异性,便于特征一心一意学习权重。
由(1)我们可以知道当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理,反之则不需要进行数据标准化。

为什么要进行数据标准化?相关推荐

  1. 山西计算机软考知识点,计算机软考考试必备知识点:数据标准化

    信息和信息处理的规范和标准是企业信息化的一个重要方面,信息流程规范化,数据标准化,是关系到企业信息化发展的重要环节,对此企业在信息化建设中要给予足够重视,要为企业信息化的进一步推进奠定良好的基础. 信 ...

  2. R语言使用Rtsne包进行TSNE分析:通过数据类型筛选数值数据、scale函数进行数据标准化缩放、提取TSNE分析结果合并到原dataframe中(tSNE with Rtsne package)

    R语言使用Rtsne包进行TSNE分析:通过数据类型筛选数值数据.scale函数进行数据标准化缩放.提取TSNE分析结果合并到原dataframe中(tSNE with Rtsne package) ...

  3. 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)

    机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  4. 快讯 | 第三届数据标准化及治理优秀评选顺利结束

    5月10日,第三届数据标准化及治理优秀实践评审会在清华大学FIT楼成功举行.本届参与评审的实践水平高于前两届,对于我国数据治理实践的方法.经验的积累和分享,起到了积极的推动作用.评审汇集中国数据治理领 ...

  5. 第二届数据标准化及治理奖评选顺利结束

    2018年5月5日,第二届数据标准化及治理奖实践奖的现场评审在中国电子技术标准研究院成功举行.此次评审活动于2017年11月12日举行的第二届数据标准化及治理大会上正式宣布启动,历时半年的筹备和组织, ...

  6. 快讯 | 第二届数据标准化及治理大会成功举办,清华力量助推中国数据标准化建设

    2017年11月12日上午,第二届中国数据标准化与治理大会在北京万寿宾馆隆重举行.本届会议旨在持续汇集专家人才和经验,促进领域发展和提升业界实践水平.大会由中国工业和信息化部和国家标准化管理委员会指导 ...

  7. 近期活动盘点:数据标准化及治理大会、IBM苏中讲座、产业创新交流会、企业走访和数据法学征稿(11.6-11.12)

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 清华大学iCenter产业创新交流会 2017年11月6日 活动简介: 本次活动结合iCenter在智能制造.大数据.数字现实技术.人工智 ...

  8. sklearn.preprocessing下的数据标准化(scale、MinMaxScaler)

    文章目录 scale MinMaxScaler scale from sklearn.preprocessing import scale Center to the mean and compone ...

  9. 数据标准化(归一化)

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可 ...

  10. 大数据标准化白皮书正式发布

    2016年是国家大数据政策和标准落地的关键一年.3月,中国首个国家级大数据(贵州)综合试验区正式批复,国内数据资源管理与共享开放等方面系统性试验将陆续开展.5月,贵州数博会期间,大数据标准化论坛上发布 ...

最新文章

  1. hdu4971 流-最大权闭包
  2. 区块链 java 开源_详细介绍Java区块链开源代码背后的内容
  3. Vbox linux虚拟机桥接(VM操作也类似)
  4. 位地址和字节地址换算_面试常考,项目易错,长文详解C/C++中的字节对齐
  5. python传递参数格式_Python语言学习基础篇之Python发送Post请求之根据参数位置传参、数据类型、不同方式传参...
  6. linux c之snprintf()和sprintf()区别
  7. Docker运行操作系统环境(BusyBoxAlpineDebian/UbuntuCentOS/Fedora)
  8. 分析数十年的ICS利用,确定漏洞修复优先级
  9. .NET设计模式(9):桥接模式(Bridge Pattern)(转)
  10. C++模板元编程(3)模板显示具体化
  11. 数字IC秋招手撕代码(二)50%占空比的三分频
  12. 【翻译】Dremel: Interactive Analysis of WebScale Datasets
  13. VS2015新建MFC工程默认存储位置,默认位置修改
  14. Quality-Estimation0 (翻译质量评价-使用 BERT 特征训练 QE 模型)
  15. UML设计——网上信用卡管理系统分析与设计(新手)
  16. 如何使用Buddy构建和部署Web应用
  17. pixhawk2.4.8飞控相关资料
  18. 弘辽科技浅谈移动互联网时代如何定位品牌
  19. 昆明:推进智慧交通 缓解交通拥堵
  20. python求三个数平均值_python求三个数平均值

热门文章

  1. 异地远程群晖NAS教程【cpolar内网穿透】
  2. Golden Gate
  3. /usr/bin/ld: cannot find -lxxx错误的通用解决方法
  4. ffmpeg 实现音频aac编码
  5. ROS2网络课程资料分享2019.10.26
  6. 机器学习实战(一):Document clustering 文档聚类
  7. Hibiscus的脑机接口学习周报(2023/1/16~2023/1/22)
  8. 高绩效团队的建设与管理
  9. 金蝶EAS DEP脚本(5)给常用控件添加值改变事件
  10. 前非著名程序员,现不知名产品人