论文合作、课题指导请联系QQ2279055353

California Housing 数据集

California Housing数据集包括9个变量、20,640个观测。其中,特征Feature 0 (median income in a block) and feature 5 (number of households) 有不同的scales,且带有大量的利群点(outliers). 该数据集的这些特性使得它很难可视化,更重要的是,不同的scales使很多机器学习算法降低了预测表现。
事实上,很多统计估计量假设特征具有零均值,可比较的scales. 特别是,基于测度或梯度的估计量经常要求数据标准化,即,具有零均值、单位方差。但也有例外,基于决策树的估计量对任何scale的数据都是健壮的。本讲介绍使用不同的scalers, transformers, and normalizers, 把数据转换到一个预先定义的范围内。

  • Scalers是线性变换,通过设置不同的shift参数缩放特征。
  • QuantileTransformer提供非线性变换。
  • PowerTransformer提供映射到正态分布的非线性变换。
  • normalization是逐个样本的变换。

原始数据

对于特征0和特征5,左图显示的是完整数据,右图显示的是去掉离群点后的数据。对于大部分样本,特征number of households在[0, 6], 而特征median income在[0, 10]. 下面,我们介绍一些特征缩放方法。

StandardScaler

StandardScaler移动均值,缩放特征到单位方差。然而,当数据里存在离群点时,计算经验均值与标准差将减小特征的值范围。尤其注意到,由于特征的离群点有不同的维度,使得每个变换后的特征的spread不同。因此,StandardScaler不能保证变换后的特征scales是平衡的。

MinMaxScaler

MinMaxScaler缩放数据集的所有特征到[0, 1]上,并且对离群点敏感。

RobustScaler是基于分位数缩放特征,所以受离群点的影响较小。

PowerTransformer

PowerTransformer对特征应用幂变换,变换后的数据近似正态分布。幂变换找到最优的缩放因子稳定方差与最小化偏度。

Normalizer

Normalizer缩放样本成单位范数、独立分布。

数据预处理第7讲:具有离群点数据的缩放方法比较相关推荐

  1. 数据预处理第6讲:正态变换

    论文合作.课题指导请联系QQ2279055353 Box-Cox and Yeo-Johnson变换可以将来自不同分布的数据映射到正态分布.下面的例子将这两种变换应用到6种不同的概率分布数据:Logn ...

  2. 数据预处理概述和数据清洗

    文章目录 1.数据预处理概述 2.数据可视化实例 2.1 2.2 2.3 3.数据清洗 3.1缺失值处理 3.2噪声平滑 3.3异常值的检测与处理 1.数据预处理概述 数据预处理的主要作用是为将未经处 ...

  3. Python数据分析-数据预处理

    数据预处理 文章目录 数据预处理 1.前言 2.数据探索 2.1缺失值分析 2.2 异常值分析 2.2.1 简单统计量分析 2.2.2 3$\sigma$原则 2.2.3 箱线图分析 2.3 一致性分 ...

  4. R 多变量数据预处理_数据科学 | 第3讲 数据清洗与预处理

    点击上方蓝字,记得关注我们! 在实际数据挖掘过程中,我们拿到的初始数据,往往存在缺失值.重复值.异常值或者错误值,通常这类数据被称为"脏数据",需要对其进行清洗.另外有时数据的原始 ...

  5. R 多变量数据预处理_R语言 数据管理与dplyr、tidyr | 第4讲

    原创: 拴小林 数据驱动实践 6月11日 原文:R语言数据管理与dplyr.tidyr | 第4讲 往期回顾 R语言 | 第一部分:数据预处理 R语言|第2讲:生成数据 R语言常用的数据输入与输出方法 ...

  6. 干货|了解机器学习常用数据预处理

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 一.背景 在现实背景中,我们的数据集往往存在各种各样的问题,如果不 ...

  7. 数据预处理-异常值识别

    数据预处理-异常值识别  from:http://shataowei.com/2017/08/09/%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86-%E5% ...

  8. Python数据预处理:机器学习、人工智能通用技术(1)

    1 什么是数据预处理 数据预处理简而言之就是将原始数据装进一个预处理的黑匣子之后,产生出高质量数据用来适应相关技术或者算法模型.为了大家更明确的了解数据预处理,我们举个新闻分类的例子: 将原始的数据直 ...

  9. 手把手教你EEG脑电数据预处理-原理篇

    目录 0. EEG data 1. 定位通道数据 2. 删除无用数据 3.滤波 4.分段 5.基线校正 6. 重参考 7. 降低采样率 8. 插值坏导 9. 独立主成分分析 10. 剔除坏段 本分享为 ...

  10. 数据预处理+数据清理

    1.概述 实际的数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源.低质量的数据将会导致低质量的挖掘结果.有大量的数据预处理技术: - - 数据清理:可以用来清楚数 ...

最新文章

  1. java面试题十一 基本数据类型
  2. mysql 聚簇索引和非聚簇索引_图文并茂,说说MySQL索引
  3. 计算机逻辑判断函数函数知识点,计算机考点条件检测函数IF
  4. oracle 常用隐藏参数_oracle 查看隐藏参数
  5. java仿百度分页_java仿百度假分页代码实现
  6. 枚举smb共享期间出错_大量三星手机黑屏系统崩溃,客服:闰4月计算出错
  7. 大型语言模型,真的能够理解人类吗?
  8. nvme固件升级 linux,Intel NVME SSD 固件升级步骤
  9. 联想服务器r525维修,扩展性强易管理 联想R525 G2服务器拆解
  10. 《韩立刚计算机网络》第一章
  11. 获取微信所有聊天记录数据并通过Python制作词云图
  12. Win10桌面美化:推荐2款高质量桌面美化工具,值得收藏
  13. Excel中IF函数的嵌套用法(多条件)
  14. cfg格式文件在服务器哪里,cfg文件,小编教你怎么打开cfg文件
  15. 三、Amlogic A311D 音频驱动指南
  16. 66万新购奔驰漏油,车主欲暂停还贷,奔驰金融:贷款必须还!
  17. Lombok 新特性(idea插件)
  18. 163邮箱vip会员体系,看收费邮箱行业未来!
  19. oracle手机号码检验字数_oracle 检验身份证号是否正确基本方法
  20. js 点击input焦点不弹出键盘 PDA扫描枪直接贴代码

热门文章

  1. javascript面试题(一)
  2. 远程桌面连接的几种方法
  3. mybatis加载属性
  4. ELK详解(二十)——Elasticsearch索引管理
  5. 手撸 webpack4.x 配置(二)
  6. mount error(12): Cannot allocate memory解决办法
  7. 分布式爬虫搭建系列 之二-----神器PyCharm的安装
  8. 《中国人工智能学会通讯》——第12章 12.1 新世纪知识工程—— 在哪里跨越
  9. TLS总结(上)——我们为啥需要TLS
  10. 贪吃蛇游戏C语言源代码学习