数据预处理第7讲:具有离群点数据的缩放方法比较
论文合作、课题指导请联系QQ2279055353
California Housing 数据集
California Housing
数据集包括9个变量、20,640个观测。其中,特征Feature 0 (median income in a block) and feature 5 (number of households) 有不同的scales
,且带有大量的利群点(outliers
). 该数据集的这些特性使得它很难可视化,更重要的是,不同的scales
使很多机器学习算法降低了预测表现。
事实上,很多统计估计量假设特征具有零均值,可比较的scales
. 特别是,基于测度或梯度的估计量经常要求数据标准化,即,具有零均值、单位方差。但也有例外,基于决策树的估计量对任何scale
的数据都是健壮的。本讲介绍使用不同的scalers
, transformers
, and normalizers
, 把数据转换到一个预先定义的范围内。
Scalers
是线性变换,通过设置不同的shift
参数缩放特征。QuantileTransformer
提供非线性变换。PowerTransformer
提供映射到正态分布的非线性变换。normalization
是逐个样本的变换。
原始数据
对于特征0和特征5,左图显示的是完整数据,右图显示的是去掉离群点后的数据。对于大部分样本,特征number of households
在[0, 6], 而特征median income
在[0, 10]. 下面,我们介绍一些特征缩放方法。
StandardScaler
StandardScaler
移动均值,缩放特征到单位方差。然而,当数据里存在离群点时,计算经验均值与标准差将减小特征的值范围。尤其注意到,由于特征的离群点有不同的维度,使得每个变换后的特征的spread
不同。因此,StandardScaler不能保证变换后的特征scales
是平衡的。
MinMaxScaler
MinMaxScaler
缩放数据集的所有特征到[0, 1]上,并且对离群点敏感。
RobustScaler
是基于分位数缩放特征,所以受离群点的影响较小。
PowerTransformer
PowerTransformer
对特征应用幂变换,变换后的数据近似正态分布。幂变换找到最优的缩放因子稳定方差与最小化偏度。
Normalizer
Normalizer
缩放样本成单位范数、独立分布。
数据预处理第7讲:具有离群点数据的缩放方法比较相关推荐
- 数据预处理第6讲:正态变换
论文合作.课题指导请联系QQ2279055353 Box-Cox and Yeo-Johnson变换可以将来自不同分布的数据映射到正态分布.下面的例子将这两种变换应用到6种不同的概率分布数据:Logn ...
- 数据预处理概述和数据清洗
文章目录 1.数据预处理概述 2.数据可视化实例 2.1 2.2 2.3 3.数据清洗 3.1缺失值处理 3.2噪声平滑 3.3异常值的检测与处理 1.数据预处理概述 数据预处理的主要作用是为将未经处 ...
- Python数据分析-数据预处理
数据预处理 文章目录 数据预处理 1.前言 2.数据探索 2.1缺失值分析 2.2 异常值分析 2.2.1 简单统计量分析 2.2.2 3$\sigma$原则 2.2.3 箱线图分析 2.3 一致性分 ...
- R 多变量数据预处理_数据科学 | 第3讲 数据清洗与预处理
点击上方蓝字,记得关注我们! 在实际数据挖掘过程中,我们拿到的初始数据,往往存在缺失值.重复值.异常值或者错误值,通常这类数据被称为"脏数据",需要对其进行清洗.另外有时数据的原始 ...
- R 多变量数据预处理_R语言 数据管理与dplyr、tidyr | 第4讲
原创: 拴小林 数据驱动实践 6月11日 原文:R语言数据管理与dplyr.tidyr | 第4讲 往期回顾 R语言 | 第一部分:数据预处理 R语言|第2讲:生成数据 R语言常用的数据输入与输出方法 ...
- 干货|了解机器学习常用数据预处理
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 一.背景 在现实背景中,我们的数据集往往存在各种各样的问题,如果不 ...
- 数据预处理-异常值识别
数据预处理-异常值识别 from:http://shataowei.com/2017/08/09/%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86-%E5% ...
- Python数据预处理:机器学习、人工智能通用技术(1)
1 什么是数据预处理 数据预处理简而言之就是将原始数据装进一个预处理的黑匣子之后,产生出高质量数据用来适应相关技术或者算法模型.为了大家更明确的了解数据预处理,我们举个新闻分类的例子: 将原始的数据直 ...
- 手把手教你EEG脑电数据预处理-原理篇
目录 0. EEG data 1. 定位通道数据 2. 删除无用数据 3.滤波 4.分段 5.基线校正 6. 重参考 7. 降低采样率 8. 插值坏导 9. 独立主成分分析 10. 剔除坏段 本分享为 ...
- 数据预处理+数据清理
1.概述 实际的数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源.低质量的数据将会导致低质量的挖掘结果.有大量的数据预处理技术: - - 数据清理:可以用来清楚数 ...
最新文章
- java面试题十一 基本数据类型
- mysql 聚簇索引和非聚簇索引_图文并茂,说说MySQL索引
- 计算机逻辑判断函数函数知识点,计算机考点条件检测函数IF
- oracle 常用隐藏参数_oracle 查看隐藏参数
- java仿百度分页_java仿百度假分页代码实现
- 枚举smb共享期间出错_大量三星手机黑屏系统崩溃,客服:闰4月计算出错
- 大型语言模型,真的能够理解人类吗?
- nvme固件升级 linux,Intel NVME SSD 固件升级步骤
- 联想服务器r525维修,扩展性强易管理 联想R525 G2服务器拆解
- 《韩立刚计算机网络》第一章
- 获取微信所有聊天记录数据并通过Python制作词云图
- Win10桌面美化:推荐2款高质量桌面美化工具,值得收藏
- Excel中IF函数的嵌套用法(多条件)
- cfg格式文件在服务器哪里,cfg文件,小编教你怎么打开cfg文件
- 三、Amlogic A311D 音频驱动指南
- 66万新购奔驰漏油,车主欲暂停还贷,奔驰金融:贷款必须还!
- Lombok 新特性(idea插件)
- 163邮箱vip会员体系,看收费邮箱行业未来!
- oracle手机号码检验字数_oracle 检验身份证号是否正确基本方法
- js 点击input焦点不弹出键盘 PDA扫描枪直接贴代码