文章目录

  • 一.噪声数据
    • 1.1分箱
    • 1.2分箱法光滑数据
    • 1.3噪声数据
    • 1.4回归Regression
    • 1.5聚类Cluster Analysis
    • 1.6 数据清理作为一个过程
      • 1.6.1 偏差检测
      • 1.6.2 数据变换(纠正偏差)
      • 1.6.3迭代
    • 1.6.4 加强交互性
  • 二. 数据集成和变换
    • 2.1 数据集成
    • 2.2 数据变换
    • 2.3规范化
      • 2.3.1 Min-Max 规范化(最小-最大规范化)
      • 2.3.2 Min-Max 规范化(最小-最大规范化)例子代码(红酒数据集)
      • 2.3.4 缺点
      • 2.3.5 Score规范化(零-均值规范化)
      • 2.3.6 Score规范化(零-均值规范化)例子代码(红酒数据集)

一.噪声数据

噪声数据(Noisy Data)就是无意义的数据,这个词通常作为损坏数据的同义词使用。

1.分箱:

  • 通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑

2.回归:

  • 用一个函数(回归函数)拟合数据来光滑数据。

3.聚类:

  • 将类似的值聚集为簇A

4.其他:

  • 如数据归约、离散化和概念分层

1.1分箱

通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。

  • 划分:等频、等宽
  • 光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据)
  • 箱中的最大和最小值被视为箱边界。箱中的每一个值都被最近的边界值替换。

1.2分箱法光滑数据

1.3噪声数据

1.回归:

用一个函数(回归函数)拟合数据来光滑数据。

  • 线性回归

  • 多元线性回归

2.聚类:将类似的值聚集为簇。
检测离群点

噪声数据是有益处的。

1.4回归Regression

1.5聚类Cluster Analysis

1.6 数据清理作为一个过程

1.6.1 偏差检测

1.使用“元数据”:关于数据的数据。

  • 例如,每个属性的数据类型是什么?定义域是什么?

2.编码格式:存在使用不一致、数据表示不一致

  • 例如:日期“2015/12/08”和”08/12/2015"

3.字段过载:

  • 新属性的定义挤进已定义的属性的未使用(位)部分

4.唯一性规则:

  • 给定属性的每个值都必须不同于该属性的其他值。

5.连续性规则:

  • 属性的最低值和最高值之间没有缺失的值,并且所有的值还必须是唯一的(例如,检验数)

6.空值规则:

  • 说明空白、问号、特殊符号或指示空值条件的其他串的使用(例如,一个给定属性的值何处不能用),以及如何处理这样的值。

1.6.2 数据变换(纠正偏差)

  • 数据清洗工具:使用简单的领域知识(邮政地址知识和拼写检查),检查并纠正数据中的错误。
    在清理多个数据源的数据时,这些工具依赖分析和模糊匹配技术。
  • 数据审计工具:通过分析数据发现规则和联系,并检测违反这些条件的数据来发现偏差。
  • 数据迁移工具:允许说明简单的变换。
  • ETL(提取/变换/装入)工具:允许用户通过图形用户界面说明变换。
  • 通常这些工具只支持有限的变换

1.6.3迭代

  • 需要迭代执行偏差检测和数据变换(纠正偏差)这两步过程。
  • -通常需要多次迭代才能达到满意的效果。

1.6.4 加强交互性

  • 数据清理工具:

    • kettle是一个开源的数据清理工具
  • 开发数据变换操作规范说明语言

二. 数据集成和变换

  • 数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。
  • 源数据可能包括多个数据库,数据立方或一般文件。
  • 数据变换将数据转换或统一成适合于挖掘的形式。

2.1 数据集成

1.实体识别

  • 元数据可帮助避免错误

2.属性冗余与相关性分析-

  • 相关分析

3.数据重复(元组冗余)

4.数据值冲突的检测与处理

  • 表示、比例或编码不同

2.2 数据变换

1.平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。

2.聚集Aggregation:对数据进行汇总或聚集。

3.数据泛化(概化):使用概念分层,用高层概念替换低层或“原始”数据。

4.规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、按小数定标规范化。

5.属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。

数据立方体聚集

概念分层

2.3规范化

2.3.1 Min-Max 规范化(最小-最大规范化)

规范化公式:

2.3.2 Min-Max 规范化(最小-最大规范化)例子代码(红酒数据集)

1.事先准备,采用红酒数据集,将数据拿出:

from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target

2.支持向量机

from sklearn import svm
svm = svm.SVC()

3.支持向量机 training score:

print("支持向量机 training score: ",svm.score(X,y))
svm.fit(wine_X,y)

运行结果为:

6.手动让其进行Min-Max 规范化(最小-最大规范化):

wind_X=X.copy()
for i in range(13):columu_X = X[:, i]wind_X[:, i] = (columu_X-columu_X.min())/(columu_X.max()-columu_X.min())
print(wind_X)

7.对照组,输出之前的训练得分:

svm.fit(X,y)
print("支持向量机 training score: ",svm.score(X,y))

8.支持向量机归一化后 training score:

svm.fit(wind_X,y)
print("支持向量机归一化后 training score: ",svm.score(wind_X,y))

9.结果:可以看出,对其改善很大。

2.3.4 缺点

1.若存在离群点,可能影响规范化

2.若在规范化后添加新的数据,当新数据落在原数据的区间[minA, max A ]之外,将导致“越界”
错误。

2.3.5 Score规范化(零-均值规范化)

z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。

对离群点不敏感

2.3.6 Score规范化(零-均值规范化)例子代码(红酒数据集)

1.事先准备,采用红酒数据集,将数据拿出:

from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target

2.支持向量机

from sklearn import svm
svm = svm.SVC()

3.使用模型里的按列归一化:

from sklearn import preprocessing
#数据预处理:按列归一化
wine_X=preprocessing.scale(X)
print(wine_X)

4.输出结果为:

5.手动撰写按列归一化

wind_X=X.copy()
for i in range(13):columu_X = X[:, i]wind_X[:, i]=(columu_X-columu_X.mean())/columu_X.std()
print(wind_X)563

6.结果查看:

对于噪声数据理解以及Min-Max 规范化和 Score规范化(零-均值规范化)的实例【数据预处理】相关推荐

  1. python进行数据预处理(最大最小值规范化、零均值规范化、剔除奇异值、去噪、曲线拟合)

    博主此次数据挖掘作业是对数据进行预处理练习,我也是第一次接触并也是上网查阅资料完成,此篇文章算是作业总结,作为小白代码有冗余的地方,不足之处请海涵,欢迎斧正. 数据是mat文件--MATLAB存储数据 ...

  2. 常用数据规范化方法: min-max规范化,零-均值规范化等

    数据变换是数据准备的重要环节,将数据转换成适用于数据挖掘的形式.数据变换的常用方式: 数据平滑:去除噪声,将数据离散化 数据聚集:如sql中的聚集函数,count(), sum() 数据概化:数据由较 ...

  3. 大数据数据科学家常用面试题_面试有关数据科学,数据理解和准备的问答

    大数据数据科学家常用面试题 问题1:在数据科学术语中,您如何称呼所分析的数据? (Q1: In the data science terminology, how do you call the da ...

  4. 数据预处理之标准化(Standardization)、归一化(Normalization)、中心化/零均值化(Zero-centered)

    一.数据标准化的意义: 1.数据的量纲不同:数量级差别很大 经过标准化处理后,原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,可进行综合测评分析. 如果直接用原始指标值进行分析,就会突出数 ...

  5. 零基础想学大数据?别急!先搞清这一点

    在入行大数据开发之前,相信很多同学都存在一些疑虑. 现在入行大数据有前途吗? 学大数据一定要会Java开发吗? 我是零基础,对大数据什么都不懂,能学好吗? .... 大数据时代,给想从事IT行业的人带 ...

  6. avg最多用多少列 mysql_MySQL之聚合数据(AVG,COUNT,MAX,MIN,SUM)

    1.首先我们需要了解下什么是聚合函数 聚合函数aggregation function又称为组函数.认情况下 聚合函数会对当前所在表当做一个组进行统计. 2.聚合函数的特点 1.每个组函数接收一个参数 ...

  7. Hive分析窗口函数(一) SUM,AVG,MIN,MAX

    Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive中提供了越来越多的分析函数,用于完成负责的统计分析.抽时间将所有的分析窗 ...

  8. 2021.08.25学习内容torch.clamp(input, min, max, out=None) → Tensor,torch.mm(matrix multiply)

    学习pytorch时,看到了mm和clamp,不甚理解,其他地方也看到过,所以具体了解一下 前向传递:计算预测yh = x.mm(w1)h_relu = h.clamp(min=0) 把 h 张量的最 ...

  9. LINQ to SQL语句之 Count/Sum/Min/Max/Avg

    Count/Sum/Min/Max/Avg操作符 适用场景:统计数据吧,比如统计一些数据的个数,求和,最小值,最大值,平均数. Count 说明:返回集合中的元素个数,返回INT类型:不延迟.生成SQ ...

最新文章

  1. COMMIT WORK AND WAIT 是在WAIT什么
  2. 成绩查看_托福网考免费寄送成绩单,掌握这些知识能帮你省不少钱!
  3. 7步搞定Python数据可视化,业界大牛出品教程,Jupyter、Colab都有在线版
  4. 单片机数据在网页上显示_不务正业的Excel也玩地图,在地图上显示数据,好玩又简单...
  5. Vuejs-踩坑/注意事项记录
  6. 记录每个用户的操作记录(命令)
  7. 与基础事务管理器的通信失败 存货申请_干货必读!细说分布式事务两阶段提交...
  8. 如果/否则列表理解?
  9. USB协议详解第23讲(USB包-握手包及其工作方式)
  10. 计算机网络安装,计算机网络系统安装操作指南.pdf
  11. 如何将PDF转为word
  12. Freemark生成Word文件的加密处理
  13. python读文件的方法
  14. 企业微信怎么分享名片给用户?如何统计名片添加好友的效果?
  15. 基础回顾(四)在mysql中的mul
  16. 津津的储蓄计划python_津津的储蓄计划 c++
  17. 各大IT企业招聘所须要求技能
  18. ICP备案信息查询接口,根据单位名称、域名、备案号查询
  19. 阿里巴巴惠普_惠普和佳能被创新!760g移动A4打印机,不插电,无需联网和驱动...
  20. vue文件目录结构详解(一)---基础配置

热门文章

  1. matlab读取xlsx文件,将大Excel(xlsx)文件加载到matlab中
  2. linux minit 截图,哼哈二将:Linux Mint 16 Cinnamon/Mate截图赏析
  3. 手机录屏并转换成gif动图
  4. html输入框密码颜色,css解决浏览器输入框记住账号密码后的背景色
  5. schannel: next InitializeSecurityContext failed: SEC_E_ILLEGAL_MESSAGE (0x80090326)
  6. Python学习中的错误总结
  7. python利用ffmpeg进行rtmp推流直播
  8. python微信api_用Python实现微信公众号API素材库图文消息抓取
  9. Spring Security (一) : 设置登录账号密码的三种方式
  10. Python按键检测方法汇总