转载自:http://blog.csdn.net/wang20054479/article/details/33389217

一、数据预处理包括数据清洗、数据集成、数据转换和数据消减:

1、  数据清洗(data cleaning)处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。

2、  数据集成(data integration)就是将来自多个数据源(例如:数据库、文件等)数据合并到一起。

3、  数据转换(data transformation)主要是对数据进行规格化操作。数据转换包含以下处理内容:(1)平滑处理,帮助除去数据中的噪声,主要技术方法有:bin方法、聚类方法和回归方法。(2)合计处理,对数据进行总结或合计操作。(3)数据泛化处理,所谓泛化处理就是用更抽象(或更高层次)的概念来取代低层次或数据层的数据对象。(4)规格化,规格化就是将有关属性数据按比例投射到特定小范围之中,以消除数值型属性因大小不一而造成挖掘结果的偏差。(5)属性构造,根据已有属性集构造新的属性,以帮助数据挖掘过程。

4、  数据消减(data reduction)的目的就是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。现有的数据消减包括:(1)数据聚合(data aggregation),如构造立方(cube);(2)消减维度(dimension reduction),如:通过相关分析消除多余属性;(3)数据压缩(data compression),如:利用编码方法(如最小编码长度或小波);(4)数据块消减(numerosity reduction),如:利用聚类或参数模型替代原有数据。

二、数据清洗:现实世界的数据常常是有噪声、不完全的和不一致的。数据清洗例程通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据。

1、遗漏数据的处理方法:(1)忽略该条记录,若一条记录中有属性值被遗漏了,则将此条记录派出在数据挖掘过程之外,尤其当类别属性(class label)的值没有而又要进行分类数据挖掘时。(2)手工填补遗漏值,一般讲这个方法比较耗时,而且对于存在许多遗漏情况的大规模数据集而言,显然可行性较差。(3)利用缺省值填补遗漏值,对一个属性的所有遗漏的值均利用一个事先确定好的值来填补。(4)利用均值填补遗漏值,计算一个属性(值)的平均值,并用此值填补该属性所有遗漏的值。(5)利用同类别均值填补遗漏值,这种方法尤其在进行分类挖掘时使用。(6)利用最可能的值填补遗漏值,可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值。

三、数据集成处理需要考虑以下几个问题:(1)模式集成(schema integration)问题,即如何使来自多个数据源的现实世界的尸体相互匹配,这其中就涉及到实体识别问题(entity identification problem)。(2)冗余问题,这是数据集成中经常发生的另一个问题。(3)数据值冲突检测与消除,对于一个现实世界实体,其来自不同数据源的属性值或许不同。产生这样问题原因可能是表示的差异、比例尺度不同、或编码的差异等。

四、数据转换处理,所谓数据转换就是将数据转换或归并以构成一个适合数据挖掘决的描述形式。数据转换包含的处理内容有:(1)平滑处理。帮助除去数据中的噪声,主要处理方法有:bin方法、聚类方法和回归方法。(2)合计处理。对数据进行总结或合计操作。(3)数据泛化处理。所谓泛化处理就是用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。(4)格式化。格式化就是将有关属性数据按比例投射到特定小范围之中。(5)属性构造。根据已有的属性集构造新的属性,以帮助数据挖掘过程。

五、数据消减,对大规模数据库内容进行复杂的数据分析通常需要耗费大量时间,这就常常使得这样的分析变得不现实和不可行,尤其是需要交互式数据挖掘时。数据消减技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同。数据消减的主要策略有以下几种:(1)数据立方合计(data cube aggregation),这类合计操作主要用于构造数据立方(数据仓库操作)。(2)维数消减,主要用于检测和消除无关、弱相关、或冗余的属性或维(数据仓库中属性)。(3)数据压缩,利用编码技术压缩数据集的大小。(4)数据块(numerosity)消减,利用更简单的数据表达形式,如参数模型、非参数模型(聚类、采样、直方图等),来取代原有的数据。(5)离散化与概念层次生成。所谓离散化就是利用取值范围或更高层次概念来替换初始数据。利用概念层次可以帮助挖掘决不同抽象层次的模式知识。

数据挖掘:数据清洗、转换和消减相关推荐

  1. ISME:南农韦中等消减土壤青枯菌生物障碍新策略

    摘要 根际微生物群落构成了抵御土传病原菌的第一道防线.迄今为止,大多数根际微生物群落抵抗病原菌的研究都聚焦于根际微生物如何直接抑制土传病原菌的生长.但有研究表明,一些根际细菌能够促进病原菌的生长,成为 ...

  2. 单核工作法9:消减待办任务

    前言 工欲善其事必先利其器. 学习一点儿如何安排时间产出工作量的方法,对于生活也是很有必要的. 上一篇在这里单核工作法1 原理1原理1 原理23原理23 原理45原理45 单核5:适用性适用性 单核6 ...

  3. 沈其荣院士团队解密根际有益菌VOCs消减土壤青枯菌生物障碍的生存-致病权衡机制...

    1月13日,微生物生态学国际权威期刊<The ISME Journal>在线发表我院沈其荣院士团队最新研究成果<Bacterial volatile organic compound ...

  4. 牛客小白月赛32--C消减整数、E春游(贪心)

    C.消减整数 链接:https://ac.nowcoder.com/acm/contest/11163/C 来源:牛客网 题意:给出一个正整数H,从1开始减,第一次必须减1,每次减的数字都必须和上一次 ...

  5. 风电光伏的场景生成与消减-matlab代码 可利用蒙特卡洛模拟或者拉丁超立方生成光伏和风电出力场景

    风电光伏的场景生成与消减-matlab代码 可利用蒙特卡洛模拟或者拉丁超立方生成光伏和风电出力场景,并采用快速前推法或同步回代消除法进行削减,可以对生成场景数和削减数据进行修改,下图展示的为1000个 ...

  6. 重复制造报工后计划数量的消减

    如果过去有一张计划订单,那肯定要优先减它. 在报工的时候,系统消减计划订单的数量是根据你报工数量来的.在重复制造参数文件的配置里,你可以配置如何去冲减计划订单.也有可能是超产,你可以定义这种情况下怎么 ...

  7. 带你了解5个幽灵攻击与编译器中的消减方法

    摘要:幽灵攻击包括诱使受害者投机性地执行在正确程序执行期间不会发生的操作,并通过侧通道将受害者的机密信息泄露给攻击者. 本文分享自华为云社区<幽灵攻击与编译器中的消减方法介绍>,作者:毕昇 ...

  8. Java 中日期的几种常见操作 —— 取值、转换、加减、比较

    Java 的开发过程中免不了与 Date 类型纠缠,准备总结一下项目经常使用的日期相关操作,JDK 版本 1.7,如果能够帮助大家节约那么几分钟起身活动一下,去泡杯咖啡,便是极好的,嘿嘿.当然,我只提 ...

  9. javascript进制转换_JavaScript 加减危机——为什么会出现这样的结果?

    在日常工作计算中,我们如履薄冰,但是 JavaScript 总能给我们这样那样的 surprise~ 0.1 + 0.2 = ? 1 - 0.9 = ? 如果小伙伴给出内心的结果: 0.1 + 0.2 ...

最新文章

  1. BZOJ1975 [Sdoi2010]魔法猪学院 k短路
  2. 人类一败涂地做图教程_《人类一败涂地》形象绘画技巧图文指南
  3. spock测试_用于混合Spock 1.x和JUnit 5测试的Maven项目设置
  4. YOLOv3网络结构
  5. NOIP2000单词接龙[DFS]
  6. 在Mac上将WebP图像批量转换为JPG的方法
  7. U盘文件夹被隐藏,如何让去除文件夹隐藏属性
  8. MISC:基本思路 · 常用命令
  9. fg-bg Assignment Imbalance problem
  10. 语音信号的短时平均过零率
  11. ios - 农历公历互转 农历选择器
  12. 水晶报表中如何创建自定义的纸张大小格式?
  13. 微信小程序 车轮之 滑动删除
  14. 用户画像构建方法调研和初步解决方案
  15. C语言中整形的大小和范围
  16. Quantopian教程系列三
  17. ffmpeg合并(复用)音频和视频文件,组成mp4
  18. Excel数据如何导入到Oracle数据库中
  19. ABBYY FineReader双十一活动跟进
  20. 浏览器遇到找不到“www.xxxx.com”等的服务器的IP地址怎么解决

热门文章

  1. 天正电气lisp是什么文件_模仿天正电气低压系统图 - AutoLISP/Visual LISP 编程技术 - CAD论坛 - 明经CAD社区 - Powered by Discuz!...
  2. 超详细 Git 图文版小白教程(持续更新)
  3. Android Studio查看aar文件内容
  4. Emacs自动清除行尾空格
  5. VALSE学习(十四):自主学习
  6. tensorflow GPU版本配置加速环境
  7. java 存储输入_java将用户输入信息保存至txt文件
  8. python seo 外链_百度链接提交-主动推送程序Python版
  9. 计算机研究生可以参加哪些比赛?
  10. The “data“ option should be a function that returns a per-instance value in component definitions.