【数据挖掘导论】——数据质量
因此数据经常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检測和纠正(数据清理);使用能够容忍低质量数据的算法。
接着讨论測量和数据收集的数据质量问题:离群点,遗漏和不一致的值,反复数据。
称为异常(anomalous)对象或异常值。
须要注意的是差别噪声和离群点:离群点能够是合法的数据对象或值。因此不像噪声,离群点本身是人们感兴趣的对象。
但不管何种情况,在数据分析时都应当考虑遗漏值。
那怎么应对遗漏值:
- 删除数据对象或属性
- 预计遗漏值
- 分析时忽略遗漏值
须要避免意外将两个相似但不反复的数据对象合并在一起;去反复(deduplication)通常表示这一过程。
转载于:https://www.cnblogs.com/jzssuanfa/p/7142178.html
【数据挖掘导论】——数据质量相关推荐
- 数据挖掘导论 复习一(介绍+数据预处理方法+定性归纳)
数据挖掘=数据库+机器学习 算法 经验 模型 机器学习任务:分类.回归.聚类(KMeans.DCSAN.层次聚类).数据降维.数据预处理 常用分类器:KNN.贝叶斯. 逻辑回归 .决策树.随机森林 本 ...
- 《数据挖掘导论》- 读书笔记(3)- 数据
本文转载自:https://www.cnblogs.com/pythonMLer/p/5751516.html 第2章 数据 本章讨论一些与数据相关的问题,对于数据挖掘的成本至关重要. 数据类型 数据 ...
- 《数据挖掘导论》 - 读书笔记(3) - 数据 [2016-8-13]
第2章 数据 本章讨论一些与数据相关的问题,对于数据挖掘的成本至关重要. 数据类型 数据集的不同表现在很多方面.例如,用来描述数据对象的属性可以具有不同的类型---定量的或定性的,并且数据集可能具有特 ...
- 数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)
<数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章 绪论 数据挖掘任务 预测任务 描述任务 分类任务 回归任务 聚 ...
- 数据挖掘(一)你真的了解什么是数据挖掘和数据本身吗?
自己之所以会产生自学机器学习的念头,其实完全是因为自己对数据挖掘的兴趣,因为在我的内心一直坚信这么一个逻辑:任何事情背后都有其一定的模式,不同的情况只是对应于某些条件的不同.所以找出这样一个模式,是解 ...
- 视频教程-数据分析与数据挖掘导论(R语言)-MySQL
数据分析与数据挖掘导论(R语言) 叶梓,博士.高级工程师.上海交通大学计算机专业博士毕业,主研方向为数据挖掘.机器学习.人工智能等.现为某大型上市软件企业的人工智能团队技术负责人 叶梓 ¥199.00 ...
- 《数据挖掘导论》学习笔记(第1-2章)
本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要用来梳理思路,并没有多少思考,我尽量会在后期多弥补这方面的不足. 第1章 绪论 1.1 什么是数据挖掘 KDD: K nowle ...
- 《数据挖掘导论》学习笔记:第1-2章
本文转载自:https://blog.csdn.net/u013232035/article/details/48281659 本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要 ...
- 《Python数据分析与挖掘实战》一3.1 数据质量分析
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
最新文章
- python中字典的find_python-re.findall返回命名捕获组的字典?
- 前端工程化系列[03]-Grunt构建工具的运转机制
- Raider对F#支持的技术细节
- python算法题_python基本算法题(一)
- String | 263. Ugly Number
- 汽车行业持续亏损?奥迪:不存在的
- AD16更改器件封装如管脚间距等常规设置
- 介绍4个大神常用而你不常用的python函数--assert,map,filter,reduce
- windows核心编程第一章阅读
- mybatis入门截图四(订单商品数据模型-懒加载-缓存)
- MAC docker 使用阿里加速器
- 输入输出工具技术(ITTO)要背吗?——软考高项笔记8
- 随机效应估算与固定效应估算_面板工具变量法学习手册(固定效应与随机效应方法、过度识别检验、预测等)...
- puppet知识简记
- dfuse for EOSIO 架构剖析:架构总览
- 微信二维码无法下载APK解决方案
- 勘误《新概念》III
- 读薄《高性能MySql》(三)索引优化
- B2B商业模式以及交易模式
- 基于朴素贝叶斯+Python实现垃圾邮件分类和结果分析
热门文章
- 操作系统时间片轮换_《操作系统_时间片轮转RR进程调度算法》
- 旧版Requests库
- css鼠标移入线条延中心伸长,css动画效果:鼠标移上去底部线条从中间往两边延伸 - 子成君-分享出去,快乐加倍!-旧版已停更...
- excel随机抽取_简单随机抽样及其进阶分层随机抽样方法展示
- C语言代码注释必须用/**/ , 你没看错~
- 在switch语句中,case后的标号只能是什么?
- python一个函数调用另一个函数_在Python中将函数作为另一个函数的参数传入并调用的方法...
- idea 自动生成mybaits_怎么让idea自动创建mybatis配置文件
- mysql error handler_MySql错误处理(二) - Condition Handle
- 工业以太网交换机可以家用吗?