数据预处理之数据描述
转载自:http://www.douban.com/note/128903131/
在数据挖掘过程中数据预处理至关重要。根据统计,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。
数据挖掘的数据对象存在以下问题:
1.杂乱性。原始数据是从各个实际应用系统中获取的,由于各应用系统的数据缺乏统一标准的定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接使用。
2.重复性。是指对于同一个客观事物在数据库中存在其两个或两个以上完全相同的物理描述。这是应用系统实际使用过程中普遍存在的问题,几乎所有应用系统中都存在数据的重复和信息的冗余现象。
3.不完整性。由于实际系统设计时存在的缺陷以及一些使用过程中人为因素所造成的,数据记录中可能会出现有些数据属性的值丢失或不确定的情况,还可能缺失必需的数据而造成数据不完整。实际使用的系统中,存在大量的模糊信息,有些数据甚至还具有一定的随机性质。
通常,数据集可以看作数据对象的集合。数据对象的其他名字是记录、点、向量、模式、事件、案例、样本、观测、或实体。数据对象用一组刻画对象基本特性的属性描述。属性的其他名字是变量、特性、字段、特征或维。
属性的类型应当表明,属性的哪些性质反映在用于测量它的值中。知道属性的类型是重要的,因为它告诉测量值的哪些性质与属性的基本性质一致,从而使得可以避免诸如计算雇员的平均ID这样的愚蠢行为。注意,通常将属性的类型称作测量标度的类型。
不同的属性类型
1.分类的(定性的)
(1)标称:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=,≠)。例如,邮政编码、雇员ID、眼球颜色、性别。 具体操作如,众数、熵、列联相关、c²检验。
(2)序数:序数属性的值提供足够的信息确定对象的序(〈,〉)。例如,矿石硬度、{好,较好,最好}、成绩、街道号码。操作如,中值、百分位、秩相关、游程检验、符号检验。
2.数值的(定量的)
(1)区间:对于区间属性,值之间的差是有意义的,即存在测量单位(+,-)。例如,日历日期、摄氏或华氏温度。具体操作如,均值、标准差、皮尔逊相关、t和F检验。
(2)比率:对于比率变量,差和比率都是有意义的(*,/)。例如,绝对温度、货币量、计数、年龄、质量、长度、电流。操作如,几何平均、调和平均、百分比变差。
对特定的属性类型有意义的统计操作是这样一些操作,当使用保持属性意义的变换对属性进行变换时,它们产生相同的结果。例如,用米和英尺为单位进行度量时,同一组对象的平均长度数值是不同的,但是两个平均值都代表相同的长度。下面给出上述四种属性类型的允许的(保持意义)的变换。
定义属性层次的变换
1.分类的(定性的)
(1)标称:任何一对一变换,例如值的一个排列。注释,如果所有雇员的ID号都重新赋值,不会导致任何不同。
(2)序数:值的保序变换,即新值=f(旧值),其中f是单调函数。注释,包括概念好、较好、最好的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示。
2.数值的(定量的)
(1)区间:新值=a*旧值+b,其中a、b是常数。注释,华氏、摄氏温度与绝对标度零度的位置和1度的大小(单位)不同。
(2)比率:新值=a*旧值。注释,长度可以用米或英尺度量。
数据质量
1.测量误差和数据收集错误
术语测量误差(measurement error)是指测量过程导致的任何问题。一个共同的问题是:在某种程度上,记录的值与实际值不同。对于连续属性,测量值与实际值的差称为误差(error)。术语数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不正确地包含数据对象等错误。
2.噪声和伪像
噪声是测量误差的随机部分。确定性失真有时称作伪像(artifact)。
3.精度、偏倚和准确率
精度(precision)为(相同量)重复测量之间的封闭性。通常用值集合的标准差度量。
偏倚(bias)为测量与被测量之间的系统的变差。通常用值集合的均值与被测量的已知值之间的差度量。
准确率(accuracy)为被测量的测量值与实际值之间的接近度。
4.异类点
异类点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值不寻常的属性值,也称为异常(anomalous)对象或异常值。重要的是区别噪声和异类点。异类点可以是合法的数据对象或值。不像噪声,异类点本身有时可以是令人感兴趣的,例如,欺诈和网络攻击检测中,目标就是从大量正常对象或事件中发现不正常的对象和事件。
5.缺失值
6.不一致的值
纠正不一致需要附加或冗余信息,比如“校验”数字或者可以通过一个已知产品代码列表,复核产品代码,如果不正确但接近一个已知代码,则纠正它。
7.重复数据
数据预处理之数据描述相关推荐
- 数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)
数据挖掘概念与技术 定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价 第一章.数据 挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体 ...
- 数据预处理Part9——数据降维
文章目录 1. 什么是数据降维? 2. 为什么要进行数据降维? 3. 降维是如何实现的? 4. sklearn中的降维算法 4.1 主成分分析PCA 4.2 因子分析FA 4.3 独立成分分析ICA ...
- 机器学习项目中的数据预处理与数据整理之比较
要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...
- 【Python实战】数据预处理(数据清理、集成、变换、归约)
[Python实战]数据预处理 前言 数据预处理概述 数据清理 异常数据处理 1.异常数据分析 2.异常数据处理方法 缺失值处理 噪声数据处理 数据集成 1.实体识别 2.冗余属性 3.数据不一致 数 ...
- PyTorch源码解析--torchvision.transforms(数据预处理、数据增强)
PyTorch框架中有一个很常用的包:torchvision torchvision主要由3个子包构成:torchvision.datasets.torchvision.models.torchvis ...
- 数据预处理Part4——数据离散化
文章目录 离散化,对数据做逻辑分层 1. 什么是数据离散化? 2. 为什么要将数据离散化 3. 如何将数据离散化? 3.1 时间数据离散化 3.2 多值离散数据离散化 3.3 连续数据离散化 3.4 ...
- Python数据分析中的数据预处理:数据标准化
[小白从小学Python.C.Java] [Python全国计算机等级考试] [Python数据分析考试必会题] ● 标题与摘要 Python数据分析中的 数据预处理:数据标准化 ● 选择题 以下关于 ...
- 数据预处理Part2——数据标准化
文章目录 数据标准化 1. 实现归一化的Max-Min 2. 实现中心化和正态分布的Z-Score 3. 用于稀疏数据的MaxAbs 4. 针对离群点的RobustScaler 5. 标准化后数据可视 ...
- 竞赛专题 | 数据预处理-如何处理数据中的坑?
点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...
- Pandas数据预处理与数据重塑案例
Pandas数据预处理与数据重塑案例 前言 预处理是数据分析中不可缺少的一部分,我们日常得到的数据多半是规整的,只有得到想要的相应格式的数据,才能进行后续的探索性分析和建模.以下是我在一个小的项目 ...
最新文章
- Hooq 登陆新加坡,“亚洲版 Netflix ”要与对标公司抢夺东南亚视频市场
- 测量工具(keras)
- PHP发起POST DELETE GET POST 请求
- libevent源码学习-----event_base事件循环
- 开心网分析,师从“中国缘”
- FusionChart完全入门手册 -2
- IDEA 2020年最后一个版本更新了,机器学习都整上了
- python爬虫应用实例_Python爬虫进阶必备 | 一个典型的 AES 加密在爬虫中的应用案例...
- 计算机d盘不显示容量,电脑D盘可用空间小,可是看不到文件
- SQL数据库语言基础之SqlServer视图的创建、修改与视图数据的增删改查
- 蓝桥杯 2017年C语言组大学B组 C/C++
- 荣耀Magic2 发布:滑盖全面屏、前后6摄、屏下指纹、麒麟980
- php无极分类非递归_PHP中的无限级分类、无限嵌套评论
- 流水灯程序 keil_天问51学习笔记(3):8个任务的uCOS II程序框架
- 【前端实用工具集】js对url进行编码和解码的三种方式
- mac1200r 服务器无响应,水星路由器mac1200r桥接不成功怎么办
- 剥丝抽茧|阿里面试题解读:MQ消费端遇到瓶颈该怎么办?
- 使用 React-Sketchapp
- android x86 驱动精灵,手机驱动精灵软件下载(5个步骤即可解决)
- MOOC单片机原理及应用题库大全
热门文章
- 2018修复激活闪退_IOS越狱后和平精英闪退、黑屏、10min封号的解决办法!
- python input函数详解_对Python3中的input函数详解
- 日志输出到文件nacos 配置_python 配置日志输出到终端与文件
- 解决编译.spec:rpm build with: fg: no job control报错
- Emacs快速切换行号开关
- Android抓包方法(三) 之Win7笔记本Wifi热点+WireShark工具
- Android系统信息获取 之二:版本信息获取
- 如何打开.chm文档(比如华为产品手册等)
- linux启动清除指定内存,柴少鹏的官方网站
- 大厂退场方式-支付宝-相互宝