DM——数据处理基础之数据、数据统计特性
数据处理。
数据是有质量优劣的
获得高质量数据是数据处理的目的。
数据预处理的技术有
- 数据清洗
- 数据变换
- 数据归约
- 数据离散化
- 特征(属性)选择
一、数据
1.数据、数据集、数据类型
对于数据的理解:
- 狭义上, 数据,即为数字。
- 广义上, 可把数据理解成记录
(相当于在数据库中数据 - 数据内涵,随时间的推移而发展。
类似在数据库中对数据属性的理解,以及数据集
- 属性(也称为特征、维或字段),
是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。 - 数据集
数据对象的集合(同分布、同特征) 如下图:
看图说话:
一行(Row)一个数据对象(data object),或说记录(record) ,
一列(Colum)一个属性(attribute),或说字段(field)
数据属性是有性质的:大概分为定性和定量的属性性质。
性质 | 解释 | 举例 |
---|---|---|
标称(Nominal)
|
属性值只提供足够的信息以区分对象。这种属性值没有实际意义。 | 颜色、性别、产品编号 |
序数(Ordinal)
|
属性值提供足够的信息以区分对象的序。 | 成绩等级(优、良、中、及格、不及格)、年级(一年级、二年级、三年级、四年级) |
区间(Interval)
|
属性值之间的差是有意义的。 | 日历日期、摄氏温度 |
比率(Ratio)
|
属性值之间的差和比率都是有意义的。 | 长度、时间和速度 |
显然,后两者是定量的。前两者是定性的。
2.数据集类型
数据集,如前所述,可以看作有相同属性的数据对象的集合(set)
有3个特性:
- 维度(Dimensionality) :数据集中的对象具有的属性个数总和。
(当维度极高,即维数灾难(Curse of Dimensionality),需进行维归约) - 稀疏性(Sparsity) :在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%。
(如文本数据集很稀疏) - 分辨率(Resolution) :不同分辨率下数据的性质不同
(好比:远看月亮很美,近看月亮千疮百孔(分辨率产生美hhh))
数据集类型可分为三类: 记录数据、基于图形的数据、有序的数据集
记录数据 | 基于图形的数据 | 有序数据 |
---|---|---|
事务数据或购物篮数据、数据矩阵、文本数据 | 万维网、化合物结构 | 时序数据、序列数据、时间序列数据、空间数据、流数据 |
依据课本,下面介绍:
记录型数据
中的数据矩阵
(其中一种是文本数据)
- 若数据对象都具有相同的数值属性集,则数据对象是多维空间中的点,其中每个维描述对象的不同属性。
- 数据集可以用一个m×n的矩阵表示,
其中m行,一个对象一行;n列,一个属性一列。
(下面看个图就明白了)
- 再如
文本数据的数据矩阵
- 规定:
每个词是向量的一个分量(属性)
每个分量的值是对应词在文档中出现的次数
(那么每个文档,就是一个记录)
- 规定:
在看看一些其他数据集:
二、数据统计特性
涉猎《概率论和数理统计了》,但不算深.
但别忘了,这只是数据挖掘的一个工具。
我们需要考虑的是:
如何在大型DB中有效的计算下面的一些度量
数据统计又称为汇总统计,
用单个数或数的小集合来捕获大的数据集的各种属性特征。
通常需要数据的中心趋势和离散程度特征。
我这么想的: 也就是计算
数据的中心趋势
和离散程度特征
、来以小见大、见微知著
中心趋势度量 | 数据离散程度度量 |
---|---|
均值(mean)、中位数(median)、众数(mode)和中列数(midrange) | 四分位数(quartiles)、四分位数极差(InterQuartiles Range, IQR)和方差(variance)等 |
下面分别介绍几个度量的计算
1.数据的中心度量
1.1(算术)均值(mean)
1.2加权算术均值(weighted arithmetic mean):
1.3截断均值(trimmed mean) (这个可能新颖了)
设立这个均值的意义是: 减少极端值的影响。
计算方法:
指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。
例子:
例:计算{1,2,3,4,5,90}值集的均值,中位数和p=40%的截断均值.
解:均值是17.5,中位数是3.5,p=40%时的截断均值也是3.5
2.数据的散布程度度量
2.1极差(range)
极差是最简单散步度量,
但难于表示数据的集中程度 ,只是表明了最大最小值的差距
- 假设属性x具有m个值,那么:
2.2方差(variance)
方差,用到了均值 ,而均值容易被离群值扭曲,
所以方差对离群值很敏感
2.3更加稳健的值集散布估计方法
就不展开介绍啦
- 绝对平均偏差(absolute average deviation,AAD)
- 中位数绝对偏差(median absolute deviation,MAD)
- 四分位数极差(interquartile range,IQR)
本篇结束
DM——数据处理基础之数据、数据统计特性相关推荐
- 【python数据处理基础】--数据读取、清洗数据
python 数据处理实战 目录 数据读取 选择特列 清洗数据 目录 随着网络数据的爆发式的增长,数据处理工作日益显示出它的重要性,我们的目的是从大量的杂乱无章的数据中找出对我们的工作有益的数据或者发 ...
- 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4
日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...
- 程序员基础内功夯实——数据结构篇
结构并不固定和死板,应该在实际情况中做最贴切的设计和应用,意思就是咱怎么高兴怎么用,个人认为数据结构重要,但是更重要的是实现结构的算法,不能知其然,不知其所以然. 数据结构和算法参考(算法和数据结构- ...
- 大数据自学要多久?为什么零基础自学大数据那么久?
伴随着大数据时代的冲击,大数据开发相关的技术人才成为目前招聘市场炙手可热的高薪岗位,越来越多想要通过技术获得高薪工作的同学选择大数据技术方向.我们知道目前学习大数据可以通过自学或者参加培训两种方式,参 ...
- TiDB DM 2.0 GA,数据迁移不用愁
社会数字化.智能化的发展进程中,海量的数据带来巨大挑战,各行各业都在加速数字化转型,越来越多的企业意识到数据基础设施是成功的关键.然而,作为数据基础设施的核心,传统数据库例如 MySQL 面临性能和容 ...
- 有java基础学习大数据该如何规划
大数据开发对于Java语言的依赖程度比较高,如果想尝试大数据开发,学习过Java语言就很容易上手 Java是目前使用广泛的编程语言之一,具有的众多特性,特别适合作为大数据应用的开发语言. 目前很多大数 ...
- 有java基础转行大数据好学么
学大数据必学Java,当前大数据领域的岗位主要集中在开发.分析.运维三大领域,其中大数据开发对于Java语言的依赖程度比较高,如果从事大数据开发岗学习Java语言很有必要. Java是目前使用广泛的编 ...
- 2021版1:100万基础地理信息数据更新数据(整理GDB批量合并)
01 前言 之前我们在<ArcGIS 10.X 入门实战视频教程>介绍GIS常用数据下载的时候就介绍了怎么在全国地理信息目录系统下载地表覆盖.1:100万.1:25万地理信息数据. Ar ...
- 打通数据价值链,百分点数据科学基础平台实现数据到决策的价值转换 | 爱分析调研
随着企业数据规模的大幅增长,如何利用数据.充分挖掘数据价值,服务于企业经营管理成为当下企业数字化转型的关键. 如何挖掘数据价值?企业需要一步步完成数据价值链条的多个环节,如数据集成.数据治理.数据建模 ...
最新文章
- python中pop函数_Python中的Pop函数
- unsigned char对应java_Java的数据类型,怎么就没有uchar呢
- Flash中的“插入关键帧”和“插入空白关键帧”的区别
- 数据库出现的bug原因以及解决方法
- Flex 常见问题解答(from MM)
- indesign如何画弧线_彩铅画入门教程,如何给独角兽设计一款好发型
- VS2010 RTM
- 二次元带音乐404源码
- React Native :加载新闻列表
- SpringBoot实战(三):整合Mybatis配置多数据源
- 字典树实现_trie 字典树的实现方法
- 【多目标优化求解】基于matlab金鹰算法求解多目标优化问题【含Matlab源码 188期】
- python 中文官方手册
- [转自他人]一款好用的软件安装管理器
- 11_超级鹰学习及应用
- 批量下载微软官网上的桌面壁纸图片
- 第一次安卓作业笔记:一个星座查询app
- mysql 参数 1_警告:mysql_result()期望参数1为资源,给定布尔值[重复]
- L3-015 球队“食物链” (30 分)
- 形容计算机科学与技术的句子,描写科学的句子精选40句
热门文章
- D u p l i c a t e H a n d l e函数存在的奇怪现象之一是,目标进程没有得到关于新内 核对象现在可以访问它的通知
- ListBox美化重绘,不积硅步无以至千里
- 小米推迟上市和A股大跌,背后有什么共同原因?
- #博学谷it学习技术支持#kafka及异步通知文章上下架
- 10.前端JavaScript之【函数】【全局变量与局部变量】
- python等比例压缩图片_python图片等比例压缩
- LSM303AGR姿态传感器 risc-v Sifive learn inventor基础之硬件i2c与LSM303AGR通信
- 健康的生活——导言篇
- 闭环控制(自动控制理论)
- 求一百个人中有人生日相同的概率