可视化导论 - 第三章 数据- 学习笔记
第三章 数据
3.1 数据基础
3.1.1 数据属性
- 类别型属性
- 序数型属性
- 数值型属性
属性类型 | 实例 |
---|---|
类别型 | 销售商品的品名 |
序数型 | 销售时间 |
数值型 | 商品单价 |
3.1.2 数据的结构
- 结构化数据
可用二维表结构来逻辑表达实现,主要用于关系型数据库中。 - 非结构化数据
数据结构不规则,没有预定义的数据模型,它包括了所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和/视频信息等。 - 半结构化数据
介于结构化数据和非结构化数据之间,格式较为规范。一般为纯文本数据,包括日子、XML、JSON等格式的数据。
3.1.3 数据相似性度量
类别型属性
如果两个对象X,Y,均有p个类别属性,则它们的相异度定义为
d(X,Y)=(p−m)/pd(X,Y)=(p-m)/pd(X,Y)=(p−m)/p
m−X,Y中取值相同的属性数目m-X,Y中取值相同的属性数目m−X,Y中取值相同的属性数目
二元属性常常用1和0代表它的两种取值,此类属性对象常用的相异度定义有杰卡德(Jaccard)距离和海明(Hamming)距离。杰卡德距离:设对象X,Y中取值同为1的属性有p个,X取1且Y取0的属性有q个,X取0且Y取1度属性有r个,则X,Y的杰卡德距离为
d(X,Y)=(q+r)/(p+q+r)d(X,Y) = (q+r) / (p+q+r)d(X,Y)=(q+r)/(p+q+r)
杰卡德距离常用于比较两文档的相似性。
海明距离主要用于度量两个等长字符串之间的相异性,它表明两个字符串在多少个对应位置出现了不同字符。比值型数值类型
距离可被用来衡量两个比值型属性对象的相异度,距离函数d(X,Y)d(X,Y)d(X,Y),其定义需满足:非负性
对称性
三角形不等式
几种常见的距离函数:
欧式(Euclidean)距离:用于计算欧氏空间中两点之间的直线距离。
d(X,Y)=∑i=1n(xi−yi)2d(X,Y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}d(X,Y)=i=1∑n(xi−yi)2
曼哈顿(Manhattan)距离:垂直的移动路线的距离。
d(X,Y)=∑i=1n∣xi−yi∣d(X,Y)={\sum_{i=1}^n|x_i-y_i|}d(X,Y)=i=1∑n∣xi−yi∣
切比雪夫(Chebyshev)距离:可以朝单维的8个方向移动,参照国际象棋中的行动。
d(X,Y)=max1≤i≤n∑i=1n(∣xi−yi∣)d(X,Y)=max_{1\leq i\leq n}{\sum_{i=1}^n(|x_i-y_i|)}d(X,Y)=max1≤i≤ni=1∑n(∣xi−yi∣)
闵可夫斯基(Minkowski)距离:它是一类距离的定义。
标准化欧式(Standardized Euclidean)距离:
马氏(Mahalanobis)距离:
夹角余弦(Cosine)和Tonimoto系数:几何中两向量的夹角余弦可以衡量这两个向量方向的差异,这一概念推广到高维,衡量两个n维向量之间的差异:
s(X,Y)=X⋅Y∣∣X∣∣∣∣Y∣∣=∑i=1nxiyi∑i=1nxi2∑i=1nyi2s(X, Y) = \frac{X\cdot Y}{||X||||Y||} = \frac{\sum\limits_{i=1}^nx_iy_i}{\sqrt{\sum\limits_{i=1}^nx_i^2\sum\limits_{i=1}^ny_i^2}}s(X,Y)=∣∣X∣∣∣∣Y∣∣X⋅Y=i=1∑nxi2i=1∑nyi2i=1∑nxiyi
取值范围为[-1,1]。搜索引擎技术广泛应用。
相关系数与相关距离:
兰氏(Lance)距离:
- 序数型属性
- 区间型数值属性
3.1.4数据统计特征
样本数据的基本统计特征:
- 集中趋势度量:表示数据分布的集中位置,主要有均值、中位数等。
- 离中趋势度量:它表示数据的分散程度,描述一组数据的波动性,主要有极差、标准差。
- 数据分布形状:主要有偏态和峰态。
均值:
x‾=1n∑i=1nxi\overline x=\frac 1n\sum_{i=1}^nx_i x=n1i=1∑nxi
加权平均值:
标准差:衡量所有的样本点偏离均值的程度:
σ=1n∑i=1n(xi−x‾)2\sigma=\sqrt{\frac1n\sum_{i=1}^n(x_i-\overline x)^2} σ=n1i=1∑n(xi−x)2
样本标准差:
均值和标准差容易计算,应用广泛,但只适合数据分布较对称且没有极端异常值的数据值。对明显不对称的数据集有一组更灵活的统计特性,它们是中位数、分位数、百分位数和四分位数间距。
中位数指样本按从小到大排列后处于中间位置上的值。
百分位数是中位数的推广,表明数据集中小于它的数的比例,例如第10百分位数指数据集中有10%的点的值比它小。
三个四分位数Q1Q_1Q1,Q2Q_2Q2,Q3Q_3Q3将数据分成均匀的四份,因而Q1Q_1Q1,Q3Q_3Q3分别为数据排序后位于25%和75%位置上的值。
当一个数据分布较对称时,它们的均值与中位数比较接近,而当分布变得扭曲不对称时,用中位数衡量数据分布的中间位置比均值更加合理。同样地,当分布中有异常时,将标准差作为衡量分布的分散度并不合理,应使用四分位数间距描述偏态分布数据的特征。
众数指数据中出现次数最多的值。
众数、中位数与均值的关系如图3.1所示。
标准差反映样本数据的绝对波动状况。因此,采用相对波动的大小,即变异系数更能反映样本数据的波动性。
变异系数的定义时标准差与均值的比值:
Cv(%)=σx‾×100%C_v(\%)=\frac {\sigma}{\overline x}\times100\% Cv(%)=xσ×100%
3.1.5 数据的不确定性
现实中,由于测量误差、采样误差等原因,获得的数据往往具有某些不确定性。不确定性数据可分为存在不确定性和属性不确定性。
- 数据本身存在误差
- 低精度数据转换到高精度数据引入的不确定性。
- 满足特殊应用需求。如对数据添加扰动和噪声。
- 缺失值处理。
- 数据集成。不同数据源信息集成时引入不确定性。
3.2 数据分析和探索
3.2.1 数据获取
3.2.2 数据初探
数据前期探索的主要任务是检查数据中是否存在“脏数据”。
数据质量分析
常见的数据质量问题体现在以下一些方面。
- 有效性
- 准确性
- 完整性
- 一致性
- 时效性
- 可行性
数据特征分析
常采用的特征分析方法有以下几种。
分布分析。
定性数据,可用图柱状图。定量数据,绘制频率分布直方图、茎叶图。
对比分析。
有绝对数比较和相对数比较两种形式,相对数包括结构相对数如食品支出额占消费支出额的比重。
统计量分析
常从集中趋势和离中趋势两个方面进行分析。集中趋势度量反映了数据整体的平均水平,指标是均值、中位数和众数;离中趋势度量反映个体离开平均水平的变异程度,指标是标准差、极差、四分位间距和变异系数。
周期性分析
相关性分析
分析连续变量之间线性相关程度的强弱。常使用Pearson相关系数等来判断变量之间的相关性。此外散点图或散点图矩阵等也常用于考查两个或多个变量之间的相关性。
贡献度分析
依据帕累托法则(又称20/80定律),在任何一组东西中,最重要的东西只占20%,其余80%是次要的。可通过绘制帕累托图找出数据中的关键属性。
3.2.3 数据预处理
现实采集到的数据大多是有噪声的、不完整的。因此,数据预处理是不可或缺的。
数据预处理技术可分为数据清理、数据集成、数据转换和数据归约等。
数据清理
数据清理指修正数据中的错误、识别离群点及更正数据不一致的过程。典型数据错误类型有以下几种。
缺失值
经常使用的策略有删除错误数据记录、按照一定方法进行缺失数据填充两种。数据填充方法有以下几种。
- 使用常量代替缺失值
- 使用属性平均值进行填充
- 利用回归、分类方法进行预测式填充
- 人工填充
噪声值
噪声值是被测量变量的随机误差或方差。
不一致数据
数据集成
有效的数据集成过程有助于减少数据合并后的数据冲突。
数据集成需要解决的问题有以下几个方面。
属性匹配
确定不同数据源中数据属性间的对应关系。
冗余去除
两个方面:记录数据的冗余、数据属性冗余
数据冲突检测与处理
数据转换
作用是转换成适合数据分析的描述形式,常用的数据转换方法包括以下几种。
数据光滑
使用分箱、回归或聚类技术,去掉数据中的噪声。
数据聚集
如聚集每个县的销售额以获得整个省或整个国家的销售总额。
数据泛化
使用高层概念替换低层或“原始”数据,对数据进行抽象概述。如用老、中、青分别代替不同的年龄区间。
数据规范化
将属性数据按比例缩放到特定的小区间中,如将一个城市的房价映射到[0,1]上。
属性构造
根据已有的属性构造新的属性并添加到属性集中。如根据车辆行驶时间属性和速度属性可以构造出行驶里程属性。
数据规约
用于获取数据集的一个精简表示。
数据立方聚集
维规约
使用数据编码或变换方法获得原数据的“压缩”表示。常使用的有损规约方法有小波变换和主成分分析(PCA)等。PCA方法可将多维数据降为任意维数。它可用于取值有序和无序的属性,还可用于稀疏或异常数据。离散小波变换则更适合处理高维数据。数值规约
利用更简单的数据表达形式来替代原有数据。参数方法利用一个参数模型来计算原来的数据,如线性回归模型 Y=αX+βY=\alpha X+\betaY=αX+β中,只需存储α\alphaα和β\betaβ两个参数就可以通过自变量XXX预测因变量YYY。非参数方法则利用聚类、抽样和直方图等方法获得代表性数据来替代原始数据。
属性子集选择
如将电话号码属性加入数据分析中,会降低分析结果的有效性。目标是找出最小属性集。
离散化和概念分层生成
将属性的连续值域划分为若干区间。
3.2.4 数据存储
形式主要包括文件存储和数据库存储两大类。
文件存储
有利于使用者从存储底层开始对存储过程进行调整和优化。
- 电子表单(CSV)
- 结构或文件格式(XML)
数据库
- 关系型数据库
- 非关系型数据库
数据仓库
一般用于海量数据存储。特征:面向主题、集成化、非易失和时变
3.2.5 数据分析
统计分析
- 统计描述
- 统计推断
- 参数估计
- 点估计
- 矩估计
- 极大似然估计
- 区间估计
- 点估计
- 假设检验
- 参数估计
探索性数据分析
通常先假定一个模型(如正态分布),再使用此模型进行拟合、分析及预测。
数据挖掘
功能:预测、聚类分析、关联分析和异常分析等
类型:分类和回归(常用分类器:决策树、K最近邻、SVM、神经网络等)
聚类指将数据集聚集成几个簇。与分类的区别在于,不依赖预先定义好的类。
3.3 可视化+
3.3.1 可视数据探索
常用可视化手段有:
- 直方图看大体分布
- 箱线图分析数据的均值、最大最小值、方差等
- 细密直方图展示单个属性的密度值
- 散点图和散点图矩阵分析两两变量之间的关联性
- 曲线图、趋势图展示变化趋势
- 树图、饼图查看数据中部分与整体的关系
3.3.2 数据预处理与可视化
3.3.3 数据存储和可视化
3.3.4 可视数据挖掘与可视化分析
可视化导论 - 第三章 数据- 学习笔记相关推荐
- 可视化导论 - 第四章 数据可视化流程 - 学习笔记
第4章 数据可视化流程 4.1 数据可视化流程 以数据流向为主线,其主要模块包括数据采集.数据处理和变换.可视化映射和用户感知. 4.2 数据处理和数据变换 4.2.1 数据滤波 数据滤波器在信号处理 ...
- 第三章 分组-学习笔记
第三章 分组 # 导入需要的模块 import numpy as np import pandas as pd 一.分组模式及其对象 1. 分组的一般模式 分组操作常见于生活中,例如: 1.按照 性 ...
- 【数据可视化】第三章——数据可视化综合实践
Matplotlib作业数据.csv文件查看百度网盘:链接:https://pan.baidu.com/s/1oFB_KwhiJNlJAgXg7RaYuw?pwd=abcd 提取码:abcd 1.作业 ...
- 王道《计算机网络》第三章数据链路层 学习笔记
数据链路层 链路层的功能 链路层的两种信道 局域网.广域网 链路层的设备 数据链路层的功能概述 数据链路层的基本概念 结点:主机.路由器 链路:网络中两个结点之间的物理通道,根据传输介质的不同分为有线 ...
- head first python(第三章)–学习笔记
1.介绍基础文件,输入,输出 open() 打开文件,一次传入一行数据,可以结合for循环和readline()来使用 close() 用来关闭open打开的文件 the_file = open('s ...
- Effective Java(第三版) 学习笔记 - 第四章 类和接口 Rule20~Rule25
Effective Java(第三版) 学习笔记 - 第四章 类和接口 Rule20~Rule25 目录 Rule20 接口优于抽象类 Rule21 为后代设计接口 Rule22 接口只用于定义类型 ...
- 传感器自学笔记第十一章——三色RGB学习笔记+高感度声音检测模块+KY-010光遮断传感器+TCRT5000循迹传感器+倾斜模块
作者:GWD 时间:2019.06.28 三色RGB学习笔记(开关量类传感器) 一.学习要点:无 二.手册分析(开关量传感器) 1.产品用途:RGB LED 模块由一个贴片全彩 LED 制成,通过 R ...
- 《机器学习系列教程》第三章 深度学习基础
@[第三章 深度学习基础] 第三章 深度学习基础 3.1 基本概念 3.1.1 神经网络组成? 为了描述神经网络,我们先从最简单的神经网络说起. 感知机 简单的感知机如下图所示: [外链图片转存失败( ...
- c语言中,x-y,'105',ab,7f8那个是正确的,C语言程序设计_第三章 数据.ppt
C语言程序设计_第三章 数据 * 运算符功能 与运算量关系 要求运算量个数 要求运算量类型 运算符优先级别 结合方向 结果的类型 学习运算符应注意 * 基本算术运算符: + - * / % 结合方向: ...
- 大数据学习笔记:Hadoop生态系统
文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...
最新文章
- 完胜 BERT,谷歌最佳 NLP 预训练模型开源
- android token过期怎么跳转登录_用sa-token轻松解决网站权限验证
- hbase获取region以及读取每个region的第一行
- 洪水同频率放大的方法_我们应该怎么选择放大器配件?
- 原码一位乘法器设计_数字IC校招基础知识点复习(七)——超前进位加法器、Wallace树、Booth乘法器...
- aria2百度网盘 http返回头无效_接口测试第10期:Fiddler中查看HTTP请求中的状态码...
- 2月第3周全球五大顶级域名总量净减6.1万个 降幅明显
- matlab 数字字母,MATLAB读取txt(包含字母和数字)
- 队列——数组实现和链式实现
- .net中的lock
- 企业微信开发步骤 1.拿到企业的id,在我的企业,拖到最下面拿到企业id 2.拿到SECRET,这个secret只有先创建应用才会产生出来...
- ubuntu 14.04全攻略
- 代码执行sql出错:SQL syntax error, expected token is ‘RIGHT_PAREN‘, actual token is ‘IDENTIFIER‘
- 小米手机的BUG,自动安装 APP 的错觉
- npm中node更新_如何在Node中管理NPM和功能时保持理智
- Codeforces 148D. Bag of mice(概率dp)
- springmvc对json数据的处理
- Live Server插件默认打开浏览器的无痕浏览模式解决方法
- 工程伦理2019春季学堂学分课(慕课平台)(含期末考试答案)
- 仿人民日报客户端app报纸版面-Android
热门文章
- 中国互联网迎来第二次电商盛世:谁淘汰了红极一时的淘品牌?
- DEDE源码分析与学习--index.php文件解读
- 树莓派3/4 实现天气语音播报与一种新的文本转语音方法 —— 百度云api +python +和风天气api
- 【转】Jsp自定义标签详解
- 计算机DNS服务器错误,找不到服务器或DNS错误怎么办?Win7找不到服务器或dns错误解决方法...
- 《德鲁克管理思想精要》读书笔记9 - 决策
- 图书馆座位预约管理系统毕业设计,图书馆座位管理系统设计与实现,图书馆座位预约系统毕业论文毕设作品参考
- 区块链:从理论走向实践--高盛公司(Glodman Sachs)发布过的报告
- lv双肩包尺寸对照表_当红Monogram帆布LV双肩包尺寸究竟有多少?
- python处理smap level2c 数据---根据 iqc_flag进行数据质量控制(二进制十进制)