数据挖掘第二章 认识数据
数据挖掘第二章 认识数据
- 认识数据
- 2.1 数据对象与属性类型
- 2.2 数据的基本统计描述
- 2.2.1 中心趋势度量:均值、中位数和众数
- 2.2.2 度量数据散步:极差、四分位数、方差、标准差和四分位数极差
- 2.2.3 数据的基本统计描述的图形显示
- 2.4 度量数据的相似性和相异性
- 2.4.1 数据矩阵与相异性矩阵
- 2.4.2 标称属性的邻近性度量
- 2.4.3 二元属性的邻近性度量
- 2.4.4 数值属性的相异性:闵可夫斯基距离
- 2.4.5 叙述属性的邻近性度量
- 2.4.6 混合类型属性的相异性
- 2.4.7 余弦相似性
认识数据
2.1 数据对象与属性类型
数据对象 - 实体
属性 - 描述数据对象,数据对象的一个特征
属性的类型:
- 标称属性nominal attribute
- 值是符号或事物的名称(枚举的)
- 可以用数字表示 => 均值、中位数无意义,众数有意义(中心趋势度量)
- 二元属性binary attribute
- 标称属性的一种,只有0,1两种状态
- 对称的:状态同等价值与权重
- 非对称的:状态的结果不是同样重要
- 序数属性ordinal attribute
- 具有有意义的先后次序,且相继值之间的差未知
- 应用:记录不能客观度量的主观质量评估
- 连续数值经数据归约 => 序数属性
- 不可定义均值
- 数值属性numeric attribute
- 区间标度属性
- 比率标度属性
- 离散属性与连续属性
2.2 数据的基本统计描述
2.2.1 中心趋势度量:均值、中位数和众数
- 均值
- 加权算术平均( w i w_i wi)
- 截尾均值(去前x%)
- 中位数(非对称/倾斜数据:正倾斜、负倾斜)
- 数据量很大: m e d i a n = L 1 + N / 2 − ( ∑ f r e q ) l f r e q m e d i a n w i d t h median = L_1+\frac{N/2-(\sum freq)_l}{freq_{median}}width median=L1+freqmedianN/2−(∑freq)lwidth
- 众数
- 单峰
- 多峰:双峰、三峰
- 中列数:最大和最小值的平均值
2.2.2 度量数据散步:极差、四分位数、方差、标准差和四分位数极差
极差、四分位数和四分位数极差IQR(散布度量)
- 极差:max - min
- 中位数、四分位数、百分位数
五数概括、盒图与离群点(倾斜分布)
识别离群点:落在 Q 3 Q_3 Q3之上或 Q 1 Q_1 Q1之下至少 1.5 × I Q R 1.5×IQR 1.5×IQR处的值
五数概括: M i n i m u m , Q 1 , M e d i a n , Q 3 , M a x i m u m Minimum,Q_1,Median,Q_3,Maximum Minimum,Q1,Median,Q3,Maximum
盒图
seaborn.boxplot
方差和标准差(散布度量)
常与均值一起使用
一个观测一般不会远离均值超过标准差的数倍
最 少 ( 1 − 1 k 2 ) × 100 % 的 观 测 离 均 值 不 超 过 k 个 标 准 差 最少(1-\frac{1}{k^2})×100\%的观测离均值不超过k个标准差 最少(1−k21)×100%的观测离均值不超过k个标准差
2.2.3 数据的基本统计描述的图形显示
- 分位数图quantile plot
- 显示给定属性的所有数据集,及分位数
- 分位数-分位数图
- 给定属性两个数据集,每个数据集的分位数一一对应
- 直方图
- 标称:条形图bar chart
- 数值:直方图histogram
- 对于比较单变量观测组,不如分位数图、q-q图和盒图有效
2.4 度量数据的相似性和相异性
2.4.1 数据矩阵与相异性矩阵
数据矩阵:
- 行——对象
- 列——属性
相异性矩阵:
- n个对象两两之间的邻近度
2.4.2 标称属性的邻近性度量
d ( i , j ) = p − k i m p d(i,j)=\frac{p-k_im}{p} d(i,j)=pp−kim
2.4.3 二元属性的邻近性度量
对 称 : d ( i , j ) = r + s q + r + s + t 非 对 称 : d ( i , j ) = r + s q + r + s 对称:d(i,j)=\frac{r+s}{q+r+s+t}\\ 非对称:d(i,j)=\frac{r+s}{q+r+s} 对称:d(i,j)=q+r+s+tr+s非对称:d(i,j)=q+r+sr+s
- Jaccard系数
2.4.4 数值属性的相异性:闵可夫斯基距离
- 欧氏距离(加权)
- 曼哈顿距离
- 闵可夫斯基距离:范数
2.4.5 叙述属性的邻近性度量
- 替换排位
- 规格化
- 求距离
2.4.6 混合类型属性的相异性
分别求相异性然后相加除
2.4.7 余弦相似性
系数矩阵,忽略0匹配的数值数据度量
s i m ( x , y ) = x ⋅ y ∣ ∣ x ∣ ∣ ∣ ∣ y ∣ ∣ sim(x,y)=\frac{x\cdot y}{||x||~||y||} sim(x,y)=∣∣x∣∣ ∣∣y∣∣x⋅y
属性是二值属性:
s i m ( x , y ) = x ⋅ y x ⋅ x + y ⋅ y − x ⋅ y sim(x,y)=\frac{x\cdot y}{x\cdot x +y\cdot y -x\cdot y} sim(x,y)=x⋅x+y⋅y−x⋅yx⋅y
数据挖掘第二章 认识数据相关推荐
- ASP.NET3.5 企业级项目开发 -- 第二章(续) 数据访问层(DAL)的开发解决方案提出...
ASP.NET3.5 企业级项目开发 -- 第二章(续) 数据访问层(DAL)的开发解决方案提出 前言:首先给大家说声"对不起",因为自从打算写这系列的文章以来,得到大家很多的支持 ...
- 运用计算机辅助电话调查的方法,第二章 统计数据的搜集、整理与显示
"对统计学家来说,当今是统计学一切最重要活动的最重要的时期." "在花费同样的时间和劳动下,完整细致地检查数据的收集过程,或者说试验过程,常常会增加10倍或12倍的收益. ...
- 考研 | 组成原理【第二章】数据的表示和运算
考研 | 组成原理[第二章]数据的表示和运算 文章目录 考研 | 组成原理[第二章]数据的表示和运算 I. 数制与编码 a. 进位计数制及其相互转换 b. BCD码 1. 8421码 2. 余3码 3 ...
- 计算机组成原理笔记(王道考研) 第二章:数据的表示和运算1
内容基于中国大学MOOC的2023考研计算机组成原理课程所做的笔记. 感谢LY,他帮我做了一部分笔记.由于听的时间不一样,第四章前的内容看起来可能稍显啰嗦,后面会记得简略一些. 西电的计算机组织与体系 ...
- 计算机组成原理笔记(王道考研) 第二章:数据的表示和运算2
内容基于中国大学MOOC的2023考研计算机组成原理课程所做的笔记. 感谢LY,他帮我做了一部分笔记.由于听的时间不一样,第四章前的内容看起来可能稍显啰嗦,后面会记得简略一些. 西电的计算机组织与体系 ...
- 第二章 MATLAB数据与矩阵
第二章 MATLAB 数据与矩阵 文章目录 第二章 MATLAB 数据与矩阵 2.1 MATLAB数据类型 2.2 变量和数据操作 2.2.1 变量与赋值 2.2.2 预定义变量 2.2.3 MATL ...
- 《数据密集型计算和模型》第二章大数据时代的计算机体系结构复习
<数据密集型计算和模型>第二章的有关内容.主要复习内容为:计算部件.存储部件.网络部件.软件定义部件.虚拟资源管理系统等. 文章目录 大数据时代的计算机体系结构 一.计算部件 1. 多核和 ...
- 第二章 大数据操作系统
本章将重点展示Hadoop作为大数据操作系统的一面,通过分布式文件系统(HDFS)和负载和资源管理器(YARN)来概述Hadoop的原理.另外还会演示如何使用命令行与HDFS进行交互,并执行一个Map ...
- 第二章matlab数据及其运算,第2章 MATLAB数据及其运算_习题答案
第2章 MATLAB数据及其运算 习题2 一.选择题 1.下列可作为MATLAB合法变量名的是().D A.合计B.123 C.@h D.xyz_2a 2.下列数值数据表示中错误的是().C A.+1 ...
最新文章
- 它指导了计算机行业大半个世纪的发展,如今却要走下神坛?
- 1.虚拟化的历史和定义
- UI层调用WCF服务实例(源码)
- 机器学习中基本线性代数
- GIT和GitHub的使用总结
- linux游戏调试,LINUX游戏服务器的安装与调试.doc
- 我如何构建SiriWaveJS库:看一下数学和代码
- 用Python采集了几千条相亲文案,终于发现了告别单身的秘密
- 关于近段时间不更新博客的借口
- java 双向链表循环_(java实现)双向循环链表
- 幻想三国android官方版,幻想三国ol官方版
- springboot实现短信验证码登录注册
- BootStrap4内容系列之文字排版
- C++ STL算法adjacent_find(09)
- 无盘服务器4根网线雨两根网线的区别,网线接法的描述:实际用到4根。
- java录入会员信息_Java编程语言基础 第三章 实现会员信息录入功能
- STM32 HAL库ADC+DMA(非定时器)代码和遇到的问题
- 中考词汇测试软件,百词斩中考版
- 一键复制 html,最简单js代码实现一键复制文字
- 在职场如何应对他人的关注