数据挖掘第二章 认识数据

  • 认识数据
    • 2.1 数据对象与属性类型
    • 2.2 数据的基本统计描述
      • 2.2.1 中心趋势度量:均值、中位数和众数
      • 2.2.2 度量数据散步:极差、四分位数、方差、标准差和四分位数极差
      • 2.2.3 数据的基本统计描述的图形显示
    • 2.4 度量数据的相似性和相异性
      • 2.4.1 数据矩阵与相异性矩阵
      • 2.4.2 标称属性的邻近性度量
      • 2.4.3 二元属性的邻近性度量
      • 2.4.4 数值属性的相异性:闵可夫斯基距离
      • 2.4.5 叙述属性的邻近性度量
      • 2.4.6 混合类型属性的相异性
      • 2.4.7 余弦相似性

认识数据

2.1 数据对象与属性类型

数据对象 - 实体

属性 - 描述数据对象,数据对象的一个特征

属性的类型:

  1. 标称属性nominal attribute

    • 值是符号或事物的名称(枚举的)
    • 可以用数字表示 => 均值、中位数无意义,众数有意义(中心趋势度量)
  2. 二元属性binary attribute
    • 标称属性的一种,只有0,1两种状态
    • 对称的:状态同等价值与权重
    • 非对称的:状态的结果不是同样重要
  3. 序数属性ordinal attribute
    • 具有有意义的先后次序,且相继值之间的差未知
    • 应用:记录不能客观度量的主观质量评估
    • 连续数值经数据归约 => 序数属性
    • 不可定义均值
  4. 数值属性numeric attribute
    1. 区间标度属性
    2. 比率标度属性
  5. 离散属性连续属性

2.2 数据的基本统计描述

2.2.1 中心趋势度量:均值、中位数和众数

  1. 均值

    • 加权算术平均( w i w_i wi​)
    • 截尾均值(去前x%)
  2. 中位数(非对称/倾斜数据:正倾斜、负倾斜)
    • 数据量很大: m e d i a n = L 1 + N / 2 − ( ∑ f r e q ) l f r e q m e d i a n w i d t h median = L_1+\frac{N/2-(\sum freq)_l}{freq_{median}}width median=L1​+freqmedian​N/2−(∑freq)l​​width
  3. 众数
    • 单峰
    • 多峰:双峰、三峰
  4. 中列数:最大和最小值的平均值

2.2.2 度量数据散步:极差、四分位数、方差、标准差和四分位数极差

  1. 极差、四分位数和四分位数极差IQR(散布度量)

    • 极差:max - min
    • 中位数、四分位数、百分位数
  2. 五数概括、盒图与离群点(倾斜分布)

    • 识别离群点:落在 Q 3 Q_3 Q3​之上或 Q 1 Q_1 Q1​之下至少 1.5 × I Q R 1.5×IQR 1.5×IQR处的值

    • 五数概括: M i n i m u m , Q 1 , M e d i a n , Q 3 , M a x i m u m Minimum,Q_1,Median,Q_3,Maximum Minimum,Q1​,Median,Q3​,Maximum

    • 盒图

      seaborn.boxplot
      
  3. 方差和标准差(散布度量)

    • 常与均值一起使用

    • 一个观测一般不会远离均值超过标准差的数倍
      最 少 ( 1 − 1 k 2 ) × 100 % 的 观 测 离 均 值 不 超 过 k 个 标 准 差 最少(1-\frac{1}{k^2})×100\%的观测离均值不超过k个标准差 最少(1−k21​)×100%的观测离均值不超过k个标准差

2.2.3 数据的基本统计描述的图形显示

  1. 分位数图quantile plot

    • 显示给定属性的所有数据集,及分位数
  2. 分位数-分位数图
    • 给定属性两个数据集,每个数据集的分位数一一对应
  3. 直方图
    • 标称:条形图bar chart
    • 数值:直方图histogram
    • 对于比较单变量观测组,不如分位数图、q-q图和盒图有效

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵与相异性矩阵

数据矩阵:

  • 行——对象
  • 列——属性

相异性矩阵:

  • n个对象两两之间的邻近度

2.4.2 标称属性的邻近性度量

d ( i , j ) = p − k i m p d(i,j)=\frac{p-k_im}{p} d(i,j)=pp−ki​m​

2.4.3 二元属性的邻近性度量

对 称 : d ( i , j ) = r + s q + r + s + t 非 对 称 : d ( i , j ) = r + s q + r + s 对称:d(i,j)=\frac{r+s}{q+r+s+t}\\ 非对称:d(i,j)=\frac{r+s}{q+r+s} 对称:d(i,j)=q+r+s+tr+s​非对称:d(i,j)=q+r+sr+s​

  • Jaccard系数

2.4.4 数值属性的相异性:闵可夫斯基距离

  • 欧氏距离(加权)
  • 曼哈顿距离
  • 闵可夫斯基距离:范数

2.4.5 叙述属性的邻近性度量

  1. 替换排位
  2. 规格化
  3. 求距离

2.4.6 混合类型属性的相异性

分别求相异性然后相加除

2.4.7 余弦相似性

系数矩阵,忽略0匹配的数值数据度量
s i m ( x , y ) = x ⋅ y ∣ ∣ x ∣ ∣ ∣ ∣ y ∣ ∣ sim(x,y)=\frac{x\cdot y}{||x||~||y||} sim(x,y)=∣∣x∣∣ ∣∣y∣∣x⋅y​
属性是二值属性:
s i m ( x , y ) = x ⋅ y x ⋅ x + y ⋅ y − x ⋅ y sim(x,y)=\frac{x\cdot y}{x\cdot x +y\cdot y -x\cdot y} sim(x,y)=x⋅x+y⋅y−x⋅yx⋅y​

数据挖掘第二章 认识数据相关推荐

  1. ASP.NET3.5 企业级项目开发 -- 第二章(续) 数据访问层(DAL)的开发解决方案提出...

    ASP.NET3.5 企业级项目开发 -- 第二章(续) 数据访问层(DAL)的开发解决方案提出 前言:首先给大家说声"对不起",因为自从打算写这系列的文章以来,得到大家很多的支持 ...

  2. 运用计算机辅助电话调查的方法,第二章 统计数据的搜集、整理与显示

    "对统计学家来说,当今是统计学一切最重要活动的最重要的时期." "在花费同样的时间和劳动下,完整细致地检查数据的收集过程,或者说试验过程,常常会增加10倍或12倍的收益. ...

  3. 考研 | 组成原理【第二章】数据的表示和运算

    考研 | 组成原理[第二章]数据的表示和运算 文章目录 考研 | 组成原理[第二章]数据的表示和运算 I. 数制与编码 a. 进位计数制及其相互转换 b. BCD码 1. 8421码 2. 余3码 3 ...

  4. 计算机组成原理笔记(王道考研) 第二章:数据的表示和运算1

    内容基于中国大学MOOC的2023考研计算机组成原理课程所做的笔记. 感谢LY,他帮我做了一部分笔记.由于听的时间不一样,第四章前的内容看起来可能稍显啰嗦,后面会记得简略一些. 西电的计算机组织与体系 ...

  5. 计算机组成原理笔记(王道考研) 第二章:数据的表示和运算2

    内容基于中国大学MOOC的2023考研计算机组成原理课程所做的笔记. 感谢LY,他帮我做了一部分笔记.由于听的时间不一样,第四章前的内容看起来可能稍显啰嗦,后面会记得简略一些. 西电的计算机组织与体系 ...

  6. 第二章 MATLAB数据与矩阵

    第二章 MATLAB 数据与矩阵 文章目录 第二章 MATLAB 数据与矩阵 2.1 MATLAB数据类型 2.2 变量和数据操作 2.2.1 变量与赋值 2.2.2 预定义变量 2.2.3 MATL ...

  7. 《数据密集型计算和模型》第二章大数据时代的计算机体系结构复习

    <数据密集型计算和模型>第二章的有关内容.主要复习内容为:计算部件.存储部件.网络部件.软件定义部件.虚拟资源管理系统等. 文章目录 大数据时代的计算机体系结构 一.计算部件 1. 多核和 ...

  8. 第二章 大数据操作系统

    本章将重点展示Hadoop作为大数据操作系统的一面,通过分布式文件系统(HDFS)和负载和资源管理器(YARN)来概述Hadoop的原理.另外还会演示如何使用命令行与HDFS进行交互,并执行一个Map ...

  9. 第二章matlab数据及其运算,第2章 MATLAB数据及其运算_习题答案

    第2章 MATLAB数据及其运算 习题2 一.选择题 1.下列可作为MATLAB合法变量名的是().D A.合计B.123 C.@h D.xyz_2a 2.下列数值数据表示中错误的是().C A.+1 ...

最新文章

  1. 它指导了计算机行业大半个世纪的发展,如今却要走下神坛?
  2. 1.虚拟化的历史和定义
  3. UI层调用WCF服务实例(源码)
  4. 机器学习中基本线性代数
  5. GIT和GitHub的使用总结
  6. linux游戏调试,LINUX游戏服务器的安装与调试.doc
  7. 我如何构建SiriWaveJS库:看一下数学和代码
  8. 用Python采集了几千条相亲文案,终于发现了告别单身的秘密
  9. 关于近段时间不更新博客的借口
  10. java 双向链表循环_(java实现)双向循环链表
  11. 幻想三国android官方版,幻想三国ol官方版
  12. springboot实现短信验证码登录注册
  13. BootStrap4内容系列之文字排版
  14. C++ STL算法adjacent_find(09)
  15. 无盘服务器4根网线雨两根网线的区别,网线接法的描述:实际用到4根。
  16. java录入会员信息_Java编程语言基础 第三章 实现会员信息录入功能
  17. STM32 HAL库ADC+DMA(非定时器)代码和遇到的问题
  18. 中考词汇测试软件,百词斩中考版
  19. 一键复制 html,最简单js代码实现一键复制文字
  20. 在职场如何应对他人的关注

热门文章

  1. JS、阻止 a 标签的默认点击事件,阻止默认的所有事件
  2. 分布式定时任务(XXL_JOB)
  3. file_get_contents 访问 ssl 错误的两种解决方法
  4. 【知识总结】扩展卢卡斯定理(exLucas)
  5. jstack命令 详解
  6. 淘宝/天猫API,获得淘宝商品评论返回值说明(数据解析)
  7. 常用的Python开发工具有哪些?
  8. 中国石油大学(北京)-《外国文学作品选读》第一阶段在线作业
  9. 过滤器、使用过滤器完成session效验
  10. 数据库SQL语句UPDATE能否修改主码