2.1 给出三个用于数据散布特征的常用统计度量,并讨论如何在大型数据库中有效地计算它们。

1.移动极差(Moving Range)
是指两个或多个连续样本值中最大值与最小值之差,这种差是按这样的方式计算的:每当得到一个额外的数据点时,就在样本中加上这个新的点,同时删除其中时间上“最老的”点,然后计算与这点有关的极差,因此每个极差的计算至少与前一个极差的计算公用一个点的值。一般来说,移动极差用于单值控制图,并且通常用两点(连续的点)来计算移动极差。
2.异众比率(Variation Ratio)
是指非众数值的次数之和在总次数中所占的比重。异众比率用于衡量一组以众数为分布中心的集中程度,即衡量众数达标一组数据一般水平的代表性。异众比率越小,说明数据的集中程度越高。
3.离散系数(Coefficient Variation)
是变异系数、极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。将极差与算术平均数对比而得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是用标准差来计算的,称为标准差系数,即:Vσ=σxˉV_{σ}=\frac{σ}{\bar{x}}Vσ​=xˉσ​。离散系数越大,说明数据的离散程度越大。

2.2 假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。

(a)该数据的均值是多少,中位数是什么

(b)该数据的众数是什么,讨论数据的模态

(c)该数据的中列数是多少

(d)粗略地找出该数据第一个四分位数(Q1)和第三个四分位数(Q3

(e)给出该数据的五数概括

(f)绘制该数据的盒图

(g)分位数-分位数图与分位数图有何不同

(a)均值是29.96,中位数是25
(b)众数是25和35,数据的模态是双峰的。
(c)中列数是70+132=41.5\frac{70+13}{2}=41.5270+13​=41.5
(d)Q1是第二个20,Q3是第四个35
(f) 采用R语言绘制的盒图如下:

(g)分位数图横轴为f值,竖轴为属性值,用以观察单个变量的数据分布;分位数-分位数图,即q-q图,横轴和竖轴分别是对某个变量不同观测集的值,用以观察从一个分布到另一个分布数据是否有漂移。

2.3 设给定的数据集已经分组到区间,这些区间和对应频率如下所示:

age frequency
1~5 200
6~15 450
16~20 300
21~50 1500
51~80 700
81~110 44

计算该数据的近似中位数。

中位数区间为21~50,则中位数区间下界为L1=21,N=3194,(Σfreq)l=950,freqmedian=1500,width=30L_{1}=21, N=3194, (\Sigma{freq})_{l}=950, freq_{median}=1500,width=30L1​=21,N=3194,(Σfreq)l​=950,freqmedian​=1500,width=30,根据插值计算方法,则有median=L1+(N/2−(Σfreq)lfreqmedian)width=33.94median=L_{1}+(\frac{N/2-(\Sigma{freq})_{l}}{freq_{median}})width=33.94median=L1​+(freqmedian​N/2−(Σfreq)l​​)width=33.94。

2.4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:

age 23 23 27 27 39 41 47 49 50
%fat 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2
age 52 54 54 56 57 58 58 60 61
%fat 34.6 42.5 28.8 33.4 30.2 34.1 32.9 41.2 35.7

(a)计算age和%fat的均值、中位数和标准差

(b)绘制age和%fat的盒图

(c)绘制基于这两个变量的散点图和q-q图

(a)avg(age)≈46.44,avg(fat)≈28.78avg(age)\approx46.44, avg(fat)\approx28.78avg(age)≈46.44,avg(fat)≈28.78,
  median(age)=51,median(fat)=30.7median(age)=51, median(fat)=30.7median(age)=51,median(fat)=30.7,
  σ(age)≈13.22,σ(fat)≈9.25\sigma(age)\approx13.22, \sigma(fat)\approx9.25σ(age)≈13.22,σ(fat)≈9.25
(b)

(c)散点图

  q-q图

2.5 简要概述如何计算被如下属性描述的对象的相异性:

(a)标称属性

(b)非对称的二元属性

(c)数值属性

(d)词频向量

(a)两个标称属性描述的对象iii和jjj之间的相异性可以根据不匹配率来计算:d(i,j)=p−mp(1)d(i,j)=\frac{p-m}{p} \tag{1}d(i,j)=pp−m​(1)其中,mmm是匹配的数目(即iii和jjj取值相同的属性数),而ppp是刻画对象的属性总数。可以通过赋予mmm较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加mmm的影响。
(b)二元属性的相异性通过列联表进行计算,其中,非对称的二元属性相异性计算,需要忽略负匹配数,即d(i,j)=r+sq+r+s(2)d(i,j)=\frac{r+s}{q+r+s} \tag{2}d(i,j)=q+r+sr+s​(2)式中的分母部分省略掉了负匹配数ttt。
(c)数值属性的相异性采用对象之间的距离进行描述。包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。其中欧几里得距离表示为:d(i,j)=(xi1−xj1)2+(xi2−xj2)2+⋯+(xip−xjp)2(3)d(i,j)=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+\cdots+(x_{ip}-x_{jp})^2} \tag{3}d(i,j)=(xi1​−xj1​)2+(xi2​−xj2​)2+⋯+(xip​−xjp​)2​(3)曼哈顿距离表示为:d(i,j)=∣xi1−xj1∣+∣xi2−xj2∣+⋯+∣xip−xjp∣(4)d(i,j)=\lvert x_{i1}-x_{j1} \rvert+\lvert x_{i2}-x_{j2} \rvert+\cdots+\lvert x_{ip}-x_{jp} \rvert \tag{4}d(i,j)=∣xi1​−xj1​∣+∣xi2​−xj2​∣+⋯+∣xip​−xjp​∣(4)闵可夫斯基距离,又称LpL_{p}Lp​范数,ppp即hhh,表示为:d(i,j)=∣xi1−xj1∣h+∣xi2−xj2∣h+⋯+∣xip−xjp∣hh(5)d(i,j)=\sqrt[h]{\lvert x_{i1}-x_{j1} \rvert^h+\lvert x_{i2}-x_{j2} \rvert^h+\cdots+\lvert x_{ip}-x_{jp} \rvert^h} \tag{5}d(i,j)=h∣xi1​−xj1​∣h+∣xi2​−xj2​∣h+⋯+∣xip​−xjp​∣h​(5)当h→∞h\rightarrow \inftyh→∞时,闵可夫斯基距离推广为上确界距离,又称Lmax,L∞L_{max},L_\inftyLmax​,L∞​范数或切比雪夫距离或一致范数,表示为:d(i,j)=lim⁡h→∞(∑f=1p∣xif−xjf∣h)1h=max⁡fp∣xif−xjf∣(6)d(i,j)=\lim\limits_{h\rightarrow\infty}\Big(\sum\limits_{f=1}^p\lvert x_{if}-x_{jf}\rvert^h\Big)^{\frac{1}{h}}=\max\limits_f^p\lvert x_{if}-x_{jf}\rvert \tag{6}d(i,j)=h→∞lim​(f=1∑p​∣xif​−xjf​∣h)h1​=fmaxp​∣xif​−xjf​∣(6)如果对每个变量根据其重要性赋予一个权重,则加权的欧几里得距离表示为:d(i,j)=ω1∣xi1−xj1∣2+ω2∣xi2−xj2∣2+⋯+ωp∣xip−xjp∣2(7)d(i,j)=\sqrt{\omega_1\lvert x_{i1}-x_{j1} \rvert^2+\omega_2\lvert x_{i2}-x_{j2} \rvert^2+\cdots+\omega_p\lvert x_{ip}-x_{jp} \rvert^2} \tag{7}d(i,j)=ω1​∣xi1​−xj1​∣2+ω2​∣xi2​−xj2​∣2+⋯+ωp​∣xip​−xjp​∣2​(7)
(d)计算词频向量的相似性,需要忽略0匹配的数值。可以采用余弦相似性度量,表示为:sim(x,y)=x⋅y∣∣x∣∣∣∣y∣∣(8)sim(x,y)=\frac{x\cdot y}{\lvert\lvert x\rvert\rvert\ \lvert\lvert y\rvert\rvert} \tag{8}sim(x,y)=∣∣x∣∣ ∣∣y∣∣x⋅y​(8)其中,xxx和yyy分别是各向量的欧几里得范数,即向量的长度。

2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。

(a)计算这两个对象之间的欧几里得距离

(b)计算这两个对象之间的曼哈顿距离

(c)使用p=3,计算这两个对象之间的闵可夫斯基距离

(d)计算这两个对象之间的上确界距离

(a)根据公式(3)可得欧几里得距离约为6.7082046.7082046.708204
(b)根据公式(4)可得曼哈顿距离为11
(c)根据公式(5)可得闵可夫斯基距离约为6.153449
(d)根据公式(6)可得上确界距离为6

2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下,分析它们各自的复杂度,并确定它们的实际近似程度。此外,提出一种启发式策略,平衡准确性与复杂性,然后把它用于你给出的所有方法。

插值法

2.8 在数据分析中,重要的是选择相似性度量。然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。假设我们有如下二维数据集:

A1 A2
x1 1.5 1.7
x2 2 1.9
x3 1.6 1.8
x4 1.2 1.5
x5 1.5 1.0

(a)把该数据看做二维数据点。给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。

(b)规格化该数据集,使得每个数据点的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。

(a)欧几里得距离排序:

x
x1 0.1414214
x4 0.2236068
x3 0.2828427
x5 0.6082763
x2 0.6708204

曼哈顿距离排序:

x
x1 0.2
x4 0.3
x3 0.4
x5 0.7
x2 0.9

上确界距离排序:

x
x1 0.1
x4 0.2
x3 0.2
x5 0.6
x2 0.6

余弦相似性排序:

x
x1 0.0293405394190871
x4 0.0548055882352941
x3 0.05524271484375
x2 0.114866506849315
x5 0.164399

(b)规格化的数据表

A1 A2
x1 0.6616216 0.7498379
x2 0.7249994 0.6887495
x3 0.6643638 0.7474093
x4 0.6246950 0.7808688
x5 0.8320503 0.5547002

欧几里得距离排序

x
x1 1.126045416
x3 1.126086778
x4 1.127862437
x2 1.134020859
x5 1.189629584

致谢

感谢广大网友!
主要参考内容:
[1]https://blog.csdn.net/pipisorry/article/details/72820982
[2]https://blog.csdn.net/fjssharpsword/article/details/74911180
[3]https://blog.csdn.net/qq_24336773/article/details/80676059
[4]https://blog.csdn.net/xxzhangx/article/details/53153821

《数据挖掘概念与技术》学习笔记-第二章相关推荐

  1. 《3D游戏与计算机图形学中的数学方法》学习笔记 第二章

    第二章 向量 该章主要讲述向量的基本概念和性质,并且给出了性质的证明. 证明笔记这里就不给出了,毕竟向量的基本性质都是印在脑子里的东西了,要看证明的话可以翻小.初.高课本- 2.1向量性质 定理2.1 ...

  2. java3d点线面_3D游戏与计算机图形学中的数学方法-点线面

    <易传·系辞上传>:"易有太极,是生两仪,两仪生四象,四象生八卦." 借用一下古代先人们的智慧引一下本文的主题-三维图形中的点线面,在三维几何中也有一句话可以和上面的话 ...

  3. 《计算机图形学原理及实践》学习笔记之第十章

    第十章 2D 变换 线性变换: 对于 2D 空间: T:R2−>R2T:R^2 -> R^2T:R2−>R2 R2R^2R2 表示二维空间,及一个二维空间向量 或 点经过线性变换仍是 ...

  4. 计算机安全原理与实践_《计算机图形学原理及实践》学习笔记之第三章

    第三章 一个古老的绘制器 1525年,阿尔布雷·丢勒 制作了一幅木刻画,展示了一种可以绘制任一形体透视图的方法. 本章我们将开发一个软件来模拟丢勒展示的方法. 丢勒视角绘制算法的伪代码 Input: ...

  5. 《计算机图形学原理及实践》学习笔记之第三章

    第三章 一个古老的绘制器 1525年,阿尔布雷·丢勒 制作了一幅木刻画,展示了一种可以绘制任一形体透视图的方法. 本章我们将开发一个软件来模拟丢勒展示的方法. 丢勒视角绘制算法的伪代码 Input: ...

  6. MIT18.065 数据分析、信号处理和机器学习中的矩阵方法-学习笔记

    文章目录 MIT18.065 数据分析.信号处理和机器学习中的矩阵方法 Lecture 1 The Column Space of A Contains All Vectors Ax A=CR A=C ...

  7. 数学之美--计算机图形学中的数学方法论

    我的github: https://github.com/jackyblf 我的公众号: 早期研究3D程序开发的程序员最大的情怀就是从无到有,自己实现一个游戏引擎.当时的我也是充满着这种复古情怀!! ...

  8. 计算机图形学与opengl C++版 学习笔记 第5章 纹理贴图

    目录 5.1 加载纹理图像文件 5.2 纹理坐标 5.3 创建纹理对象 5.4 构建纹理坐标 5.5 将纹理坐标载入缓冲区 5.6 在着色器中使用纹理:采样器变量和纹理单元 5.7 纹理贴图:示例程序 ...

  9. 计算机图形学与opengl C++版 学习笔记 第11章 参数曲面

    目录 11.1 二次贝塞尔曲线(三点) 11.2 三次贝塞尔曲线(四点) 11.3 二次贝塞尔曲面(3x3控制点) 11.4 三次贝塞尔曲面(4x4控制点) 补充说明 在20世纪50年代和60年代在雷 ...

  10. 计算机图形学与opengl C++版 学习笔记 第14章 其他技术

    目录 14.1 雾 14.2 复合.混合.透明度 14.3 用户定义剪裁平面 14.4 3D纹理 14.5 噪声 14.6 噪声应用--大理石 14.8 噪声应用--云 14.9 噪声应用--特殊效果 ...

最新文章

  1. Stream流与Lambda表达式(四) 自定义收集器
  2. 【Java从0到架构师,mysql视频教程推荐
  3. Tomcat+Apache 负载均衡
  4. 哈佛开源 | 从零开始教你计算机图形学
  5. JAVA基础知识总结:二十一
  6. 使用promise解决回调地狱_回调地狱的由来和如何利用promise解决回调地狱
  7. mule esb_Mule ESB –入门
  8. 权限数据库设计(Sql Server)
  9. 【原】linux下tar解压缩问题:time stamp in the future
  10. script脚本中写不写$(document).ready(function() {});的差别
  11. 服务器位置设置,服务器部署位置
  12. PCL RANSAC点云配准
  13. 对象转换成Json字符串是时中文乱码
  14. java 有序map_java 有序Map之TreeMap的使用
  15. 修改表结构ALTER TABLE
  16. PHP、TP5生成下载word
  17. 来啊battle啊,Java和Python你站哪个?
  18. linux基础——信号阻塞及未决信号
  19. 企业微信品牌私域运营案例合集
  20. SQL查询表结构相同的两张表中数据的差异

热门文章

  1. 数据结构课程设计之区块链工作原理模拟设计
  2. ubuntu系统(二):ibus拼音将繁体中文改为简体中文
  3. el-upload点击打开文件上传弹窗之前进行其他操作,等待操作完成后再打开文件上传弹窗
  4. 对tuscany中domain、cloud、node、composite关系的理解
  5. 基于SCA(tuscany)的SOA实践之一(发布服务是如此的简单)
  6. linux u盘修复引导文件,centos bootloader安装到u盘后修复方法
  7. C++读取和写入CSV文件,实现判断文件格式,并且特定的排序输出的实例
  8. java 将map写入文件_如何将java中map数据写入txt文件中
  9. Recsys'21 | 基于Transformers的行为序列建模
  10. Overleaf (LaTex) 使用笔记(自用)