• 第二章答案

第二章答案


该答案为重庆大学计算机学院Jack Channy所作,由于本人水平有限,难免有错误和不当之处,如有意见请评论或者发邮件至majiecqu@126.com。

2.1 再给三个用于数据散布特征的常用统计量(即未在本章讨论过的),并讨论如何在大型数据库中有效的计算它们。

  1. 异众比率(variation ratio):用VrV_r表示,其定义为:

    Vr=∑fi−fm∑fi=1−fm∑fi

    V_r = \frac{\sum{f_i} - f_m} {\sum{f_i}}=1-\frac{f_m}{\sum{f_i}},其中∑fi\sum{f_i}表示变量值的总频数,∑fm\sum{f_m}表示众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越好。异众比率主要适合测度分类数据的离散程度,当然,对于顺序数据与数值数据也可以进行计算。

  2. 标准分数(standard score):变量值与其平均数的差除以标准差后的值。设标准分数为zz,则有
    z=xi−x¯s

    z=\frac{x_i - \bar{x}}{s}标准分数给出了一组数据中各数值的相对位置。实际上,zz分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据的分布形状。

  3. 相对离散程度:离散系数(coefficient of variation):一组数据的标准差与其相应的平均数之比称为离散系数,也称变异系数。为了消除变量值水平高低(即两个相同类型的属性其值的分布差别特别大,比如一个为几百万,而另一个为几万或几十万)和计量单位不同对离散程度测度值的影响,需要计算离散系数,其计算公式为:
    vx=sx¯

    v_x=\frac{s}{\bar{x}}离散系数的作用主要是用于比较不同样本的离散程度。离散系数越大,说明离散程度越大。离散系数越小,说明离散程度就越小(当平均数趋于零时,离散系数就趋于无穷大,此时需要按照实际情况进行解释)。

2.2 假设所分析的的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.

  1. 该数的均值是多少?中位数是什么?
    该数的均值为29.963,中位数是25。

  2. 该数据的众数是什么?讨论数据的模态(即二模、三模等)。
    该数据的众数为25和35,即该数据是一个双峰的分布,即二模。

  3. 该数据的中列数是多少?
    该数据的中列数为(70+13)/2=41.5。

  4. 你能粗略的找出该数据的第一个四分位数(Q1Q_1)和第三个四分位数(Q3Q_3)吗?
    第一个四分位数为:⌈274⌉=7\left\lceil\frac{27}{4}\right\rceil=7处,Q1=20Q_1=20,第三个四分位数为:7∗3=21处7*3=21处,Q3=35Q_3=35。

  5. 给出该数据的五数概括。
    根据以上,得到了最小观测值、Q1、Q2、Q3Q_1、Q_2、Q_3、最大观测值,所以画出其盒图如下:

  6. 分位数-分位数图与分位数图有什么区别?
    分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。首先它显示给定属性的所有数据的分布情况;其次,它绘出了分位数信息(即对于某序数或数值属性XX,设xi(i=1,...,N)x_i(i=1, ..., N)是按照递增排序的数据,使得x1x_1是最小的观测值,xNx_N是最大的观测值)。
    分位数-分位数图(q-q图)则是反映了同一 个属性的不同样本的数据分布情况,使得用户可以很方便的比较这两个样本之间的区别或者联系。

2.3 给定的数据集已经分组到区间,计算该数据的近似中位数。

  1. 解题思路:由于该题目并没有说明某一个年龄对应的人数有多少个,所以一种解题思路就是取每一个年龄区间的中位数乘以其人数,然后再除以总的人数从而计算所有数据的中位数。

    median=3×200+10×450+18×300+35×1500+65×700+95×44200+450+300+1500+700+44≃35

    median=\frac{3\times200+10\times450+18\times300+35\times1500+65\times700+95\times44}{200+450+300+1500+700+44}\simeq35

2.5 简要概述如何计算被如下属性描述的对象的相异性:

  1. 标称属性
    标称属性的相异性可以根据不匹配率去计算:

    d(i,j)=p−mp

    d(i,j)=\frac{p-m}{p}其中,pp为刻画对象的属性总数,mm是匹配的数目(即ii和jj取值相同状态的属性数)

  2. 非对称的二元属性
    非对称的二元相异性可以依据二元属性的列联表去计算,计算公式如下:

    d(i,j)=r+sq+r+s

    d(i,j)=\frac{r+s}{q+r+s}具体标号含义详解课本第71页。

  3. 数值属性
    数值属性可以有闽可夫斯基距离(Minkowski distance),它是欧几里得距离和曼哈顿距离的推广,定义如下:

    d(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|h−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√h

    d(i,j)=\sqrt[h]{|x_{i1}-x_{j1}|^h+|x_{i2}-x_{j2}|^h+...+|x_{ip}-x_{jp}|^h}

  4. 词频向量
    词频向量可以用余弦相似度与计算,其计算方式如下:

    sim(x⃗ ,y⃗ )=cos(x⃗ ,y⃗ )=x⃗ ⋅y⃗ ||x⃗ ||||y⃗ ||

    sim(\vec{x},\vec{y})=cos(\vec{x},\vec{y})=\frac{\vec{x}\cdot\vec{y}}{||\vec{x}||\;||\vec{y}||}

2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。

  1. 计算这两个对象之间的欧几里得距离。

    d=(22−20)2+(1−0)2+(42−36)2+(10−8)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√2≃6.7

    d=\sqrt[2]{(22-20)^2 + (1-0)^2 + (42-36)^2 + (10-8)^2}\simeq6.7

  2. 计算这两个对象之间的曼哈顿距离。
    d=|22−20|+|1−0|+|42−36|+|10−8|=11

    d=|22-20| + |1-0| + |42-36| + |10-8|=11

  3. 使用q=3q=3,计算这两个对象之间的闵可夫斯基距离。
    这里的qq,个人认为可能是公式中的hh,所以计算如下:

    d=|22−20|3+|1−0|3+|42−36|3+|10−8|3−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√3≃6.15

    d=\sqrt[3]{|22-20|^3 + |1-0|^3 + |42-36|^3 + |10-8|^3}\simeq6.15

  4. 计算这两个对象之间的上确界距离。
    d=maxfp|xif−xjf|=|42−36|=6

    d=\mathop{max}\limits_f^p\;|x_{if}-x_{jf}|=|42-36|=6

2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下,分析它们各自的复杂度,并确定它们的实际近似程度。此外,提出一种启发式策略,平衡准确性与复杂性,然后把它用于你给出的所有方法。

  • 这个问题别问我[捂脸]……

2.8 在数据分析中,重要的是选择相似性度量。然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。

A1A_1 A2A_2
x1x_1 1.5 1.7
x2x_2 2 1.9
x3x_3 1.6 1.8
x4x_4 1.2 1.5
x5x_5 1.5 1.0
  1. 把该数据看做二位数据点。给定一个新数据点x=(1.4,1.6)x=(1.4,1.6)作为查询点,使用欧几里得距离、上确界距离和余弦相似性,基于查询点的相似性对数据库的点排位。
x1x_1 x2x_2 x3x_3 x4x_4 x5x_5
欧几里得距离 0.140.14 0.670.67 0.280.28 0.220.22 0.610.61
曼哈顿距离 0.20.2 0.90.9 0.40.4 0.30.3 0.70.7
上确界距离 0.10.1 0.60.6 0.20.2 0.20.2 0.60.6
余弦相似性 0.9999910.999991 0.9957520.995752 0.9999690.999969 0.99760.9976 0.965360.96536

由上表可知,按照欧几里得距离进行排位的顺序为:x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2;按照曼哈顿距离进行排序的顺序为:x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2;按照上确界距离进行排位:x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2;按照余弦相似性x1,x3,x4,x2,x5x_1,x_3,x_4,x_2,x_5。

  1. 规格化该数据集,使得每个数据的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。

这个题目有点不确定,过几天更新……


如果您觉得该篇博客写的不错,请随意打赏一下哦 ,博客栏目左侧有支付宝和微信二维码,您的支持将鼓励我进行更好的创作。


如果读者朋友想转载该文章,请尊重版权,转载须注明出处,谢谢合作。

数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第二章课后习题答案相关推荐

  1. 《计算机网络技术》第一章课后习题答案(全)

    <计算机网络技术>第一章课后习题答案(全) 1.请从资源共享的角度给出计算机网络的定义. 答:计算机网络,是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在 ...

  2. 西瓜书第一章课后习题答案

    第1章 绪论 1.1 略 1.2 参考链接:西瓜书第一章习题 - 简书 (jianshu.com) 首先明确基本合取式有多少种,设西瓜的三个不同属性的特征分别为(A1,A2),(B1,B2,B3),( ...

  3. C语言程序设计教程(第三版)李凤霞 第一章课后习题答案

    第一章:程序设计基础知识 一. 单项选择题 1.面向过程的程序设计语言是________. A)机器语言 B)汇编语言 C)高级语言 D)第四代语言 2.程序设计一般包含以下四个步骤,其中其中首先应该 ...

  4. 微机原理与接口技术[第三版]——第一章课后习题答案

    1.进制转换 (1)D(128) = B(10000000) = O(200) = H(80) (2)D(1024) = B(10000000000) = O(2000) = H(400) (3)D( ...

  5. 《计算机网络技术》第三章课后习题答案(全)

    <计算机网络技术>第三章课后习题答案(全) 1.网络协议包括的三要素是什么? 答: 语法.语义和时序关系. 2.在计算机网络中使用分层的思想有哪些好处? 答: (1)各层次之间可相互独立: ...

  6. 《计算机网络技术》第二章课后习题答案(全)

    <计算机网络技术>第二章课后习题答案(全) 1.消息和信息的各自概念是什么?两者之间有何关系? 答: 消息:人类能感知的描述. 信息:消息中所包含的有意义的内容. 关系:消息是信息的载体. ...

  7. 软件工程案例教程答案(第三版)韩万江 姜立新 编著 课后题答案 (软件项目开发实践)

    软件工程案例教程 答案(第三版)韩万江 姜立新 编著 课后题答案 (软件项目开发实践) 第一章 课后答案 一.填空题 二.判断题 三.选择题 第二章 课后答案 一.填空题 二.判断题 三.选择题 第三 ...

  8. 《计算机网络技术》第四章课后习题答案(全)

    <计算机网络技术>第四章课后习题答案(全) 1 . IEEE802委员会提出将数据链路层划分为哪两个层次,每个层次的功能各是什么? 答: IEEE802委员会提出将数据链路层划分为两个子层 ...

  9. 郑莉java课后答案,Java语言程序设计(郑莉)第三章课后习题答案

    <Java语言程序设计(郑莉)第三章课后习题答案>由会员分享,可在线阅读,更多相关<Java语言程序设计(郑莉)第三章课后习题答案(10页珍藏版)>请在人人文库网上搜索. 1. ...

  10. 新视野大学英语(第三版)第一册课后习题答案(完整版)

    想看更多算法题,可以扫描上方二维码关注我微信公众号"数据结构和算法",截止到目前我已经在公众号中更新了500多道算法题,其中部分已经整理成了pdf文档,截止到目前总共有900多页( ...

最新文章

  1. matlab温度数据怎么滤波_卡尔曼滤波算法思想理解 Kalman filter 第一篇
  2. 谈谈我自己(创业四个多月)
  3. 快速排序的时间复杂度分析
  4. 2019ICPC(南京) - super_log(欧拉降幂)
  5. Waymo冰火两重天:无人出租车最快今秋推出,高管团队嫌隙严重
  6. 判别分析分为r型和q型吗_SPSS聚类和判别分析参考.ppt
  7. mysql注入提取邮件_【sql注入教程】mysql注入直接getshell
  8. 穿透内网,连接动态ip,内网ip打洞-----p2p实现原理(转)
  9. ACM技巧 - O(1)快速乘(玄学) 总结
  10. 【STM32】关于BOOT引脚和一键下载电路下载的一些事
  11. DSSM算法-计算文本相似度
  12. 想成为嵌入式程序员应知道的0x10个基本问题——转
  13. 第九章:Servlet工作原理解析
  14. php 删除前后空格,php怎么去除前面空格
  15. 各自然带代表植被_十种常见自然带所对应的植被
  16. 文件同步工具 GoodSync Enterprise 破解
  17. Pyecharts亚马逊订单可视化
  18. 2.3、Segment Routing基础之IGP Segment 类型详解
  19. 2年200店!Tims咖啡强势扩张的底气在哪里?
  20. QQ空间十亿级视频播放技术优化揭密

热门文章

  1. APISpace 通用文字识别OCR接口 免费好用
  2. zigbee CC2530 系列教程 14 蓝牙控制实验
  3. linux fastboot工具,Linux下使用Fastboot给手机刷机
  4. JDE 开发-部分系统函数
  5. SoapUI 接口测试偶遇返回值乱码解决
  6. linux查看ipmi端口down,Linux通过命令行设置IPMI的解决方法
  7. java发送邮件的两种实现方式(包括如何伪造发件人及其原理)
  8. 一、Django初级
  9. windows下的Zcash钱包(ZEC钱包)-zcash4win 1.0.12
  10. Excel转换为VF的DBF格式