数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第二章课后习题答案
- 第二章答案
第二章答案
该答案为重庆大学计算机学院Jack Channy所作,由于本人水平有限,难免有错误和不当之处,如有意见请评论或者发邮件至majiecqu@126.com。
2.1 再给三个用于数据散布特征的常用统计量(即未在本章讨论过的),并讨论如何在大型数据库中有效的计算它们。
- 异众比率(variation ratio):用VrV_r表示,其定义为:
Vr=∑fi−fm∑fi=1−fm∑fi
V_r = \frac{\sum{f_i} - f_m} {\sum{f_i}}=1-\frac{f_m}{\sum{f_i}},其中∑fi\sum{f_i}表示变量值的总频数,∑fm\sum{f_m}表示众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越好。异众比率主要适合测度分类数据的离散程度,当然,对于顺序数据与数值数据也可以进行计算。
- 标准分数(standard score):变量值与其平均数的差除以标准差后的值。设标准分数为zz,则有
z=xi−x¯s
z=\frac{x_i - \bar{x}}{s}标准分数给出了一组数据中各数值的相对位置。实际上,zz分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据的分布形状。
- 相对离散程度:离散系数(coefficient of variation):一组数据的标准差与其相应的平均数之比称为离散系数,也称变异系数。为了消除变量值水平高低(即两个相同类型的属性其值的分布差别特别大,比如一个为几百万,而另一个为几万或几十万)和计量单位不同对离散程度测度值的影响,需要计算离散系数,其计算公式为:
vx=sx¯
v_x=\frac{s}{\bar{x}}离散系数的作用主要是用于比较不同样本的离散程度。离散系数越大,说明离散程度越大。离散系数越小,说明离散程度就越小(当平均数趋于零时,离散系数就趋于无穷大,此时需要按照实际情况进行解释)。
2.2 假设所分析的的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.
该数的均值是多少?中位数是什么?
该数的均值为29.963,中位数是25。该数据的众数是什么?讨论数据的模态(即二模、三模等)。
该数据的众数为25和35,即该数据是一个双峰的分布,即二模。该数据的中列数是多少?
该数据的中列数为(70+13)/2=41.5。你能粗略的找出该数据的第一个四分位数(Q1Q_1)和第三个四分位数(Q3Q_3)吗?
第一个四分位数为:⌈274⌉=7\left\lceil\frac{27}{4}\right\rceil=7处,Q1=20Q_1=20,第三个四分位数为:7∗3=21处7*3=21处,Q3=35Q_3=35。给出该数据的五数概括。
根据以上,得到了最小观测值、Q1、Q2、Q3Q_1、Q_2、Q_3、最大观测值,所以画出其盒图如下:分位数-分位数图与分位数图有什么区别?
分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。首先它显示给定属性的所有数据的分布情况;其次,它绘出了分位数信息(即对于某序数或数值属性XX,设xi(i=1,...,N)x_i(i=1, ..., N)是按照递增排序的数据,使得x1x_1是最小的观测值,xNx_N是最大的观测值)。
分位数-分位数图(q-q图)则是反映了同一 个属性的不同样本的数据分布情况,使得用户可以很方便的比较这两个样本之间的区别或者联系。
2.3 给定的数据集已经分组到区间,计算该数据的近似中位数。
- 解题思路:由于该题目并没有说明某一个年龄对应的人数有多少个,所以一种解题思路就是取每一个年龄区间的中位数乘以其人数,然后再除以总的人数从而计算所有数据的中位数。
median=3×200+10×450+18×300+35×1500+65×700+95×44200+450+300+1500+700+44≃35
median=\frac{3\times200+10\times450+18\times300+35\times1500+65\times700+95\times44}{200+450+300+1500+700+44}\simeq35
2.5 简要概述如何计算被如下属性描述的对象的相异性:
标称属性
标称属性的相异性可以根据不匹配率去计算:d(i,j)=p−mpd(i,j)=\frac{p-m}{p}其中,pp为刻画对象的属性总数,mm是匹配的数目(即ii和jj取值相同状态的属性数)
非对称的二元属性
非对称的二元相异性可以依据二元属性的列联表去计算,计算公式如下:d(i,j)=r+sq+r+sd(i,j)=\frac{r+s}{q+r+s}具体标号含义详解课本第71页。
数值属性
数值属性可以有闽可夫斯基距离(Minkowski distance),它是欧几里得距离和曼哈顿距离的推广,定义如下:d(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|h−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√hd(i,j)=\sqrt[h]{|x_{i1}-x_{j1}|^h+|x_{i2}-x_{j2}|^h+...+|x_{ip}-x_{jp}|^h}
词频向量
词频向量可以用余弦相似度与计算,其计算方式如下:sim(x⃗ ,y⃗ )=cos(x⃗ ,y⃗ )=x⃗ ⋅y⃗ ||x⃗ ||||y⃗ ||sim(\vec{x},\vec{y})=cos(\vec{x},\vec{y})=\frac{\vec{x}\cdot\vec{y}}{||\vec{x}||\;||\vec{y}||}
2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。
- 计算这两个对象之间的欧几里得距离。
d=(22−20)2+(1−0)2+(42−36)2+(10−8)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√2≃6.7
d=\sqrt[2]{(22-20)^2 + (1-0)^2 + (42-36)^2 + (10-8)^2}\simeq6.7
- 计算这两个对象之间的曼哈顿距离。
d=|22−20|+|1−0|+|42−36|+|10−8|=11
d=|22-20| + |1-0| + |42-36| + |10-8|=11
- 使用q=3q=3,计算这两个对象之间的闵可夫斯基距离。
这里的qq,个人认为可能是公式中的hh,所以计算如下:d=|22−20|3+|1−0|3+|42−36|3+|10−8|3−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√3≃6.15d=\sqrt[3]{|22-20|^3 + |1-0|^3 + |42-36|^3 + |10-8|^3}\simeq6.15
- 计算这两个对象之间的上确界距离。
d=maxfp|xif−xjf|=|42−36|=6
d=\mathop{max}\limits_f^p\;|x_{if}-x_{jf}|=|42-36|=6
2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下,分析它们各自的复杂度,并确定它们的实际近似程度。此外,提出一种启发式策略,平衡准确性与复杂性,然后把它用于你给出的所有方法。
- 这个问题别问我[捂脸]……
2.8 在数据分析中,重要的是选择相似性度量。然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。
A1A_1 | A2A_2 | |
---|---|---|
x1x_1 | 1.5 | 1.7 |
x2x_2 | 2 | 1.9 |
x3x_3 | 1.6 | 1.8 |
x4x_4 | 1.2 | 1.5 |
x5x_5 | 1.5 | 1.0 |
- 把该数据看做二位数据点。给定一个新数据点x=(1.4,1.6)x=(1.4,1.6)作为查询点,使用欧几里得距离、上确界距离和余弦相似性,基于查询点的相似性对数据库的点排位。
x1x_1 | x2x_2 | x3x_3 | x4x_4 | x5x_5 | |
欧几里得距离 | 0.140.14 | 0.670.67 | 0.280.28 | 0.220.22 | 0.610.61 |
曼哈顿距离 | 0.20.2 | 0.90.9 | 0.40.4 | 0.30.3 | 0.70.7 |
上确界距离 | 0.10.1 | 0.60.6 | 0.20.2 | 0.20.2 | 0.60.6 |
余弦相似性 | 0.9999910.999991 | 0.9957520.995752 | 0.9999690.999969 | 0.99760.9976 | 0.965360.96536 |
由上表可知,按照欧几里得距离进行排位的顺序为:x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2;按照曼哈顿距离进行排序的顺序为:x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2;按照上确界距离进行排位:x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2;按照余弦相似性x1,x3,x4,x2,x5x_1,x_3,x_4,x_2,x_5。
- 规格化该数据集,使得每个数据的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。
这个题目有点不确定,过几天更新……
如果您觉得该篇博客写的不错,请随意打赏一下哦 ,博客栏目左侧有支付宝和微信二维码,您的支持将鼓励我进行更好的创作。
如果读者朋友想转载该文章,请尊重版权,转载须注明出处,谢谢合作。
数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第二章课后习题答案相关推荐
- 《计算机网络技术》第一章课后习题答案(全)
<计算机网络技术>第一章课后习题答案(全) 1.请从资源共享的角度给出计算机网络的定义. 答:计算机网络,是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在 ...
- 西瓜书第一章课后习题答案
第1章 绪论 1.1 略 1.2 参考链接:西瓜书第一章习题 - 简书 (jianshu.com) 首先明确基本合取式有多少种,设西瓜的三个不同属性的特征分别为(A1,A2),(B1,B2,B3),( ...
- C语言程序设计教程(第三版)李凤霞 第一章课后习题答案
第一章:程序设计基础知识 一. 单项选择题 1.面向过程的程序设计语言是________. A)机器语言 B)汇编语言 C)高级语言 D)第四代语言 2.程序设计一般包含以下四个步骤,其中其中首先应该 ...
- 微机原理与接口技术[第三版]——第一章课后习题答案
1.进制转换 (1)D(128) = B(10000000) = O(200) = H(80) (2)D(1024) = B(10000000000) = O(2000) = H(400) (3)D( ...
- 《计算机网络技术》第三章课后习题答案(全)
<计算机网络技术>第三章课后习题答案(全) 1.网络协议包括的三要素是什么? 答: 语法.语义和时序关系. 2.在计算机网络中使用分层的思想有哪些好处? 答: (1)各层次之间可相互独立: ...
- 《计算机网络技术》第二章课后习题答案(全)
<计算机网络技术>第二章课后习题答案(全) 1.消息和信息的各自概念是什么?两者之间有何关系? 答: 消息:人类能感知的描述. 信息:消息中所包含的有意义的内容. 关系:消息是信息的载体. ...
- 软件工程案例教程答案(第三版)韩万江 姜立新 编著 课后题答案 (软件项目开发实践)
软件工程案例教程 答案(第三版)韩万江 姜立新 编著 课后题答案 (软件项目开发实践) 第一章 课后答案 一.填空题 二.判断题 三.选择题 第二章 课后答案 一.填空题 二.判断题 三.选择题 第三 ...
- 《计算机网络技术》第四章课后习题答案(全)
<计算机网络技术>第四章课后习题答案(全) 1 . IEEE802委员会提出将数据链路层划分为哪两个层次,每个层次的功能各是什么? 答: IEEE802委员会提出将数据链路层划分为两个子层 ...
- 郑莉java课后答案,Java语言程序设计(郑莉)第三章课后习题答案
<Java语言程序设计(郑莉)第三章课后习题答案>由会员分享,可在线阅读,更多相关<Java语言程序设计(郑莉)第三章课后习题答案(10页珍藏版)>请在人人文库网上搜索. 1. ...
- 新视野大学英语(第三版)第一册课后习题答案(完整版)
想看更多算法题,可以扫描上方二维码关注我微信公众号"数据结构和算法",截止到目前我已经在公众号中更新了500多道算法题,其中部分已经整理成了pdf文档,截止到目前总共有900多页( ...
最新文章
- matlab温度数据怎么滤波_卡尔曼滤波算法思想理解 Kalman filter 第一篇
- 谈谈我自己(创业四个多月)
- 快速排序的时间复杂度分析
- 2019ICPC(南京) - super_log(欧拉降幂)
- Waymo冰火两重天:无人出租车最快今秋推出,高管团队嫌隙严重
- 判别分析分为r型和q型吗_SPSS聚类和判别分析参考.ppt
- mysql注入提取邮件_【sql注入教程】mysql注入直接getshell
- 穿透内网,连接动态ip,内网ip打洞-----p2p实现原理(转)
- ACM技巧 - O(1)快速乘(玄学) 总结
- 【STM32】关于BOOT引脚和一键下载电路下载的一些事
- DSSM算法-计算文本相似度
- 想成为嵌入式程序员应知道的0x10个基本问题——转
- 第九章:Servlet工作原理解析
- php 删除前后空格,php怎么去除前面空格
- 各自然带代表植被_十种常见自然带所对应的植被
- 文件同步工具 GoodSync Enterprise 破解
- Pyecharts亚马逊订单可视化
- 2.3、Segment Routing基础之IGP Segment 类型详解
- 2年200店!Tims咖啡强势扩张的底气在哪里?
- QQ空间十亿级视频播放技术优化揭密