第二章答案

第二章答案

该答案为重庆大学计算机学院Jack Channy所作，由于本人水平有限，难免有错误和不当之处，如有意见请评论或者发邮件至majiecqu@126.com。

2.1 再给三个用于数据散布特征的常用统计量（即未在本章讨论过的），并讨论如何在大型数据库中有效的计算它们。

异众比率(variation ratio)：用VrV_r表示，其定义为：

Vr=∑fi−fm∑fi=1−fm∑fi

V_r = \frac{\sum{f_i} - f_m} {\sum{f_i}}=1-\frac{f_m}{\sum{f_i}}，其中∑fi\sum{f_i}表示变量值的总频数，∑fm\sum{f_m}表示众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比越大，说明非众数组的频数占总频数的比重越大，众数的代表性就越差；异众比越小，说明非众数组的频数占总频数的比重越小，众数的代表性就越好。异众比率主要适合测度分类数据的离散程度，当然，对于顺序数据与数值数据也可以进行计算。
标准分数（standard score）:变量值与其平均数的差除以标准差后的值。设标准分数为zz，则有
z=xi−x¯s

z=\frac{x_i - \bar{x}}{s}标准分数给出了一组数据中各数值的相对位置。实际上，zz分数只是将原始数据进行了线性变换，它并没有改变一个数据在该组数据中的位置，也没有改变该组数据的分布形状。
相对离散程度：离散系数（coefficient of variation）：一组数据的标准差与其相应的平均数之比称为离散系数，也称变异系数。为了消除变量值水平高低（即两个相同类型的属性其值的分布差别特别大，比如一个为几百万，而另一个为几万或几十万）和计量单位不同对离散程度测度值的影响，需要计算离散系数，其计算公式为：
vx=sx¯

v_x=\frac{s}{\bar{x}}离散系数的作用主要是用于比较不同样本的离散程度。离散系数越大，说明离散程度越大。离散系数越小，说明离散程度就越小（当平均数趋于零时，离散系数就趋于无穷大，此时需要按照实际情况进行解释）。

2.2 假设所分析的的数据包括属性age，它在数据元组中的值（以递增序）为13,15,16,16,19,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.

该数的均值是多少？中位数是什么？
该数的均值为29.963，中位数是25。
该数据的众数是什么？讨论数据的模态（即二模、三模等）。
该数据的众数为25和35，即该数据是一个双峰的分布，即二模。
该数据的中列数是多少？
该数据的中列数为(70+13)/2=41.5。
你能粗略的找出该数据的第一个四分位数(Q1Q_1)和第三个四分位数(Q3Q_3)吗？
第一个四分位数为：⌈274⌉=7\left\lceil\frac{27}{4}\right\rceil=7处，Q1=20Q_1=20，第三个四分位数为：7∗3=21处7*3=21处，Q3=35Q_3=35。
给出该数据的五数概括。
根据以上，得到了最小观测值、Q1、Q2、Q3Q_1、Q_2、Q_3、最大观测值，所以画出其盒图如下：
分位数-分位数图与分位数图有什么区别？
分位数图(quantile plot)是一种观察单变量数据分布的简单有效方法。首先它显示给定属性的所有数据的分布情况；其次，它绘出了分位数信息（即对于某序数或数值属性XX，设xi(i=1,...,N)x_i(i=1, ..., N)是按照递增排序的数据，使得x1x_1是最小的观测值，xNx_N是最大的观测值）。
分位数-分位数图(q-q图)则是反映了同一个属性的不同样本的数据分布情况，使得用户可以很方便的比较这两个样本之间的区别或者联系。

2.3 给定的数据集已经分组到区间，计算该数据的近似中位数。

解题思路：由于该题目并没有说明某一个年龄对应的人数有多少个，所以一种解题思路就是取每一个年龄区间的中位数乘以其人数，然后再除以总的人数从而计算所有数据的中位数。

median=3×200+10×450+18×300+35×1500+65×700+95×44200+450+300+1500+700+44≃35

median=\frac{3\times200+10\times450+18\times300+35\times1500+65\times700+95\times44}{200+450+300+1500+700+44}\simeq35

2.5 简要概述如何计算被如下属性描述的对象的相异性：

标称属性
标称属性的相异性可以根据不匹配率去计算：

d(i,j)=p−mp

d(i,j)=\frac{p-m}{p}其中，pp为刻画对象的属性总数，mm是匹配的数目（即ii和jj取值相同状态的属性数）
非对称的二元属性
非对称的二元相异性可以依据二元属性的列联表去计算，计算公式如下：

d(i,j)=r+sq+r+s

d(i,j)=\frac{r+s}{q+r+s}具体标号含义详解课本第71页。
数值属性
数值属性可以有闽可夫斯基距离(Minkowski distance)，它是欧几里得距离和曼哈顿距离的推广，定义如下：

d(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|h−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√h

d(i,j)=\sqrt[h]{|x_{i1}-x_{j1}|^h+|x_{i2}-x_{j2}|^h+...+|x_{ip}-x_{jp}|^h}
词频向量
词频向量可以用余弦相似度与计算，其计算方式如下：

sim(x⃗ ,y⃗ )=cos(x⃗ ,y⃗ )=x⃗ ⋅y⃗ ||x⃗ ||||y⃗ ||

sim(\vec{x},\vec{y})=cos(\vec{x},\vec{y})=\frac{\vec{x}\cdot\vec{y}}{||\vec{x}||\;||\vec{y}||}

2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。

计算这两个对象之间的欧几里得距离。

d=(22−20)2+(1−0)2+(42−36)2+(10−8)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√2≃6.7

d=\sqrt[2]{(22-20)^2 + (1-0)^2 + (42-36)^2 + (10-8)^2}\simeq6.7
计算这两个对象之间的曼哈顿距离。
d=|22−20|+|1−0|+|42−36|+|10−8|=11

d=|22-20| + |1-0| + |42-36| + |10-8|=11
使用q=3q=3，计算这两个对象之间的闵可夫斯基距离。
这里的qq，个人认为可能是公式中的hh，所以计算如下：

d=|22−20|3+|1−0|3+|42−36|3+|10−8|3−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√3≃6.15

d=\sqrt[3]{|22-20|^3 + |1-0|^3 + |42-36|^3 + |10-8|^3}\simeq6.15
计算这两个对象之间的上确界距离。
d=maxfp|xif−xjf|=|42−36|=6

d=\mathop{max}\limits_f^p\;|x_{if}-x_{jf}|=|42-36|=6

2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下，分析它们各自的复杂度，并确定它们的实际近似程度。此外，提出一种启发式策略，平衡准确性与复杂性，然后把它用于你给出的所有方法。

这个问题别问我[捂脸]……

2.8 在数据分析中，重要的是选择相似性度量。然而，不存在广泛接受的主观相似性度量，结果可能因所用的相似性度量而异。虽然如此，在进行某种变换后，看来似乎不同的相似性度量可能等价。

	A1A_1	A2A_2
x1x_1	1.5	1.7
x2x_2	2	1.9
x3x_3	1.6	1.8
x4x_4	1.2	1.5
x5x_5	1.5	1.0

把该数据看做二位数据点。给定一个新数据点x=(1.4,1.6)x=(1.4,1.6)作为查询点，使用欧几里得距离、上确界距离和余弦相似性，基于查询点的相似性对数据库的点排位。

	x1x_1	x2x_2	x3x_3	x4x_4	x5x_5
欧几里得距离	0.140.14	0.670.67	0.280.28	0.220.22	0.610.61
曼哈顿距离	0.20.2	0.90.9	0.40.4	0.30.3	0.70.7
上确界距离	0.10.1	0.60.6	0.20.2	0.20.2	0.60.6
余弦相似性	0.9999910.999991	0.9957520.995752	0.9999690.999969	0.99760.9976	0.965360.96536

由上表可知，按照欧几里得距离进行排位的顺序为：x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2;按照曼哈顿距离进行排序的顺序为：x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2;按照上确界距离进行排位：x1,x4,x3,x5,x2x_1,x_4,x_3,x_5,x_2；按照余弦相似性x1,x3,x4,x2,x5x_1,x_3,x_4,x_2,x_5。

规格化该数据集，使得每个数据的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。

这个题目有点不确定，过几天更新……

如果您觉得该篇博客写的不错，请随意打赏一下哦，博客栏目左侧有支付宝和微信二维码，您的支持将鼓励我进行更好的创作。

如果读者朋友想转载该文章，请尊重版权，转载须注明出处，谢谢合作。

数据挖掘概念与技术（原书第三版）范明孟小峰译-----第二章课后习题答案相关推荐

《计算机网络技术》第一章课后习题答案（全）
<计算机网络技术>第一章课后习题答案(全) 1.请从资源共享的角度给出计算机网络的定义. 答:计算机网络,是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在 ...
西瓜书第一章课后习题答案
第1章绪论 1.1 略 1.2 参考链接:西瓜书第一章习题 - 简书 (jianshu.com) 首先明确基本合取式有多少种,设西瓜的三个不同属性的特征分别为(A1,A2),(B1,B2,B3),( ...
C语言程序设计教程（第三版）李凤霞第一章课后习题答案
第一章:程序设计基础知识一. 单项选择题 1.面向过程的程序设计语言是________. A)机器语言 B)汇编语言 C)高级语言 D)第四代语言 2.程序设计一般包含以下四个步骤,其中其中首先应该 ...
微机原理与接口技术[第三版]——第一章课后习题答案
1.进制转换 (1)D(128) = B(10000000) = O(200) = H(80) (2)D(1024) = B(10000000000) = O(2000) = H(400) (3)D( ...
《计算机网络技术》第三章课后习题答案（全）
<计算机网络技术>第三章课后习题答案(全) 1.网络协议包括的三要素是什么? 答: 语法.语义和时序关系. 2.在计算机网络中使用分层的思想有哪些好处? 答: (1)各层次之间可相互独立: ...
《计算机网络技术》第二章课后习题答案（全）
<计算机网络技术>第二章课后习题答案(全) 1.消息和信息的各自概念是什么?两者之间有何关系? 答: 消息:人类能感知的描述. 信息:消息中所包含的有意义的内容. 关系:消息是信息的载体. ...
软件工程案例教程答案（第三版）韩万江姜立新编著课后题答案（软件项目开发实践）
软件工程案例教程答案(第三版)韩万江姜立新编著课后题答案 (软件项目开发实践) 第一章课后答案一.填空题二.判断题三.选择题第二章课后答案一.填空题二.判断题三.选择题第三 ...
《计算机网络技术》第四章课后习题答案（全）
<计算机网络技术>第四章课后习题答案(全) 1 . IEEE802委员会提出将数据链路层划分为哪两个层次,每个层次的功能各是什么? 答: IEEE802委员会提出将数据链路层划分为两个子层 ...
郑莉java课后答案,Java语言程序设计(郑莉)第三章课后习题答案
<Java语言程序设计(郑莉)第三章课后习题答案>由会员分享,可在线阅读,更多相关<Java语言程序设计(郑莉)第三章课后习题答案(10页珍藏版)>请在人人文库网上搜索. 1. ...
新视野大学英语(第三版)第一册课后习题答案(完整版)
想看更多算法题,可以扫描上方二维码关注我微信公众号"数据结构和算法",截止到目前我已经在公众号中更新了500多道算法题,其中部分已经整理成了pdf文档,截止到目前总共有900多页( ...

数据挖掘概念与技术（原书第三版）范明孟小峰译-----第二章课后习题答案

第二章答案

数据挖掘概念与技术（原书第三版）范明孟小峰译-----第二章课后习题答案相关推荐

最新文章

热门文章

数据挖掘概念与技术（原书第三版）范明 孟小峰译-----第二章课后习题答案

第二章答案

数据挖掘概念与技术（原书第三版）范明 孟小峰译-----第二章课后习题答案相关推荐

最新文章

热门文章

数据挖掘概念与技术（原书第三版）范明孟小峰译-----第二章课后习题答案

数据挖掘概念与技术（原书第三版）范明孟小峰译-----第二章课后习题答案相关推荐