最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第八章(下)



(a)会有问题。比如有1000个点分为两个簇,一个簇900个点,另一个簇100个点,抽5%的样本,那么第一个簇抽取45个点,另一个簇抽5个点,那么这五个点相比较于50个点很可能被当作噪声。
(b)有问题。高维数据是典型的稀疏数据,因此需要很多点来确定结构。
(c)由定义,离群点是比较少的,在抽样的时候大部分离群点会被遗漏,因此抽样有助于这样的数据聚类。
(d)有问题。抽样后不规则区域的形状会丢失。
(e)没问题
(f)有问题。这样数据大部分来自密度高的区域。
(g)没问题。
(h)没问题。
(i)没问题。
(j)没问题。


(a)只有b和d图可以。鼻子、眼睛和嘴区域里的点比其他区域距离更近。
(b)只有b和d图可以。b图中可能会把低密度的点包括进去,d图可以完美找到。
(c)聚类不能找到空白区域。



(a)有。由均匀分布产生的是随机的数据,会有密度高一点或低一点的区域,而均匀数据集没有。
(b)均匀数据集的SSE更小。
(c)会把所有数据划成一个簇或者全部当成噪声,取决于阈值。在随即数据集上,由于密度有些许变化,可以正常工作。



P1:SC = 1 - a/b = 1 - 0.1 / ((0.65+0.55)/2) = 0.8333
P2:SC = 1 - a/b = 1 - 0.1 / ((0.7+0.6)/2) = 0.846
P3:SC = 1 - a/b = 1 - 0.3 / ((0.65+0.7)/2) = 0.556
P4:SC = 1 - a/b = 1 - 0.3 / ((0.55+0.6)/2) = 0.478

簇1平均SC = ( 0.833 + 0.846 ) / 2 = 0.84
簇2平均SC = ( 0.556 + 0.478 ) / 2 = 0.52
总平均SC = ( 0.84 + 0.517 ) / 2 = 0.68


理想的相似度矩阵转化成向量x=<1,0,0,0,0,1>,该相似度矩阵转化成向量y=<0.8,0.65,0.55,0.7,0.6,0.3>
方差σx = 0.5164
方差σy = 0.1703
cov(x,y) = -0.2
corr(x,y) = cov(x,y) / σxσy = -0.227


簇1{p1,p2,p3,p4,p5,p6,p7,p8}:
class = A:
R(A,1) = 3/3 = 1,P(A,1) = 3/8 = 0.375,F(A,1) = 2 × 1 × 0.375 / ( 1 + 0.375 ) = 0.55
class = B:
R(B,1) = 5/5 = 1,P(B,1) = 5/8 = 0.625,F(B,1) = 2 × 1 × 0.625 / ( 1 + 0.625 ) = 0.77

簇2{p1,p2,p4,p5}:
class = A:
R(A,2) = 2/3 ,P(A,2) = 2/4,F(A,2) =0.57
class = B:
R(B,2) = 2/5 ,P(B,2) = 2/4 ,F(B,2) =0.44

簇3{p3,p6,p7,p8}:
class = A:
R(A,3) = 1/3 ,P(A,3) = 1/4,F(A,3) =0.29
class = B:
R(B,3) = 3/5 ,P(B,3) = 3/4 ,F(B,3) =0.67

簇4{p1,p2}:
class = A:
R(A,4) = 2/3 ,P(A,4) = 2/2,F(A,4) =0.8
class = B:
R(B,4) = 0/5 ,P(B,4) = 0/2 ,F(B,4) =0

簇5{p4,p5}:
class = A:
R(A,5) = 0 ,P(A,5) = 0,F(A,5) =0
class = B:
R(B,5) = 2/5 ,P(B,5) = 2/2 ,F(B,5) =0.57

簇6{p3,p6}:
class = A:
R(A,6) = 1/3 ,P(A,6) = 1/2,F(A,6) =0.4
class = B:
R(B,6) = 1/5 ,P(B,6) = 1/2 ,F(B,6) =0.29

簇7{p7,p8}:
class = A:
R(A,7) = 0,P(A,7) = 1,F(A,7) =0
class = B:
R(B,7) = 2/5 ,P(B,7) = 2/2 ,F(B,7) =0.57

classA:F(A) = max{F(A,j)} = 0.8
classB:F(B) = max{F(B,j)} = 0.77
F = 3/8 × 0.8 + 5/8 ×0.77 = 0.78










(a)最高项定义的簇可能有重复,并且只会出现少部分项,但K均值会覆盖所有的项且不会重复。
(b)用文档簇中的最高文档来定义。




答:1-D 2-C 3-A 4-B

数据挖掘导论课后习题答案-第八章(下)相关推荐

  1. 数据挖掘导论课后习题答案-第八章(上)

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第八章 ...

  2. 【第1章】数据挖掘导论课后习题答案

    中文(翻译) 1.讨论下列每项活动是否是数据挖掘任务. 答案 (a)否. 这是一种简单的数据库查询. (b)否.这是一个会计计算,然后应用一个阈值.然而,预测一个新客户的盈利能力是数据挖掘. (c)否 ...

  3. 数据挖掘导论课后习题答案-第一章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第一章 ...

  4. 数据挖掘导论课后习题答案第九章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第九章 ...

  5. 《机器学习》周志华课后习题答案——第八章 (1-2已完结)

    <机器学习>周志华课后习题答案---第五章 (1-2已完结) 文章目录 <机器学习>周志华课后习题答案---第五章 (1-2已完结) 一.如图所示 二.如图所示 一.如图所示 ...

  6. 计算机导论第二章习题答案,计算机导论课后习题答案.doc

    文档介绍: 计算机科学导论 第七章 1应用程序和操作系统的不同点是什么? 操作系统是一个程序,有利于应用程序的执行. 2操作系统的组成是什么? 内存管理器,进程管理器,设备管理器,文件管理器. 3单道 ...

  7. 算法导论课后习题答案汇总

    刚开始看算法导论,平时时间也不是特别多花在这个上面,不过会一直写下去的,下面是传送门: 链接: 算法导论第三版2.1答案 算法导论第三版2.2答案 算法导论第三版2.3答案

  8. 微型计算机原理与接口技术 (周荷琴 冯焕清) 第六版 课后习题答案 第八章(部分答案)

    第八章 6. 如果中断类型号 n=4,它的中断服务子程序的入口地址为 CS:IP=0485:0016H,它在中断向量表中如何存放? 中断类型号 n=4,中断向量指针=中断类型号×4=n×4=10H 从 ...

  9. 计算机在材料科学与工程中的应用课后答案,材料科学与工程导论课后习题答案...

    第一章 材料与人类 1.为什么说材料的发展是人类文明的里程碑? 材料是一切文明和科学的基础,材料无处不在,无处不有,它使人类及其赖以生存的社会.环境存在着紧密而有机的联系.纵观人类利用材料的历史,可以 ...

最新文章

  1. 消除安卓SDK更新时的“https://dl-ssl.google.com refused”异常的方法
  2. 写文件 —— 将内容按照指定格式写入配置文件(fwrite()函数-》》向指定的文件中写入若干数据块)
  3. 使用泛型查询数据小例
  4. Android中Service的启动方式及Activity与Service的通信方式
  5. Loadrunner性能测试结果分析
  6. main spring启动_SpringBoot学习(一):为什么main方法启动类需要放在项目根目录...
  7. [Leedcode][JAVA][第460题][LFU]
  8. android安全 报告,Android安全检测报告
  9. Vue.js 运行机制全局概览浅读
  10. 下课拉~~~~~~~~~~~想写就写
  11. JS函数创建的几种方式
  12. MSN Messenger
  13. 成都信息工程大学上岸软件工程专硕经验分享
  14. 链表实现直接选择排序
  15. matlab锁相放大器,锁相放大器原理和模块实现与仿真.DOC
  16. 互联网敏捷 Scrum 和项目管理
  17. 社工库寻求帮助可以下载
  18. 八百元八核的服务器?二手服务器搭建指南
  19. Visio(一) Visio 键盘的上下左右快捷键 没办法移动图标了:取消掉Scroll lock指示灯即可。
  20. Codeup1032-1033、1045

热门文章

  1. 浅析 Find My 原理
  2. linux防火墙规则端口转换,[转] Linux防火墙iptables初探
  3. 标识和可追溯性要求_3条规则制定,设计和可追溯性的简单指南
  4. OTA升级 之 Recovery模式
  5. 极速office(Word)怎么批量替换文字
  6. 超详细梳理HBase核心知识点(上)
  7. yarn link 用法
  8. US5M-ASEMI贴片快恢复二极管US5M
  9. [转载]EDID和TV OSD的使用说明
  10. 【图解数据结构】外行人也能看懂的哈希表