最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第八章(上)


压缩前:220 × 32 × 4 = 134217728 bytes
压缩后:216 × 32 × 4 = 8388608 bytes
压缩率16



(a)当数据中有划分结构时。即存在子簇。
(b)当数据需要降维时,需要确定有几个簇产生。

(a)

(b)0.27、5.7e-07、8.2e-64


(a)
基于中心:2个簇,长方形区域会对半分。
基于邻近性:1个簇,因为有噪声
基于密度:2个簇,是2个圆形区域,噪声不会造成影响
(b)
基于中心:1个簇,包括了所有环
基于邻近性:2个簇,是2个环形区域
基于密度:2个簇,是2个环形区域
(c)
基于中心:3个簇,是3个三角形区域(或者1个簇也可接受)
基于邻近性:1个簇,三个三角形有交点因此会被合并
基于密度:3个簇,虽然它们有交点,但交点处密度低
(d)
基于中心:2个簇,左右各一个
基于邻近性:5个簇,每条线是一个簇
基于密度:2个簇

(c)的平方误差最小,稠密区域要分配更多的质心。

最小值0,最大值1。对于每个划分的簇,簇均值就是簇中有1的百分比,比如购物篮数据,簇均值就代表一个顾客购买簇中某一确定项的可能性。值越大的分量更能代表数据,因为簇中大部分的组成成分值为0。

考虑一个数据集包含三个圆形簇,它们的中心在一条线上,且中间的簇中心到其他两个中心距离相等,这样,二分K均值第一次总会将中间的簇划分开来,不能得到正确的结果。

时间序列数据是稠密的高维数据,因此余弦度量并不合适,余弦度量适合稀疏数据。如果量级对于时间序列数据来说是重要的话,那么欧几里得距离是一个不错的选择。如果仅考虑时间序列数据的形状,那么选择相关系数。注意如果需要考虑时间序列之间的比较,那么需要创建复杂的时间序列相似性度量。

(a)可能意味着这个变量近似于常量,对于划分数据毫无用处。
(b)这样的变量能帮助解释划分的簇。
(c)这个变量可能是噪声。
(d)其他低SSE的簇可能产生有用的信息,但无论如何这个属性不能帮助解释划分。
(e)排除掉没有什么能力划分簇的属性,而且对所有簇SSE都很高的属性是棘手的,因为它产生了很多噪声。

簇之间的边界是分段的线,连接两个质心,再画它们的垂线,每条垂线都将区域一分为二,每一份都包含一个指定点。

不能。考虑一个有三个簇的数据集,每个簇分别有3,4,5个子簇,一个理想中的按等级划分的簇,根应该有三个分支,然后这三个分支分别有3,4,5分支,但是传统的凝聚层次聚类的算法不能产生这样的结构。

单链:



全链:




(a)
i.簇为{6,12,18,24,30}、{42,48},SSE分别为360、18,和SSE为378
ii.簇为{6,12,18,24}、{30、42、48},SSE分别为180、168,和SSE为348
(b)是稳定解
(c){6,12,18,24,30}、{42,48}
(d)单链技术
(e)基于邻近的
(f)K均值算法并不擅长发现不同规格的簇,至少当它们没有分离时。

虽然Ward方法基于最小化SSE,但它并不像K均值一样有提炼改善的步骤。类似的,二分K均值没有全局改善的步骤。因此,除非加上改善步骤,Ward方法和二分K均值都产生局部最小值,一般的K均值产生全局最小值。

数据挖掘导论课后习题答案-第八章(上)相关推荐

  1. 数据挖掘导论课后习题答案-第八章(下)

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第八章 ...

  2. 【第1章】数据挖掘导论课后习题答案

    中文(翻译) 1.讨论下列每项活动是否是数据挖掘任务. 答案 (a)否. 这是一种简单的数据库查询. (b)否.这是一个会计计算,然后应用一个阈值.然而,预测一个新客户的盈利能力是数据挖掘. (c)否 ...

  3. 数据挖掘导论课后习题答案-第一章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第一章 ...

  4. 数据挖掘导论课后习题答案第九章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第九章 ...

  5. 《机器学习》周志华课后习题答案——第八章 (1-2已完结)

    <机器学习>周志华课后习题答案---第五章 (1-2已完结) 文章目录 <机器学习>周志华课后习题答案---第五章 (1-2已完结) 一.如图所示 二.如图所示 一.如图所示 ...

  6. 计算机导论第二章习题答案,计算机导论课后习题答案.doc

    文档介绍: 计算机科学导论 第七章 1应用程序和操作系统的不同点是什么? 操作系统是一个程序,有利于应用程序的执行. 2操作系统的组成是什么? 内存管理器,进程管理器,设备管理器,文件管理器. 3单道 ...

  7. 微型计算机原理与接口技术 (周荷琴 冯焕清) 第六版 课后习题答案 第八章(部分答案)

    第八章 6. 如果中断类型号 n=4,它的中断服务子程序的入口地址为 CS:IP=0485:0016H,它在中断向量表中如何存放? 中断类型号 n=4,中断向量指针=中断类型号×4=n×4=10H 从 ...

  8. 算法导论课后习题答案汇总

    刚开始看算法导论,平时时间也不是特别多花在这个上面,不过会一直写下去的,下面是传送门: 链接: 算法导论第三版2.1答案 算法导论第三版2.2答案 算法导论第三版2.3答案

  9. 计算机在材料科学与工程中的应用课后答案,材料科学与工程导论课后习题答案...

    第一章 材料与人类 1.为什么说材料的发展是人类文明的里程碑? 材料是一切文明和科学的基础,材料无处不在,无处不有,它使人类及其赖以生存的社会.环境存在着紧密而有机的联系.纵观人类利用材料的历史,可以 ...

最新文章

  1. 【ZT】我家宝宝不会哭----分享在美国养孩子的妈妈经(必看)
  2. nginx源码编译、负载均衡及模块的扩展
  3. 微软在慕尼黑设立欧洲首个物联网实验室
  4. redis集合数据过期_如何从Redis中的集合中自动删除过期的密钥?
  5. android时间显示中文版,系统运行时间显示工具(Vov System Uptime)
  6. 压力管道流量计算公式_给水管管径及流量计算方法
  7. VTK:Utilities之ArrayCalculator
  8. 【牛客 - 370B】Rinne Loves Graph(分层图最短路 或 最短路dp)
  9. 2016年的云计算安全趋势
  10. 生产力系统的四类要素
  11. 简单理解Zookeeper的Leader选举
  12. android 小米申请root权限,小米root权限获取教程
  13. 别踩白块游戏java项目总结_学习小游戏别踩白块总结
  14. iOS 打开天猫/淘宝/京东客户端并且进入商品详情页/店铺主页的方法
  15. android的usb热插拔,Android M能让外部存储变成内部存储 支持U盘热插拔
  16. 关于Python中以字母r/R,或字母u/U 开头的字符串
  17. Auto CAD中“旋转”命令怎么使用?
  18. mysql生成uui mybatis_Mybatis【配置文件】详解
  19. 微软zone DNS服务器,DNS 策略概述
  20. 广度优先搜索(BSF)和深度优先搜索(DSF)示例

热门文章

  1. html+css实现哔哩哔哩游戏网页
  2. 嵌入式Linux系统 TCP数据转发服务器
  3. stochastic matrix,doubly-stochastic matrix (bistochastic matrix)
  4. Pytorch 60分钟入门之(四) TRAINING A CLASSIFIER 训练一个分类器
  5. 7_1整数四则运算c语言,用C语言实现 多位整数的四则运算,用栈,例如56*(12+20)-102/2...
  6. android杀掉app缓存没了,android手机软件卸载后还有没有缓存?
  7. 哈理工 OJ Fire Maze(2次bfs)
  8. 61-Linux_管道_有名管道
  9. CANoe软件使用(二)——数据加载分析
  10. 各网游的外挂是如何做出来的?