最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第九章


考虑文档数据,如果两个文档是相似的那么它们包含很多相同的词,并且没出现的词在大部分情况下都是无意义的。当一个文档中的词频繁出现,那么这个词在相似性度量上会占比较大的比重。举例来说,如果一个词有多个意思,那么可能会得出错误的结论,比如词“game”,在讨论“sports game”和“video game”两篇文章中是不相似的。

O(m2)

文档向量规范化后,是在一个n维球形空间中。这个簇是一个类似圆锥体的形状,它与球形空间的交点在球形空间的表面是一个圆。

优点:能更好地定义和解释在聚类问题中的处理过程;可以利用已经比较成熟的最优化理论和技术。
缺点:最优化算法大部分时间复杂度都比较高,而且存在NP-hard问题,这时就需要用启发式算法退而求其次,找出局部最优解,但随着而来的问题就是解的结果可能不一样。另一个问题就是约束条件更加支持大的簇而不是小的簇。

K均值时间复杂度为O(mnK*I),其中m是点的个数,n是属性的个数,K是簇的个数,I是收敛所需迭代次数。模糊c均值、SOM的时间复杂度都和K均值的一样。但由于SOM的质心需要一直更新,因此实际运行起来SOM会比较慢一点。

c均值和K均值有同样的能力,在处理这些问题上比较吃力,c均值对比K均值唯一的优点就是在指派点属于哪个簇并不困难。

优点:当处理一个不强属于任何簇的离群点时,这个点会有很低的隶属度。
缺点:当簇划分不明确的时候初始化很难,比如几个簇的中心可能融在一起时,或当簇中心在迭代过程中变化时。

举个例子来说明
概率:如果我有一枚质地均匀的硬币,那么它出现正面朝上的概率是0.5
似然:如果抛一枚硬币100次,正面朝上的次数是50次,那么这枚硬币很有可能是质地均匀的。



令上式=0,得


令上式=0,得


男人和女人身高服从高斯分布,但均值不同且很可能方差也不同。所以考虑用混合模型,包含这四个参数,如果样本够大,可以足够逼近。



模糊c均值聚类仅仅给那些靠近簇中心的点分配高权值,而对边缘点分配低权值。但远离簇中心的点的权值比那些处于簇交界地带的点的权值高。
而EM聚类对簇中心点和簇边界点都分配了高权值,处于簇交界地带的点的权值稍低,但没有模糊c均值中那么低。
这两个算法的主要区别就是对于那些处于交界地带的点,模糊c均值算法中会将这种点隶属于各个簇的权值分配的比较平均,而EM算法会表明这种点强属于哪一个簇。


在EM聚类中,我们计算一个点隶属于一个簇的概率值。这个概率值既取决于点离簇中心的距离,也取决于簇的分散程度。因此,在上图中,左边的簇很分散,而右边的簇非常紧凑,因此用箭头指出的点属于左边的簇是可能的。但在K均值聚类中,只考虑到最近簇的距离,用箭头指出的点属于左边的簇是不可能的。

(a)举个简单的例子: b ac,a在b的最近邻中,但a的最近邻是c。
(b)如果第i行第j列的元素是0就将第j行第i列也设置为0;另一种办法就是如果第i行第j列的元素是1就将第j行第i列也设置为1.

定义:

答:


(a)基于最近邻点的位置赋予权值即可。
(b)缺点:复杂度大大提高。优点:更加合理,原来的定义会有很多SSN值相同的点,修改定义后可以将原SSN相同的点做进一步的排序,而且可能对k的选取有帮助。

当需要基于绝对距离或绝对密度聚类时。


(a)
在网格聚类中,对于结果簇的描述是基于空间的划分而不是点的集合。对于如果不是矩形的簇只能给出大概的形状。
(b)
基于网格聚类是典型的只关注稠密区域的方法。因此对于稀疏的数据不是很适合

的确是一个问题。并且类似的问题在关联分析中同样存在,有很多项的关联模式的支持度一般都比较低,这样的情况下用Apriori算法会很困难,如果降低支持度阈值会带来很多项不多的关联模式。一个解决办法就是随着维数增加而降低阈值。

Charles Elkan 提出了下述定理:
设x是任一个点,设b和c是簇的中心点。
如果d(b,c) ≥ 2d(x,b) ,那么 d(x,c) ≥ d(x,b).
证明:由d(b,c) ≤ d(b,x) + d(x,c)
得d(b,c) - d(x,b) ≤ d(x,c)
又d(b,c) - d(x,b) ≥ 2d(x,b) - d(x,b) = d(x,b)
因此d(x,b) ≤ d(x,c)
这个定理可以减少很多计算。

概率分别为0、0、0.54

数据挖掘导论课后习题答案第九章相关推荐

  1. 数据挖掘导论课后习题答案-第一章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第一章 ...

  2. 【第1章】数据挖掘导论课后习题答案

    中文(翻译) 1.讨论下列每项活动是否是数据挖掘任务. 答案 (a)否. 这是一种简单的数据库查询. (b)否.这是一个会计计算,然后应用一个阈值.然而,预测一个新客户的盈利能力是数据挖掘. (c)否 ...

  3. 数据挖掘导论课后习题答案-第八章(下)

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第八章 ...

  4. 数据挖掘导论课后习题答案-第八章(上)

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第八章 ...

  5. 计算机网络谢希仁第七版课后习题答案(第九章)

    1.无线局域网都由哪几部分组成?无线局域网中的固定基础设施对网络的性能有何影响?接入点 AP 是否就是无线局域网中的固定具体设施? 无线局域网由无线网卡.无线接入点(AP).计算机和有关设备组成,采用 ...

  6. 【考研复习】《操作系统原理》孟庆昌等编著课后习题+答案——第二章

    前言 此书在最后的附录B中,有给出部分重难点部分的参考答案.会在最后放上图片.如果想要此书习题答案,可点以下链接:为一个压缩包,以图片形式,习题图片按章节排序,答案图片按书页排序. <操作系统原 ...

  7. 《机器学习》周志华课后习题答案——第一章(1-3题完结)

    <机器学习>周志华课后习题答案--第一章 文章目录 <机器学习>周志华课后习题答案--第一章 一.表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间 二.与使用单个 ...

  8. 机器学习_周志华(西瓜书) 课后习题答案 第一章 Chapter1

    机器学习_周志华 课后习题答案 第一章 Chapter1 习题1.1 Q:表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间. 由所给出的数据集(训练集)可知,属性3个:色泽.根蒂.敲声, ...

  9. 算法竞赛入门经典第二版课后习题答案第二章

    算法竞赛入门经典第二版课后习题答案 第二章 习题2-1水仙花数 输出100-999中的所有水仙花数.若三位数ABC满足ABC=A^3+B^3+C^3,则称其为水仙花数.例如153=1^3+5^3+3^ ...

最新文章

  1. 2018 ACM-ICPC Asia Shenyang Regional Contest 题解(9 / 13)【每日亿题2021/2/24】
  2. “停课不停学”,线上填报如何逼疯老师
  3. ubuntu运行docker报错:invalid mount config for type “bind“: field Source must not be empty.(没解决)
  4. 本学期的选修课:动感单车
  5. 如何确定coordinator
  6. Spartacus image alt属性的绑定实现
  7. oracle 误删表空间文件启动不了数据库的解决办法
  8. 一步一步配置DataGuard Broker
  9. ES6环境搭建及react-router学习
  10. myeclipse 发布 web 项目后 tomcat 无法正常启动
  11. ajaxSubmit 提交form 表单
  12. c语言三个人的象棋,强悍,300多行实现中国象棋人机对战
  13. 安国主控au6983、au698x fc8708 量产失败修复过程。载入韧体数据失败\坏磁区过多\读坏块表错误...
  14. godot正确设置2d像素游戏
  15. python3实用小工具--语言翻译器(附源码)
  16. 聚合数据左磊:不走寻常路 做国内最好的数据聚合平台
  17. 2017河南工业大学玲珑杯赛后总结
  18. python csv转tsv
  19. Flink 常见面试题
  20. BeautifulSoup与lxml

热门文章

  1. 【申博攻略】北京交通大学2023年学术型博士招生简章有哪些变化?
  2. 【C++】多态 —— 条件 | 虚函数重写 | 抽象类 | 多态的原理
  3. 爬取女友淘宝已购买的宝贝数据,发现了她特殊的秘密...
  4. android php 长链接,Android,webview_安卓的webView的loadUrl打不开,太长的url超链接,求解,Android,webview - phpStudy...
  5. MP3Stego的打开方式与使用方法
  6. Centos系统里screen命令的使用
  7. 一键检测 Linux基本系统信息、I/O测试、网速测试— —Superbench
  8. resty-mongol3的简单封装
  9. 周末随笔之技术路线的选择
  10. 2008游戏服务器系统下,梦幻西游永恒的传奇 2008服务器一览 17173.com网络游戏:《梦幻西游》专区...