最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第三章


优点:第一,颜色可以很容易地区分不同的部分。第二,看起来更加有趣。
缺点:第一,对色盲或者那些很难分辨颜色的人不太友好。第二,有的时候灰度图更能突出重点,颜色图会让人关注一些不重要的部分。

关键的问题是对于三维的图如何尽可能地展示多的信息。但实际上,我们可能需要忽略部分信息以展示出必要的信息。

简单随机抽样并不是一种好方法。比如一个分布不均匀的样本,简单随机抽样会忽略掉稀疏区域的大部分点,在这种情况下,我们应该在稀疏区域过采样,密集区域降采样。

(a)计算机网络的联通最好用图来表示。节点是路由器、网关或者其他通信设备,链接代表联系。颜色可以用来表示链接和节点已使用的百分比。
(b)最简单的办法就是在一张图上只展示一个物种的分布情况,用灰度表示分布的密集程度。如果需要同时展示多个物种,可以考虑用它们的图标来表示。
(c)每个程序的资源使用情况可以用条形图表示。资源使用情况用百分比统一尺度即可。
(d)对于特定的职业,性别用饼图,每一行的饼图表示一个等级的教育水平,每一列表示一年。

茎叶图可以直观地看到值的分布,但是如果当数据特别大的时候用茎叶图就不明智了。

最好的办法就是预估数据的分布。这一数据处理方法已经比较成熟了,但很多情况下单一直方图是不够的。


如果中位数处于箱线图的中间,那么就是对称分布。萼片的长宽近似于对称分布,但花瓣的长宽有些歪斜。


Setosa:萼片长度>萼片宽度>花瓣长度>花瓣宽度
Versicolour:萼片长度>花瓣长度>萼片宽度>花瓣宽度
Virginica:萼片长度>花瓣长度>萼片宽度>花瓣宽度

大量的信息将被包含在箱线图中。比如,比较箱线图中的年龄属性,我们会发现重量随年龄增长。


三个品种的鸢尾花的分类可能正是按照花瓣长宽的大小分类的。




花瓣长度和宽度的百分位折线图和经验CDF图都十分相似。表明一组花有相对稳定的属性值。

当属性值有序时。

任何数据集所有属性的组合不太可能产生稀疏数据立方体。这将包括一组对象的连续属性,但只有一小部分,其中很多组合值并不会出现。
稠密的数据立方体例子很多,比如考虑交通事故的发生时间、发生地点、事故类型,原始的数据集将会比较稀疏,但是聚合后,考虑在一个月里总的数据,会得到要给稠密的数据立方体。

一个概括性的数据集的属性值或者组合属性值的频率是比较令人感兴趣的,这样我们可以得到属性之间的关系,并且用图表示出来。


这是一个稠密的数据立方体,只有两个单元格是空的。

PCA和SVD是一种将数据投影到缩小的尺寸的维归约。比如销售一种产品的六个月的情况汇集到一天,存储位置的聚合可以看成一种尺度的改变,但PCA和SVD则无法解释这个情况。

数据挖掘导论课后习题答案-第三章相关推荐

  1. 【第1章】数据挖掘导论课后习题答案

    中文(翻译) 1.讨论下列每项活动是否是数据挖掘任务. 答案 (a)否. 这是一种简单的数据库查询. (b)否.这是一个会计计算,然后应用一个阈值.然而,预测一个新客户的盈利能力是数据挖掘. (c)否 ...

  2. 《机器学习》周志华课后习题答案——第三章 (1-7题)

    <机器学习>周志华课后习题答案--第三章 (1-7题) 文章目录 <机器学习>周志华课后习题答案--第三章 (1-7题) 一.试析在什么情形下式(3.2)中不必考虑偏置项b. ...

  3. 【考研复习】《操作系统原理》孟庆昌等编著课后习题+答案——第三章

    前言 此书在最后的附录B中,有给出部分重难点部分的参考答案.会在最后放上图片.如果想要此书习题答案,可点以下链接:为一个压缩包,以图片形式,习题图片按章节排序,答案图片按书页排序. <操作系统原 ...

  4. 微型计算机原理与接口技术(周荷琴 冯焕清)第六版 课后习题答案 第三章(部分答案)

    第三章 1.分别说明下列指令的源操作数和目的操作数各采用什么寻址方式. 源操作数  目的操作数            源操作数                    目的操作数 (1)MOV AX, ...

  5. Java语言程序设计基础篇(第十版 梁勇著)课后习题答案 - 第三章

    第三章:选择 复习题 3.1 列出 6 个关系操作符. 解: >,<,=,>=,<=,!= 3.2 假设 x 等于 1,给出下列布尔表达式的结果: (x > 0) (x ...

  6. 数据挖掘导论课后习题答案-第一章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第一章 ...

  7. 数据挖掘导论课后习题答案第九章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第九章 ...

  8. 数据挖掘导论课后习题答案-第八章(上)

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第八章 ...

  9. 计算机网络谢希仁第七版课后习题答案(第三章)

    3-01数据链路(即逻辑链路)与链路(即物理链路)有何区别? "电路接通了"与"数据链路接通了"的区别何在? 答案:数据链路与链路的区别在于数据链路出链路外,还 ...

  10. 编译原理(第3版-王生原)课后习题答案-第三章

    1.构造下列正规式相应的 DFA. (1)1(0|1) *101 (2)1(1010* |1(010)*1) *0 (3)a((a|b)* |ab*a)*b (4)b((ab)* bb)*ab 答案: ...

最新文章

  1. 硅谷产学研的创新循环
  2. 如何从失焦的图像中恢复景深并将图像变清晰?
  3. java调用子系统代码_深入理解JAVA虚拟机-Idea远程执行本地Java代码 - Java 技术驿站-Java 技术驿站...
  4. csdn,我真的来了。
  5. controller方法名一样参数传递不同如何根据参数匹配_【Java学习 | Javase】方法
  6. 服务器发送消息到客户端互斥,分布式相关/Zookeeper.md · 。W/Java-info - Gitee.com
  7. python爬取拉勾网_(转)python爬取拉勾网信息
  8. [转载]Magento 店铺多语言设置
  9. 【Windows优秀软件推荐】:唧唧down——视频和弹幕全清晰度下载
  10. python调用大漠插件、检测么_python调用大漠插件教程05字库
  11. 用递归调用函数来把存在父子级别的数据封装成一个树状结构
  12. json转xml报[java.lang.NoClassDefFoundError: nu/xom/Serializer]
  13. UVALive - 4987 Evacuation Plan
  14. Windows 电脑如何查看已经连接的 Wi-Fi 的密码
  15. 实现商品分类和品牌管理功能
  16. 从财报、抗疫回望变革:BAT的“基因改造”这些年怎么样了?
  17. unity动态生成预制体
  18. 谷歌帮:中国最牛的创业帮派
  19. docker原理介绍以及部署使用
  20. Zabbix导入mysql监控模板_Zabbix MySQL监控模板添加

热门文章

  1. Vulkan Tutorial
  2. Kali-linux:nmap命令
  3. python实例代码爬虫_python 网络爬虫实例代码
  4. 经典DOS游戏皇帝攻略(曾经的回忆)
  5. 《深入浅出通信原理》一句话短评
  6. 怎样写工科研究生论文
  7. (超详细,避免踩坑)如何使用freeMaker模板生成器处理图片以及文字替换
  8. 【分享】Adobe Flash Player各版本安装包官方直接下载地址
  9. 关于某学习通网页鼠标不能移出视频窗口的问题
  10. matlab动态仿真实例教程,MATLAB R2008控制系统动态仿真实例教程_IT教程网