第2章 数据

习题1:(中文版本翻译错误)统计人员说“是的,字段2和3也有不少问题”,应该翻译为“字段2和3表达了相同的意思”。  译者在翻译该句的时候承用了上句的“有意思,还有其他问题吗”,但是作者这里想表达的不仅仅是字段2和3有问题,而是字段2和3是一样的含义,具有冗余属性列。

习题2:难点主要体现在区分 区间(interval)和比率(ratio)属性。

区间属性:两个值之间的差是有意义的,比如温度,90°C比80°C高10°C。相对标称和序数属性,更具备数值的含义。

【An interval variable is a measurement where the difference between two values is meaningful. The difference between a temperature of 100 degrees and 90 degrees is the same difference as between 90 degrees and 80 degrees.】

比率属性:比率属性包含所有区间属性的性质,即一个属性如果是比率属性,那么它同时也是一个区间属性,但是反之则不成立。区分区间属性和比率属性的一个方法是: 看值0.0是否有意义,即使说0.0对比率比率属性来说表示什么都没有,而对区间来说,本身具有含义,如质量是一个比率属性,因为质量为0表示就是没有质量。但是PH         值,则不是比率属性,因为PH=0.0并不是没有酸度,相反PH=0.0具备最大的酸度。

【A ratio variable, has all the properties of an interval variable, and also has a clear definition of 0.0. When the variable equals 0.0, there is none of that variable. Variables like height, weight, enzyme activity are ratio variables. Temperature, expressed in F or C, is not a ratio variable. A temperature of 0.0 on either of those scales does not mean 'no temperature'. However, temperature in Kelvin is a ratio variable, as 0.0 Kelvin really does mean 'no temperature'. Another counter example is pH. It is not a ratio variable, as pH=0 just means 1 molar of H+. and the definition of molar is fairly arbitrary. A pH of 0.0 does not mean 'no acidity' (quite the opposite!). When working with ratio variables, but not interval variables, you can look at the ratio of two measurements. A weight of 4 grams is twice a weight of 2 grams, because weight is a ratio variable. A temperature of 100 degrees C is not twice as hot as 50 degrees C, because temperature C is not a ratio variable. A pH of 3 is not twice as acidic as a pH of 6, because pH is not a ratio variable.】

习题6:关键点——进行关联分析的元组的属性需要时二元属性,因此进行关联分析时,一个基础性活动是首先将属性转换成二元属性。

为什么需要二元化?有哪些属性二元化的方法?

数据挖掘导论(Pang-Ning Tan)习题记录相关推荐

  1. 《数据挖掘导论》Pangaea-Ning Tan 读书笔记 ----第五章 分类其他技术

    文章目录 第五章 分类:其他技术 5.1 基于规则的分类 5.1.1 基于规则的分类器的工作原理 5.1.2 规则的排序方案 5.2 最近邻算法(KNN) 无监督最近邻 KDTree和BallTree ...

  2. 数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)

    <数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章 绪论 数据挖掘任务 预测任务 描述任务 分类任务 回归任务 聚 ...

  3. 《数据挖掘导论(完整版)》习题答案导航_补档

    英文版:英文 - pdf 中文版(识图翻译,质量较差):数据挖掘导论习题答案(中文版) - 百度文库 数据挖掘导论习题答案(中文版) - 道客巴巴 中文版(质量较好):中文_分章

  4. 【第1章】数据挖掘导论课后习题答案

    中文(翻译) 1.讨论下列每项活动是否是数据挖掘任务. 答案 (a)否. 这是一种简单的数据库查询. (b)否.这是一个会计计算,然后应用一个阈值.然而,预测一个新客户的盈利能力是数据挖掘. (c)否 ...

  5. 数据挖掘导论 复习一(介绍+数据预处理方法+定性归纳)

    数据挖掘=数据库+机器学习 算法 经验 模型 机器学习任务:分类.回归.聚类(KMeans.DCSAN.层次聚类).数据降维.数据预处理 常用分类器:KNN.贝叶斯. 逻辑回归 .决策树.随机森林 本 ...

  6. 《数据挖掘导论》学习笔记(第1-2章)

    本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要用来梳理思路,并没有多少思考,我尽量会在后期多弥补这方面的不足. 第1章 绪论 1.1 什么是数据挖掘 KDD: K nowle ...

  7. 《数据挖掘导论》学习笔记:第1-2章

    本文转载自:https://blog.csdn.net/u013232035/article/details/48281659 本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要 ...

  8. 北师范《计算机导论》在线作业,计算机导论教学指导与习题解答简介,目录书摘...

    编辑推荐: 根据教育部"高等学校计算机科学与技术专业规范"组织编写 与美国ACM和IEEE CS ComputingCurricula新进展同步 国家精品教材配套用书 ●提供了教材 ...

  9. 《数据挖掘导论》归纳笔记

    目录 第一章 绪论 第二章 数据 2.0引言 2.0.1数据类型 2.0.2数据的质量 2.0.3使数据适合挖掘的预处理步骤 2.0.4根据数据联系分析数据 2.1数据类型 2.1.1 属性与度量 2 ...

最新文章

  1. mysql 碎片率_mysql数据碎片太多怎么办?
  2. 【SpringBoot】SpingBoot整合AOP
  3. datanucleus_DataNucleus 3.0与Hibernate 3.5
  4. python第一周心得_python第一周心得-Go语言中文社区
  5. Coding the Matrix作业Python Lab及提交方法
  6. centos7搭建superset数据平台
  7. 万象物语找回服务器,万象物语新手大型攻略 服务器、初始号的选择和新手前期需要做的事说明...
  8. mac上如何安装oracle,在mac上安装oracle instant client 和 sqlplus
  9. Hadoop常见问题及解决方法
  10. 将时间戳转化为带时区的格式
  11. 计算机图形学--全局光照RSM
  12. 解决xShell4某些情况下按删除键会输出^H的问题
  13. Java | jdk11下载、安装及环境变量的配置
  14. 怎样截屏计算机桌面,如何快速截图? 电脑桌面截图快捷键是哪个【详细介绍】...
  15. 【案例分析-初探】美国有多少家加油站?
  16. MATLAB添加噪声
  17. JavaScript/HTML格式化
  18. Tomcat设置登录账号密码
  19. 反射镜镀膜与波长关系
  20. 我们该如何进行bug总结?

热门文章

  1. java获取百度网页内容
  2. 如何判断线性方程组是一个解还是无穷个解
  3. Linux如何关闭防火墙?
  4. 一些电商英文缩写的解释
  5. 牛顿迭代法 简单入门
  6. 方程求根的迭代法——牛顿迭代法
  7. oa办公系统都有哪家?
  8. python下载歌曲教程视频_实现python批量下载网易云音乐的免费音乐
  9. form表单的提交!!!
  10. 彻底搞懂a++和++a的区别