3.1 例子:相对于一个80%地址正确的数据库,市场分析人员要使用数据进行目的营销,对数据的准确性总体上还能接受;但对于销售人员来说,要利于数据进行一对一推销,对这样的数据则完全不能接受。

可信性:反映用户信赖的数据规模;

可解释性:反映数据是否容易理解。

3.2 处理元祖属性缺失值的方法:1忽略此元祖:适合于多属性缺失;2人工填写缺失值:数据量较小时;3使用一个全局变量填充缺失值:简单但不可靠;4使用属性的中心度量,如均值或中位数:对称数据分布使用均值,倾斜数据分布使用中位数;5使用与给定元祖属同一类的所有样本的属性均值或中位数:感觉打酱油的方法,这样补充不会影响数据分布;6使用最可能的值填充缺失值:最流行的方式,利用已有数据的大部分信息来预测缺失值。

3.3(1) 深度为3的箱                       用箱均值光滑:

箱1:13,15,16                            14,14,14

。。。                                         。。。

箱9:46,52,70                             56,56,56

效果:这种分箱技术减少了每个属性的不同值的数量,减少了影响数据分布的噪声数据。

(2)通过聚类来检测离群点,落在簇集合之外的值被视为离群点。

(3)回归:用一个函数拟合数据来光滑数据

3.4 数据集成:合并来自多个数据库的数据。1实体识别问题:两个数据库中属性对象的匹配;2冗余和相关分析:一个属性能由另一个导出,这个属性就是冗余的。对于标称数据(只能取有限数据,如真与假),利用卡方检验冗余;对于数值数据(可以取无限数据,如自然数),使用相关系数和协方差检验。3元祖重复:两个相同的行出现;4数据值冲突的检测与处理:两个数据库同一字符代表的属性可能不同,对于实体属性值记录也可能因为编码、单位不同而导致标准差异。

3.5 对于涉及神经网络的分类算法或基于距离度量的分类和聚类,规范化特别有用。(a):属性值的规范化范围(b):新的一个范围;(c)一个相对于(b)更加鲁棒的范围;(d)[-1,1]。

3.6 均值 500,标准差283,均值绝对偏差240

(a)0  0.125  0.25  0.5  1

(b)-1.06  -0.71  -0.35  0.35  1.77

(c)-1.25 -0.83 -0.42 0.42  2.08

(d)j=3,故0.2 0.3 0.4 0.6 1

3.7 (a)0.39  (b)均值30,0.39  (c)0.35     (d)比较喜欢最小-最大规范化,容易集中数据,计算量小

3.8  age均值46.4,标准差 12.8             %fat均值28.8,标准差9.0

(b)相关系数=(25763.2-18*46.4*28.8)/(18*12.8*9.0)=0.82  正相关

协方差=0.82*12.8*9.0=94.46

3.9 (a)等频分箱:箱1:5,10,11,13 箱2:15,35,50,55 箱3:72,94,204,215

(b)等宽分箱:箱1:5-75  5,10,11,13,15,35,50,55,72 箱2:75-145 92  箱3:145-215 204,215

(c)直径=215-5=210故根据到0,105,210距离来分

箱1:5,10,11,13,15,35,50   箱2:55,72,92  箱3:204,215

3.10(a)逐步向前选择:由空集开始,找出原属性集中最好的属性添加到归约集中。在其后每一次迭代,将剩下属性的最好属性添加到该集合中。

(b)逐步向后删除:由整个属性集开始。在每一步中,删除还在属性集中最差的属性。

(c)逐步向前选择和逐步向后删除的组合:每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。

3.11 抽样可以用于数据归约。抽样方式:1SRSWOR:不放回,概率为1/n;2SRSWR:放回;3簇抽样:元组分组放入不同的簇中,再对这些簇简单随机抽样得到样本;4分层抽样:先分层,后简单随机抽样得到样本

3.12 ChiMerge首先将所有的连续值看做可能的分裂点,通过合并相差最小的卡方邻域的值形成区间,然后在结果区间递归地应用这一过程,直到达到给定卡方值标准。

3.13 (a)按照排好的顺序,自顶向下产生分层,第一个在顶层,最后一个在最底层。

(b)(最大值-最小值)/层数,分别产生各层的标准值,按对象距哪一层标准值距离最近,就归属那一层

(c)从小到大排序,总数/层数,每层分得的对象个数大致相同

3.14 缺失多个值的删除,少数属性污染的用属性的中位数代替的方法

数据挖掘概念与技术第三版 范明、孟晓峰译 第三章习题答案相关推荐

  1. 《数据挖掘概念与技术》第二版 中文版 第一章答案

    引言 1.1 什么是数据挖掘?在你的回答中,针对以下问题: a. 它是又一种广告宣传吗?b. 它是一种从数据库.统计学和机器学习发展的技术的简单转换吗?c. 解释数据库技术发展如何导致数据挖掘d. 当 ...

  2. 技术的发展推动了微型计算机的发展,微机原理第1章 习题答案(yyj)(3页)-原创力文档...

    习 题 1 答案 一. 单选题 1.目前制造计算机所使用的电子器件是( B ). A.晶体管B.大规模和超大规模集成电路 C.集成电路D.大规模集成电路 2.( A )技术的发展推动了微型计算机的发展 ...

  3. 【数据挖掘概念与技术】学习笔记5-数据立方体技术

    基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...

  4. 数据挖掘概念与技术课后笔记

    数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...

  5. 【读书笔记-数据挖掘概念与技术】数据立方体技术

    基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...

  6. 软件工程案例教程答案(第三版)韩万江 姜立新 编著 课后题答案 (软件项目开发实践)

    软件工程案例教程 答案(第三版)韩万江 姜立新 编著 课后题答案 (软件项目开发实践) 第一章 课后答案 一.填空题 二.判断题 三.选择题 第二章 课后答案 一.填空题 二.判断题 三.选择题 第三 ...

  7. 数据结构c语言版第三版实验四答案,数据结构(C语言版)第三四章习题答案

    Push( &s, t[i]); while( !EmptyStack( &s)) {// 每弹出一个字符与相应字符比较 temp=Pop (&s); if( temp!=S[ ...

  8. C程序设计谭浩强第五版课后答案 第三章习题答案

    C语言程序设计谭浩强第五版课后答案第三章 1.假如我国国民生产总值的年增长率为7%, 计算10年后我国国民生产总值与现在相比增长多少百分比.计算公式为p=(1+r)np = (1+r)^np=(1+r ...

  9. 大学计算机基础第五版第三章,大学计算机基础第三章习题答案

    <大学计算机基础第三章习题答案>由会员分享,可在线阅读,更多相关<大学计算机基础第三章习题答案(4页珍藏版)>请在人人文库网上搜索. 1.第三章 微型计算机硬件组成1.微型计算 ...

  10. python核心教程第二版答案_python核心编程第二版第4章习题答案.docx

    python核心编程第二版第4章习题答案.docx 4-1.Python 对象.与所有 Python 对象有关的三个属性是什么?请简单的描述一下. 答案: 所有的 Python 对象都拥有三个特性:身 ...

最新文章

  1. sql server两种分页方法
  2. Android JNI 编程
  3. 电压3.3V的ESD静电保护器件型号大全
  4. linux集群命令关闭其中一台,自己整理的一点Linux命令集
  5. 解决:设置中打开蓝牙,測试机不会自己主动搜索设备
  6. 使用 Azure Function 定时启动云 VM
  7. 聚合项目访问后台接口失败_【2020】Scry 8月项目进度月报
  8. 基于Myeclipse的三大框架(SSH)整合
  9. 不止1亿像素相机 小米MIX 4有望首发第四代超声波屏下指纹
  10. 作为程序员,起码要知道的 Python 修饰器!
  11. 当他不再爱你的时候(男女生一定要看)
  12. Oracle UNION和INTERSECT以及MINUS
  13. 57个深度学习专业术语
  14. JavaScript中单例模式的实现
  15. Android已有的原生Camera框架中加入自己的API的实现方案。
  16. SQL插入数据时让ID从指定值自增
  17. Tomcat7升级到Tomcat9
  18. android 左移动画_android 动画Animation之TranslateAnimation移动
  19. 快速排序之螺钉螺母匹配
  20. div绑定onblur事件

热门文章

  1. 【2016年第1期】关于我国农业大数据中心建设的设想
  2. Docker安装Tomcat7
  3. 还原乌克兰与俄罗斯的电力系统网络交战过程
  4. Java速成:Boot入门
  5. oracle日期函数大全
  6. javamail 收件人/发件人 乱码解析
  7. 项目申请html模板,做项目申请报告范文-有模板
  8. Win10卸载微软sql服务器,卸载 SQL Server Management Studio
  9. RDP报表快速打造数据大屏可视化展示系统
  10. SpringMVC使用json格式之间的转换的工具类