数据挖掘概念与技术第三版 范明、孟晓峰译 第三章习题答案
3.1 例子:相对于一个80%地址正确的数据库,市场分析人员要使用数据进行目的营销,对数据的准确性总体上还能接受;但对于销售人员来说,要利于数据进行一对一推销,对这样的数据则完全不能接受。
可信性:反映用户信赖的数据规模;
可解释性:反映数据是否容易理解。
3.2 处理元祖属性缺失值的方法:1忽略此元祖:适合于多属性缺失;2人工填写缺失值:数据量较小时;3使用一个全局变量填充缺失值:简单但不可靠;4使用属性的中心度量,如均值或中位数:对称数据分布使用均值,倾斜数据分布使用中位数;5使用与给定元祖属同一类的所有样本的属性均值或中位数:感觉打酱油的方法,这样补充不会影响数据分布;6使用最可能的值填充缺失值:最流行的方式,利用已有数据的大部分信息来预测缺失值。
3.3(1) 深度为3的箱 用箱均值光滑:
箱1:13,15,16 14,14,14
。。。 。。。
箱9:46,52,70 56,56,56
效果:这种分箱技术减少了每个属性的不同值的数量,减少了影响数据分布的噪声数据。
(2)通过聚类来检测离群点,落在簇集合之外的值被视为离群点。
(3)回归:用一个函数拟合数据来光滑数据
3.4 数据集成:合并来自多个数据库的数据。1实体识别问题:两个数据库中属性对象的匹配;2冗余和相关分析:一个属性能由另一个导出,这个属性就是冗余的。对于标称数据(只能取有限数据,如真与假),利用卡方检验冗余;对于数值数据(可以取无限数据,如自然数),使用相关系数和协方差检验。3元祖重复:两个相同的行出现;4数据值冲突的检测与处理:两个数据库同一字符代表的属性可能不同,对于实体属性值记录也可能因为编码、单位不同而导致标准差异。
3.5 对于涉及神经网络的分类算法或基于距离度量的分类和聚类,规范化特别有用。(a):属性值的规范化范围(b):新的一个范围;(c)一个相对于(b)更加鲁棒的范围;(d)[-1,1]。
3.6 均值 500,标准差283,均值绝对偏差240
(a)0 0.125 0.25 0.5 1
(b)-1.06 -0.71 -0.35 0.35 1.77
(c)-1.25 -0.83 -0.42 0.42 2.08
(d)j=3,故0.2 0.3 0.4 0.6 1
3.7 (a)0.39 (b)均值30,0.39 (c)0.35 (d)比较喜欢最小-最大规范化,容易集中数据,计算量小
3.8 age均值46.4,标准差 12.8 %fat均值28.8,标准差9.0
(b)相关系数=(25763.2-18*46.4*28.8)/(18*12.8*9.0)=0.82 正相关
协方差=0.82*12.8*9.0=94.46
3.9 (a)等频分箱:箱1:5,10,11,13 箱2:15,35,50,55 箱3:72,94,204,215
(b)等宽分箱:箱1:5-75 5,10,11,13,15,35,50,55,72 箱2:75-145 92 箱3:145-215 204,215
(c)直径=215-5=210故根据到0,105,210距离来分
箱1:5,10,11,13,15,35,50 箱2:55,72,92 箱3:204,215
3.10(a)逐步向前选择:由空集开始,找出原属性集中最好的属性添加到归约集中。在其后每一次迭代,将剩下属性的最好属性添加到该集合中。
(b)逐步向后删除:由整个属性集开始。在每一步中,删除还在属性集中最差的属性。
(c)逐步向前选择和逐步向后删除的组合:每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。
3.11 抽样可以用于数据归约。抽样方式:1SRSWOR:不放回,概率为1/n;2SRSWR:放回;3簇抽样:元组分组放入不同的簇中,再对这些簇简单随机抽样得到样本;4分层抽样:先分层,后简单随机抽样得到样本
3.12 ChiMerge首先将所有的连续值看做可能的分裂点,通过合并相差最小的卡方邻域的值形成区间,然后在结果区间递归地应用这一过程,直到达到给定卡方值标准。
3.13 (a)按照排好的顺序,自顶向下产生分层,第一个在顶层,最后一个在最底层。
(b)(最大值-最小值)/层数,分别产生各层的标准值,按对象距哪一层标准值距离最近,就归属那一层
(c)从小到大排序,总数/层数,每层分得的对象个数大致相同
3.14 缺失多个值的删除,少数属性污染的用属性的中位数代替的方法
数据挖掘概念与技术第三版 范明、孟晓峰译 第三章习题答案相关推荐
- 《数据挖掘概念与技术》第二版 中文版 第一章答案
引言 1.1 什么是数据挖掘?在你的回答中,针对以下问题: a. 它是又一种广告宣传吗?b. 它是一种从数据库.统计学和机器学习发展的技术的简单转换吗?c. 解释数据库技术发展如何导致数据挖掘d. 当 ...
- 技术的发展推动了微型计算机的发展,微机原理第1章 习题答案(yyj)(3页)-原创力文档...
习 题 1 答案 一. 单选题 1.目前制造计算机所使用的电子器件是( B ). A.晶体管B.大规模和超大规模集成电路 C.集成电路D.大规模集成电路 2.( A )技术的发展推动了微型计算机的发展 ...
- 【数据挖掘概念与技术】学习笔记5-数据立方体技术
基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...
- 数据挖掘概念与技术课后笔记
数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...
- 【读书笔记-数据挖掘概念与技术】数据立方体技术
基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...
- 软件工程案例教程答案(第三版)韩万江 姜立新 编著 课后题答案 (软件项目开发实践)
软件工程案例教程 答案(第三版)韩万江 姜立新 编著 课后题答案 (软件项目开发实践) 第一章 课后答案 一.填空题 二.判断题 三.选择题 第二章 课后答案 一.填空题 二.判断题 三.选择题 第三 ...
- 数据结构c语言版第三版实验四答案,数据结构(C语言版)第三四章习题答案
Push( &s, t[i]); while( !EmptyStack( &s)) {// 每弹出一个字符与相应字符比较 temp=Pop (&s); if( temp!=S[ ...
- C程序设计谭浩强第五版课后答案 第三章习题答案
C语言程序设计谭浩强第五版课后答案第三章 1.假如我国国民生产总值的年增长率为7%, 计算10年后我国国民生产总值与现在相比增长多少百分比.计算公式为p=(1+r)np = (1+r)^np=(1+r ...
- 大学计算机基础第五版第三章,大学计算机基础第三章习题答案
<大学计算机基础第三章习题答案>由会员分享,可在线阅读,更多相关<大学计算机基础第三章习题答案(4页珍藏版)>请在人人文库网上搜索. 1.第三章 微型计算机硬件组成1.微型计算 ...
- python核心教程第二版答案_python核心编程第二版第4章习题答案.docx
python核心编程第二版第4章习题答案.docx 4-1.Python 对象.与所有 Python 对象有关的三个属性是什么?请简单的描述一下. 答案: 所有的 Python 对象都拥有三个特性:身 ...
最新文章
- sql server两种分页方法
- Android JNI 编程
- 电压3.3V的ESD静电保护器件型号大全
- linux集群命令关闭其中一台,自己整理的一点Linux命令集
- 解决:设置中打开蓝牙,測试机不会自己主动搜索设备
- 使用 Azure Function 定时启动云 VM
- 聚合项目访问后台接口失败_【2020】Scry 8月项目进度月报
- 基于Myeclipse的三大框架(SSH)整合
- 不止1亿像素相机 小米MIX 4有望首发第四代超声波屏下指纹
- 作为程序员,起码要知道的 Python 修饰器!
- 当他不再爱你的时候(男女生一定要看)
- Oracle UNION和INTERSECT以及MINUS
- 57个深度学习专业术语
- JavaScript中单例模式的实现
- Android已有的原生Camera框架中加入自己的API的实现方案。
- SQL插入数据时让ID从指定值自增
- Tomcat7升级到Tomcat9
- android 左移动画_android 动画Animation之TranslateAnimation移动
- 快速排序之螺钉螺母匹配
- div绑定onblur事件