最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第七章



(a)

(b) 5
(c)
候选项集:10+28+3=41
频繁项集:8+10+0=18
(d)

候选项集:5+10+0=15
频繁项集:5+3+0=8
(e)
d中产生较少的项集


(a)
D1:
温度分为X1 ( 80 - 87 ),X2 ( 88 - 95 ),X3 ( 96 - 103 )
气压分为Y1 ( 1025 - 1051 ),Y2 ( 1052 - 1078 ),Y3 ( 1079 - 1105 )

产生7个频繁1-项集、12个频繁2-项集( (X1,Y1)、(X3,Y3)、(X1,Alarm1)、(X3,Alarm1)、(Y1,Alarm1)、(Y3,Alarm1)、(X3,Alarm2)、(Y3,Alarm2)、(Y3,Alarm3)、(Alarm1,Alarm2)、(Alarm1,Alarm3)、(Alarm2,Alarm3) )、5个频繁3-项集( (X1,Y1,Alarm1)、(X3,Y3,Alarm1)、(X3,Y3,Alarm2)、(X3,Alarm1,Alarm2)、(Y3,Alarm1,Alarm2))

D2:
温度分为X1 ( 80 - 85 ),X2 ( 86 - 97 ),X3 ( 100 - 103 )
气压分为Y1 ( 1025 - 1038 ),Y2 ( 1039 - 1084 ),Y3 ( 1085 - 1105 )

产生9个频繁1-项集,7个频繁2-项集((X3,Alarm1)、(X3,Alarm2)、(Y2,Alarm1)、(Y3,Alarm3)、(Alarm1,Alarm2)、(Alarm2,Alarm3)、(Alarm1,Alarm3)),1个频繁3-项集((X3,Alarm1,Alarm2))
(b)

(ii)有两个自然聚类。(iii)用K-均值聚类算法。
(iv)

(v)产生5个频繁1-项集,7个频繁2-项集,1个频繁3-项集((C2,Alarm1,Alarm2))


(a)
(i):S=1/6,C=1
(ii):S=1/6,C=1

(b)
当 bin-width = 2 时,A1=1≤A≤2,A2=3≤A≤4,A3=5≤A≤6,A4=7≤A≤8,A5=9≤A≤10,A6=11≤A≤12,

对于第一个规则{(1≤A≤2),B=1}→{C=1}有对应的规则{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=1
因此能发现这个规则

对于第二个规则{(5≤A≤8),B=1}→{C=1}有对应的规则{A3=1,B=1}→{C=1}和{A4=1,B=1}→{C=1}
S({A3=1,B=1}→{C=1})=1/12
C({A3=1,B=1}→{C=1})=1
S({A4=1,B=1}→{C=1})=1/12
C({A4=1,B=1}→{C=1})=1
支持度小于阈值15%,不能发现

当 bin-width = 3 时,A1=1≤A≤3,A2=4≤A≤6,A3=7≤A≤9,A4=10≤A≤12

对于第一个规则{(1≤A≤2),B=1}→{C=1}有对应的规则{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=2/3
因此能发现这个规则

对于第二个规则{(5≤A≤8),B=1}→{C=1}有对应的规则{A2=1,B=1}→{C=1}和{A3=1,B=1}→{C=1}
S({A2=1,B=1}→{C=1})=1/12
C({A2=1,B=1}→{C=1})=1
S({A3=1,B=1}→{C=1})=1/12
C({A3=1,B=1}→{C=1})=1
支持度小于阈值15%,不能发现

当 bin-width = 4 时,A1=1≤A≤4,A2=5≤A≤8,A3=9≤A≤12

对于第一个规则{(1≤A≤2),B=1}→{C=1}有对应的规则{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=1/2
置信度小于阈值60%,不能发现

对于第二个规则{(5≤A≤8),B=1}→{C=1}有对应的规则{A2=1,B=1}→{C=1}
S({A2=1,B=1}→{C=1})=1/6
C({A2=1,B=1}→{C=1})=1
能发现这个规则

(c)
没有一种宽度可以同时发现这两种规则,解决办法是结合考虑多个宽度。

(a)
(i):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({10<A<25→10<B<20})= 15/45 = 33.3%,C({15<A<35→10<B<20})= 15/65 = 23.1%,
(ii):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({15<A<25→5<B<20})= 15/30 = 50.0%,C({15<A<25→5<B<30})= 25/30 = 83.3%,
(iii):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({10<A<35→5<B<30})= 59/80 = 73.8%,

(b)
年龄在15到35之间的因特网用户有65个
平均上网小时数为:( 2.5×12+7.5×20+15×15+25×13+35×5 ) / 65 = 13.82
因此基于统计学的规则为:15<A<35→B:μ = 13.82
(c)
其他用户有35个
平均上网小时数为:( 2.5×6+7.5×9+15×10+25×6+35×4 ) / 35 = 14.93
年龄在15到35之间用户上网小时的方差=9.786
其他用户上网小时的方差=10.203
Z = ( 14.93 - 13.82 )/ (9.7862/65 + 10.2032/35)= 0.476 < 1.64
因此在95%置信度下不显著。

年级:
(a)7个
(b)比如一年级学生则一年级二元属性为1,其他属性为0
(c)分为本科生、研究生、专业人员
邮政编码:
(a)有很多
(b)对于每个邮政编码,对应的二元属性取1,其他取0
(c)可以按照地理位置分
院:
(a)14个
(b)比如农学则农学二元属性取1,其他取0
(c)按照大类分,比如理学,工学等
住校:
(a)1个
(b)住校为1不住校为0
(c)无
语言:
(a)7个
(b)比如说汉语则汉语二元属性取1,其他取0
(c)按大洲分,比如亚洲,北美洲等



(a)区间为[ 9 , 17 ]、[ 19 , 29 ]、[ 33 , 47 ]。满足的区间为[ 19 , 29 ],支持度为16.7%,置信度为100%
(b)区间为[ 9 , 14 ]、[ 17 , 21 ]、[ 25 , 33 ]、[ 39 , 47 ]。没有满足的区间
(c)区间为[ 9 , 11 ]、[ 14 , 17 ]、[ 19 , 21 ]、[ 25 , 29 ]、[ 33 , 39 ]、[ 41 , 47 ]。满足的区间为[ 9 , 11 ],支持度为16.7%,置信度为100%
(d)离散化区间时,既不能太宽也不能太窄,否则有些规则无法被发现。




(a)困难是确定合适的支持度和置信度
(b)产生8个频繁1-项集,25个频繁2-项集,34个频繁3-项集,20个频繁4-项集
(c)产生8个频繁1-项集,6个频繁2-项集,1个频繁3-项集
(d)C更有效但可能丢失一些频繁项

(a)当没有分层包含多于1个的X的子女时,取等号
(b)这三个都肯定是频繁的
(c){p}→{q^}

(a)

(b)

(c)

(d)


答:



(a)
是。
否。不是子序列
否。不满足mingap=0
是。
否。不是子序列
(b)

是。是。是。是。是。

是。是。是。是。是。

是。是。否。是。是。

否。否。否。是。是。

是。
否。不满足mingap=0
否。不满足mingap=0和ws=1
否。不满足mingap=0
否。不满足mingap=0和ws=1

(a)

(b)

(c)



限定ws=0,mingap=0,maxgap=3,maxspan=5
(a)1。该方法在对象时线中查找给定序列的至少一次出现,出现多次也只会计数一次。
(b)2。观察到的序列是{p(t=1),q(t=4),r(t=5)}、{p(t=6),q(t=7/8),r(t=10)},而{p(t=4),q(t=7),r(t=10)}超过窗口限制大小5
(c)2。最小出现窗口即窗口的子窗口中不含该序列,是CWIN的限制版,b中观察到的两个窗口都符合要求。
(d)3。{p(t=1),q(t=4),r(t=5)}、{p(t=6),q(t=7/8),r(t=10)}和{p(t=4),q(t=7),r(t=10)}
(e)2。当一个事件-时间戳对被使用后就不允许再次使用,因此{p(t=6),q(t=7/8),r(t=10)}和{p(t=4),q(t=7),r(t=10)}只计数一次。

答:



(b)中图有错误,左图的右上角应该为a
答:



(b)|V|!
(c)k
(d)k-1

(a)

(b)
无法产生候选。



(a)
i.21000 - 1
ii.22000 - 1
iii.这种方法产生的候选项集太多,其中很多都是无用的
(b)

i.S = 3/7 = 42.9% , C = 3/3 = 100%
ii.S = 3/7 = 42.9% , C = 3/3 = 100%
iii.S = 3/7 = 42.9% , C = 3/3 = 100%
iv.S = 3/7 = 42.9% , C = 3/3 = 100%

(a)22d
(b)


(a)反单调
(b)非单调

数据挖掘导论课后习题答案-第七章相关推荐

  1. 【第1章】数据挖掘导论课后习题答案

    中文(翻译) 1.讨论下列每项活动是否是数据挖掘任务. 答案 (a)否. 这是一种简单的数据库查询. (b)否.这是一个会计计算,然后应用一个阈值.然而,预测一个新客户的盈利能力是数据挖掘. (c)否 ...

  2. 【考研复习】《操作系统原理》孟庆昌等编著课后习题+答案——第七章

    CSDN话题挑战赛第2期 参赛话题:学习笔记 前言 此书在最后的附录 B 中,有给出部分重难点部分的参考答案.如果想要此书习题答案,可点以下链接:为一个压缩包,以图片形式,习题图片按章节排序,答案图片 ...

  3. 回归系数只能取正值_统计学课后习题答案第七章 相关分析与回归分析报告

    第七章相关分析与回归分析 一.单项选择题 1.相关分析是研究变量之间的 A.数量关系 B.变动关系 C.因果关系 D.相互关系的密切程度 2.在相关分析中要求相关的两个变量 A.都是随机变量 B.自变 ...

  4. 数据挖掘导论课后习题答案-第一章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第一章 ...

  5. 数据挖掘导论课后习题答案第九章

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第九章 ...

  6. 数据挖掘导论课后习题答案-第八章(下)

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第八章 ...

  7. 数据挖掘导论课后习题答案-第八章(上)

    最近在读<Introduction to Data Mining >这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论.侵删. 第八章 ...

  8. 【考研复习】《操作系统原理》孟庆昌等编著课后习题+答案——第三章

    前言 此书在最后的附录B中,有给出部分重难点部分的参考答案.会在最后放上图片.如果想要此书习题答案,可点以下链接:为一个压缩包,以图片形式,习题图片按章节排序,答案图片按书页排序. <操作系统原 ...

  9. 《机器学习》周志华课后习题答案——第三章 (1-7题)

    <机器学习>周志华课后习题答案--第三章 (1-7题) 文章目录 <机器学习>周志华课后习题答案--第三章 (1-7题) 一.试析在什么情形下式(3.2)中不必考虑偏置项b. ...

  10. 单片机微型计算机原理及接口技术陈,单片机微型计算机原理及接口技术课后习题答案第4章(5页)-原创力文档...

    单片机微型计算机原理及接口技术课后习题答案第4章 4-1 分别指出下列指令中的源操作数和目的操作数的寻址方式 源操作数寻址方式 目的操作数寻址方式 (1)MOV P1,20H 直接寻址 直接寻址 (2 ...

最新文章

  1. 在macOS 10.13.6上安装go 1.13.8实录
  2. MongoDB学习(五)使用Java驱动程序3.3操作MongoDB快速入门
  3. delphi公共函数 UMyPubFuncFroc--版权所有 (C) 2008 勇者工作室
  4. matlab axis
  5. Windows PE第6章 栈与重定位表
  6. linux服务器网页出现错误,常见网页错误 | Linux 主机 (cPanel) - GoDaddy 帮助 SG
  7. ROS学习笔记-ROS语音识别与语音输出[1]
  8. SAP BTP Launchpad Service 打不开应用的权限问题
  9. mac环境下分别用vim和Xcode运行C++(hello word)程序
  10. 还在用背单词App?使用Python开发英语单词自测工具,助你逆袭单词王!
  11. JPM Coin三部曲 (上) :深入理解摩根幣的運作
  12. zoiper 软件_zoiper软件下载
  13. wxnativecallback.php,ectouch开发 | 糊涂虫
  14. python使用有道智云翻译API
  15. 内核ppp编制和错误分析
  16. 海普完成数千万元战略融资
  17. button按钮的tittle 折行且居中显示
  18. 没有音响,把手机当作电脑音响的操作。
  19. Aspose.Words 设置背景颜色4种效果(当前段落设置背景颜色,所有段落文字设置背景颜色,当前单元格设置背景颜色,当前段落文字设置背景颜色)
  20. fedora vs. ubuntu

热门文章

  1. 如何使用内网穿透,将自己的内网接口暴露到外网
  2. css中的counter计数器
  3. github修改语言设置
  4. html5 spice 虚拟桌面,开源桌面虚拟化spice体验
  5. su如何变成实体_Sketchup实体工具怎么使用? SU实体工具的使用方法
  6. h5 调取前置摄像头
  7. 计算机系统分别由,计算机系统由两部分组成它们分别是什么
  8. 系统可用性量表(System Usability Scale, SUS)
  9. Google推出网页加速工具 - Page Speed (Firefox插件)
  10. 用easyui-filebox上传Excel文件(ASP.NET MVC)[附源码下载]