一、实验项目名称:

聚类分析方法

二、实验目的与要求:

在软件方面:会用Clementine软件进行聚类分析。
在理论方面:聚类分析及其常用的聚类分析方法,数据挖掘中的聚类分析。

三、实验原理:

1、聚类分析方法
聚类分析是数据分析中的一种重要技术,它的应用极为广泛。许多领域中都会涉及聚类分析方法的应用与研究工作。例如:在科学数据探测、信息检索、文本挖掘、空间数据库分析、Web数据分析、客户关系管理、医学诊断、生物学等方面的数据挖掘应用软件中,聚类分析技术都起着重要作用。在商业领域,聚类可以帮助市场分析人员从消费者数据库中分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯,发现不同类型的客户群,可以用来分类具有相似功能的基因,了解种群的内在结构。聚类还可以用来从地理数据库中识别出具有相似土地用途的区域;可以从保险公司的数据库中发现汽车保险中具有较高索赔概率的群体;还可以从一个城市的房地产信息数据库中,根据户型、房价及地理位置将房地产分成不同的类;还可以用来对Web上不同类型的文档进行分类等。
我们主要讲的方法是谱系聚类、快速聚类、两步聚类。
2、聚类分析方法应用
聚类分析在《红楼梦》作者问题上的应用
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。能否从统计上做出论证从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,亦…,呀,吗,咧,罢……可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志。之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的。利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。之后又进一步分析前80回是否为曹雪芹所写这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分。而后40回是否为高鹗写的呢 论证结果推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,红学界大为赞叹[11]。
所谓聚类分析,顾名思义,就是按照某种标准将样本物以类聚。即使续作者刻意模仿作者的写法,但是文风是不能模仿的,而对虚词的使用是难以做到一致的,这就是标准(也就是统计量)所在。李教授的工作便是证明了 前八十回和后四十回在虚词的使用上截然不同。而石头记与风月宝鉴的对比使用的则是因子分析的方法。每一回四十七个虚词出现不同次数,而一共有120回,这样就构成一个47*120的矩阵,李教授在统计软件SPSS上分析这个大型矩阵得到以上结果,可信度甚高,因为它是完全客观不带有主观色彩的方法,仅从文本入手。就凭这一点,比某些胡说八道的红学家强之百倍。

四、实验方案设计:

数据源背景分析;选择聚类方法;分析聚类结果。

五、测试数据与实验结果

测试数据1:谱系聚类
中国男足可算是杯具到家了,几乎到了过街老鼠人人喊打的地步。对于目前中国男足在亚洲的地位,各方也是各执一词,有人说中国男足亚洲二流,有人说三流,还有人说根本不入流,更有人说其实不比日韩差多少,是亚洲一流。既然争论不能解决问题,我们就让数据告诉我们结果吧。下图是采集的亚洲15只球队在2005年-2010年间大型杯赛的战绩(由于澳大利亚是后来加入亚足联的,所以这里没有收录)。

其中包括两次世界杯和一次亚洲杯。提前对数据做了如下预处理:对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。这样做是为了使得所有数据变为标量,便于后续聚类。下面先对数据进行[0,1]规格化,下面是规格化后的数据:

请用谱系聚类(SPSS软件)对上述表格中的数据进行聚类,每一年都聚为3类,观察中国在这3年中的同类成员是否有变化。
实验结果2:
(1)对2006年世界杯进行谱系聚类,谱系图及聚类结果如下:
(2)对2010年世界杯进行谱系聚类,谱系图及聚类结果如下:
(3)对2007年亚洲杯进行谱系聚类,谱系图及聚类结果如下:

测试数据2:快速聚类
以附录中的成绩为数据源,用SPSS或者Clementine对该数据源是本班学生的概率论与随机过程和数理统计两门课程的成绩,通过快速聚类,将其聚为3类或5类,给出每一个人所属类别,并给出类中心,观查每一类的特点。
实验结果



测试数据3:用SPSS或者Clementine,利用两步聚类完成教材中的示例(教材72页),重点分析74页的结果。
实验结果:




六、实验总结
七、部分参考代码(可附页或提交电子版)
附录:测试数据2的数据源”本班两门课的成绩”
76 88
71 88
85 83
78 87
76 75
81 78
85 88
88 76
93 89
70 86
85 94
74 71
98 91
63 68
79 91
90 67
65 81
71 78
81 70
97 91
70 65
77 95
61 67
63 67
78 75
86 87
77 88
84 83
64 88
65 82
77 72
100 98
96 87
83 71
92 84
71 86
75 80
71 92
88 90
81 83
51 84
69 87
69 62
74 95
64 63
71 80
76 88
79 95
78 71
87 83
82 66
82 84
73 82
67 85
80 90

【数据挖掘实验】聚类分析方法相关推荐

  1. 河北工业大学数据挖掘实验一 数据预处理

    河北工业大学数据挖掘实验一 数据预处理 一.实验目的 二.实验原理 1.数据预处理 2.数据清理 3.数据集成 4.数据变换 5.数据归约 三.实验内容和步骤 1.实验内容 2.实验步骤 3.程序框图 ...

  2. 空间数据挖掘的主要方法总结

    空间数据挖掘是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系,并发现其中有用的特征和模式的理论.方法和技术. 空间数据挖掘和知识发现的过程大致可分为以下多个步骤:数据准备.数据选择.数据预 ...

  3. 数据挖掘常见分析方法

    数据挖掘常见分析方法 一.回归分析 目的: 设法找出变量间的依存(数量)关系, 用函数关系式表达出来. 所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函 ...

  4. 基于电子病历的临床医疗大数据挖掘流程与方法

    基于电子病历的临床医疗大数据挖掘流程与方法 阮彤1, 高炬2, 冯东雷3, 钱夕元1, 王婷1, 孙程琳1 1. 华东理工大学,上海 200237 2. 上海曙光医院,上海 200025 3. 万达信 ...

  5. 【机器学习】实战系列五——天文数据挖掘实验(天池比赛)

    系列文章目录 学习笔记: [机器学习]第一章--机器学习分类和性能度量 [机器学习]第二章--EM(期望最大化)算法 [机器学习]第六章--概率无向图模型 实战系列: [机器学习]实战系列一--波士顿 ...

  6. 傻瓜攻略(十五)——MATLAB中简单的聚类分析方法

    本文是对聚类分析较为简单的介绍,笔者自从大二开始接触数学建模,就使用过Q型聚类和R型聚类,但是一直到研一结束,都没有一个具体的认识,浅尝辄止,不敢言通.最近参加研究生数学建模比赛,又用到了R型聚类方法 ...

  7. 干货系列:高通量测序后的下游实验验证方法——m6A RNA甲基化篇|易基因

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 此前,我们分享了m6A RNA甲基化研究的数据挖掘思路(点击查看详情),进而筛选出m6A修饰目标基因. 做完MeRIP-seq测序后,如 ...

  8. 宏基因组测序实验分析方法

    宏基因组测序实验分析方法-功能分析基于reads 1 使用ctab法或相应试剂盒提取样本中的总 DNA: 2 DNA样品检测合格后,使用Covaris超声波破碎仪随机打断,再经末端修复.加A尾.加测序 ...

  9. 河北工业大学数据挖掘实验三 应用 Apriori 算法挖掘频繁项集

    河北工业大学数据挖掘实验三 应用 Apriori 算法挖掘频繁项集 一.实验目的 二.实验原理 1.Apriori 算法 2.提高频繁项集逐层产生的效率 三.实验内容和步骤 1.实验内容 2.实验步骤 ...

最新文章

  1. hadoop源码datanode序列图
  2. python堆堆乐教程_python堆排序,详细过程图和讲解,这样做小白都会
  3. C语言中的结构体,联合,链表和枚举,位域(上)
  4. Eclipse从SVN恢复本地误删除已删除的文件和代码
  5. nodejs环境搭建与express安装配置
  6. 两转变两服务器,两大服变鬼两老服制霸,《魔兽世界》怀旧免转结束后的服务器调查...
  7. postman9.12.2汉化包
  8. 观点 | 量子卫星很近,但“无法破解”的网络可能还很远
  9. navicat下载安装教程
  10. 小滴课堂-独孤求败-架构大课十八式-xiaoecf
  11. 【rviz_plugin Goal3DTools 深蓝路径规划 PluginlibFactory】
  12. ChromeFK插件推荐系列九:PDF插件推荐
  13. centos 安装virt-mannager
  14. 小学英语计算机问卷调查,《小学英语单词记忆方法研究》问卷调查分析报告
  15. 从零开始的openGL--cs游戏(11)3种常用shader
  16. 前端常用的文档及组件库
  17. 官网下载最新版本Spring
  18. LInux查看系统信息命令
  19. 浅谈2019苏宁易购校招面试
  20. 《Hadoop权威指南》---初识Hadoop

热门文章

  1. 优盘修复USBOOT1.67
  2. 【课程设计】书店管理系统(基于MySQL存储,源码 + 详解)
  3. 4年经验来面试25K的测试岗,连基础都不会,还不如招应届生。
  4. activemq c++
  5. 英式音标26字母(A-G)
  6. 看看牛人们都再用什么软件
  7. android studio3.5教程,Android Studio 3.5新特性
  8. 力扣之最短路径和问题
  9. 电压信号采集部分,24位高精度模数转换芯片实现
  10. 如何找回不小心删除的PDF文档?