商务智能大总结4 聚类分析
文章目录
- 概述
- 相似度衡量方法
- 数据类型
- 基于内容的相似度衡量
- 基于距离的相似度度量
- 余弦相似度
- 基于相关性的相似度度量
- Jaccard系数
- 异种属性相似度的综合度量
- 基于链接的相似度衡量
- k均值方法 (k-means)
- 层次聚类方法
- DBSCAN方法
- 聚类效果衡量方法
概述
聚类(clustering):实现将对象自动分组的一种方法
无监督学习
物以类聚
根据簇之间的关系
划分型聚类:属于各个簇的对象之间没有交集
层次型聚类:簇之间具有包含关系
重叠聚类: 簇之间具有重叠关系
根据数据集D与簇之间的关系
完全聚类: C1∪C2∪…∪Ck=D,所有对象都被分配到簇中
部分聚类: C1∪C2∪…∪Ck⊂D
孤立点(outlier):那些未被分到任一个簇中的对象
聚类方法分类
划分法(Partitioning approach):
k均值(k-means)、k中心点(k-medoids)等方法。
层次法(Hierarchical approach):
凝聚层次聚类(agglomerative hierarchical clustering)和分裂层次聚类(divisive hierarchical clustering)
Diana、 Agnes、BIRCH、 ROCK、CAMELEON等。
基于密度的方法(Density-based approach)
DBSCAN、OPTICS和 DenClue等。
基于模型的方法(Model-based)
EM、SOM和COBWEB等
相似度衡量方法
数据类型
定性属性
标称(nominal)属性、序数(ordinal)属性、二值属性(binary)
二值属性:对称属性(symmetric)和非对称属性(asymmeric)
性别是对称属性,医学检查结果为非对称属性
定量属性
区间属性(interval)和比率属性(ratio)
区间属性:加和减操作有意义,可以比较取值的差别,乘除运算没有意义,即两个取值之间的比率关系不成立。摄氏温度
比率属性:既可以加减也可以乘除。绝对温度
基于内容的相似度衡量
基于距离的相似度度量
1、距离度量
明可夫斯基距离Minkowski distance: i = (xi1, xi2, …, xim) 和j = (xj1, xj2, …, xjm)
明可夫斯基距离又称为Lp范式,p=1时对应曼哈顿距离,又称L1范式;p=2时对应欧式距离,又称L2范式。p=∞时称为切比雪夫距离(Chebyshev distance)
If p = 1, d is 曼哈顿距离Manhattan distance, L1
If p = 2, d is 欧式距离Euclidean distance: L2
2、相似度度量
余弦相似度
通过两个向量夹角的余弦来衡量,相似度忽略了向量的大小,即各个属性取值的绝对大小,这是与距离不同的。
特点:两个向量中,只要有一个对象在某维度(属性)的取值为0,则该维度相当于被忽略,因为乘积为0。这使得该相似度特别适合于具有大量零值维度的情况。
例如用其度量文档的相似度、用户购买行为。
基于相关性的相似度度量
Jaccard系数
异种属性相似度的综合度量
基于链接的相似度衡量
k均值方法 (k-means)
层次聚类方法
层次聚类产生具有层次关系的簇
不需要指定簇的个数k
凝聚层次聚类:采用自底向上策略,首先将每个样本作为单独的一个原子簇,然后合并这些原子簇形成更大的簇,直到所有的样本都在一个簇中(层次的最上层),或者达到一个终止条件。
分裂层次聚类:采用自顶向下策略,首先将所有样本置于一个簇中,然后逐渐细分为越来越小的簇,直到每个样本自成一个簇,或者达到某个终止条件(例如达到了某个希望的簇的数目)。
簇之间的相似度的衡量方法
最小距离(minimum distance),即单链接Single link: 基于来自两个簇中的结点之间的最小距离来衡量两个簇的相似度, 即,
最大距离(maximum distance),即全链接complete link: 基于来自两个簇中的结点之间的最大距离来衡量两个簇的相似度, 即,
平均距离(average distance) : 基于来自两个簇中的结点之间的平均距离来衡量两个簇的相似度, 即,
质心距离(centroid distance) :计算两个簇的质心之间的距离来衡量两个簇的相似度, 即,
DBSCAN方法
基于密度的聚类方法
基本概念
基本过程
对于二维数据集来说,MinPts=4比较合适。
聚类效果衡量方法
Cohesion(凝聚度):衡量簇内各对象紧密程度
Separation(分离度):衡量簇间各对象的相异程度
silhouette coefficient(轮廓系数): combining cohesion and separation 将凝聚度和分离度相结合的度量方法
轮廓系数越大越好。将所有点的轮廓系数求平均可以用于衡量聚类质量
请将如下8个点[用(x,y)代表位置]用K-means算法聚为三个簇。
提示:距离采用欧式距离,假设三个簇的初始质心为A1,B1,C1。
8个点为:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)
请回答:
(1)第一轮执行后三个簇各自包含的点;
(2)第一轮执行后三个簇的质心。
(1)A2到三个中心点的距离分别为: 5,3倍根号二,根号十,3因此A2属于点C1所在簇. 同理可求得:A3,B2,B3,C2属于B1所在簇 因此,第一轮聚类所得到的三个簇为: {A1}, {B1,A3,B2,B3,C2}, {C1,A2} 其新的簇中心为(分别求均值): (2, 10), (6, 6), (1.5, 3.5)
(2) 依次往复,得到最终聚类结果为: {A1,C2,B1}, {A3,B2,B3}, {C1,A2}
商务智能大总结4 聚类分析相关推荐
- 商务智能大总结1 商务智能概念及过程
商务智能(Business intelligence)概念 1996年Gartner Group 的Howard Dresner提出由数据仓库(或数据集市).查询报表.数据分析.数据挖掘.数据备份和恢 ...
- 聚类分析(Clustering Analysis)
聚类分析(Clustering Analysis) 聚类作为数据挖掘与统计分析的一个重要的研究领域,近年来倍受关注.从机器学习的角度看,聚类是一种无监督的机器学习方法,即事先对数据集的分布没有任何的了 ...
- 生态功能区划方法之三:聚类分析法和生态融合法
这也是生态区划中常用的方法,是一种自下而上的方法,通俗的理解就是将相似的地区合并,组成一个分区,找到相似的方法就是聚类,根据对不同地区的指标进行聚类找到相似的地区,形成分区. 聚类分析是数理统计中研究 ...
- My Plan——大数据学习之路
大数据学习之路 本文简介 相关书籍 计算机基础 数据结构与算法 计算机组成原理 操作系统 计算机网络 数据库 JAVA Python Linux 大数据 其他 本科专业课程安排 学习计划 计划 总结 ...
- 大数据应用 | 大数据给社会学研究带来了什么挑战?
本文转载自公众号量化研究方法 文献来源:[实证社会科学]第六卷 编者按:这篇文章是根据邱泽奇教授在北京大学社会学系的一个讲座整理而成.为了缩短篇幅,在整理中删除了重复的.缺乏信息的内容. 今天跟大家分 ...
- 从0梳理1场CV缺陷检测赛事!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:江保祥,厦门大学 一.布匹缺陷检测比赛分析 1. 赛题背景 去年的 ...
- 【数据竞赛】从0梳理1场CV缺陷检测赛事!
作者:江保祥,厦门大学 一.布匹缺陷检测比赛分析 1. 赛题背景 去年的广东工业大赛已入选到全球人工智能技术大赛热身赛,大赛聚焦布匹疵点智能检测,要求选手研究开发高效可靠的计算机视觉算法,提升布匹疵点 ...
- 彭文华:详解数字化转型的破局之道(附直播视频)
这篇是彭文华先生直播的文字摘录,这场直播获得了满堂喝彩,讲得非常好,建议大家看完,全文7500字. 来源:彭文华-<帆软·决胜数字化转型>直播 文章整理:grace 彭文华:公众号&quo ...
- 发布!天池布匹疵点检测大赛解决方案与Baseline(acc:85%左右,mAP:52%左右)
点击我爱计算机视觉标星,更快获取CVML新技术 阿里天池布匹疵点智能检测大赛正如火如荼进行,本次大赛目前共计有2415支队伍参赛,成为今年天池上最受关注最热门的算法大赛! 关于大赛介绍: 百万奖金!天 ...
- 干货 I 用数据分析进行“无死角”的复盘?
最近常常有小伙伴问我,大概是如下几个问题: 我手里没有多少数据可以供分析,怎么办?我手上有一些数据,但是不知道该如何分析,怎么办?我有一些数据,也知道该做哪些分析,但是不会高大上的工具,怎么办? 其实 ...
最新文章
- android Button 监听的几种方式
- matlab中find函数_在R中使用Matlab函数
- CSAPP--整数的运算
- ListView与GridView优化
- 最长回文子串——Manacher 算法​​​​​​​
- Cocos2d-x-使用脚本概述
- 一封程序员的苦逼辞职信
- nod32防火墙配置与系统防黑手册
- 《Spring实战第四版》随书源码导入Eclipse
- cnzz.php,PHP curl抓取cnzz统计数据
- 使用do文件进行仿真时出现“failed tofind ‘glbl’in hierarchical name ‘/glbl/GSR‘“的解决办法
- c语言 一个数组奇数左边 偶数右边,C语言设计实验报告(第七次)
- 09.5. 机器翻译与数据集
- mac转换助理安装Windows11
- 苹果服务器维护不能刷机,iphone刷机失败不开机报错维修方法分享
- 大数据入门第零天——总体课程体系概述
- 提问的智慧 (全文)
- Adodb 官方介绍
- CDN是什么?CDN的作用
- Unity 报错处理