一、聚类算法

1、聚类算法概述

聚类算法：一种典型的无监督学习算法(没有目标值)，主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。

1.1 聚类的基本思想

给定一个有 N个对象的数据集，构造数据的 kkk 个簇，k≤nk≤nk≤n。满足条件：

每一个簇至少包含一个对象；
每一个对象属于且仅属于一个簇；
将满足上述条件的 kkk 个簇称作一个合理划分；

基本思想：对于给定的类别数目 kkk，首先给出初始划分，通过迭代改变样本和簇的隶属关系，使得每一次改进之后的划分方案都较前一次好。

1.2 认识聚类算法

使用不同的聚类准则，产生的聚类结果不同。

1.3 聚类算法在现实中的应用

用户画像，广告推荐，Data Segmentation，搜索引擎的流量推荐，恶意流量识别
基于位置信息的商业推送，新闻聚类，筛选排序
图像分割，降维，识别；离群点检测；信用卡异常消费；发掘相同功能的基因片段

1.4 “聚类算法”与“分类算法”的区别与联系

聚类算法是无监督的学习算法，而分类算法属于监督的学习算法。
对于要用到分类算法的项目，如果初始时没有分类目标值，则先用聚类算法进行聚合，得出分类标签(目标值)，然后再对待分类样本集进行分类算法。
“聚类算法”是“分类算法”(如果无现成的目标值)的先导步骤；

1.5 相似度/距离计算方法总结

1.6 聚类算法有效性评估指标：轮廓系数(Silhouette Coefficient)

结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的有效性：
SCi=bi−aimax(bi,ai)\begin{aligned}SC_i=\frac{b_i-a_i}{max(b_i,a_i)}\end{aligned}SCi=max(bi,ai)bi−ai

一般 SCiSC_iSCi 处于 0.1-0.2 就算是效果很好了，很难超过0.7。
如果 SCi<0SC_i<0SCi<0，说明 aia_iai 的平均距离大于最近的其他簇。聚类效果不好
如果 SCiSC_iSCi 越大，说明

机器学习-无监督学习-聚类：聚类方法（一）--- k-Means（k-均值）算法，k-Means++算法【使用最大期望值算法（EM算法）来求解】相关推荐
1. python 线性回归与逻辑回归区别（有监督学习【分类、回归】、无监督学习【聚类、强化学习】、损失函数、梯度下降、学习率、过拟合、欠拟合、正则化）
  引用文章1 https://blog.csdn.net/viewcode/article/details/8794401 引用文章2:一.线性回归和逻辑回归一.什么是机器学习利用大量的数据样本,使 ...
2. 无监督学习--K-means聚类算法学习
  无监督学习–K-means聚类算法学习介绍:k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度比较低. 其处理过程如下: 1.随机选择k个点作为初始的聚类中心 ...
3. (数据挖掘 —— 无监督学习（聚类）
  数据挖掘 -- 无监督学习(聚类) 1. K-means 1.1 生成指定形状的随机数据 1.2 进行聚类 1.3 结果 2. 系统聚类 2.1 代码 2.2 结果 3 DBSCAN 3.1 参数选择 ...
4. 机器学习经典算法---EM算法(一文秒懂极大释然估计和EM算法)
  目录一.极大似然估计 1.明确极大似然函数的目的 2.通俗体现极大似然估计思想的例子案例一: 案例二: 小结: 二.由问题引入EM算法 1.掷硬币问题: 2.掷硬币问题-升级版: 3.掷硬币问题- ...
5. 机器学习-无监督学习-聚类：聚类方法（二）--- 基于密度的聚类算法【DBSCAN文本聚类算法，密度最大值文本聚类算法】
  密度聚类方法的指导思想是,只要样本点的密度大于某阀值,则将该样本添加到最近的簇中. 基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一 ...
6. 【机器学习基础】(六)：通俗易懂无监督学习K-Means聚类算法及代码实践
  K-Means是一种无监督学习方法,用于将无标签的数据集进行聚类.其中K指集群的数量,Means表示寻找集群中心点的手段. 一. 无监督学习 K-Means 贴标签是需要花钱的. 所以人们研究处理无标 ...
7. 【机器学习基础】通俗易懂无监督学习K-Means聚类算法及代码实践
  K-Means是一种无监督学习方法,用于将无标签的数据集进行聚类.其中K指集群的数量,Means表示寻找集群中心点的手段. 一. 无监督学习 K-Means 贴标签是需要花钱的. 所以人们研究处理无标 ...
8. 吴恩达机器学习（十一）K-means（无监督学习、聚类算法）
  目录 0. 前言 1. K-means的算法流程 2. 代价函数(优化目标函数) 3. K 的选择学习完吴恩达老师机器学习课程的无监督学习,简单的做个笔记.文中部分描述属于个人消化后的理解,仅供参考 ...
9. 无监督学习之聚类方法（K-Means、层次聚类）
  一.导入无监督学习中需要对无标记样本进行训练学习进而找到数据的内在性质和逻辑结构,聚类方法是为了为无监督学习的数据分析提供的基础学习方法. 聚类将数据集划分为若干个子集(每个子集称为类或者簇),如果 ...
最新文章
热门文章

机器学习-无监督学习-聚类：聚类方法（一）--- k-Means（k-均值）算法，k-Means++算法【使用最大期望值算法（EM算法）来求解】