机器学习-无监督学习-聚类:聚类方法(一)--- k-Means(k-均值)算法,k-Means++算法【使用最大期望值算法(EM算法)来求解】
一、聚类算法
1、聚类算法概述
聚类算法:一种典型的无监督学习算法(没有目标值),主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。
1.1 聚类的基本思想
给定一个有 N个对象的数据集,构造数据的 kkk 个簇,k≤nk≤nk≤n。满足条件:
- 每一个簇至少包含一个对象;
- 每一个对象属于且仅属于一个簇;
- 将满足上述条件的 kkk 个簇称作一个合理划分;
基本思想:对于给定的类别数目 kkk,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好 。
1.2 认识聚类算法
使用不同的聚类准则,产生的聚类结果不同。
1.3 聚类算法在现实中的应用
- 用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别
- 基于位置信息的商业推送,新闻聚类,筛选排序
- 图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段
1.4 “聚类算法”与“分类算法”的区别与联系
- 聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。
- 对于要用到分类算法的项目,如果初始时没有分类目标值,则先用聚类算法进行聚合,得出分类标签(目标值),然后再对待分类样本集进行分类算法。
- “聚类算法”是“分类算法”(如果无现成的目标值)的先导步骤;
1.5 相似度/距离计算方法总结
1.6 聚类算法有效性评估指标:轮廓系数(Silhouette Coefficient)
结合了聚类的凝聚度(Cohesion)和分离度(Separation),用于评估聚类的有效性:
SCi=bi−aimax(bi,ai)\begin{aligned}SC_i=\frac{b_i-a_i}{max(b_i,a_i)}\end{aligned}SCi=max(bi,ai)bi−ai
- 一般 SCiSC_iSCi 处于 0.1-0.2 就算是效果很好了,很难超过0.7。
- 如果 SCi<0SC_i<0SCi<0,说明 aia_iai 的平均距离大于最近的其他簇。聚类效果不好
- 如果 SCiSC_iSCi 越大,说明
机器学习-无监督学习-聚类:聚类方法(一)--- k-Means(k-均值)算法,k-Means++算法【使用最大期望值算法(EM算法)来求解】相关推荐
- python 线性回归与逻辑回归区别(有监督学习【分类、回归】、无监督学习【聚类、强化学习】、损失函数、梯度下降、学习率、过拟合、欠拟合、正则化)
引用文章1 https://blog.csdn.net/viewcode/article/details/8794401 引用文章2:一.线性回归和逻辑回归 一.什么是机器学习 利用大量的数据样本,使 ...
- 无监督学习--K-means聚类算法学习
无监督学习–K-means聚类算法学习 介绍:k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度比较低. 其处理过程如下: 1.随机选择k个点作为初始的聚类中心 ...
- (数据挖掘 —— 无监督学习(聚类)
数据挖掘 -- 无监督学习(聚类) 1. K-means 1.1 生成指定形状的随机数据 1.2 进行聚类 1.3 结果 2. 系统聚类 2.1 代码 2.2 结果 3 DBSCAN 3.1 参数选择 ...
- 机器学习经典算法---EM算法(一文秒懂极大释然估计和EM算法)
目录 一.极大似然估计 1.明确极大似然函数的目的 2.通俗体现极大似然估计思想的例子 案例一: 案例二: 小结: 二.由问题引入EM算法 1.掷硬币问题: 2.掷硬币问题-升级版: 3.掷硬币问题- ...
- 机器学习-无监督学习-聚类:聚类方法(二)--- 基于密度的聚类算法【DBSCAN文本聚类算法,密度最大值文本聚类算法】
密度聚类方法的指导思想是,只要样本点的密度大于某阀值,则将该样本添加到最近的簇中. 基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一 ...
- 【机器学习基础】(六):通俗易懂无监督学习K-Means聚类算法及代码实践
K-Means是一种无监督学习方法,用于将无标签的数据集进行聚类.其中K指集群的数量,Means表示寻找集群中心点的手段. 一. 无监督学习 K-Means 贴标签是需要花钱的. 所以人们研究处理无标 ...
- 【机器学习基础】通俗易懂无监督学习K-Means聚类算法及代码实践
K-Means是一种无监督学习方法,用于将无标签的数据集进行聚类.其中K指集群的数量,Means表示寻找集群中心点的手段. 一. 无监督学习 K-Means 贴标签是需要花钱的. 所以人们研究处理无标 ...
- 吴恩达机器学习(十一)K-means(无监督学习、聚类算法)
目录 0. 前言 1. K-means的算法流程 2. 代价函数(优化目标函数) 3. K 的选择 学习完吴恩达老师机器学习课程的无监督学习,简单的做个笔记.文中部分描述属于个人消化后的理解,仅供参考 ...
- 无监督学习之聚类方法(K-Means、层次聚类)
一.导入 无监督学习中需要对无标记样本进行训练学习进而找到数据的内在性质和逻辑结构,聚类方法是为了为无监督学习的数据分析提供的基础学习方法. 聚类将数据集划分为若干个子集(每个子集称为类或者簇),如果 ...
最新文章
- NHibernate one-to-one
- 如何查看mysql索引
- 3G助推智慧医疗 看病将更加“智能化”
- 10款常用Java测试工具
- 2021年内衣品牌营销传播方案-婧麒+美柚.pdf(附下载链接)
- 2021级C语言大作业 - 消灭星星
- html菜单不动属性,html5规定元素的上下文菜单属性contextmenu
- 百度指数邀请序列号_腾讯第8款社交AppHood 上线;抖音内测云游戏、直播回放等新功能;百度推出多人视频社交App一起吧| 产品挖掘机...
- linux 用用监听器,Linux/Unix shell 监控Oracle监听器(monitor listener)
- SyntaxError: Non-UTF-8 code starting with ‘\xd5‘ in file
- [数论 反演]BZOJ4816 [Sdoi2017]数字表格
- 计算机双系统,细说如何给电脑安装双系统
- 第三方Charts绘制图表四种形式:饼状图,雷达图,柱状图,直线图
- Nexus3搭建jenkins报错 下载 依赖jar包 报错Not authorized
- 新研究起底人类和机器注意力机制的区别|一周AI最火论文
- dell win10忘记密码怎么办
- excel同一行中如何添加换行
- Maven导入jar包失败问题,lastUpdated问题解决
- 7个因素决定大数据的复杂性
- mxGraph绘图区域使用鼠标滚轮实现放大/缩小
热门文章
- colorkey唇釉是否安全_colorkey唇釉成分安全吗
- 翁恺C语言PTA 7-29 二分法求多项式单根
- Windows下搭建ant+jenkins+jmeter自动化接口测试框架
- 【第一部分-环境搭建】Opencv环境搭建(Visual Studio+Windows)
- Scratch入门教程:第二节 简单的交互
- 二层与三层交换机之间有什么区别?
- [基于harbor部署私有仓库] 4 推送镜像到harbor
- 信息安全专业要计算机好吗,哪些单位需要计算机信息安全专业的
- 上饶师范学院计算机科学与技术专业就业前景,上饶师范学院毕业生就业质量年度报告.PDF...
- 区块链资产投资指南及技巧
- python 线性回归与逻辑回归区别(有监督学习【分类、回归】、无监督学习【聚类、强化学习】、损失函数、梯度下降、学习率、过拟合、欠拟合、正则化)