独家 | 使用高斯混合模型,让聚类更好更精确(附数据代码学习资源)
本文约3500字,建议阅读10+分钟。
本文简单介绍聚类的基础知识,包括快速回顾K-means算法,然后深入研究高斯混合模型的概念,并用Python实现。
概述
高斯混合模型是一种强大的聚类算法
了解高斯混合模型的工作原理以及如何在Python中实现它们
我们还将讨论K-means聚类算法,看看高斯混合模型是如何改进它的
简介
应用机器学习相关课程链接:
https://courses.analyticsvidhya.com/courses/applied-machine-learning-beginner-to-professional?utm_source=blog&utm_medium=gaussian-mixture-models-clustering
目录
一、聚类简介
二、K-means聚类简介
三、K-means聚类缺点
四、高斯混合模型简介
五、高斯分布
六、什么是期望最大化
七、高斯混合模型中的期望最大化
八、用Python实现高斯混合聚类模型
一、聚类简介
高收入高消费
高收入低消费
低收入低消费
低收入高消费
二、K-means聚类简介
最全面的K-mans指南,你永远都需要:
https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/?utm_source=blog&utm_medium=gaussian-mixture-models-clustering
三、K-means聚类缺点
四、高斯混合模型简介
五、高斯分布
六、什么是期望最大化
E-步骤:在这个步骤中,利用可用的数据来估算(猜测)潜在变量的值。
M-步骤:根据E步骤中生成的估计值,使用完整的数据更新参数。
七、高斯模型中的期望最大化
八、用Python实现高斯混合模型
相关链接:
https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2019/10/Clustering_gmm.csv
import pandas as pd
data = pd.read_csv('Clustering_gmm.csv') plt.figure(figsize=(7,7))
plt.scatter(data["Weight"],data["Height"])
plt.xlabel('Weight')
plt.ylabel('Height')
plt.title('Data Distribution')
plt.show()
#training k-means model
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=4)
kmeans.fit(data) #predictions from kmeans
pred = kmeans.predict(data)
frame = pd.DataFrame(data)
frame['cluster'] = pred
frame.columns = ['Weight', 'Height', 'cluster'] #plotting results
color=['blue','green','cyan', 'black']
for k in range(0,4): data = frame[frame["cluster"]==k] plt.scatter(data["Weight"],data["Height"],c=color[k])
plt.show()
import pandas as pd
data = pd.read_csv('Clustering_gmm.csv') # training gaussian mixture model
from sklearn.mixture import GaussianMixture
gmm = GaussianMixture(n_components=4)
gmm.fit(data) #predictions from gmm
labels = gmm.predict(data)
frame = pd.DataFrame(data)
frame['cluster'] = labels
frame.columns = ['Weight', 'Height', 'cluster'] color=['blue','green','cyan', 'black']
for k in range(0,4): data = frame[frame["cluster"]==k] plt.scatter(data["Weight"],data["Height"],c=color[k])
plt.show()
尾注
原文标题:
Build Better and Accurate Clusters with Gaussian Mixture Models
原文链接:
https://www.analyticsvidhya.com/blog/2019/10/gaussian-mixture-models-clustering/
译者简介
张玲,在岗数据分析师,计算机硕士毕业。从事数据工作,需要重塑自我的勇气,也需要终生学习的毅力。但我依旧热爱它的严谨,痴迷它的艺术。数据海洋一望无尽,数据工作充满挑战。感谢数据派THU提供如此专业的平台,希望在这里能和最专业的你们共同进步!
翻译组招募信息
工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!
你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。
其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。
点击文末“阅读原文”加入数据派团队~
点击“阅读原文”拥抱组织
独家 | 使用高斯混合模型,让聚类更好更精确(附数据代码学习资源)相关推荐
- 高斯混合模型图像聚类、图像生成、可视化分析实战
高斯混合模型图像聚类.图像生成.可视化分析实战 目录 高斯混合模型图像聚类.图像生成.可视化分析实战 PCA图像数据降维
- 混合高斯模型_大数据小白入门高斯混合模型(GMM)聚类算法
导读 高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,属于生成式模型,它假设所有的数据样本都是由某一个给定参数的 多元高斯分布 所生成的.从中 ...
- python一维平滑滤波_高斯滤波器的原理及其实现过程(附模板代码)
本文主要介绍了高斯滤波器的原理及其实现过程高斯滤波器是一种线性滤波器,能够有效的抑制噪声,平滑图像.其作用原理和均值滤波器类似,都是取滤波器窗口内的像素的均值作为输出.其窗口模板的系数和均值滤波器不同 ...
- 机器学习算法精讲20篇(一)-k-means聚类算法应用案例(附示例代码)
前言 k-means算法是非监督聚类最常用的一种方法,因其算法简单和很好的适用于大样本数据,广泛应用于不同领域,本文详细总结了k-means聚类算法原理 . 以下是我为大家准备的几个精品专栏,喜欢的小 ...
- OpenCV k均值聚类kmeans clustering的实例(附完整代码)
OpenCV k均值聚类kmeans clustering的实例 OpenCV k均值聚类kmeans clustering的实例 OpenCV k均值聚类kmeans clustering的实例 # ...
- 独家 | 一文读懂社交网络分析-下(应用、前沿、学习资源)
点击查看全文 本文主要阐述: 社交网络分析的应用 社交网络前沿研究 学习资料 参考资料 浏览前三章的内容请见上篇(2017年9月26日头条). 四. 社交网络分析的应用 1. 社交推荐 社交推荐顾名思 ...
- 高斯混合模型(GMM)浅入理解
学习的资料主要是看大佬的一些博客和李航老师的统计学习第九章,感谢! 其中有篇笔记让小匹眼前一亮,这里贴出来: 知乎_戴文亮_高斯混合模型(GMM) 进入正题 目录 1.1 概念理解 1.2 隐变量 1 ...
- 【机器学习笔记11】高斯混合模型(GMM)【上篇】原理与推导
文章目录 推荐阅读 前言 高斯混合模型简介 GMM与K-mean 高斯混合模型的概率密度函数 几何角度 混合模型角度 可能会弄混的地方 隐变量的分布与隐变量的后验概率分布 极大似然估计 EM算法求近似 ...
- 高斯混合模型(GMM)
高斯混合模型 k-means 聚类模型非常简单并且易于理解,但是它的简单性也为实际应用带 来了挑战.特别是在实际应用中,k-means 的非概率性和它仅根据到簇中心点的距离来指 派簇的特点将导致性能低 ...
最新文章
- 昨天还在for循环里写加号拼接字符串的那个同事,今天已经不在了
- 让CMD窗口显示中文[JAVAC输出中文错误信息乱码的解决]
- Hibernate 拦截器的使用--动态表名
- kafka 0.9 java开发_kafka 0.9 java producer and consumer demo
- 关于如何学好游戏3D引擎编程的一些经验
- sci的figure怎么做_一文看懂SCI论文中都有哪几种Figure
- HDU1317 —— 最长路+判断正环
- 在windows7下安装pads2007.4
- springboot+基于JavaWEB学生课程考试系统 毕业设计-附源码171548
- springbootspringboot杏林中医诊所管理系统133742
- 服务器运维辐射,【服务器辐射】服务器辐射大吗_服务器防辐射_服务器辐射距离_佰佰安全网...
- php网页的制作,网页制作步骤是什么
- python0基础自学英语_0基础怎么自学python,大概要多久?
- 盘点3种Python爬虫 中文乱码 的处理方法
- vue 分割面板组件
- MYSQL 按名字分组查询最好成绩
- 浏览器打不开网页(电脑有网)
- 一个蚂蚁曾经的辛酸面试历程
- 程序员的简历生存之道
- web常见页面错误盘点
热门文章
- python 读取图片成为一维数组_python+opencv 图像的数组和矩阵操作
- Oracle_052_lesson_p10
- 数据架构简史:转换中的范式
- 云服务蓬勃发展,平均年增长率高达28%
- 广州企业“掘金”物联网蓝海
- Oracle 免费的数据库--Database 快捷版 11g 安装使用与SOD框架对Oracle的CodeFirst支持...
- 屏幕元素属性的控制盒屏幕事件的中止
- 嵌入式C语言进行曲之要诀
- 浅谈死链接和错误链接,如何防范死链接发生
- 天气预报都哪儿去了?