聚类 python 代码_不足 20 行 Python 代码,高效实现 k-means 均值聚类算法
下载好向圈APP可以快速联系圈友
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
不足 20 行 Python 代码,高效实现 k-means 均值聚类算法-1.jpg (143.81 KB, 下载次数: 0)
2020-9-12 13:13 上传
不足 20 行 Python 代码,高效实现 k-means 均值聚类算法-2.jpg (38.58 KB, 下载次数: 0)
2020-9-12 13:13 上传
作者 | 许文武
责编 | 郭芮
出品 | CSDN 博客
scikti-learn 将机器学习分为4个领域,分别是分类(classification)、聚类(clustering)、回归(regression)和降维(dimensionality reduction)。k-means均值算法虽然是聚类算法中比较简单的一种,却包含了丰富的思想内容,非常适合作为初学者的入门习题。
不足 20 行 Python 代码,高效实现 k-means 均值聚类算法-3.jpg (56.77 KB, 下载次数: 0)
2020-9-12 13:13 上传
关于 k-means 均值聚类算法的原理介绍、实现代码,网上有很多,但运行效率似乎都有点问题。今天稍微有点空闲,写了一个不足20行的 k-means 均值聚类算法,1万个样本平均耗时20毫秒(10次均值)。同样的数据样本,网上流行的算法平均耗时3000毫秒(10次均值)。差距竟然达百倍以上,令我深感意外,不由得再次向 numpy 献上膝盖!
以下是我的代码,包含注释、空行总共26行,有效代码16行。
1import numpy as np
2
3def kmeans_xufive(ds, k):
4 """k-means聚类算法
5
6 k - 指定分簇数量
7 ds - ndarray(m, n),m个样本的数据集,每个样本n个属性值
8 """
9
10 m, n = ds.shape # m:样本数量,n:每个样本的属性值个数
11 result = np.empty(m, dtype=np.int) # m个样本的聚类结果
12 cores = np.empty((k, n)) # k个质心
13 cores = ds[np.random.choice(np.arange(m), k, replace=False)] # 从m个数据样本中不重复地随机选择k个样本作为质心
14
15 while True: # 迭代计算
16 d = np.square(np.repeat(ds, k, axis=0).reshape(m, k, n) - cores)
17 distance = np.sqrt(np.sum(d, axis=2)) # ndarray(m, k),每个样本距离k个质心的距离,共有m行
18 index_min = np.argmin(distance, axis=1) # 每个样本距离最近的质心索引序号
19
20 if (index_min == result).all: # 如果样本聚类没有改变
21 return result, cores # 则返回聚类结果和质心数据
22
23 result[:] = index_min # 重新分类
24 for i in range(k): # 遍历质心集
25 items = ds[result==i] # 找出对应当前质心的子样本集
26 cores= np.mean(items, axis=0) # 以子样本集的均值作为当前质心的位置
这是网上比较流行的 k-means 均值聚类算法代码,包含注释、空行总共57行,有效代码37行。
1import numpy as np
2
3# 加载数据
4def loadDataSet(fileName):
5 data = np.loadtxt(fileName,delimiter='\t')
6 return data
7
8# 欧氏距离计算
9 def distEclud(x,y):
10 return np.sqrt(np.sum((x-y)**2)) # 计算欧氏距离
11
12# 为给定数据集构建一个包含K个随机质心的集合
13 def randCent(dataSet,k):
14 m,n = dataSet.shape
15 centroids = np.zeros((k,n))
16 for i in range(k):
17 index = int(np.random.uniform(0,m)) #
18 centroids[i,:] = dataSet[index,:]
19 return centroids
20
21# k均值聚类
22def kmeans_open(dataSet,k):
23
24 m = np.shape(dataSet)[0] #行的数目
25 # 第一列存样本属于哪一簇
26 # 第二列存样本的到簇的中心点的误差
27 clusterAssment = np.mat(np.zeros((m,2)))
28 clusterChange = True
29
30 # 第1步 初始化centroids
31 centroids = randCent(dataSet,k)
32 while clusterChange:
33 clusterChange = False
34
35 # 遍历所有的样本(行数)
36 for i in range(m):
37 minDist = 100000.0
38 minIndex = -1
39
40 # 遍历所有的质心
41 #第2步 找出最近的质心
42 for j in range(k):
43 # 计算该样本到质心的欧式距离
44 distance = distEclud(centroids[j,:],dataSet[i,:])
45 if distance < minDist:
46 minDist = distance
47 minIndex = j
48 # 第 3 步:更新每一行样本所属的簇
49 if clusterAssment[i,0] != minIndex:
50 clusterChange = True
51 clusterAssment[i,:] = minIndex,minDist**2
52 #第 4 步:更新质心
53 for j in range(k):
54 pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]] # 获取簇类所有的点
55 centroids[j,:] = np.mean(pointsInCluster,axis=0) # 对矩阵的行求均值
56
57 return clusterAssment.A[:,0], centroids
函数create_data_set,用于生成测试数据。可变参数 cores 是多个三元组,每一个三元组分别是质心的x坐标、y坐标和对应该质心的数据点的数量。
1def create_data_set(*cores):
2 """生成k-means聚类测试用数据集"""
3
4 ds = list
5 for x0, y0, z0 in cores:
6 x = np.random.normal(x0, 0.1+np.random.random/3, z0)
7 y = np.random.normal(y0, 0.1+np.random.random/3, z0)
8 ds.append(np.stack((x,y), axis=1))
9
10 return np.vstack(ds)
测试代码如下:
1import time
2import matplotlib.pyplot as plt
3
4k = 4
5ds = create_data_set((0,0,2500), (0,2,2500), (2,0,2500), (2,2,2500))
6
7t0 = time.time
8result, cores = kmeans_xufive(ds, k)
9t = time.time - t0
10
11plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))
12plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))
13plt.show
14
15print(u'使用kmeans_xufive算法,1万个样本点,耗时%f0.3秒'%t)
16
17t0 = time.time
18result, cores = kmeans_open(ds, k)
19t = time.time - t0
20
21plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))
22plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))
23plt.show
24
25print(u'使用kmeans_open算法,1万个样本点,耗时%f0.3秒'%t)
测试结果如下:
1PS D:\XufiveGit\CSDN\code> py -3 .\k-means.py
2使用kmeans_xufive算法,1万个样本点,耗时0.0156550.3秒
3使用kmeans_open算法,1万个样本点,耗时3.9990890.3秒
效果如下:
不足 20 行 Python 代码,高效实现 k-means 均值聚类算法-4.jpg (51.54 KB, 下载次数: 0)
2020-9-12 13:13 上传
作者:许文武,博客昵称「天元浪子」,本文首发于作者CSDN博客https://blog.csdn.net/xufive/article/details/101448969。
不足 20 行 Python 代码,高效实现 k-means 均值聚类算法-5.jpg (52.31 KB, 下载次数: 0)
2020-9-12 13:13 上传
【END】
温馨提示:
好向圈www.kuaixunai.com是各行业经验分享交流社区,你可以在这里发布交流经验,也可以发布需求与服务,经验圈子里面禁止带推广链接、联系方式、违法词等,违规将封禁账号,相关产品信息将永久不予以通过,同时有需要可以发布在自己的免费建站官网里面或者广告圈, 下载好向圈APP可以随时随地交流经验,也可以和圈友发起聊天成为好友哦!
如果想要各大搜索引擎收录,请使用秘塔写作猫进行内容伪原创
下载好向圈APP可以随时随地交流经验,也可以和圈友发起聊天成为好友哦!
如果想要各大搜索引擎收录,请使用秘塔写作猫进行内容免费伪原创,加快搜索引擎收录
聚类 python 代码_不足 20 行 Python 代码,高效实现 k-means 均值聚类算法相关推荐
- python秒表游戏代码_用20行Python代码实现2048小游戏,你会吗?
前些天在b站上看到有个大佬用c写了一个2048小游戏,我便一下来了兴趣.心想着,我貌似也能用Python来整一波,话不多说,直接开搞. 2048的游戏规则: 2048游戏总共有16个格子,初始时会有两 ...
- 简单20行python代码_用 20 行 python 代码实现人脸识别!Python实现就是这么简单!...
今天给大家介绍一个世界上最简洁的人脸识别库 face_recognition,你可以使用 Python 和命令行工具进行提取.识别.操作人脸. 基于业内领先的 C++ 开源库 dlib 中的深度学习模 ...
- python自动生成鸡汤文_用20行Python代码生成鸡汤,打造AI咪蒙指日可待。
作者:Ramtin Alami "Don't think of the overwhelming majority of the impossible." "不要去想不可 ...
- Python黑科技:20行Python代码打造一个微信群聊助手
今天要教大家一个黑科技,20行代码实现自己定制的微信群聊助手,可以用来活跃群气氛,好多群主创建完群后,拉完一群人,之后就一片寂静,有个群聊助手,就可以帮忙活跃群里气氛,通过今天在自己的微信上有一大批好 ...
- 50行python游戏代码_使用50行Python代码从零开始实现一个AI平衡小游戏
使用50行Python代码从零开始实现一个AI平衡小游戏 发布时间:2020-10-23 09:26:14 来源:脚本之家 阅读:74 集智导读: 本文会为大家展示机器学习专家 Mike Shi 如何 ...
- 50行的python游戏代码_使用50行Python教AI玩运杆游戏
编译:yxy 出品:ATYUN订阅号 嗨,大家好!今天我想展示如何使用50行Python代码教一台机器来平衡杆!我们将使用标准的OpenAI Gym作为我们的测试环境,并只使用numpy创建我们的智能 ...
- python回测代码_只用3行Python回测你的交易策略
作者|Lorenzo Ampil 编译|VK 来源|Towards Data Science 自从我开始学习投资,我接触了不同的股票分析方法-技术分析和基本面分析.我甚至读过很多关于这些技巧的书和文章 ...
- 测试nginx网站代码_在40行以下代码中使用NGINX进行A / B测试
测试nginx网站代码 by Nitish Phanse 由Nitish Phanse 在40行以下代码中使用NGINX进行A / B测试 (A/B testing with NGINX in und ...
- python游戏代码五子棋_用20行Python代码实现2048小游戏,你会吗?
前些天在b站上看到有个大佬用c写了一个2048小游戏,我便一下来了兴趣.心想着,我貌似也能用Python来整一波,话不多说,直接开搞. 2048的游戏规则: 2048游戏总共有16个格子,初始时会有两 ...
最新文章
- 让Chrome成为你的pdf阅读器
- ivew 双向绑定时间控件
- 你应该了解的CSS语义化命名方式及常用命名规则
- 强制结束后台作业(SAP SM37 SM35 SM50)
- 【Unity3D自学记录】判断物体是否在镜头内
- 带进度的文件复制 - 回复 冷风无泪 的问题
- python scratch unity_Unity3D研究院之2D游戏开发制作原理(二十一)
- php的4种常用运行方式
- CocurrentHashMap和Hashtable的区别
- java 文本框怎么属性绑定_如何将对象属性绑定到angular2中的文本框
- Wordpress如何正确书写Robots.txt
- HTML网页设计结课作业——11张精美网页 html+css+javascript+bootstarp
- iwconfig工具
- 平面设计教程:PS新手如何制作好透视立体字海报
- MTK 使用iptable 命令来完成网络路由(android WIFI/4G分享网络)
- win7安装vmware+ubuntu16.04
- Fastjson1.2.47反序列化漏洞复现
- [KMP]zoj 3587:Marlon's String
- 详解 OpenCV 透视变换原理 及 实例
- oracle数据库添加外键约束