一.项目动机

人工智能挑战性课程，第二次项目对数据进行聚类，当然这也是之后任何无监督聚类或者是无监督机器学习的理论基础

二.项目代码

import numpy
import matplotlib.pyplot as plt
import random
from sklearn.datasets import make_blobs
import codecs
from sklearn.cluster import KMeans
from collections import defaultdict
from itertools import chain
import math
import matplotlib.pyplot as pltdef get_data(filepath):"""处理数据"""indata=codecs.open(filepath,"r","utf-8").readlines()dataset=list()number=0nodedata=defaultdict(list)a = 0b = 0c = 0for line in indata:line=line.strip()line=line.replace(',',' ')strlist=line.split()if strlist[4] == 'Iris-setosa':a = a + 1if strlist[4] == 'Iris-versicolor':b = b + 1if strlist[4] == 'Iris-virginica':c = c + 1#print(strlist[0:4])numlist = list()for item in strlist[0:4]:num=float(item)numlist.append(num)numlist.append(strlist[-1])dataset.append(numlist)number=number+1nodedata[number]=numlistreturn dataset,nodedata,number,a,b,cdef get_every_max_and_deal(dataset,number):a=0b=0c=0d=0for i in dataset:a1,b1,c1,d1=i[0],i[1],i[2],i[3]if a1>a:a=a1if b1>b:b=b1if c1>c:c=c1if d1>d:d=d1passnum=[a,b,c,d]return  numdef get_distance(vec1,vec2):"""计算欧氏距离"""return numpy.sqrt(numpy.sum(numpy.square(vec1-vec2)))def get_ma_distance(vec1,vec2):X=numpy.vstack([vec1,vec2])XT=X.TS=numpy.cov(X)SI=numpy.linalg.inv(S)n=XT.shape[0]d1=[]for i in range(0,n):for j in range(i+1):delta=XT[i]-XT[j]d=numpy.sqrt(numpy.dot(delta,SI),delta.T)d1.append(d)return d1def initcenter(dataset,k):"""初始化K个质心，随机获取"""return random.sample(dataset,k)def Kmeans(dataset,k,number,nodedata,num):"""聚类，先随机选取聚类中心，然后分别计算，迭代100次"""distance={}for i in range(number):distance[i+1]=100000  #距离聚类中心的初始值初始化无穷大initcenter_node=initcenter(dataset,k)cu_lei=defaultdict(list) #存储每一个类now_distance=defaultdict(list)for line in range(number):line_node_data=nodedata[line+1]for j in range(k):every=initcenter_node[j]vec1=numpy.mat(line_node_data[0:4])   #列表转换为矩阵vec2=numpy.mat(every[0:4])vec1=vec1/numvec2=vec2/numnow_distance[line+1].append(get_distance(vec1,vec2)) #计算欧式距离index=numpy.argmin(now_distance[line+1]) #返回其最小值的位置cu_lei[index+1].append(line_node_data)   #将该点加入到这个簇类中passpasstime=0while time<=300:initcenter_new_node = []  # 存储每一个聚类的均值中心点for m in range(k):coming_list=cu_lei[m+1]vec=numpy.mat([0,0,0,0])j=0for line in coming_list:vec=vec+numpy.mat(line[0:4])j=j+1pass#print("-------------------")new_center_node=numpy.array(vec/j)   #每个聚类中心的均值点new_center_node=new_center_node.tolist()new_center_node=list(chain.from_iterable(new_center_node))#重新转换为列表类型initcenter_new_node.append(new_center_node)now_distance=defaultdict(list)cu_lei = defaultdict(list)  # 存储每一个类for line in range(number):line_new_node_data=nodedata[line+1]for each in range(k):every = initcenter_new_node[each]vec1 = numpy.mat(line_new_node_data[0:4])  # 列表转换为矩阵vec2 = numpy.mat(every[0:4])vec1 = vec1 / numvec2 = vec2 / numnow_distance[line + 1].append(get_distance(vec1, vec2))  # 计算欧式距离index = numpy.argmin(now_distance[line + 1])  # 返回其最小值的位置cu_lei[index + 1].append(line_new_node_data)  # 将该点加入到这个簇类中time=time+1return cu_leidataset,nodedata,number,one,two,three=get_data('data')
num=get_every_max_and_deal(dataset, number)
a=initcenter(dataset,3)
ans=Kmeans(dataset,3,number,nodedata,num)
node_new=[[] for _ in range(3)]
for line in range(3):node=ans[line+1]for j in node:node_new[line].append(j[4])
def get_new_data_test(node_new):for line in node_new:print(line)print("____________________________________")biaozhun=len(line)maxlabel=max(line,key=line.count)find_number=line.count(maxlabel)print("分类为%s的准确率为:"%maxlabel)print(find_number/biaozhun)pass
get_new_data_test(node_new)plt.plot(node_new[0])
plt.plot(node_new[1])
plt.plot(node_new[2])plt.show()

python实现Kmeans算法相关推荐

kmeans算法实例及python代码-Python实现k-means算法
本文实例为大家分享了Python实现k-means算法的具体代码,供大家参考,具体内容如下这也是周志华<机器学习>的习题9.4. 数据集是西瓜数据集4.0,如下编号,密度,含糖率 1, ...
[549]python实现K-Means算法
K-Means是一种聚类(Clustering)算法,使用它可以为数据分类.K代表你要把数据分为几个组,前文实现的K-Nearest Neighbor算法也有一个K,实际上,它们有一个相似之处:K-M ...
利用 Python 实现 K-means 算法
利用 Python 实现 K-means 算法使用 Python 实现K-means算法,采用随机函数随机在二维平面上生成100个点,然后使用所写程序对这100个点进行聚类[可以采用SSE(Su ...
《机器学习》西瓜书课后习题9.4——python实现K-means算法
<机器学习>西瓜书课后习题9.4--python实现K-means算法 9.4 试编程实现k均值算法,设置三组不同的k值.三组不同的初始中心点,在西瓜数据集4.0上进行实验比较, 并讨论什 ...
python实现K-means算法
K-means算法流程: 随机选k个样本作为初始聚类中心计算数据集中每个样本到k个聚类中心距离,并将其分配到距离最小的聚类中心对于每个聚类,重新计算中心回到2,至得到局部最优解 python代码 ...
数据挖掘-聚类分析（Python实现K-Means算法）
概念: 聚类分析(cluster analysis ):是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.聚类分析也叫分类分析,或者数值分类.聚类的输入是一组未被标记的样本,聚类根 ...
python颜色识别算法_纯Python编写K-means算法，提取图片中的主体颜色
在文章今天我用Python手写了一个K-means算法,来完成同样的功能. 聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所谓"物以类聚,人以群分&qu ...
python实现kmeans算法对图片的聚类分割
kmeans算法未调用库,使用基本数据结构实现 1. 对于给定的图片IMGP8080.jpg,要求把河流部分划分出来.可以采用以下方法:在该图像中分别在河流部分与非河流部分画出一个窗口,把在这 ...
基于Python实现k-means算法和混合高斯模型
1. 实验目的实现一个 k-means 算法和混合高斯模型,并且用 EM 算法估计模型中的参数. 2. 实验要求用高斯分布产生 k 个高斯分布的数据(不同均值和方差)(其中参数自己设定). 用 k ...
【机器学习】使用Python实现k-means算法，并根据红酒的13个特征对红酒数据进行聚类。
数据集为一份红酒数据,一共有178个样本,每个样本有13个特征,这里不会提供你红酒的标签,你需要自己根据这13个特征对红酒进行聚类,部分数据如下图: # encoding=utf8 import nu ...

python实现Kmeans算法

一.项目动机

二.项目代码

python实现Kmeans算法相关推荐

最新文章

热门文章