1、 问题描述及实验要求

K-means算法对data中数据进行聚类分析
(1)算法原理描述
(2)算法结构
(3)写出K-means具体功能函数(不能直接调用sklearn.cluster(Means)功能函数)具体函数功能中返回值包括 数据类标签,累中心,输入包括:数据,类别数
(4)可视化画图,不同类数据采用不同颜色
(5)算法分析
类类方差,平均方差,不同初始点对聚类结果的影响?
如何解决?

2、 算法原理描述

K-means算法原理:
1、首先输入分组k 的值,即通过指定分组数目得到 k 个分组;
2、从数据集中随机选取 k 个数据点作为初始中心;
3、对集合中每一数据点,计算与每一个中心点的距离,离哪个中心点距离近,就加入中心点对应的组。
4、对k个组计算距离的平均值
5、如果两次求得的均值距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),可以认为我们进行的聚类已经达到期望的结果,算法终止。
6、果两次求得的均值距离大于某一个设置的阈值,继续迭代,如果迭代次数大于设定的值,那么终止。

3、 算法结构

1) 首先定义了一个类:K_Means,该类中有5个属性以及2个方法。5个属性包括:k是分组数,tolerance最小误差,max_iter最大迭代次数,centers_存放中心点坐标,clf_存放分组坐标;2个方法是:_init_构造函数,fit执行迭代。
2) 对于fit函数。首先从数据集data中取出k个点作为中心点,然后遍历数据集中的每个点,计算这个点与k个中心点坐标的距离,把最小的距离添加到对应的分组中去。然后根据k个分组的内容,更新出k个新的中心点坐标,与上一次中心点坐标比对,如果误差值都小于设定值,那么结束,如果不小于,那么继续迭代,如果迭代超过了指定次数,那么也停止。

4、 K-means算法代码

总代码在文末

class K_Means(object):def __init__(self, k=2, tolerance=0.0001, max_iter=300):self.k_ = kself.tolerance_ = toleranceself.max_iter_ = max_iterdef fit(self, data):self.centers_ = {}for i in range(self.k_):self.centers_[i] = data[i]for i in range(self.max_iter_):self.clf_ = {}for i in range(self.k_):self.clf_[i] = []for feature in data:distances = []for center in self.centers_:distances.append(np.linalg.norm(feature - self.centers_[center]))classification = distances.index(min(distances))self.clf_[classification].append(feature)prev_centers = dict(self.centers_)for c in self.clf_:self.centers_[c] = np.average(self.clf_[c], axis=0)optimized = Truefor center in self.centers_:org_centers = prev_centers[center]cur_centers = self.centers_[center]if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_:optimized = Falseif optimized:break

5、 实验结果

实验结果截图:
图1-散点图观察特征

图2-聚类分析图

6、 算法分析

如果想看初始点、方差等对结果的影响,可以采用初中最常用的控制变量法:
①算法相同,初始点对结果的影响:

次数 中心点1 中心点2 中心点3 中心点4
1 [2.6265299,3.10868015] [-2.46154315, 2.78737555] [2.80293085, -2.7315146 ] [-3.38237045, -2.9473363 ]
2 [-3.53973889, -2.89384326] [2.6265299 , 3.10868015] [-2.46154315, 2.78737555] [2.65077367, -2.79019029]

结论1:可以看出,初始点选取的不同,中心点的坐标会有略微变化(不应该一一对应)
②初始点相同,类间方差与平均方差对结果的影响:

次数 中心点1 中心点2 中心点3 中心点4
类间方差 [2.80293085, -2.7315146 ] [-3.38237045, -2.9473363 ] [2.6265299 , 3.10868015] [-2.46154315, 2.78737555]
平均方差 [-3.53973889, -2.89384326] [2.6265299 , 3.10868015] [-2.46154315, 2.78737555] [ 2.80293085, -2.7315146 ]

**结论2:**可以看出,算法的不同,中心点的坐标会有略微变化(不应该一一对应)
总结论:(如果没有发生偶然性)**对于中心点的不同选择、算法不同的选择,都会导致结果产生一些改变。**由于结果是由各个分组算出来的均值,所以也意味着:对于中心点的不同选择、算法不同的选择,都会导致分组划分不一样。

7、 所有代码

import numpy as np
from matplotlib import pyplot as pltplt.rcParams['font.family'] = ['Microsoft YaHei']class K_Means(object):def __init__(self, k=2, tolerance=0.0001, max_iter=300):self.k_ = kself.tolerance_ = toleranceself.max_iter_ = max_iterdef fit(self, data):self.centers_ = {}for i in range(self.k_):self.centers_[i] = data[i+19]for i in range(self.max_iter_):self.clf_ = {}for i in range(self.k_):self.clf_[i] = []for feature in data:distances = []for center in self.centers_:distances.append(np.linalg.norm(feature - self.centers_[center]))classification = distances.index(min(distances))self.clf_[classification].append(feature)prev_centers = dict(self.centers_)for c in self.clf_:self.centers_[c] = np.average(self.clf_[c], axis=0)optimized = Truefor center in self.centers_:org_centers = prev_centers[center]cur_centers = self.centers_[center]if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_:optimized = Falseif optimized:break# 读取data.txt里面的值
data = np.loadtxt('data.txt', dtype=float, delimiter=" ")
X = data[..., 0]
Y = data[..., 1]plt.title("散点图观察特诊")
plt.xlabel("X轴")
plt.ylabel("Y轴")
plt.plot(X, Y, 'ob')
plt.show()if __name__ == '__main__':k_means = K_Means(k=4)k_means.fit(data)print(k_means.centers_)rgb = ['r', 'g', 'b', 'y']for center in k_means.centers_:plt.scatter(k_means.centers_[center][0], k_means.centers_[center][1], marker='*', s=150)for cat in k_means.clf_:for point in k_means.clf_[cat]:plt.scatter(point[0], point[1], c=rgb[cat])plt.show()

AI K-means算法对数据进行聚类分析-实验报告相关推荐

  1. kmeans改进 matlab,基于距离函数的改进k―means 算法

    摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...

  2. Matlab 主成分分析与K均值聚类分析实验报告

    Matlab 主成分分析与K均值聚类分析实验报告 提示:数据资源在本CSDN号的上传资料中直接领取 1 引言 数据:gyzb.mat(按顺序对应每一列)为:31个省市区的国有控股企业的主要指标(包括: ...

  3. a星算法实现8数码问题c语言,A星算法求八数码问题实验报告.doc

    A星算法求八数码问题实验报告.doc 人工智能实验报告实验名称八数码问题姓名xx学号2012210 xx xx计算机学院 2014年1月14日1 实验目的 掌握A*的思想,启发式搜索,来求解在代价最小 ...

  4. 数据结构“基于哈夫曼树的数据压缩算法”的实验报告

    一个不知名大学生,江湖人称菜狗 original author: jacky Li Email : 3435673055@qq.com Last edited: 2022.11.20 目录 数据结构& ...

  5. (精)Tableau数据可视化设计 实验报告

    (精)Tableau数据可视化设计 实验报告 前言:此为<数据可视化设计>课程实验报告(个人重现版).鉴于实验时发现教程所使用的Tablreau版本已经换代,且图片不清晰.故作此报告(当然 ...

  6. 南航计算机硬件实验,南航计硬实验四数据块移动实验报告.doc

    南航计硬实验四数据块移动实验报告 电工电子实验中心 课程名称: 计算机硬件技术基础实验 实验名称: 实验四 数据块移动 姓名: 学号: 评定成绩: 审阅教师: 实验时间: 2020.5.7 南京航空航 ...

  7. 计算机网络ip数据包分析题,计算机网络课程设计-IP数据包解析实验报告

    计算机网络课程设计-IP数据包解析实验报告 解析 IP数据报实验报告目录目录 21.课程设计目的 .22.课程设计要求 .23.相关知识 .24.课程设计分析 .64.1 网卡设置64.2 使用套接字 ...

  8. k means算法C语言伪代码,K均值算法(K-Means)

    1. K-Means算法步骤 算法步骤 收敛性定义,畸变函数(distortion function): 伪代码: 1) 创建k个点作为K个簇的起始质心(经常随机选择) 2) 当任意一个点的蔟分配结果 ...

  9. 聚类分析实验报告作业

    课程<生物数据处理>  老师:邓阳君老师         要求:请采用 k 均值.k 中心点.层次聚类或者模糊聚类等对 iris 数据进行聚类分析, 并评价其效果.实验报告应包括算法理论知 ...

最新文章

  1. KVM配置之(3)- 克隆
  2. Scrapy入门(二)创建Scrapy项目
  3. C++编程思想:C++string
  4. php求及格,详解PHP通过递归实现提成计算
  5. java除号_Java的运算符
  6. 高性能RPC框架—----------------------Dubbo一站式快速入门
  7. STM8L051F3_03_CLK应用
  8. Aria2一键安装及管理脚本,搭建AriaNg前端
  9. 湖北计算机二级考试时间安排,湖北3月计算机二级考试时间安排
  10. Malcolm的新书:Outliers
  11. 3dmax骨骼的绑定
  12. [Practical.Vim(2012.9)].Drew.Neil.Tip02 学习摘要
  13. Java程序员为何收入比其他行业收入高?原因是什么呢?
  14. 10.9 guz模拟题题解
  15. C# 微信扫码授权登录
  16. DataGrip 初级与高级教程(仅提供链接)
  17. 4G网络怎么设置网速更快?
  18. 无线充电系统Ltspice仿真
  19. GF无菌动物实验室设计SICOLAB
  20. 逻辑回归梯度下降推导

热门文章

  1. openCv java Mat和MatOfByte的之间的相互转换 (4)
  2. SpringBoot mybatis 输出SQL语句到控制台
  3. java读取txt文件中的内容
  4. JButton类,简单应用
  5. News | 经有限数据研究显示瑞德西韦有望治疗冠状病毒患者
  6. RDKit | 可视化重要片段
  7. R语言-路径设置与工作目录修改
  8. mysql内连接和外连接的区别_Swoole4创建Mysql连接池
  9. 肠道菌群机制研究及国自然课题设计专题会议
  10. 基于 python3+nginx 的 Jupyter Notebook 服务端 ssl 访问