原标题:教程 | 用人工蜂群算法求解k-分区聚类问题

选自towarddatascience

作者:Pedro Buarque

参与:Pedro、刘晓坤

群体智能算法是一类受生物群体智能行为的启发而发展出来的算法,社会性动物例如蚂蚁、蜜蜂、鱼等,个体的简单、非直接目标指向的行为常常能在群体层面上涌现出惊人的高效实现目标的模式。本文介绍了如何使用人工蜂群算法(ABC)算法实现真实数据的聚类。

我之前的文章介绍了如何利用名为人工蜂群算法(ABC)的集群智能(SI)算法来解决现实世界的优化问题:https://medium.com/cesar-update/a-swarm-intelligence-approach-to-optimization-problems-using-the-artificial-bee-colony-abc-5d4c0302aaa4

这篇文章将会介绍如何处理真实数据、如何使用 ABC 算法实现聚类。在此之前,我们先了解一下聚类问题。

聚类问题

聚类问题是一类 NP-hard 问题,其基本思想是发现数据中的隐藏模式。聚类没有正式的定义,但它与元素分组的思想有关:通过分组我们可以区分元素为不同的组。

不同的算法族以不同的方式定义聚类问题。一种常见的经典聚类方法如下:它将问题简化为一个数学问题,即找到原始数据的一个 k 分区。

找到集合 S 的 k 分区等价于找到 S 的 k 个子集,其遵循以下两个规则:

1. 不同子集的交集等于空集。

2.k 个子集的并集为 S。

在分区聚类过程结束时,我们希望找到原始数据集的一组子集,使得一个实例只属于一个子集。具体如下图所示:

左边是原始数据,右边是 k=2 分区处理后的数据。

如何划分数据以达到上图所示的分区效果?聚类过程的输出是一组质心。质心是每个分组的代表实体,所以如果数据有 k 个分区,那么它有 k 个质心。

k=2 数据分区的质心演示示例。

质心也可理解为由数据定义的搜索空间上的点,由于每个质心定义了一个分组,每个数据点将被分配到距离它最近的质心。

人工蜂群算法的聚类应用

如何修改原始的 ABC 算法使其得以执行聚类任务?实际上,此处 ABC 算法没作任何改动。唯一要做的就是将聚类问题转化为优化问题。如何做到这一点?

一个明确定义的优化问题需要一个搜索空间:一组 d 维决策变量输入和一个目标函数。如果将人工集群中的每一个点(蜂)视为聚类问题的一个划分,那么每一个点可以代表一整组候选质心。如果对 d 维空间上的数据集执行 k 分区,那么每个点都将是一个 k·d 维向量。

上文定义了如何表示输入决策变量,接下来只需要弄清楚如何定义搜索空间的边界以及选用什么目标函数。

搜索空间边界的定义很容易,用 [0,1] 区间对整个数据集进行归一化,并将目标函数的值域定义为 0 到 1。麻烦的是如何定义目标函数。

分区聚类方法希望最大化两个不同组之间的距离,并最小化组内的距离。文献中提到了几个目标函数,但是最为人熟知的方法是所谓的平方误差和(Sum of Squared Errors,SSE)。

平方误差和的公式。

这个公式是什么意思?平方误差和(SSE)是一种聚类度量指标,其思想非常简单。它是一个计算数据中每个实例到其最接近质心的平方距离的值。算法优化的目标是尽量减小这个值的大小。

可以使用之前的目标函数框架来实现平方误差和,具体如下:

@add_metaclass(ABCMeta)

classPartitionalClusteringObjectiveFunction(ObjectiveFunction):

def__init__(self, dim, n_clusters, data):

super(PartitionalClusteringObjectiveFunction, self)

.__init__( 'PartitionalClusteringObjectiveFunction', dim, 0.0, 1.0)

self.n_clusters = n_clusters

self.centroids = {}

self.data = data

defdecode(self, x):

centroids = x.reshape(self.n_clusters, self.dim)

self.centroids = dict(enumerate(centroids))

@abstractmethod

defevaluate(self, x):

pass

classSumOfSquaredErrors(PartitionalClusteringObjectiveFunction):

def__init__(self, dim, n_clusters, data):

super(SumOfSquaredErrors, self).__init__(dim, n_clusters, data)

self.name = 'SumOfSquaredErrors'

defevaluate(self, x):

self.decode(x)

clusters = {key: [] forkey inself.centroids.keys()}

forinstance inself.data:

distances = [np.linalg.norm(self.centroids[idx] - instance)

foridx inself.centroids]

clusters[np.argmin(distances)].append(instance)

sum_of_squared_errors = 0.0

foridx inself.centroids:

distances = [np.linalg.norm(self.centroids[idx] - instance)

forinstance inclusters[idx]]

sum_of_squared_errors += sum(np.power(distances, 2))

returnsum_of_squared_errors

处理真实数据

现在开始尝试处理一些真实的数据,并测试 ABC 算法处理聚类问题的能力。此处我们使用著名的 Iris 数据集进行测试。

初始的四维数据集包含了从三种植物身上提取得到的特征。为了便于可视化,此处只使用该数据集的两个维度。观察该数据集第二维和第四维之间的关系:

importmatplotlib.pyplot asplt

fromabc importABC

fromobjection_function importSumOfSquaredErrors

fromsklearn.datasets importload_iris

fromsklearn.preprocessing importMinMaxScaler

data = MinMaxScaler().fit_transform(load_iris()[ 'data'][:, [ 1, 3]])

plt.figure(figsize=( 9, 8))

plt.scatter(data[:, 0], data[:, 1], s= 50, edgecolor= 'w', alpha= 0.5)

plt.title( 'Original Data')

上述代码的输出结果如下:

原始数据分布。

由于使用这些数据作为基准进行测试,因此其最佳划分已知,它是由这三种花的原始分布给出的。我们可以用下面的 Python 代码可视化 Iris 数据集的原始优化分区:

colors = [ 'r', 'g', 'y']

target = load_iris()[ 'target']

plt.figure(figsize=( 9, 8))

forinstance, tgt inzip(data, target):

plt.scatter(instance[ 0], instance[ 1], s= 50,

edgecolor= 'w', alpha= 0.5, color=colors[tgt])

plt.title( 'Original Groups')

它显示了如下分布:

数据集的初始划分。

由于已经知道这个样本数据的原始最优分区是什么,接下来的实验将测试 ABC 算法能否找到一个接近最优解的解决方案。使用平方误差和作为目标函数,并将分区数设置为 3。

由于随机初始化,生成的质心的顺序可能与类的顺序不匹配。因此在 ABC 算法的输出图像中,组的颜色可能会不匹配。不过这并不重要,因为人们更关心的是对应分组的外观。

objective_function = SumOfSquaredErrors(dim= 6, n_clusters= 3, data=data)

optimizer = ABC(obj_function=objective_function, colony_size= 30,

n_iter= 300, max_trials= 100)

optimizer.optimize()

defdecode_centroids(centroids, n_clusters, data):

returncentroids.reshape(n_clusters, data.shape[ 1])

centroids = dict(enumerate(decode_centroids(optimizer.optimal_solution.pos,

n_clusters= 3, data=data)))

defassign_centroid(centroids, point):

distances = [np.linalg.norm(point - centroids[idx]) foridx incentroids]

returnnp.argmin(distances)

custom_tgt = []

forinstance indata:

custom_tgt.append(assign_centroid(centroids, instance))

colors = [ 'r', 'g', 'y']

plt.figure(figsize=( 9, 8))

forinstance, tgt inzip(data, custom_tgt):

plt.scatter(instance[ 0], instance[ 1], s= 50, edgecolor= 'w',

alpha= 0.5, color=colors[tgt])

forcentroid incentroids:

plt.scatter(centroids[centroid][ 0], centroids[centroid][ 1],

color= 'k', marker= 'x', lw= 5, s= 500)

plt.title( 'Partitioned Data found by ABC')

代码的输出如下:

ABC 算法生成的分区

仔细观察原始分区和 ABC 算法生成的分区,可以看到 ABC 算法能够找到一个十分接近最优解的分区方法。这证明了用于聚类的 ABC 算法到底有多强大。还可以查看 ABC 算法的优化曲线来看看优化过程是如何进行的:

itr = range(len(optimizer.optimality_tracking))

val = optimizer.optimality_tracking

plt.figure(figsize=( 10, 9))

plt.plot(itr, val)

plt.title( 'Sum of Squared Errors')

plt.ylabel( 'Fitness')

plt.xlabel( 'Iteration')

正如所料,ABC 算法能有效地最小化 SSE 目标函数。可以看到,集群智能拥有一些强大的机制来处理优化问题。只要能将现实世界的问题简化为优化问题,就能很好地利用这些算法。

参考文献:

A novel clustering approach: Artificial Bee Colony (ABC) algorithm—Dervis Karaboga, Celal Ozturk

A Clustering Approach Using Cooperative Artificial Bee Colony Algorithm—Wenping Zou, Yunlong Zhu, Hanning Chen, and Xin Sui

A Review on Artificial Bee Colony Algorithms and Their Applications to Data Clustering—Ajit Kumar , Dharmender Kumar , S. K. Jarial

A two-step artificial bee colony algorithm for clustering—Yugal Kumar, G. Sahoo

未来展望

本文通过实现人工蜂群算法简要介绍了集群智能,以及如何利用它来解决一些有趣的问题:例如优化实际函数、修改 ABC 算法解决聚类问题。

这些算法有很多应用,如图像分割、人工神经网络训练、数字图像处理和模式识别、蛋白质结构预测等等。还有一些其他强大的群体智能(SI)算法,如粒子群优化(PSO)和鱼群搜索(FSS)等,它们也是非常有名的技术,并且也有一些有趣的应用。

原文链接:https://towardsdatascience.com/a-modified-artificial-bee-colony-algorithm-to-solve-clustering-problems-fc0b69bd0788

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

责任编辑:

人工蜂群算法python_教程 | 用人工蜂群算法求解k-分区聚类问题相关推荐

  1. 人工蜂群算法python_改进的人工蜂群算法解决聚类问题(在Python中的分步实现)...

    在 之前的文章 中,我介绍了如何通过实施名为Artificial Bee Colony(ABC)的群集智能(SI)算法来解决现实世界中的优化问题. 现在是时候让我们掌握一些真实的数据并解释我们如何使用 ...

  2. 大数据算法python_闲谈大数据和算法

    0x00 前言 本篇总结一下自己对大数据算法认知的过程.正文包含两部分:自己对算法的认知过程和对大数据算法的理解. 写这篇博客的原因有很多,总的来讲有下面几点: 自己在算法的路上一直懵懵懂懂,现在刚刚 ...

  3. 十大经典排序算法python_十大经典排序算法的算法描述和代码实现

    这里详细讲解了十大经典算法的分类,例如交换排序.插入排序.选择排序等比较类排序,以及计数排序.桶排序和基数排序的非比较类排序,分析了各种排序算法的复杂度和稳定性,还有JAVA代码的详细实现.对冒泡排序 ...

  4. 社区发现算法 python_社区发现(Community Detection)算法(转)

    作者: peghoty 社区发现(Community Detection)算法用来发现网络中的社区结构,也可以看做是一种聚类算法. 以下是我的一个 PPT 报告,分享给大家. 从上述定义可以看出:社区 ...

  5. 机器学习算法与Python实践之(五)k均值聚类(k-means)

    机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...

  6. 聚类之K均值聚类和EM算法

    这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...

  7. 机器学习算法与Python实践之k均值聚类(k-means)

    机器学习算法与Python实践之(五)k均值聚类(k-means) zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是 ...

  8. 机器学习算法与Python实践之 k均值聚类(k-means)

    文章来源:http://blog.csdn.net/zouxy09/article/details/17589329 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书 ...

  9. K-Means(K均值)聚类算法

    K-mean ​ 初始数据集如下图所示,数据集未做任何标记labels 要求将其分为两簇,K均值算法的操作原理为: 随机挑选两个点作为聚类中心(cluster centroids),K-均值算法是一个 ...

最新文章

  1. Nginx源码分析:核心数据结构ngx_cycle_t与内存池概述
  2. oracle convertobject,oracle.sql進行轉換。TIMESTAMPLTZ@71d9d55b Java時間戳
  3. Intel Realsense D435 将深度图的灰度图映射为彩色图,打印输出灰度图或彩色图
  4. numpy 矩阵乘法_一起学习Python常用模块——numpy
  5. SAP Spartacus 服务器端渲染单步调试步骤之一:应用程序准备工作
  6. linux 添加path环境变量中,在Linux里设置环境变量PATH的方法是什?
  7. 六个 Linux性能监控命令行工具
  8. PairOfDice示例
  9. USTB自习教室查询系统-项目计划书-第二部分
  10. 金山卫士开源代码_官方下载地址
  11. (Web前端)后台管理系统框架收集
  12. 为什么要来学习算法?写在英雄的5月集训月末
  13. 【数据分析】如何构建指标体系 设计一份优质报表
  14. 输出1234无重复三位数
  15. gojs开发环境去除水印
  16. 1.3 练习: 画内存分析图
  17. 90-95年CPU功耗感知调度研究
  18. 【Python教程】python之路
  19. 什么是tuscany
  20. 手机里tencent文件夹能删吗_【我要删除tencent文件夹】手机删了tencent文件夹_tencent什么文件夹...

热门文章

  1. ❤️六W字《计算机基础知识》(五)(建议收藏)❤️
  2. java biginteger 运算_Java大数字运算之BigInteger 原创
  3. php海外研发,国外主流PHP框架比较
  4. 计算机软件及其软件系统,计算机软件系统课件
  5. 二元函数洛必达求极限_洛必达法则的几个例子
  6. 四万字让你精通SQL数据库操作
  7. mysql explain 派生表_MySQL的Explain命令
  8. python 取整_马克的Python学习笔记#数字,日期和时间
  9. linux vg备份还原,Oracle Linux 6.4 误删VG之恢复过程
  10. C++混淆点-构造函数参数