机器学习算法实践——K-Means算法与图像分割
一、理论准备
1.1、图像分割
图像分割是图像处理中的一种方法,图像分割是指将一幅图像分解成若干互不相交区域的集合,其实质可以看成是一种像素的聚类过程。通常使用到的图像分割的方法可以分为:
- 基于边缘的技术
- 基于区域的技术
基于聚类算法的图像分割属于基于区域的技术。
1.2、K-Means算法
K-Means算法是基于距离相似性的聚类算法,通过比较样本之间的相似性,将形式的样本划分到同一个类别中,K-Means算法的基本过程为:
- 初始化常数 ,随机初始化k个聚类中心
- 重复计算以下过程,直到聚类中心不再改变
- 计算每个样本与每个聚类中心之间的相似度,将样本划分到最相似的类别中
- 计算划分到每个类别中的所有样本特征的均值,并将该均值作为每个类新的聚类中心
- 输出最终的聚类中心以及每个样本所属的类别
在K-Means算法中,需要随机初始化k个聚类中心,而K-Means算法对初始聚类中心的选取较为敏感,若选择的聚类中心不好,则得到的聚类结果会非常差,因此,对K-Means算法提出了很多的改进的方法,如K-Means++算法,在K-Means++算法中,希望初始化的k个聚类中心之间的距离尽可能的大,其具体过程为:
- 在数据集中随机选择一个样本点作为第一个初始化的聚类中心
- 选择出其余的聚类中心:
- 计算样本中的每一个样本点与已经初始化的聚类中心之间的距离,并选择其中最短的距离
- 以概率选择距离最大的样本作为新的聚类中心,重复上述过程,直到 个聚类中心都被确定
- 对k个初始化的聚类中心,利用K-Means算法计算最终的聚类中心。
对于K-Means算法的具体过程可以参考博文简单易学的机器学习算法——kMeans,K-Means++算法的具体过程稍后会补充。
二、实践准备
实践中使用Python作为开发语言,使用到的模块包括numpy和Image。numpy模块是python中矩阵计算使用最多的模块。
Image模块是PIL(Python Imaging Library)中的模块,对于Image模块,主要是对图像的一些操作:
- 模块的头文件
import Image as image
- 打开图片
fp = open("003.JPG", "rb")
im = image.open(fp)
首先是以二进制文件的形式打开文件,再利用Image模块的open方法导入图片。
对于如下的图片(圣托里尼):
- 图片的属性
im.format, im.size, im.mode
得到的结果为:JPEG (1600, 1067) RGB
- 通道分离:
r,g,b = im.split()
分割成三个通道,此时r,g,b分别为三个图像对象。
- 取得像素点的值
im.getpixel((4,4))
由于是RGB三通道的,因此此处的值为:(151, 169, 205)
- 改变单个像素点的值
im.putpixel(xy, color)
- 图像类型转换:
im=im.convert("L")
由RGB的图像转成灰度的图像,其结果为:
- 生成新的图像
Image.new(mode, size)
Image.new(mode, size, color)
如:newImg = Image.new(“GBA”,(640,480),(0,255,0))
- 保存图片
im.save("save.gif","GIF")
三、利用K-Means++算法进行图像分割
3.1、利用K-Means++聚类
在利用K-Means++算法进行图像分割时,将图像中的每一个像素点作为一个样本,对RGB图像来说,每个样本包括三维:(151, 169, 205),通过归一化,将每个通道的值压缩到[0,1]区间上。数据的导入和处理如下面程序所示:
#coding:UTF-8
import Image as image
import numpy as np
from KMeanspp import run_kmeansppdef load_data(file_path):'''导入数据input: file_path(string):文件的存储位置output: data(mat):数据'''f = open(file_path, "rb") # 以二进制的方式打开图像文件data = []im = image.open(f) # 导入图片m, n = im.size # 得到图片的大小print m, nfor i in xrange(m):for j in xrange(n):tmp = []x, y, z = im.getpixel((i, j))tmp.append(x / 256.0)tmp.append(y / 256.0)tmp.append(z / 256.0)data.append(tmp)f.close()return np.mat(data)
最终保存成矩阵的形式,矩阵的行为样本的个数,列为每一个通道的数值(RGB)。在利用K-Means++算法对样本进行聚类。主函数如下述代码所示:
if __name__ == "__main__":
k = 10#聚类中心的个数
# 1、导入数据
print "---------- 1.load data ------------"
data = load_data("001.jpg")
# 2、利用kMeans++聚类
print "---------- 2.run kmeans++ ------------"
run_kmeanspp(data, k)
k表示的是聚类的个数。K-Means++程序的实现如下面程序所示:
# coding:UTF-8
'''
Date:20160923
@author: zhaozhiyong
'''import numpy as np
from random import random
from KMeans import distance, kmeans, save_resultFLOAT_MAX = 1e100 # 设置一个较大的值作为初始化的最小的距离def nearest(point, cluster_centers):'''计算point和cluster_centers之间的最小距离input: point(mat):当前的样本点cluster_centers(mat):当前已经初始化的聚类中心output: min_dist(float):点point和当前的聚类中心之间的最短距离'''min_dist = FLOAT_MAXm = np.shape(cluster_centers)[0] # 当前已经初始化的聚类中心的个数for i in xrange(m):# 计算point与每个聚类中心之间的距离d = distance(point, cluster_centers[i, ])# 选择最短距离if min_dist > d:min_dist = dreturn min_distdef get_centroids(points, k):'''KMeans++的初始化聚类中心的方法input: points(mat):样本k(int):聚类中心的个数output: cluster_centers(mat):初始化后的聚类中心'''m, n = np.shape(points)cluster_centers = np.mat(np.zeros((k , n)))# 1、随机选择一个样本点为第一个聚类中心index = np.random.randint(0, m)cluster_centers[0, ] = np.copy(points[index, ])# 2、初始化一个距离的序列d = [0.0 for _ in xrange(m)]for i in xrange(1, k):sum_all = 0for j in xrange(m):# 3、对每一个样本找到最近的聚类中心点d[j] = nearest(points[j, ], cluster_centers[0:i, ])# 4、将所有的最短距离相加sum_all += d[j]# 5、取得sum_all之间的随机值sum_all *= random()# 6、获得距离最远的样本点作为聚类中心点for j, di in enumerate(d):sum_all -= diif sum_all > 0:continuecluster_centers[i] = np.copy(points[j, ])breakreturn cluster_centersdef run_kmeanspp(data, k):# 1、KMeans++的聚类中心初始化方法print "\t---------- 1.K-Means++ generate centers ------------"centroids = get_centroids(data, k)# 2、聚类计算print "\t---------- 2.kmeans ------------"subCenter = kmeans(data, k, centroids)# 3、保存所属的类别文件print "\t---------- 3.save subCenter ------------"save_result("sub_pp", subCenter)# 4、保存聚类中心print "\t---------- 4.save centroids ------------"
save_result("center_pp", centroids)
在上述代码中主要是初始化k个聚类中心,K-Means算法的核心程序如下所示:
# coding:UTF-8
'''
Date:20160923
@author: zhaozhiyong
'''
import numpy as npdef distance(vecA, vecB):'''计算vecA与vecB之间的欧式距离的平方input: vecA(mat)A点坐标vecB(mat)B点坐标output: dist[0, 0](float)A点与B点距离的平方'''dist = (vecA - vecB) * (vecA - vecB).Treturn dist[0, 0]def randCent(data, k):'''随机初始化聚类中心input: data(mat):训练数据k(int):类别个数output: centroids(mat):聚类中心'''n = np.shape(data)[1] # 属性的个数centroids = np.mat(np.zeros((k, n))) # 初始化k个聚类中心for j in xrange(n): # 初始化聚类中心每一维的坐标minJ = np.min(data[:, j])rangeJ = np.max(data[:, j]) - minJ# 在最大值和最小值之间随机初始化centroids[:, j] = minJ * np.mat(np.ones((k , 1))) + np.random.rand(k, 1) * rangeJreturn centroidsdef kmeans(data, k, centroids):'''根据KMeans算法求解聚类中心input: data(mat):训练数据k(int):类别个数centroids(mat):随机初始化的聚类中心output: centroids(mat):训练完成的聚类中心subCenter(mat):每一个样本所属的类别'''m, n = np.shape(data) # m:样本的个数,n:特征的维度subCenter = np.mat(np.zeros((m, 2))) # 初始化每一个样本所属的类别change = True # 判断是否需要重新计算聚类中心while change == True:change = False # 重置for i in xrange(m):minDist = np.inf # 设置样本与聚类中心之间的最小的距离,初始值为争取穷minIndex = 0 # 所属的类别for j in xrange(k):# 计算i和每个聚类中心之间的距离dist = distance(data[i, ], centroids[j, ])if dist < minDist:minDist = distminIndex = j# 判断是否需要改变if subCenter[i, 0] <> minIndex: # 需要改变change = TruesubCenter[i, ] = np.mat([minIndex, minDist])# 重新计算聚类中心for j in xrange(k):sum_all = np.mat(np.zeros((1, n)))r = 0 # 每个类别中的样本的个数for i in xrange(m):if subCenter[i, 0] == j: # 计算第j个类别sum_all += data[i, ]r += 1for z in xrange(n):try:centroids[j, z] = sum_all[0, z] / rprint rexcept:print " r is zero" return subCenterdef save_result(file_name, source):'''保存source中的结果到file_name文件中input: file_name(string):文件名source(mat):需要保存的数据output: '''m, n = np.shape(source)f = open(file_name, "w")for i in xrange(m):tmp = []for j in xrange(n):tmp.append(str(source[i, j]))f.write("\t".join(tmp) + "\n")f.close()
3.2、利用聚类结果生成新的图片
上述的过程中,对每一个像素点进行了聚类,最终利用聚类中心点的RGB值替换原图中每一个像素点的值,便得到了最终的分割后的图片,代码如下所示:
#coding:UTF-8import Image as imagef_center = open("center_pp")center = []
for line in f_center.readlines():lines = line.strip().split("\t")tmp = []for x in lines:tmp.append(int(float(x) * 256))center.append(tuple(tmp))
print center
f_center.close()fp = open("001.jpg", "rb")
im = image.open(fp)
# 新建一个图片
m, n = im.size
pic_new = image.new("RGB", (m, n)) f_sub = open("sub_pp")
i = 0
for line in f_sub.readlines():index = float((line.strip().split("\t"))[0])index_n = int(index)pic_new.putpixel(((i/n),(i % n)),center[index_n])i = i + 1
f_sub.close()pic_new.save("result.jpg", "JPEG")
对于上述的圣托里尼的图片,取不同的k值,得到如下的一些结果:
- 原图
- k=3
- k=5
- k=7
- k=10
参考文章
- Kmeans聚类及图像分割
- 聚类算法研究及在图像分割中的应用
- 基于聚类算法的图像分割综述
- 【图像处理】Python-Image 基本的图像处理操作
机器学习算法实践——K-Means算法与图像分割相关推荐
- kmeans改进 matlab,基于距离函数的改进k―means 算法
摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...
- k均值算法 二分k均值算法_如何获得K均值算法面试问题
k均值算法 二分k均值算法 数据科学访谈 (Data Science Interviews) KMeans is one of the most common and important cluste ...
- k均值算法 二分k均值算法_使用K均值对加勒比珊瑚礁进行分类
k均值算法 二分k均值算法 Have you ever seen a Caribbean reef? Well if you haven't, prepare yourself. 您见过加勒比礁吗? ...
- 新颖性搜索(Novelty Search,NS)算法实践——利用NS算法解决迷宫导航问题
新颖性搜索(Novelty Search,NS)算法实践--利用NS算法解决迷宫导航问题 新颖性搜索(Novelty Search,NS)算法介绍 NS实现基础 NovItem NoveltyArch ...
- KNN算法(K临近算法)及使用KNN算法实现手写数字0-9识别
首先感谢博主倔强的小彬雅,本文使用的素材及部分代码来源其博文机器学习入门-用KNN实现手写数字图片识别(包含自己图片转化),需要下载素材的可以到其博文最后进行下载. 关于KNN算法 knn算法也叫K临 ...
- 数据挖掘--“聚类”详解、K-means、K-平均值算法、K均值算法
一. 什么是聚类 二. 聚类步骤 三. 聚类算法有哪些 1 层次聚类算法 2 划分聚类算法 3 基于密度的聚类算法 4 基于网格的聚类算法 5 基于模型的聚类算法 一. 什么是聚类? 物以类聚,人以群 ...
- 刻意练习:机器学习实战 -- Task01. K邻近算法
背景 这是我们为拥有 Python 基础的同学推出的精进技能的"机器学习实战" 刻意练习活动,这也是我们本学期推出的第三次活动了. 我们准备利用8周时间,夯实机器学习常用算法,完成 ...
- 2、python机器学习基础教程——K近邻算法鸢尾花分类
一.第一个K近邻算法应用:鸢尾花分类 import numpy as np from sklearn.datasets import load_iris from sklearn.model_sele ...
- 机器学习-分类之K近邻算法(KNN)原理及实战
k近邻算法(KNN) 简介 KNN算法是数据挖掘分类技术中最简单的方法之一.它通过测量不同特征值之间的距离进行分类的.其基本思路为:如果一个样本在特征空间中的k个最近邻样本中的大多数属于某一个类别,则 ...
- 机器学习算法总结--K均值算法
参考自: <机器学习> 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) K-Means Clustering 斯坦福大学公开课 :机器学习课程 简介 K-均值是 ...
最新文章
- 欧阳自远:有个性的嫦娥12345,如何不重复美国探月路?
- vi编辑器简单应用(摘抄)
- LeetCode Decode String(栈和递归)
- cpuz北桥频率和内存频率_内存频率不是越高越好:寻找三代锐龙的最佳频率
- C指针原理(13)-C指针基础
- 【防衰老教程】记录一次IDEA,开发JavaWeb项目时JS中文乱码排错
- C语言高级编程:数组和指针作为函数形参
- python创_Python创建Windows 服务
- cell操作-matlab
- Spring jndi连接数据库
- java怎么使用floor_Java floor() 方法
- 我最看不惯的几个公众号
- linux子进程中断信息码6,Linux入门学习——进程
- Centos下安装nginx步骤解析
- 使用TortoiseSVN的客户端钩子脚本触发Jenkins构建
- 软考-信息系统项目管理师-项目进度管理
- 注记字体样式选择指导
- 做正确的事和正确的做事
- 【机器学习】TensorFlow共享GPU资源
- Monkey log 分析