使用Orange中的聚类算法KMeans

KMeans是orange中提供的一个用来聚类的类，它是标准k-means的实现。

初始化：

__init__(data=None, centroids=3, maxiters=None, minscorechange=None, stopchanges=0, nstart=1,initialization=kmeans_init_random, distance=orange.ExamplesDistanceConstructor_Euclidean, scoring=score_distance_to_centroids, inner_callback = None, outer_callback = None, initialize_only = False)

参数说明：

Data:输入的数据

centroids:即k的值

maxiters：最大迭代次数，停止聚类的条件之一。如果不想让迭代次数过多，可指定此参数

minscorechange：停止聚类的条件之一，如果不指定，则不会计算2次迭代之间的评分

stopchanges：停止聚类的条件之一nstart：指定计算次数，不是迭代次数

distance：使用的距离，默认为欧氏距离

inner_callback：如果制定，则每次迭代后调用此函数，可以通过此函数了解迭代过程中的计算细节

outer_callback：如果nstart>1,每次计算后调用此函数，可以通过此函数了解计算过程中的计算细节

代码：

import orange
import orngClustering
def incallback(km):
print "Iteration: %d, changes: %d, score: %.4f" % (km.iteration,km.nchanges,km.score)
start = 1
def outcallback(km):
kmc = km.clusters[:]
res = {}
for c in kmc:
if res.get(c)!=None:
res[c] += 1
else:
res[c]=1
global start
print "Times = ",start
print "clusters: ",res,"\n"
start += 1
data = orange.ExampleTable("iris")
km = orngClustering.KMeans(data,4,minscorechange=0, nstart=3,\
inner_callback=incallback,outer_callback=outcallback )
print "data num: ",len(km.clusters)
kmc = km.clusters[:]
res = {}
for c in kmc:
if res.get(c)!=None:
res[c] += 1
else:
res[c]=1
print "final clusters: ",res,"\n"

说明：

定义了inner_callback和outer_callback=outcallback两个函数，用于显示每次迭代和每轮计算时的样本信息k设置为4，总共计算3轮。最终的聚类结果以最优的一次结果（评分最低的）输出最后是显示统计信息，统计聚类结果

在测试过程中发现，Orange能够处理较小规模的数据，当数据量较大时(样本数量大于25k时)，会引发异常，导致无法计算出结果。故orange不适合较大规模数据处理。orange可视化功能据说+貌似很强大，但是在互联网上几乎没有找到相关资料，附带的帮助文档也没有相关说明。

使用Orange中的聚类算法KMeans相关推荐

sklearn中的聚类算法K-Means
1 概述 1.1 无监督学习与聚类算法决策树.随机森林.逻辑回归虽然有着不同的功能,但却都属于"有监督学习"的一部分,即是说,模型在训练的时候,既需要特征矩阵XXX,也需要真实标 ...
matlab中的聚类算法,kmeans聚类算法matlab matlab 聚类算法silhouette
怎样用matlab实现多维K-means聚类算法小编觉得一个好的周末应该是这样的:睡到中午醒来,在床上躺着玩两个小时手机,起床随便吃点东西,下午去超市买一大堆零食,五六点的时候去约小伙伴们吃火锅烧烤, ...
《菜菜的机器学习sklearn课堂》聚类算法Kmeans
聚类算法聚类算法无监督学习与聚类算法 sklearn中的聚类算法 KMeans KMeans是如何工作的簇内误差平方和的定义和解惑 sklearn.cluster.KMeans 重要参数 n_c ...
sklearn学习 6.聚类算法K-Means
一.概述 1.无监督学习与聚类算法学习了决策树,随机森林,PCA和逻辑回归,他们虽然有着不同的功能,但却都属于"有监督学习"的一部分,即是说,模型在训练的时候,即需要特征矩阵X ...
sklearn专题六：聚类算法K-Means
目录 1 概述 1.1 无监督学习与聚类算法 1.2 sklearn中的聚类算法 2 KMeans 2.1 KMeans是如何工作的 2.2 簇内误差平方和的定义和解惑 2.3 KMeans算法的时间 ...
机器学习-Sklearn-07（无监督学习聚类算法KMeans）
机器学习-Sklearn-07(无监督学习聚类算法KMeans) 学习07 1 概述 1.1 无监督学习与聚类算法聚类算法又叫做"无监督分类",其目的是将数据划分成有意义或有用的 ...
[数据挖掘笔记] 聚类算法KMeans
文章目录 1.概述 1.1 无监督学习与聚类算法 1.2 sklearn中的聚类算法 2.KMeans 2.1 KMeans是如何工作的 2.2 簇内误差平方和的定义和解惑 2.3 KMeans算法的 ...
机器学习中的聚类算法有哪几种？
目前,聚类算法被广泛应用于用户画像.广告推荐.新闻推送和图像分割等等.聚类算法是机器学习中一种"数据探索"的分析方法,它帮助我们在大量的数据中探索和发现数据的结构.那么机器学习中的 ...
聚类算法——kmeans和meanshift
聚类算法--kmeans和meanshift [转] 1. meanshift 转于http://www.cnblogs.com/liqizhou/archive/2012/05/12/2497220 ...

使用Orange中的聚类算法KMeans

使用Orange中的聚类算法KMeans相关推荐

最新文章

热门文章