Sklearn.cluster

KMeans

n_clusters: 即k值，一般需要多试一些值以获得较好的聚类效果。
max_iter：最大的迭代次数，一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。
n_init：用不同的初始化质心运行算法的次数。由于K-Means是结果受初始值影响的局部最优的迭代算法，因此需要多跑几次以选择一个较好的聚类效果，默认是10。如果k值较大，则可以适当增大这个值。
init：即初始值选择的方式，可以为完全随机选择’random’，优化过的’k-means++‘或者自己指定初始化的k个质心。一般建议使用默认的’k-means++’。
algorithm：有“auto”, “full” or “elkan”三种选择。
- “full”就是传统的K-Means算法
- “elkan”是elkan K-Means算法
- 默认"auto"则会根据数据值是否稀疏，来决定选择"full"和“elkan”。一般数据是稠密的，那么就是 “elkan”，否则就是"full"。

MiniBatchKMeans

无放回随机采样

n_init：MiniBatchKMeans类的n_init是每次用不一样的采样数据集来跑不同的初始化质心运行算法。
batch_size：即用来跑Mini Batch KMeans算法的采样集的大小，默认是100。如果发现数据集的类别较多或者噪音点较多，需要增加这个值以达到较好的聚类效果。
init_size: 用来做质心初始值候选的样本个数，默认是batch_size的3倍，一般用默认值就可以。
reassignment_ratio: 某个类别质心被重新赋值的最大次数比例。这个比例是占样本总数的比例，乘以样本总数就得到了每个类别质心可以重新赋值的次数。如果取值较高的话算法收敛时间可能会增加。默认是0.01。如果数据量不是超大的话，比如1w以下，建议使用默认值。
max_no_improvement：即连续多少个Mini Batch没有改善聚类效果，就停止算法，和reassignment_ratio， max_iter一样是为了控制算法运行时间。默认是10。

K值的评估标准

轮廓系数

metrics.calinski_harabasz_score
得到的Calinski-Harabasz分数值

Sklearn.cluster相关推荐
1. 聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用
  import numpy as np x=np.random.randint(1,100,[20,1]) #在1-100范围中产生20行1列的随机数组 y=np.zeros(20) k=3 #取数据中 ...
2. 层次聚类sklearn.cluster包AgglomerativeClustering
  ** Ward策略:让所有类簇中的方差最小化. Maximum策略:也叫completed linkage(全连接策略),力求将类簇之间的距离最大值最小化. Average linkage策略:力求将 ...
3. sklearn.cluster.KMeans 参数介绍
  sklearn.cluster.KMeans 参数介绍为什么要介绍sklearn这个库里的kmeans? 这个是现在python机器学习最流行的集成库,同时由于要用这个方法,直接去看英文文档既累又浪 ...
4. sklearn.cluster.KMeans参数介绍
  转载自:https://blog.csdn.net/weixin_41724761/article/details/89786414,本文只做个人记录学习使用,版权归原作者所有. sklearn.cl ...
5. sklearn.cluster使用
  代码如下 import numpy as np # 数据结构 import sklearn.cluster as skc # 密度聚类 from sklearn import metrics ...
6. sklearn 文档翻译之 sklearn.cluster.KMeans
  在sklearn中处理kmeans聚类问题,用到的是 sklearn.cluster.KMeans 这个类. 参数: n_clusters:整形,缺省值=8 生成的聚类数,即产生的质心(centroi ...
7. sklearn.cluster.KMeans中的参数介绍
  KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='au ...
8. 机器学习之sklearn——聚类
  生成数据集方法:sklearn.datasets.make_blobs(n_samples,n_featurs,centers)可以生成数据集,n_samples表示个数,n_features表示特征 ...
9. numpy、matplot、sklearn的安装与使用
  2019独角兽企业重金招聘Python工程师标准>>> windows下安装pip cd到 C:\Python27\Scripts目录下执行 easy_install pip 安 ...
最新文章
热门文章

Sklearn.cluster

Sklearn.cluster相关推荐

最新文章

热门文章