Sklearn.cluster
KMeans
- n_clusters: 即k值,一般需要多试一些值以获得较好的聚类效果。
- max_iter: 最大的迭代次数,一般如果是凸数据集的话可以不管这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。
- n_init:用不同的初始化质心运行算法的次数。由于K-Means是结果受初始值影响的局部最优的迭代算法,因此需要多跑几次以选择一个较好的聚类效果,默认是10。如果k值较大,则可以适当增大这个值。
- init: 即初始值选择的方式,可以为完全随机选择’random’,优化过的’k-means++‘或者自己指定初始化的k个质心。一般建议使用默认的’k-means++’。
- algorithm:有“auto”, “full” or “elkan”三种选择。
- “full”就是传统的K-Means算法
- “elkan”是elkan K-Means算法
- 默认"auto"则会根据数据值是否稀疏,来决定选择"full"和“elkan”。一般数据是稠密的,那么就是 “elkan”,否则就是"full"。
MiniBatchKMeans
无放回随机采样
- n_init:MiniBatchKMeans类的n_init是每次用不一样的采样数据集来跑不同的初始化质心运行算法。
- batch_size:即用来跑Mini Batch KMeans算法的采样集的大小,默认是100。如果发现数据集的类别较多或者噪音点较多,需要增加这个值以达到较好的聚类效果。
- init_size: 用来做质心初始值候选的样本个数,默认是batch_size的3倍,一般用默认值就可以。
- reassignment_ratio: 某个类别质心被重新赋值的最大次数比例。这个比例是占样本总数的比例,乘以样本总数就得到了每个类别质心可以重新赋值的次数。如果取值较高的话算法收敛时间可能会增加。默认是0.01。如果数据量不是超大的话,比如1w以下,建议使用默认值。
- max_no_improvement:即连续多少个Mini Batch没有改善聚类效果,就停止算法,和reassignment_ratio, max_iter一样是为了控制算法运行时间。默认是10。
K值的评估标准
轮廓系数
- metrics.calinski_harabasz_score
- 得到的Calinski-Harabasz分数值
Sklearn.cluster相关推荐
- 聚类--K均值算法:自主实现与sklearn.cluster.KMeans调用
import numpy as np x=np.random.randint(1,100,[20,1]) #在1-100范围中产生20行1列的随机数组 y=np.zeros(20) k=3 #取数据中 ...
- 层次聚类sklearn.cluster包AgglomerativeClustering
** Ward策略:让所有类簇中的方差最小化. Maximum策略:也叫completed linkage(全连接策略),力求将类簇之间的距离最大值最小化. Average linkage策略:力求将 ...
- sklearn.cluster.KMeans 参数介绍
sklearn.cluster.KMeans 参数介绍 为什么要介绍sklearn这个库里的kmeans? 这个是现在python机器学习最流行的集成库,同时由于要用这个方法,直接去看英文文档既累又浪 ...
- sklearn.cluster.KMeans参数介绍
转载自:https://blog.csdn.net/weixin_41724761/article/details/89786414,本文只做个人记录学习使用,版权归原作者所有. sklearn.cl ...
- sklearn.cluster使用
代码如下 import numpy as np # 数据结构 import sklearn.cluster as skc # 密度聚类 from sklearn import metrics ...
- sklearn 文档翻译之 sklearn.cluster.KMeans
在sklearn中处理kmeans聚类问题,用到的是 sklearn.cluster.KMeans 这个类. 参数: n_clusters:整形,缺省值=8 生成的聚类数,即产生的质心(centroi ...
- sklearn.cluster.KMeans中的参数介绍
KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='au ...
- 机器学习之sklearn——聚类
生成数据集方法:sklearn.datasets.make_blobs(n_samples,n_featurs,centers)可以生成数据集,n_samples表示个数,n_features表示特征 ...
- numpy、matplot、sklearn的安装与使用
2019独角兽企业重金招聘Python工程师标准>>> windows下安装pip cd到 C:\Python27\Scripts目录下 执行 easy_install pip 安 ...
最新文章
- 今日学习心得——装饰模式
- 提取HTML代码中文字的C#函数
- C++11:继承构造函数
- Android开发技术周报 Issue#17
- 一题多解 —— 同时找到序列的最大值最小值
- The run destination 设备名称 is not valid for Running the scheme '项目名称'.
- 9点EXCEL计算公式
- arcgis 10.8 for win10安装教程
- 赫夫曼树赫夫曼编码的创建
- 数学之美读书笔记--摘抄
- Python零基础详解--商品详情、关键词搜索api
- “温水煮青蛙”的实验论证
- 在IDEA中手动创建基于Maven的Servlet项目
- zynqMP LINUX 移植
- java记事本UI界面类
- 高效查表判断胡牌算法的lua版本
- 最小采样频率计算公式_ShaZam深入分析之从数字声音到频率
- 无线自由,无所畏“飓”!HyperX Cloud飓风无线电竞游戏耳机推荐
- HBase写入性能分析及改造—multi-thread flush and compaction(约能提高两到三倍吞吐量,带压缩测试)
- 2022年场(厂)内专用机动车辆安全管理操作证考试题及答案
热门文章
- 聚类--K均值算法:自主实现与sklearn.cluster.KMeans调用