参数

n_samples（int/array-like,100）

生成的训练样本数量

如果是整数，这些点将被均分到所有种群中
如果是类数组，则其中的每个元素都表明一个种群中样本点的数量

n_features(int,2)

每个样本具有的特征数量

centers(int/ndarray of (n_samples, n_features),None)

生成样本中心点(种群)的数量或者固定的中心点的位置

如果n_samples是整数而且centers是None，将生成3个中心点
如果n_samples是一个类数组，那么centers必须是None或者一个长度等于n_samples的长度的数组

cluster_std(float/array-like,1.0)

生成样本点的标准差，表示生成样本点分布的松散程度

center_box(tuple,(-10.0,10.0))

如果centers是随机生成的，那么这个参数表示每个种群的边界框

shuffle(bool,True)

是否打乱样本点

random_state

决定随机数的生成（类似于种子）

return_centers(bool,False)

是否返回每个种群的中心点

返回值

	数据类型	形状	描述
x	ndarray	(n_samples, n_features)	生成的样本点
y	ndarray	(n_samples, )	生成样本点的标签

使用实例

from sklearn.datasets import make_bolbs
import matplotlib.pyplot as plt
import numpy as npcenters=[[-1,1],[2,-2],[-2,-3]]
x,y = make_blobs(n_samples=50, centers=centers, cluster_std=0.60,random_state=0)plt.figure()
c=np.array(centers)
plt.scatter(x[:,0],x[:,1],c=y)
plt.scatter(c[:,0],c[:,1],marker='^')
plt.show()

生成数据点如图所示，样本点被分为3个种群

聚类数据生成函数--make_blobs()相关推荐

sklearn的make_blobs绘制聚类数据样本，Python
sklearn的make_blobs绘制聚类数据样本,Python 例如: from sklearn.datasets import make_blobs from matplotlib import ...
论文阅读笔记（15）：Deep Subspace Clustering with Data Augmentation，深度子空间聚类+数据增强
论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强摘要 1 介绍 2 相关工作带增强的聚类方法具有一致 ...
[机器学习-sklearn]K-means之make_blobs聚类数据生成器
make_blobs介绍 scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量.中心点数量.范围等来生成几类数据,这些数据可用 ...
sklearn 笔记：make_blobs 生成聚类数据
from sklearn.datasets import make_blobs 1 基本用法 data, label = make_blobs(n_features=2, n_samples=100, ...
【Python学习】 - sklearn - 用于生成数据的make_blobs模块
函数原型: sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_bo ...
吴恩达《Machine Learning》精炼笔记 8：聚类 KMeans 及其 Python实现
作者 | Peter 编辑 | AI有道系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习吴恩达<Machine Learning>精 ...
Scikit-learn学习系列 | 1. sklearn的简要使用介绍与数据集获取
如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. scikit-lear ...
独家 | 如何在BigQueryML中使用K-均值聚类来更好地理解和描述数据（附代码）
原文:拉克什曼Lak Lakshmanan 翻译:陈之炎校对:吴金笛本文约2600字,建议阅读10+分钟. 本文教你如何在BigQueryML中使用K均值聚类对数据进行分组,进而更好地理解和描述. ...
大数据缺省值插补方法（回归填补[stochastic regression imputation]，聚类填补，。。）
文章目录回归填补 random imputation deterministic regression imputation stochastic regression imputation 聚类填 ...
讨论k值以及初始聚类中心对聚类结果的影响_K均值聚类需要标准化数据吗
摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注.数据挖掘是指从数据库中发现隐含在大量数据中的新颖的.潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现. ...

聚类数据生成函数--make_blobs()

目录

参数