sklearn中的make

函数功能：

生成各向同性的高斯数据以进行聚类

函数定义：

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

函数参数：

1.n_samples：可以是int，也可以是数组, 可选参数 (default=100)
如果为int，则表示所有簇的样本总数，这个总数在簇之间平均分配。
如果是数组，则数组序列中的每个元素表示每个簇的样本数。
2.n_features：int类型，可选 (default=2)
每个样本的特征数量
3.centers：可以是int，也可以是大小为n_centers的的数组，数组中的每个元素都为n_features维度, 可选(default=None)
如果是int，表示生成的中心数量。
如果是[n_centers, n_features]数组，表示使用固定的每个中心位置。
如果n_samples是一个int且centers为None，则将生成3个中心。
如果n_samples是数组，则centers必须为None或长度等于n_samples数组长度的数组。
4.cluster_std：可以是float类型，也可以是float序列形式, 可选 (default=1.0)
聚簇的标准差。
如果是float类型，则设置所有聚簇的标准差为这个值；如果是float序列，则按照序列设置每一个聚簇的标准差
5.center_box：一对float值 (min, max), 可选 (default=(-10.0, 10.0))
随机生成中心时每个聚类中心的边界框大小，只能在中心的边界框内生成数据
6.shuffle：boolean类型，可选 (default=True)
打乱返回的样本顺序，返回的第一个样本不一定是第一个簇中的。
7.random_state：可以是int类型, 可以是RandomState实例，也可以是 None (default)
确定用于创建数据集的随机数生成。 int类型表示随机数生成器的种子。

函数返回值

1.Xarray of shape [n_samples, n_features]
生成的样本
2.yarray of shape [n_samples]
每个样本的聚簇类别整数标签

demo

1.固定中心点demo

centers = [[0, 1], [-1, 2], [1, 2], [-2.5, 2.5], [2.5,2.5], [-4,1], [4,1], [-3,-1], [3,-1], [-2,-3], [2,-3], [0,-4]]#设置一些中心点
X, y = make_blobs(n_samples=300, centers=centers, cluster_std=0.3)#产生以这些中心点为中心，一定标准差的n个samples

2.随机中心点demo

X, y = make_blobs(n_samples=300, centers=10, cluster_std=0.3)#生成10个中心点为，标准差为0.3的的300个samples

参考资料

https://scikit-learn.org/dev/modules/generated/sklearn.datasets.make_blobs.html