聚类数据生成函数--make_blobs()
目录
- 参数
- n_samples(int/array-like,100)
- n_features(int,2)
- centers(int/ndarray of (n_samples, n_features),None)
- cluster_std(float/array-like,1.0)
- center_box(tuple,(-10.0,10.0))
- shuffle(bool,True)
- random_state
- return_centers(bool,False)
- 返回值
- 使用实例
sklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, cluster_std=1.0, center_box=(- 10.0, 10.0), shuffle=True, random_state=None, return_centers=False)
生成具有各向异性的高斯分布散点用于聚类
参数
n_samples(int/array-like,100)
生成的训练样本数量
如果是整数,这些点将被均分到所有种群中
如果是类数组,则其中的每个元素都表明一个种群中样本点的数量
n_features(int,2)
每个样本具有的特征数量
centers(int/ndarray of (n_samples, n_features),None)
生成样本中心点(种群)的数量或者固定的中心点的位置
如果n_samples是整数而且centers是None,将生成3个中心点
如果n_samples是一个类数组,那么centers必须是None或者一个长度等于n_samples的长度的数组
cluster_std(float/array-like,1.0)
生成样本点的标准差,表示生成样本点分布的松散程度
center_box(tuple,(-10.0,10.0))
如果centers是随机生成的,那么这个参数表示每个种群的边界框
shuffle(bool,True)
是否打乱样本点
random_state
决定随机数的生成(类似于种子)
return_centers(bool,False)
是否返回每个种群的中心点
返回值
数据类型 | 形状 | 描述 | |
---|---|---|---|
x | ndarray | (n_samples, n_features) | 生成的样本点 |
y | ndarray | (n_samples, ) | 生成样本点的标签 |
使用实例
from sklearn.datasets import make_bolbs
import matplotlib.pyplot as plt
import numpy as npcenters=[[-1,1],[2,-2],[-2,-3]]
x,y = make_blobs(n_samples=50, centers=centers, cluster_std=0.60,random_state=0)plt.figure()
c=np.array(centers)
plt.scatter(x[:,0],x[:,1],c=y)
plt.scatter(c[:,0],c[:,1],marker='^')
plt.show()
生成数据点如图所示,样本点被分为3个种群
聚类数据生成函数--make_blobs()相关推荐
- sklearn的make_blobs绘制聚类数据样本,Python
sklearn的make_blobs绘制聚类数据样本,Python 例如: from sklearn.datasets import make_blobs from matplotlib import ...
- 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强
论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...
- [机器学习-sklearn]K-means之make_blobs聚类数据生成器
make_blobs介绍 scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量.中心点数量.范围等来生成几类数据,这些数据可用 ...
- sklearn 笔记:make_blobs 生成聚类数据
from sklearn.datasets import make_blobs 1 基本用法 data, label = make_blobs(n_features=2, n_samples=100, ...
- 【Python学习】 - sklearn - 用于生成数据的make_blobs模块
函数原型: sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_bo ...
- 吴恩达《Machine Learning》精炼笔记 8:聚类 KMeans 及其 Python实现
作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...
- Scikit-learn学习系列 | 1. sklearn的简要使用介绍与数据集获取
如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. scikit-lear ...
- 独家 | 如何在BigQueryML中使用K-均值聚类来更好地理解和描述数据(附代码)
原文:拉克什曼Lak Lakshmanan 翻译:陈之炎 校对:吴金笛 本文约2600字,建议阅读10+分钟. 本文教你如何在BigQueryML中使用K均值聚类对数据进行分组,进而更好地理解和描述. ...
- 大数据缺省值插补方法(回归填补[stochastic regression imputation],聚类填补,。。)
文章目录 回归填补 random imputation deterministic regression imputation stochastic regression imputation 聚类填 ...
- 讨论k值以及初始聚类中心对聚类结果的影响_K均值聚类需要标准化数据吗
摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注.数据挖掘是指从数据库中发现隐含在大量数据中的新颖的.潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现. ...
最新文章
- javascript间接实现前端非获取匹配,保留带某前缀的子串不执行替换
- linux 下取进程占用 cpu/内存 最高的前10个进程
- 利用ATL创建com组件和如何在程序中使用组件的接口函数和设置接口的属性
- python 类-python 类如何使用
- redis集群安装和java应用
- vue-cli3使用cdn引入
- C语言 | 循环语句总结
- C++学习笔记1:virtual 继承
- hive插件 ranger_Apache Ranger及Hive权限控制
- python wxpython radiobutton 能不能默认不选择_Python啥都行_Robot自动化测试
- [转]在VS2010 VC++项目中引用Lib静态库(以Openssl为例)
- mysql非整型分区_mysql分区
- CAPL学习之路-诊断函数
- 中国雅虎邮箱一键迁移到网易邮箱教程
- SVN冲突的原因和解决
- 【双碳政策】分布式光伏如何进行实时运维监测管理
- 人人看得懂的ChatGPT技术原理解析
- 使用H5中的表单标签制作一个简单的网页登陆页面
- 快速开发像vue elementui官网一样的api查询网站
- 在ICT圈子找非研发工作