文章目录

  • 1、make_bolbs定义
  • 2、可视化
  • 3、参考资料

1、make_bolbs定义

用我自己的话来说就是,生成n个样本,且每个样本有n_featrues个特征值,并且这些样本都服从高斯分布。
sklearn.datasets.make_blobs(n_samples=100,n_features=2,∗,centers=None,cluster_std=1.0,center_box=(−10.0,10.0),shuffle=True,random_state=None,return_centers=False)sklearn.datasets.make\_blobs(n\_samples=100, n\_features=2, *, centers=None, cluster\_std=1.0, center\_box=(-10.0, 10.0), shuffle=True, random\_state=None, return\_centers=False) sklearn.datasets.make_blobs(n_samples=100,n_features=2,∗,centers=None,cluster_std=1.0,center_box=(−10.0,10.0),shuffle=True,random_state=None,return_centers=False)

产生多少个数据样本
n_features:产生的每个样本有几个特征

参数 说明
n_samples int or array-like, optional (default=100)如果为int,则为在簇之间平均分配的点总数。如果为阵列状,则序列的每个元素表示每个簇的样本数。v0.20版中进行了更改:现在可以将类似数组的参数传递给n_samples参数
n_features int, optional (default=2)每个样本的特征数量。
centers int or array of shape [n_centers, n_features], optional(default=None)要生成的中心数或固定的中心位置。如果n_samples是一个int且center为None,则生成3个中心。如果n_samples类似于数组,则中心必须为None或长度等于n_samples长度的数组。
cluster_std float or sequence of floats, optional (default=1.0)群集的标准偏差。
center_box pair of floats (min, max), optional (default=(-10.0, 10.0))随机生成中心时每个聚类中心的边界框。
shuffle boolean, optional (default=True)打乱样本
random_state int, RandomState instance, default=None确定用于生成数据集的随机数生成。为多个函数调用传递可重复输出的int值。
return_centers bool, optional (default=False)如果为True,则返回每个群集的中心
返回值 说明
X array of shape [n_samples, n_features]生成的样本。
y array of shape [n_samples]每个样本的群集成员的整数标签。
centers array, shape [n_centers, n_features]每个群集的中心。 仅在return_centers = True时返回。

2、可视化

当设置n_features=2时

当n_features=5时

当n_features分类越多分散程度越大

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
import matplotlib.pyplot as pltX,y = make_blobs(n_samples=300,random_state=0,n_features=500,centers=5)
print(X.shape)
print(X)
print(y.shape)
print(y)KM = KMeans(n_clusters=5,random_state=0)
KM.fit(X)
y_pred =KM.predict(X)plt.scatter(X[:,0],X[:,1],c=y_pred)
plt.show()

3、参考资料

https://scikit-learn.org.cn/view/556.html

(7)机器学习之make_bolbs相关推荐

  1. 机器学习分类指标:精确率、准确率、召回率详解

    混淆矩阵 在介绍具体的定义之前先了解一些混淆矩阵(confusion matrix): 一种 NxN 表格,用于总结分类模型的预测效果:即标签和模型预测的分类之间的关联.在混淆矩阵中,一个轴表示模型预 ...

  2. 【机器学习】RNN循环神经网络

    循环神经网络归属: 领域:机器学习 方向:自然语言处理 贡献:自动文本生成 循环神经网络实际应用: 生活中因为原始数据都是序列化的,比如自然语言,语音处理,时间序列问题(股票价格)等问题, 这个时候需 ...

  3. 开源自动化机器学习框架

    20211101 在 Airbnb 使用机器学习预测房源的价格 https://blog.csdn.net/weixin_33735077/article/details/87976278?spm=1 ...

  4. 机器学习常用术语词汇表

    EOF是一个计算机术语,为End Of File的缩写 ,在操作系统中表示资料源无更多的资料可读取. 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表 ...

  5. 预见未来丨机器学习:未来十年研究热点

    <h2 class="subheader">机器学习:未来十年研究热点 </h2><div class="gray-d1-c margin- ...

  6. SMOTE算法代码实现-机器学习

    类别不平衡问题 类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题.例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问 ...

  7. LARS 算法简介-机器学习

    https://cosx.org/2011/04/modified-lars-and-lasso/ 查看全文 http://www.taodudu.cc/news/show-64111.html 相关 ...

  8. 1-1 机器学习和深度学习综述-paddle

    课程>我的课程>百度架构师手把手教深度学习>1-1 机器学习和深度学习综述> 1-1 机器学习和深度学习综述 paddle初级课程 王然(学生) Notebook 教育 初级深 ...

  9. 机器学习——标准化/归一化的目的、作用和场景

    对每个特征进行归一化处理,使得每个特征的取值缩放到0~1之间.这样做有两个好处: 模型训练更高效. 特征前的权重大小可代表该变量对预测结果的贡献度(因为每个特征值本身的范围相同). (一)归一化的作用 ...

  10. 使用Apache TVM将机器学习编译为WASM和WebGPU

    使用Apache TVM将机器学习编译为WASM和WebGPU TLDR 在Apache TVM深度学习编译器中引入了对WASM和WebGPU的支持.实验表明,在将模型部署到Web时,TVM的WebG ...

最新文章

  1. mxGraph改变图形大小重置overlay位置
  2. Unity消息简易框架 Advanced C# messenger
  3. apache http server指的是什么
  4. java导出word(带图片)
  5. $.post $.getScript
  6. 利用jquery.validate异步验证用户名是否存在
  7. Android的JNI【实战教程】5⃣️---Android Studio 2.2 以上 NDK开发
  8. 时间同步服务器搭建实验
  9. php表决器代码,adder3 此源代码是基于Verilog语言的七人投票表决器 、2 个 联合开发网 - pudn.com...
  10. Axure RP 9下载安装
  11. C语言格式化输出函数printf详解——C语言基础知识
  12. 湖南大学校园网登录地址
  13. 大数据的学习需要预先了解哪些基础知识?
  14. 任意文件读取漏洞知识梳理
  15. Android如何安全替换证书
  16. 二度云抢先成为首批工信部(.vip/.xyz/.club)域名注册管理机构
  17. java -jar 包编译在线工具
  18. 铭瑄H610itx升级E1.4G版本BIOS后HDMI不能输出音频(无HD audio选项)解决方法
  19. 阿里云免费Https证书申请使用
  20. 广联达计算机采用硬盘缓存,买硬盘的时候别忽略 硬盘缓存了解下

热门文章

  1. 提高短线操作成功率的诀窍!
  2. 一个***与电脑白痴的爱情故事
  3. 线代总结1 线性代数中的线性方程组
  4. 关于管理的十个经典故事
  5. 从客户变成员工在租赁公司打工--我成为程序员所经历的(三)
  6. windowsC盘msp文件清理
  7. [整理]Linux压缩与解压缩命令整理。
  8. 简易计算机系统综合设计设计报告(VHDL)
  9. RESTFeel: 一个企业级的API管理测试平台。RESTFeel帮助你设计、开发、测试您的API...
  10. Webservice更新时出错。下载”。。。”时出错。请求失败,错误信息为: