make_blobs介绍

scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。

make_blobs方法:

sklearn.datasets.make_blobs(n_samples=100, n_features=2,centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)[source]

其中:
n_samples 是待生成的样本的总数。
n_features 是每个样本的特征数。
centers 表示类别数。
cluster_std 表示每个类别的方差,例如我们希望生成2类数据,其中一类比另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0]。
random_state 相同的值具有可重现性,也就是所指定一个相同的,以便于下次重现

更多参数请参考官网连接

例:生成3类数据用于聚类(100个样本,每个样本有2个特征)

from sklearn.datasets import make_blobs
from matplotlib import pyplotdata,target=make_blobs(n_samples=100,n_features=2,centers=3)
print(data)
print(target)# 在2D图中绘制样本,每个样本颜色不同
pyplot.scatter(data[:,0],data[:,1],c=target);
pyplot.show()
[[ 8.16950469 -0.8515653 ][ 3.89178889 -0.74819172][10.39197688 -1.03606434][ 9.47585566 -2.54015823]
....[ 1.03335689  5.44084402][ 2.48195306 -0.58851947][10.62815561 -0.26532214]]
[0 2 0 0 1 1 1 2 0 2 2 1 0 2 1 2 2 0 2 1 2 2 1 2 0 2 2 0 2 0 0 2 2 1 1 2 01 1 1 0 0 0 2 1 2 2 0 1 0 1 1 2 0 1 1 1 2 0 1 0 1 2 0 1 0 2 1 2 0 2 2 0 01 0 2 0 0 2 1 2 1 0 1 0 0 1 0 2 2 1 0 0 1 1 1 1 2 0]

为每个类别设置不同的方差,只需要在上述代码中加入cluster_std参数即可:

from sklearn.datasets import make_blobs
from matplotlib import pyplotdata,target=make_blobs(n_samples=100,n_features=2,centers=3,cluster_std=[1.0,3.0,2.0])#在2D图中绘制样本,每个样本颜色不同
pyplot.scatter(data[:,0],data[:,1],c=target);
pyplot.show()

这里就可以看出方差反映的数据的离散程度

固定中心的位置

from sklearn.datasets import make_blobs
from matplotlib import pyplotdata, target = make_blobs(n_samples=100, n_features=2, centers=[[-4,-4],[0,0],[4,4]])data =  np.concatenate((data, [[-4,-4],[0,0],[4,4]]), axis=0)
target =  np.concatenate((target, [4,5,6]))
# 在2D图中绘制样本,每个样本颜色不同
pyplot.scatter(data[:, 0], data[:, 1], c=target);
pyplot.show()

[机器学习-sklearn]K-means之make_blobs聚类数据生成器相关推荐

  1. 为了联盟还是为了部落 | K means

    1. 问题 人类有个很有趣的现象,一群人在一起,过一段时间就会自发的形成一个个的小团体.好像我们很擅长寻找和自己气质接近的同类.其实不只是人类,数据也有类似情况,这就是聚类(Clustering)的意 ...

  2. python机器学习库sklearn——k均值聚类

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 k均值聚类的相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article/de ...

  3. sklearn机器学习:K均值聚类

    K-Means 均值聚类聚类算法可以说是最简单但是使用最广的一种聚类算法了,原理也简单易懂,sklearn中提供了很多聚类算法的实现,所以这里就学习一下K-Means算法.接下来会介绍一些关键性的概念 ...

  4. Py之scikit-learn:机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略

    Py之scikit-learn:机器学习sklearn库的简介(组件/版本迭代).六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类).安装.使用方法(实际问题中如何选择最合适的机器学 ...

  5. Kmeans聚类②——Sklearn数据生成器(make_blobs,make_classification,make_circles,make_moons)

    Kmeans系列目录: Kmeans聚类②--Sklearn数据生成器(make_blob/classification/circles/make_moons) Kmeans聚类③--Kmeans聚类 ...

  6. 数据分析实战:python热门音乐分析 附代码+数据 +论文(PCA 主成分分析,sklearn 机器学习,pytorch 神经网络,k-means 聚类,Librosa 音频处理,midi 音序)

    项目概述: 本选取了抖音当下最热门的 400 首音乐,通过一系列方法提取每首歌的波形特征,再经过降维以及机器学习等手段,进行无监督学习对音乐数据进行聚类的同时训练并使用监督学习分类器进行音乐流派分类, ...

  7. sklearn的make_blobs绘制聚类数据样本,Python

    sklearn的make_blobs绘制聚类数据样本,Python 例如: from sklearn.datasets import make_blobs from matplotlib import ...

  8. 《菜菜的机器学习sklearn课堂》聚类算法Kmeans

    聚类算法 聚类算法 无监督学习与聚类算法 sklearn中的聚类算法 KMeans KMeans是如何工作的 簇内误差平方和的定义和解惑 sklearn.cluster.KMeans 重要参数 n_c ...

  9. k均值聚类算法(K Means)及其实战案例

    算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...

最新文章

  1. CSS实现鼠标移入图片边框有小三角
  2. 河北师范大学C语言试题,2017年河北师范大学信息技术学院838C语言程序设计考研强化模拟题...
  3. HDU 2955 Robberies
  4. 微x怎么设置主题_红人堂:抖音直播预告文案怎么写?5个小技巧提高你的文案吸引力!...
  5. 一文彻底搞懂前端监控 等推荐
  6. 【离散数学】基本重言蕴含式总结
  7. 10张图,让你瞬间给自己减压
  8. 仔仔手机安全卫士demo(四)
  9. bug篇——MySQL的时区问题
  10. Linux下分割、合并文件——dd和cat
  11. 简单的idea非maven项目引入jar包
  12. [Excel]Excel函数和用法(10)——数组公式的使用方法与隔列求和
  13. 微信小程序——事件绑定
  14. 微信小程序 条码 二维码生成
  15. iso计算机术语简单解释,计算机网络知识(上)
  16. Ubuntu 编译XCB源码
  17. 一文掌握Flutter 2.10新特性
  18. 【编译原理】 根据语法树 写出对应的短语 直接短语 句柄 构造产生式
  19. 如何利用PS制作炫酷背景图
  20. JS数组的创建及正则表达式的对象

热门文章

  1. C#并行编程-并发集合
  2. 苹果账号:个人,公司,企业,教育,
  3. UIActionSheet 多项弹出框
  4. jQuery-图片上传裁剪插件--imgAreaSelect(分析一) 放大缩小
  5. 浅谈V8引擎中的垃圾回收机制
  6. TypeScript入门教程 之 解构
  7. 图片服务 - thumbor用法
  8. 更改Linux系统的Hostname的四种方式
  9. 虚拟技术必须解决的问题_VR/3D虚拟实验室亮相重庆市初中物理青年教师优质课大赛...
  10. Github+jsDelivr为脚本/图片等静态文件加速的全球CDN