• 转载于: 知乎

1. 调用方式

例如:


from sklearn import datasetsboston = datasets.load_boston()  # 导入波士顿房价数据boston

  • dataname.data

  • dataname.target

  • dataname.feature_names

2. Toy Datasets

2.1. 波士顿房价-回归


from sklearn import datasetsboston = datasets.load_boston()  # 导入波士顿房价数据boston

2.2. 鸢尾花-分类


from sklearn import datasetsiris = datasets.load_iris()iris

2.3. 糖尿病-回归

from sklearn import datasets  # 导入库diabetes = datasets.load_diabetes()  # 导入糖尿病数据

2.4. 手写数字-多分类

​共有1797个样本,每个样本有64的元素,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值, target值是0-9,适用于分类任务。

from sklearn import datasets  # 导入库digits = datasets.load_digits()  # 导入手写数字数据

2.5. 体能训练-回归

兰纳胡德提供的体能训练数据,data和target都是20x3,data的特征包括Chins, Situps and Jumps.(引体向上 仰卧起坐 跳跃),target的三维分别是Weight, Waist and Pulse.(体重 腰围 脉搏),适用于回归问题,用的少。

2.6. 红酒

共178个样本,代表了红酒的三个档次(分别有59,71,48个样本),以及与之对应的13维的属性数据,适用于分类任务。


from sklearn import datasets  # 导入库wine = datasets.load_wine()  # 导入红酒数据

2.7. 威斯康辛州乳腺癌

​ 包含了威斯康辛州记录的569个病人的乳腺癌恶性/良性(1/0)类别型数据,以及与之对应的30个维度的生理指标数据,适用于二分类问题。


from sklearn import datasets  # 导入库cancer = datasets.load_breast_cancer()  # 导入乳腺癌数据

3. True Datasets

3.1. 生成簇,用于聚类


from sklearn import datasetscenters = [[2,2],[8,2],[2,8],[8,8]]
x, y = datasets.make_blobs(n_samples=1000, n_features=2, centers=4,cluster_std=1)

其中的参数:

  • n_samples:样本数

  • n_features:特征数(维度)

  • centers:中心数,也可以是中心的坐标

  • cluster_std:簇的方差

利用下面的代码看一下生成的结果:


import seaborn as sns
import pandas as pd data = []
for x,y in zip(x,y):data.append((x[0],x[1],y))
data = pd.DataFrame(data,columns=['x1','x2','y'])sns.scatterplot(x=data['x1'],y=data['x2'],hue=data['y'])

结果如下:

3.2. 生成同心圆

x, y = datasets.make_circles(n_samples=5000, noise=0.04, factor=0.7)

其中的参数

  • noise:噪声

  • factor:内圆与外圆的距离 为1的时候最小

再查看结果:

3.3. 生成月牙


x, y = datasets.make_moons(n_samples=3000, noise=0.05)

3.4. 分类


x, y =datasets.make_classification(n_classes=4, n_samples=1000, n_features=2, n_informative=2 , n_redundant=0, n_clusters_per_class=1,n_repeated=0, random_state=22)

其中的参数:

  • n_classes:类的数目

  • n_informative:有效的特征数

  • n_redundant:冗余特征数 有效特征数的线性组合

  • n_repeated:有效特征数和冗余特征数的有效组合

  • n_informative + n_redundant + n_repeated < = n_features

  • n_clusters_per_class:每一类的簇数

  • n_classes * n_clusters_per_class <= 2**n_informative

查看结果

4. 样例图片

scikit 在通过图片的作者共同授权下嵌入了几个样本 JPEG 图片。这些图像为了方便用户对 test algorithms (测试算法)和 pipeline on 2D data (二维数据管道)进行测试,用datasets.load_sample_image()加载。


from sklearn import datasets
import matplotlib.pyplot as pltimg = datasets.load_sample_image('flower.jpg')
print(img.shape)  # (427, 640, 3)
print(img.dtype)  # uint8
plt.imshow(img)
plt.show()

sklean中自带的数据集相关推荐

  1. 如何使用pyecharts中自带的数据集?

    如何使用 pyecharts 中自带的数据集? 我们在学习pyehcarts绘图的过程中,需要一些练习的数据. pyecharts为我们提供了这样的数据集 – Faker,存储于 faker.py 文 ...

  2. R语言中自带的一些数据集

    在用R语言做数据分析的时候,我们经常需要一些数据做实验,尤其当学会一个新的方法或者算法的时候,就想赶快编程实现一下.那么,问题来了,用什么数据好呢,什么样的数据适合做这种实验呢? 好在R语言提供了很多 ...

  3. python训练数据集_Python——sklearn提供的自带的数据集

    sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downlo ...

  4. python的自带数据集_机器学习基础 / 加载scikit-learn自带的数据集 - 汇智网

    加载Scikit-learn自带的数据集 scikit-learn自带少量数据集,比如说用于分类分析的鸢尾花数据集和数码数据集.用于回归分析的波士顿房价数据集. 数据集是一个字典类对象,它包括数据以及 ...

  5. python的自带数据集_Python——sklearn提供的自带的数据集

    sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downlo ...

  6. python的自带数据集_sklearn提供的自带的数据集

    sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downloaded Dataset):skl ...

  7. PyTorch中的MIT ADE20K数据集的语义分割

    PyTorch中的MIT ADE20K数据集的语义分割 代码地址:https://github.com/CSAILVision/semantic-segmentation-pytorch Semant ...

  8. 记得ajax中要带上AntiForgeryToken防止CSRF攻击

    经常看到在项目中ajax post数据到服务器不加防伪标记,造成CSRF攻击 在Asp.net Mvc里加入防伪标记很简单在表单中加入Html.AntiForgeryToken()即可. Html.A ...

  9. WPF中制作带中国农历的万年历

    WPF中制作带中国农历的万年历 原文:WPF中制作带中国农历的万年历 本例应用.net 2.0中的ChineseLunisolarCalendar类,制作出带中国农历的万年历.  先看看效果图片(已缩 ...

最新文章

  1. 实践 config drive - 每天5分钟玩转 OpenStack(170)
  2. php 剪贴板,之Windows中的剪贴板
  3. linux c之命名管道简单使用
  4. 注册(二)之增加绑定
  5. 推荐几款国产快速启动工具软件 总有一款适合你的
  6. 百度智能云服务网格产品 CSM 发布 | 火热公测中
  7. 企业数据防泄漏解决方案的介绍!
  8. word论文排版插件_【Office Word】论文排版有关技巧
  9. Hadoop+Spark 之旅—脚踏实地、仰望星空(教程目录)
  10. todd li 保留_用Todd Motto对JavaScript进行解密
  11. 阿里p9就三分钟。。。。。
  12. 小米路由器 建mysql_轻松在小米路由建自己的网站
  13. Altium Designer 学习笔记(PCB封装库)
  14. iOS二维码生成及扫码
  15. 世界杯期间怎么做营销活动?
  16. windows查看端口占用情况
  17. 【JAVA中String类的相关知识】
  18. Lingoes(灵格斯)词典使用
  19. 实现:您必须使用微信内置浏览器访问本页面! 的功能
  20. Postfix + Extmail 企业邮件服务器搭建

热门文章

  1. 能把妹、可美颜的人工智能,将会重新定义智能手机?
  2. html修改svg颜色
  3. 修改mac地址和ip地址突破内网限制
  4. sriov开启混杂模式
  5. 计算机无线网络的性能和稳定性分析,计算机无线网络的性能和稳定性分析
  6. 四驾马车:从“制造之城”到“智能制造之都”的长沙缘何飞速前进
  7. push,pop指令
  8. 自动售饮料机逻辑电路的设计
  9. 蜗牛学院:软件测试工程师的8种技能
  10. 我的世界1.7.2java_我的世界JAVA版1.7.2