sklean中自带的数据集
- 转载于: 知乎
1. 调用方式
例如:
from sklearn import datasetsboston = datasets.load_boston() # 导入波士顿房价数据boston
dataname.data
dataname.target
dataname.feature_names
2. Toy Datasets
2.1. 波士顿房价-回归
from sklearn import datasetsboston = datasets.load_boston() # 导入波士顿房价数据boston
2.2. 鸢尾花-分类
from sklearn import datasetsiris = datasets.load_iris()iris
2.3. 糖尿病-回归
from sklearn import datasets # 导入库diabetes = datasets.load_diabetes() # 导入糖尿病数据
2.4. 手写数字-多分类
共有1797个样本,每个样本有64的元素,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值, target值是0-9,适用于分类任务。
from sklearn import datasets # 导入库digits = datasets.load_digits() # 导入手写数字数据
2.5. 体能训练-回归
兰纳胡德提供的体能训练数据,data和target都是20x3,data的特征包括Chins, Situps and Jumps.(引体向上 仰卧起坐 跳跃),target的三维分别是Weight, Waist and Pulse.(体重 腰围 脉搏),适用于回归问题,用的少。
2.6. 红酒
共178个样本,代表了红酒的三个档次(分别有59,71,48个样本),以及与之对应的13维的属性数据,适用于分类任务。
from sklearn import datasets # 导入库wine = datasets.load_wine() # 导入红酒数据
2.7. 威斯康辛州乳腺癌
包含了威斯康辛州记录的569个病人的乳腺癌恶性/良性(1/0)类别型数据,以及与之对应的30个维度的生理指标数据,适用于二分类问题。
from sklearn import datasets # 导入库cancer = datasets.load_breast_cancer() # 导入乳腺癌数据
3. True Datasets
3.1. 生成簇,用于聚类
from sklearn import datasetscenters = [[2,2],[8,2],[2,8],[8,8]]
x, y = datasets.make_blobs(n_samples=1000, n_features=2, centers=4,cluster_std=1)
其中的参数:
n_samples:样本数
n_features:特征数(维度)
centers:中心数,也可以是中心的坐标
cluster_std:簇的方差
利用下面的代码看一下生成的结果:
import seaborn as sns
import pandas as pd data = []
for x,y in zip(x,y):data.append((x[0],x[1],y))
data = pd.DataFrame(data,columns=['x1','x2','y'])sns.scatterplot(x=data['x1'],y=data['x2'],hue=data['y'])
结果如下:
3.2. 生成同心圆
x, y = datasets.make_circles(n_samples=5000, noise=0.04, factor=0.7)
其中的参数
noise:噪声
factor:内圆与外圆的距离 为1的时候最小
再查看结果:
3.3. 生成月牙
x, y = datasets.make_moons(n_samples=3000, noise=0.05)
3.4. 分类
x, y =datasets.make_classification(n_classes=4, n_samples=1000, n_features=2, n_informative=2 , n_redundant=0, n_clusters_per_class=1,n_repeated=0, random_state=22)
其中的参数:
n_classes:类的数目
n_informative:有效的特征数
n_redundant:冗余特征数 有效特征数的线性组合
n_repeated:有效特征数和冗余特征数的有效组合
n_informative + n_redundant + n_repeated < = n_features
n_clusters_per_class:每一类的簇数
n_classes * n_clusters_per_class <= 2**n_informative
查看结果
4. 样例图片
scikit 在通过图片的作者共同授权下嵌入了几个样本 JPEG 图片。这些图像为了方便用户对 test algorithms (测试算法)和 pipeline on 2D data (二维数据管道)进行测试,用datasets.load_sample_image()加载。
from sklearn import datasets
import matplotlib.pyplot as pltimg = datasets.load_sample_image('flower.jpg')
print(img.shape) # (427, 640, 3)
print(img.dtype) # uint8
plt.imshow(img)
plt.show()
sklean中自带的数据集相关推荐
- 如何使用pyecharts中自带的数据集?
如何使用 pyecharts 中自带的数据集? 我们在学习pyehcarts绘图的过程中,需要一些练习的数据. pyecharts为我们提供了这样的数据集 – Faker,存储于 faker.py 文 ...
- R语言中自带的一些数据集
在用R语言做数据分析的时候,我们经常需要一些数据做实验,尤其当学会一个新的方法或者算法的时候,就想赶快编程实现一下.那么,问题来了,用什么数据好呢,什么样的数据适合做这种实验呢? 好在R语言提供了很多 ...
- python训练数据集_Python——sklearn提供的自带的数据集
sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downlo ...
- python的自带数据集_机器学习基础 / 加载scikit-learn自带的数据集 - 汇智网
加载Scikit-learn自带的数据集 scikit-learn自带少量数据集,比如说用于分类分析的鸢尾花数据集和数码数据集.用于回归分析的波士顿房价数据集. 数据集是一个字典类对象,它包括数据以及 ...
- python的自带数据集_Python——sklearn提供的自带的数据集
sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downlo ...
- python的自带数据集_sklearn提供的自带的数据集
sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downloaded Dataset):skl ...
- PyTorch中的MIT ADE20K数据集的语义分割
PyTorch中的MIT ADE20K数据集的语义分割 代码地址:https://github.com/CSAILVision/semantic-segmentation-pytorch Semant ...
- 记得ajax中要带上AntiForgeryToken防止CSRF攻击
经常看到在项目中ajax post数据到服务器不加防伪标记,造成CSRF攻击 在Asp.net Mvc里加入防伪标记很简单在表单中加入Html.AntiForgeryToken()即可. Html.A ...
- WPF中制作带中国农历的万年历
WPF中制作带中国农历的万年历 原文:WPF中制作带中国农历的万年历 本例应用.net 2.0中的ChineseLunisolarCalendar类,制作出带中国农历的万年历. 先看看效果图片(已缩 ...
最新文章
- 实践 config drive - 每天5分钟玩转 OpenStack(170)
- php 剪贴板,之Windows中的剪贴板
- linux c之命名管道简单使用
- 注册(二)之增加绑定
- 推荐几款国产快速启动工具软件 总有一款适合你的
- 百度智能云服务网格产品 CSM 发布 | 火热公测中
- 企业数据防泄漏解决方案的介绍!
- word论文排版插件_【Office Word】论文排版有关技巧
- Hadoop+Spark 之旅—脚踏实地、仰望星空(教程目录)
- todd li 保留_用Todd Motto对JavaScript进行解密
- 阿里p9就三分钟。。。。。
- 小米路由器 建mysql_轻松在小米路由建自己的网站
- Altium Designer 学习笔记(PCB封装库)
- iOS二维码生成及扫码
- 世界杯期间怎么做营销活动?
- windows查看端口占用情况
- 【JAVA中String类的相关知识】
- Lingoes(灵格斯)词典使用
- 实现:您必须使用微信内置浏览器访问本页面! 的功能
- Postfix + Extmail 企业邮件服务器搭建