sklearn 的数据集有好多个种

自带的小数据集(packaged dataset):sklearn.datasets.load_

可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_

计算机生成的数据集(Generated Dataset):sklearn.datasets.make_

svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)

从买了data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)

①自带的数据集

其中的自带的小的数据集为:sklearn.datasets.load_

from sklearn.datasets importload_iris

#加载数据集

iris=load_iris()

iris.keys()  #dict_keys(['target', 'DESCR', 'data', 'target_names', 'feature_names'])

#数据的条数和维数

n_samples,n_features=iris.data.shapeprint("Number of sample:",n_samples) #Number of sample: 150print("Number of feature",n_features)  #Number of feature 4

#第一个样例print(iris.data[0])      #[ 5.1 3.5 1.4 0.2]print(iris.data.shape)    #(150, 4)print(iris.target.shape)  #(150,)print(iris.target)

"""

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

2 2]

"""importnumpy as npprint(iris.target_names)  #['setosa' 'versicolor' 'virginica']

np.bincount(iris.target)  #[50 50 50]importmatplotlib.pyplot as plt

#以第3个索引为划分依据,x_index的值可以为0,1,2,3

x_index=3color=['blue','red','green']for label,color inzip(range(len(iris.target_names)),color):

plt.hist(iris.data[iris.target==label,x_index],label=iris.target_names[label],color=color)

plt.xlabel(iris.feature_names[x_index])

plt.legend(loc="Upper right")

plt.show()

#画散点图,第一维的数据作为x轴和第二维的数据作为y轴

x_index=0

y_index=1colors=['blue','red','green']for label,color inzip(range(len(iris.target_names)),colors):

plt.scatter(iris.data[iris.target==label,x_index],

iris.data[iris.target==label,y_index],

label=iris.target_names[label],

c=color)

plt.xlabel(iris.feature_names[x_index])

plt.ylabel(iris.feature_names[y_index])

plt.legend(loc='upper left')

plt.show()

手写数字数据集load_digits():用于多分类任务的数据集

from sklearn.datasets importload_digits

digits=load_digits()print(digits.data.shape)importmatplotlib.pyplot as plt

plt.gray()

plt.matshow(digits.images[0])

plt.show()from sklearn.datasets importload_digits

digits=load_digits()

digits.keys()

n_samples,n_features=digits.data.shapeprint((n_samples,n_features))print(digits.data.shape)print(digits.images.shape)importnumpy as npprint(np.all(digits.images.reshape((1797,64))==digits.data))

fig=plt.figure(figsize=(6,6))

fig.subplots_adjust(left=0,right=1,bottom=0,top=1,hspace=0.05,wspace=0.05)#绘制数字:每张图像8*8像素点

for i in range(64):

ax=fig.add_subplot(8,8,i+1,xticks=[],yticks=[])

ax.imshow(digits.images[i],cmap=plt.cm.binary,interpolation='nearest')#用目标值标记图像

ax.text(0,7,str(digits.target[i]))

plt.show()

乳腺癌数据集load-barest-cancer():简单经典的用于二分类任务的数据集

糖尿病数据集:load-diabetes():经典的用于回归认为的数据集,值得注意的是,这10个特征中的每个特征都已经被处理成0均值,方差归一化的特征值,

波士顿房价数据集:load-boston():经典的用于回归任务的数据集

体能训练数据集:load-linnerud():经典的用于多变量回归任务的数据集,其内部包含两个小数据集:Excise是对3个训练变量的20次观测(体重,腰围,脉搏),physiological是对3个生理学变量的20次观测(引体向上,仰卧起坐,立定跳远)

svmlight/libsvm的每一行样本的存放格式:

:: ....

这种格式比较适合用来存放稀疏数据,在sklearn中,用scipy sparse CSR矩阵来存放X,用numpy数组来存放Y

from sklearn.datasets importload_svmlight_file

x_train,y_train=load_svmlight_file("/path/to/train_dataset.txt","")#如果要加在多个数据的时候,可以用逗号隔开

②生成数据集

生成数据集:可以用来分类任务,可以用来回归任务,可以用来聚类任务,用于流形学习的,用于因子分解任务的

用于分类任务和聚类任务的:这些函数产生样本特征向量矩阵以及对应的类别标签集合

make_blobs:多类单标签数据集,为每个类分配一个或多个正太分布的点集

make_classification:多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等

make_gaussian-quantiles:将一个单高斯分布的点集划分为两个数量均等的点集,作为两类

make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度

make_circle和make_moom产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据

#生成多类单标签数据集

importnumpy as npimportmatplotlib.pyplot as pltfrom sklearn.datasets.samples_generator importmake_blobs

center=[[1,1],[-1,-1],[1,-1]]

cluster_std=0.3X,labels=make_blobs(n_samples=200,centers=center,n_features=2,

cluster_std=cluster_std,random_state=0)print('X.shape',X.shape)print("labels",set(labels))

unique_lables=set(labels)

colors=plt.cm.Spectral(np.linspace(0,1,len(unique_lables)))for k,col inzip(unique_lables,colors):

x_k=X[labels==k]

plt.plot(x_k[:,0],x_k[:,1],'o',markerfacecolor=col,markeredgecolor="k",

markersize=14)

plt.title('data by make_blob()')

plt.show()

#生成用于分类的数据集from sklearn.datasets.samples_generator importmake_classification

X,labels=make_classification(n_samples=200,n_features=2,n_redundant=0,n_informative=2,

random_state=1,n_clusters_per_class=2)

rng=np.random.RandomState(2)

X+=2*rng.uniform(size=X.shape)

unique_lables=set(labels)

colors=plt.cm.Spectral(np.linspace(0,1,len(unique_lables)))for k,col inzip(unique_lables,colors):

x_k=X[labels==k]

plt.plot(x_k[:,0],x_k[:,1],'o',markerfacecolor=col,markeredgecolor="k",

markersize=14)

plt.title('data by make_classification()')

plt.show()

#生成球形判决界面的数据from sklearn.datasets.samples_generator importmake_circles

X,labels=make_circles(n_samples=200,noise=0.2,factor=0.2,random_state=1)print("X.shape:",X.shape)print("labels:",set(labels))

unique_lables=set(labels)

colors=plt.cm.Spectral(np.linspace(0,1,len(unique_lables)))for k,col inzip(unique_lables,colors):

x_k=X[labels==k]

plt.plot(x_k[:,0],x_k[:,1],'o',markerfacecolor=col,markeredgecolor="k",

markersize=14)

plt.title('data by make_moons()')

plt.show()

python的自带数据集_sklearn提供的自带的数据集相关推荐

  1. python训练数据集_Python——sklearn提供的自带的数据集

    sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downlo ...

  2. python的自带数据集_Python——sklearn提供的自带的数据集

    sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downlo ...

  3. python的自带数据集_Python的Sklearn库中的数据集

    一.Sklearn介绍 scikit-learn是Python语言开发的机器学习库,一般简称为sklearn,目前算是通用机器学习算法库中实现得比较完善的库了.其完善之处不仅在于实现的算法多,还包括大 ...

  4. Python数据分析高薪实战第四天 构建国产电视剧评分数据集

    10 实战:手把手教你构建国产电视剧评分数据集 在前面几讲,我们已经学习完了爬虫技术的三个基础环节:下载数据.提取数据以及保存数据. 今天我们将通过一个综合的实战案例来将之前的内容都串联起来,帮你加深 ...

  5. 【Python相关】Vaex :突破pandas,快速分析100GB大数据集

    文章来源于Python大数据分析,作者朱卫军 pandas处理大数据的限制 现在的数据科学比赛提供的数据量越来越大,动不动几十个GB,甚至上百GB,这就要考验机器性能和数据处理能力. Python中的 ...

  6. Python实现猜词游戏 Hangman Game(不带提示和带提示版本)

    本文目录 Python实现猜词游戏(Hangman Game) 一.任务准备 二.Hangman游戏的功能需求 三.辅助函数的构建 1.确定一个单词是否被猜出 2.获取用户当前的猜词进度 3.确定还有 ...

  7. 超详细!手把手带你轻松用 MMSegmentation 跑语义分割数据集

    在带你轻松掌握 MMSegmentation 整体构建流程一文中,我们带大家认识了 MMSegmentation 的整体框架,分享了 MMSegmentation 中已经复现的主流语义分割模型. Op ...

  8. 【python文件操作之利用os筛选出想要的数据集】

    [python文件操作之利用os筛选出想要的数据集] 文章目录 [python文件操作之利用os筛选出想要的数据集] 前言 一.OS模块是什么? 二.使用步骤 1.引入库 2.读入数据 3.观察数据, ...

  9. python if语句多个条件-关于函数:如何在python中为一个if语句提供多个条件

    本问题已经有最佳答案,请猛点这里访问. 所以我在用python 3.1.5编写一些代码,这些代码需要有多个条件才能发生某些事情.例子: 1 2 3 4 5def example(arg1, arg2, ...

最新文章

  1. html字符实体和实体名称 lt;
  2. java static 变量共享_java中如何理解多个对象共享同一个静态成员变量?
  3. DiscuzToolkit
  4. lambda 使用_如何使用Lambda和API网关构建API
  5. 大厂是如何甄别应聘者简历的包装程度的?
  6. Pandas入门教程(二)
  7. python字典返回键值对_从Python字典对象中提取键值对的子集?
  8. [译] Redux vs. React 的 Context API
  9. BZOJ4196 NOI2015 软件包管理器
  10. C# SplitContainer 控件详细用法
  11. 计算机软件文档编制规范百度云,计算机软件文档编制规范
  12. 成功解决RuntimeError: cuda runtime error (30)
  13. gcc -O0 -O1 -O2 -O3 -Os 编译优化等级
  14. 联网时显示已连接无法连接到服务器怎么办,路由器显示已连接不可上网怎么办?...
  15. 量子信息技术(QIT)
  16. win10安装sshpass_安装sshpass
  17. python交互式程序设计导论答案第五周_学堂在线_计算机科学与Python编程导论_章节测试答案...
  18. while循环练习题-检测输入数据中奇数和偶数的个数
  19. .net后台实现ping网关地址操作
  20. 《面试知识,工作可待:集合篇》-java集合面试知识大全

热门文章

  1. 听了邹欣副总裁的讲座对ai的理解
  2. 35 法律法规、标准规范、认证标准汇总
  3. 数字IC/FPGA面试笔试准备(自用填坑中)
  4. 工信部信软司副司长王建伟-《工业互联网平台发展与展望》
  5. android view获取在屏幕上的绝对坐标
  6. java对list筛选_java8特性快速对list集合的筛选过滤和计算
  7. Android RTT : 通过 RTT 确定 WLAN 位置信息
  8. Hive命令的3种调用方式
  9. Python RSA加密
  10. 数据安全治理“觉醒年代”,打好“技术+管理+监管”协同之战