sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法,可以通过dir或help命令查看,我们会发现主要有三种形式:load_、fetch_及make_的方法

(1)datasets.load_:sklearn包自带的小数据集

In [2]: datasets.load_*?

datasets.load_boston#波士顿房价数据集

datasets.load_breast_cancer#乳腺癌数据集

datasets.load_diabetes#糖尿病数据集

datasets.load_digits#手写体数字数据集

datasets.load_files

datasets.load_iris#鸢尾花数据集

datasets.load_lfw_pairs

datasets.load_lfw_people

datasets.load_linnerud#体能训练数据集

datasets.load_mlcomp

datasets.load_sample_image

datasets.load_sample_images

datasets.load_svmlight_file

datasets.load_svmlight_files

数据集文件在sklearn安装目录下datasets\data文件下

(2)datasets.fetch_:比较大的数据集,主要用于测试解决实际问题,支持在线下载

In [3]: datasets.fetch_*?

datasets.fetch_20newsgroups

datasets.fetch_20newsgroups_vectorized

datasets.fetch_california_housing

datasets.fetch_covtype

datasets.fetch_kddcup99

datasets.fetch_lfw_pairs

datasets.fetch_lfw_people

datasets.fetch_mldata

datasets.fetch_olivetti_faces

datasets.fetch_rcv1

datasets.fetch_species_distributions

下载下来的数据,默认保存在~/scikit_learn_data文件夹下,可以通过设置环境变量SCIKIT_LEARN_DATA修改路径,datasets.get_data_home()获取下载路径

(3)datasets.make_*?:构造数据集

In [4]: datasets.make_*?

datasets.make_biclusters

datasets.make_blobs

datasets.make_checkerboard

datasets.make_circles

datasets.make_classification

datasets.make_friedman1

datasets.make_friedman2

datasets.make_friedman3

datasets.make_gaussian_quantiles

datasets.make_hastie_10_2

datasets.make_low_rank_matrix

datasets.make_moons

datasets.make_multilabel_classification

datasets.make_regression

datasets.make_s_curve

datasets.make_sparse_coded_signal

datasets.make_sparse_spd_matrix

datasets.make_sparse_uncorrelated

datasets.make_spd_matrix

datasets.make_swiss_roll

下面以make_regression()函数为例,首先看看函数语法:

make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

参数说明:

n_samples:样本数

n_features:特征数(自变量个数)

n_informative:相关特征(相关自变量个数)即参与了建模型的特征数

n_targets:因变量个数

bias:偏差(截距)

coef:是否输出coef标识

In [7]: data = datasets.make_regression(5,3,2,2,1.0,coef=True)

...: data

...:

Out[7]:

(array([[-0.64470031,  2.24028402, -2.26147027],

[-0.09554589,  1.4653344 , -0.8882202 ],

[-1.36214673,  0.08935031,  0.66733545],

[-1.30553824,  1.62553382,  0.65693763],

[-0.81528358,  0.81659886,  1.32412053]]),

array([[ 177.32114822,  -42.34640341],

[ 127.51997766,  -1.98105497],

[ -37.82547178, -104.69214796],

[ 100.19123506,  -95.62163254],

[  45.35860387,  -59.94143654]]),

array([[ 34.3135368 ,  77.79161196],

[ 88.57943632,  3.03795085],

[  0.        ,  0.        ]]))

上述输出结果:元组中的三个数组分别对应输入数据X,输出数据y,coef对应数组

python datasets_python基础之sklearn.datasets相关推荐

  1. python机器学习基础05——sklearn之逻辑回归+分类评价指标

    文章目录 逻辑回归 逻辑回归的损失函数 逻辑回归API 分类模型的评价指标 混淆矩阵 准确率 召回率(较多被使用) 精确率 f1-score:精确率和召回率的调和平均数 AUC 逻辑回归 逻辑回归是经 ...

  2. 【Python学习】 - sklearn学习 - 自带数据集sklearn.datasets.x

    sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downloaded Dataset):skl ...

  3. Python机器学习笔记:sklearn库的学习

    自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法.还包括了特征提取,数据 ...

  4. Python机器学习基础教程-第2章-监督学习之K近邻

    前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...

  5. Python数模笔记-Sklearn (1)介绍

    1.SKlearn 是什么 Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包. Sklearn 主要用Python编写,建立在 Numpy.Scipy.Pa ...

  6. Python机器学习基础教程(1)Irises(鸢尾花)分类之新手上路

    一.感谢博客的内容提供的参考 标题:最新版学习笔记---Python机器学习基础教程(1)Irises(鸢尾花)分类---附完整代码 作者:非鱼子焉 地址:https://zhu-rui.blog.c ...

  7. 最新版学习笔记---Python机器学习基础教程(1)Irises(鸢尾花)分类---附完整代码

    开始学习机器学习基础,在此留下学习心得与自己的理解. 啥也不说,先看一下鸢尾花啥样 好看吧~~~~ Iris 1.环境搭建 2.了解数据 2.1读取数据 2.2查看数据 3.分离数据 4.构建模型(k ...

  8. Python机器学习基础篇三《无监督学习与预处理》

    前言 前期回顾: Python机器学习基础篇二<为什么用Python进行机器学习> 上面这篇里面写了文本和序列相关. 我们要讨论的第二种机器学习算法是无监督学习算法.无监督学习包括没有已知 ...

  9. Python机器学习基础

    1 机器学习的定义 从广义上来说,机器学习是一种可以赋予机器学习的能力以此让它完成直接进行编程无法完成的功能的方法.机器学习也是人工智能的核心,其涉及知识非常广泛,比如概率论,统计学,近似理论,高等数 ...

最新文章

  1. WordPress工作原理之程序文件执行顺序
  2. Android常见面试题(一)
  3. 像疯狗一般,你就具备了向上的资格
  4. MySQL之备份恢复
  5. springboot+mybatis实现数据分页(三种方式)
  6. 【转】linux tar.gz zip 解压缩 压缩命令
  7. linux cdc设备驱动程序,Linux Kernel 'cdc-wdm' USB设备驱动程序堆缓冲区溢出漏洞
  8. 在 IntelliJ IDEA 中部署应用到服务器
  9. mysql查询行数据_MySQL数据库~~~~~查询行(文件的内容)
  10. Django 开发的个人博客源码分享
  11. 画出清明上河图的代码_【高清】清明上河图(代码)
  12. html修改字体大小到10像素,ps怎么修改字体大小
  13. 游山西村 陆游- 南宋
  14. 我的世界java版变形模组下载_我的世界变形模组
  15. Python分布式通用爬虫(4)
  16. oracle教程课件,Oracle教程三PPT课件
  17. 埃森哲java笔试_【埃森哲Java面试】埃森哲java面试-看准网
  18. Blazor开发WEB程序
  19. Home Assistant 开发指南
  20. Pandas警告:DeprecationWarning: .ix is deprecated.(ix、loc、iloc的区别)

热门文章

  1. 皮一皮:盖茨这婚离的是多土豪...
  2. 皮一皮:不是很懂他的精神追求,有懂得来解释下...
  3. 用了10年的微信表情,它居然偷偷把烟给戒了...
  4. 皮一皮:从地理位置分析当年的那件事...
  5. 每日一皮:你偷偷藏私房钱时被老婆发现的样子...
  6. Java对象转JSON时如何动态的增删改查属性
  7. HTML 转 PDF 新姿势
  8. 不努力提高效率,小姐姐都被人追走了:K8S一键部署了解一下?
  9. sweet+alert+ajax,Ajax相关
  10. html页面怎样禁止复制粘贴,javascript中如何禁止复制粘贴?