python datasets_python基础之sklearn.datasets
sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法,可以通过dir或help命令查看,我们会发现主要有三种形式:load_、fetch_及make_的方法
(1)datasets.load_:sklearn包自带的小数据集
In [2]: datasets.load_*?
datasets.load_boston#波士顿房价数据集
datasets.load_breast_cancer#乳腺癌数据集
datasets.load_diabetes#糖尿病数据集
datasets.load_digits#手写体数字数据集
datasets.load_files
datasets.load_iris#鸢尾花数据集
datasets.load_lfw_pairs
datasets.load_lfw_people
datasets.load_linnerud#体能训练数据集
datasets.load_mlcomp
datasets.load_sample_image
datasets.load_sample_images
datasets.load_svmlight_file
datasets.load_svmlight_files
数据集文件在sklearn安装目录下datasets\data文件下
(2)datasets.fetch_:比较大的数据集,主要用于测试解决实际问题,支持在线下载
In [3]: datasets.fetch_*?
datasets.fetch_20newsgroups
datasets.fetch_20newsgroups_vectorized
datasets.fetch_california_housing
datasets.fetch_covtype
datasets.fetch_kddcup99
datasets.fetch_lfw_pairs
datasets.fetch_lfw_people
datasets.fetch_mldata
datasets.fetch_olivetti_faces
datasets.fetch_rcv1
datasets.fetch_species_distributions
下载下来的数据,默认保存在~/scikit_learn_data文件夹下,可以通过设置环境变量SCIKIT_LEARN_DATA修改路径,datasets.get_data_home()获取下载路径
(3)datasets.make_*?:构造数据集
In [4]: datasets.make_*?
datasets.make_biclusters
datasets.make_blobs
datasets.make_checkerboard
datasets.make_circles
datasets.make_classification
datasets.make_friedman1
datasets.make_friedman2
datasets.make_friedman3
datasets.make_gaussian_quantiles
datasets.make_hastie_10_2
datasets.make_low_rank_matrix
datasets.make_moons
datasets.make_multilabel_classification
datasets.make_regression
datasets.make_s_curve
datasets.make_sparse_coded_signal
datasets.make_sparse_spd_matrix
datasets.make_sparse_uncorrelated
datasets.make_spd_matrix
datasets.make_swiss_roll
下面以make_regression()函数为例,首先看看函数语法:
make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)
参数说明:
n_samples:样本数
n_features:特征数(自变量个数)
n_informative:相关特征(相关自变量个数)即参与了建模型的特征数
n_targets:因变量个数
bias:偏差(截距)
coef:是否输出coef标识
In [7]: data = datasets.make_regression(5,3,2,2,1.0,coef=True)
...: data
...:
Out[7]:
(array([[-0.64470031, 2.24028402, -2.26147027],
[-0.09554589, 1.4653344 , -0.8882202 ],
[-1.36214673, 0.08935031, 0.66733545],
[-1.30553824, 1.62553382, 0.65693763],
[-0.81528358, 0.81659886, 1.32412053]]),
array([[ 177.32114822, -42.34640341],
[ 127.51997766, -1.98105497],
[ -37.82547178, -104.69214796],
[ 100.19123506, -95.62163254],
[ 45.35860387, -59.94143654]]),
array([[ 34.3135368 , 77.79161196],
[ 88.57943632, 3.03795085],
[ 0. , 0. ]]))
上述输出结果:元组中的三个数组分别对应输入数据X,输出数据y,coef对应数组
python datasets_python基础之sklearn.datasets相关推荐
- python机器学习基础05——sklearn之逻辑回归+分类评价指标
文章目录 逻辑回归 逻辑回归的损失函数 逻辑回归API 分类模型的评价指标 混淆矩阵 准确率 召回率(较多被使用) 精确率 f1-score:精确率和召回率的调和平均数 AUC 逻辑回归 逻辑回归是经 ...
- 【Python学习】 - sklearn学习 - 自带数据集sklearn.datasets.x
sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downloaded Dataset):skl ...
- Python机器学习笔记:sklearn库的学习
自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法.还包括了特征提取,数据 ...
- Python机器学习基础教程-第2章-监督学习之K近邻
前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
- Python数模笔记-Sklearn (1)介绍
1.SKlearn 是什么 Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包. Sklearn 主要用Python编写,建立在 Numpy.Scipy.Pa ...
- Python机器学习基础教程(1)Irises(鸢尾花)分类之新手上路
一.感谢博客的内容提供的参考 标题:最新版学习笔记---Python机器学习基础教程(1)Irises(鸢尾花)分类---附完整代码 作者:非鱼子焉 地址:https://zhu-rui.blog.c ...
- 最新版学习笔记---Python机器学习基础教程(1)Irises(鸢尾花)分类---附完整代码
开始学习机器学习基础,在此留下学习心得与自己的理解. 啥也不说,先看一下鸢尾花啥样 好看吧~~~~ Iris 1.环境搭建 2.了解数据 2.1读取数据 2.2查看数据 3.分离数据 4.构建模型(k ...
- Python机器学习基础篇三《无监督学习与预处理》
前言 前期回顾: Python机器学习基础篇二<为什么用Python进行机器学习> 上面这篇里面写了文本和序列相关. 我们要讨论的第二种机器学习算法是无监督学习算法.无监督学习包括没有已知 ...
- Python机器学习基础
1 机器学习的定义 从广义上来说,机器学习是一种可以赋予机器学习的能力以此让它完成直接进行编程无法完成的功能的方法.机器学习也是人工智能的核心,其涉及知识非常广泛,比如概率论,统计学,近似理论,高等数 ...
最新文章
- WordPress工作原理之程序文件执行顺序
- Android常见面试题(一)
- 像疯狗一般,你就具备了向上的资格
- MySQL之备份恢复
- springboot+mybatis实现数据分页(三种方式)
- 【转】linux tar.gz zip 解压缩 压缩命令
- linux cdc设备驱动程序,Linux Kernel 'cdc-wdm' USB设备驱动程序堆缓冲区溢出漏洞
- 在 IntelliJ IDEA 中部署应用到服务器
- mysql查询行数据_MySQL数据库~~~~~查询行(文件的内容)
- Django 开发的个人博客源码分享
- 画出清明上河图的代码_【高清】清明上河图(代码)
- html修改字体大小到10像素,ps怎么修改字体大小
- 游山西村 陆游- 南宋
- 我的世界java版变形模组下载_我的世界变形模组
- Python分布式通用爬虫(4)
- oracle教程课件,Oracle教程三PPT课件
- 埃森哲java笔试_【埃森哲Java面试】埃森哲java面试-看准网
- Blazor开发WEB程序
- Home Assistant 开发指南
- Pandas警告:DeprecationWarning: .ix is deprecated.(ix、loc、iloc的区别)
热门文章
- 皮一皮:盖茨这婚离的是多土豪...
- 皮一皮:不是很懂他的精神追求,有懂得来解释下...
- 用了10年的微信表情,它居然偷偷把烟给戒了...
- 皮一皮:从地理位置分析当年的那件事...
- 每日一皮:你偷偷藏私房钱时被老婆发现的样子...
- Java对象转JSON时如何动态的增删改查属性
- HTML 转 PDF 新姿势
- 不努力提高效率,小姐姐都被人追走了:K8S一键部署了解一下?
- sweet+alert+ajax,Ajax相关
- html页面怎样禁止复制粘贴,javascript中如何禁止复制粘贴?