概念:

scikit-learn是Python中最重要的机器学习模块之一。它基于Scipy库,在不同的领域中已经发展出大量基于Scipy的工具包,它们被统一称为Scikits,其中最著名的一个分支就是scikit-learn。它包含众多的机器学习算法,主要分为六大类:分类、回归、聚类、数据降维、模型选择和数据预处理。

使用Scikit--Learn库中的数据集

数据集名称

调用方式

适用算法

鸢尾花数据集

load_iris()

用于分类算法

糖尿病数据集

load_diabetes()

用于回归算法

波士顿房价数据集

load_boston

用于回归算法

手写数字

load_digits()

用于多分类算法

红酒

load_wine()

用于分类算法

威斯康辛州乳腺癌

load_breast_cancer()

用于二分类任务

引用代码:

from sklearn.datasets import load_iris                 #鸢尾花
from sklearn.datasets import load_wine                 #红酒
from sklearn.datasets import load_boston               #波士顿房价
from sklearn.datasets import load_diabetes             #糖尿病
from sklearn.datasets import load_digits               #手写数字
from sklearn.datasets import load_breast_cancer        #威斯康辛州乳腺癌

以使用鸢尾花数据集为例:

from sklearn.datasets import load_iris
data=load_iris()
print(data.keys())  # 查看数据的属性    ['data','target','feature_names','DESCR', 'filename'] ,显示数据集的内容,可以看到内容分别为数据,类标签等
print(data.target)  #可查看类标签
print(data.data.shape,data.target.shape)  # 查看数据的形状 (569, 30) (569,)
print(data.DESCR)      # 描述这个数据集的信息 

通过make_blobs等生成数据集

make_blobs:

X,y=make_blobs(n_samples=300,n_features=2,centers=2, cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=22)
#n_samples:生成的样本数,n_features:样本的特征数(维度),centers:标签的种类数,cluster_std表示每个类别的方差,方差越大,数据越散乱,center_box:数据边界,shuffle :将数据进行洗乱,random_state:官网解释是随机生成器的种子
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()

make_moons:

X,y=make_moons(n_samples=300,noise=0.1,random_state=22)
#n_samples:随机生成样本的数量,noise:噪声值,random_state:随机生成器种子
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()

make_circles:

X,y=make_circles(n_samples=300,noise=0.1,random_state=22)
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()

机器学习基础01--scikit-learn库的运用使用库中的数据集与make_blobs/moons/circles的使用相关推荐

  1. 机器学习与Scikit Learn学习库

    摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...

  2. [转载]Scikit Learn: 在python中机器学习

    原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习 载入示例数据 一个改变数据集大小的示例:数码 ...

  3. Scikit Learn: 在python中机器学习

    Warning 警告:有些没能理解的句子,我以自己的理解意译. 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Ga ...

  4. 《机器学习实战》笔记(01):机器学习基础

    机器学习基础 机器学习能让我们自数据集中受到启发,换句话说利用计算机来彰显数据背后的真实含义. 机器学习在日常生活中的应用 人脸识别 手写数字识别 垃圾邮件过滤 电商的产品推荐 天气预测 疾病诊断 - ...

  5. python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别

    之前我们用自己写KNN算法[网址]识别了MNIST手写识别数据 [数据下载地址] 这里介绍,如何运用Scikit learn库中的KNN,SVM算法进行笔迹识别. 数据说明: 数据共有785列,第一列 ...

  6. Python之数据挖掘实践--scikit learn库介绍和下载、实践、采坑

    文章目录 前言 A sklearn库是什么? A1 依赖库介绍 1.Numpy库 2.Scipy库 3. matplotlib A2 下载安装 B 实践过程 B1 主成分分析(PCA) B2 实现Km ...

  7. 基础篇 | 01 机器学习基础

    本系列概述 核心内容是深度学习,只不过我们会进行代码实践,来巩固我们讲的概念的基础.会使用机器学习开发可以实际使用的工程项目,这也是我们这个系列跟其它机器学习最大区别的地方. 深度学习的意义 当然,不 ...

  8. Python机器学习基础之Matplotlib库的使用

    声明:代码的运行环境为Python3.Python3与Python2在一些细节上会有所不同,希望广大读者注意.本博客以代码为主,代码中会有详细的注释.相关文章将会发布在我的个人博客专栏<Pyth ...

  9. 机器学习算法 01 —— K-近邻算法(数据集划分、归一化、标准化)

    文章目录 系列文章 K-近邻算法 1 什么是K-近邻算法 1.1 K-近邻算法(KNN)概念 1.2 举例说明K-近邻算法 1.3 K-近邻算法流程总结 2 K-近邻算法API初步使用 2.1 Sci ...

  10. 深度学习 机器学习基础_实用的机器学习基础

    深度学习 机器学习基础 This article describes my attempt at the Titanic Machine Learning competition on Kaggle. ...

最新文章

  1. (005) java后台开发之Mac终端命令运行java
  2. kvm(十)虚拟机存储池
  3. 前端学习之——h5适配
  4. 给select设置默认值,在option在页面上已经写死的情况下
  5. 区块链 | 基础链 ICO 白皮书分析
  6. java判断当前时间距离第二天凌晨的秒数
  7. 宫崎骏动画里的新垣结衣见过没?简直美呆!
  8. 肖仰华 | 领域知识图谱落地实践中的问题与对策
  9. 使用 windows命令和iconv.exe批量转换文件编码
  10. saspython知乎_sas比spss好用在哪里?
  11. PotPlayer 禁止更新
  12. 设计模式之GOF23解释器模式
  13. spPaint3d插件maya安装和介绍教程
  14. libpng库的移植与使用
  15. 中国的KNX 智能家居系统,将实现最高级别的安全保障!
  16. YNUOJ-开学大作战之补番真开心(2018/8/29)
  17. 老九学堂 学习 C++ 第四天
  18. 营销邮件这样写 客户打开率会更高
  19. Project 的简单使用
  20. 【小沐学python】(二)Python常见问题汇总

热门文章

  1. 在c语言的switch 语句中,的case后面的表达式,什么值必须在switch语句中case后面
  2. php curl 客户端,php通过curl设置客户端cookie
  3. 树莓派3B和3B+的串口使用(附图)
  4. 8051 C 中的sbit
  5. 用户体验要素的五个层次
  6. Cesium 显示三维地球和地图的开源js库
  7. 【架构思维】:设计服务降级的思路与方法
  8. Lightroom Classic全版本软件安装包(含最新2023)
  9. 大数据查询引擎 PrestoDB
  10. 深入Golang Runtime之Golang GC的过去,当前与未来