2019独角兽企业重金招聘Python工程师标准>>>

数据集的操作

以iris数据集为例,首先导入数据集

iris = datasets.load_iris()

数据集是一个类词典的数据,其属性有

data 数据集,类型是numpy的ndarray
target 数据对应的类标记,类型是一维的ndarray
target_name 类标记对应的名字,类型是一维的ndarray
DESCR 数据集的描述信息

拆分训练集和测试集

训练estimator

通过fit(X,y)和predict(X)分别进行训练和预测,这里以SVM为例训练一个estimator并预测

from sklearn import datasets
from sklearn import svm
from matplotlib import pyplot as plt
import numpy as npdigits = datasets.load_digits()
clf = svm.SVC(gamma=0.001, C=100.)
clf.fit(digits.data[:-1],digits.target[:-1])plt.figure(1, figsize=(3, 3))
plt.imshow(digits.images[-1], cmap=plt.cm.gray_r, interpolation='nearest')
plt.show()print(clf.predict(digits.data[-1:]))

保存模型

通过sklearn.externals下的joblib.dump()来保存训练好的模型,再次使用可以通过load进行导入

from sklearn import datasets
from sklearn import svm
from sklearn.externals import joblibiris = datasets.load_iris()
clf = svm.SVC(gamma=0.001, C=100.)
clf.fit(iris.data[:-2], iris.target[:-2])
print('倒数第一条数据的类标记为', iris.target[-1], ', 预测结果为 ',clf.predict(iris.data[-1:]))joblib.dump(clf, 'model.pkl')
print('倒数第二条数据的类标记为', iris.target[-2], ', 预测的结果为 ',joblib.load('model.pkl').predict(iris.data[-2:-1]))

转载于:https://my.oschina.net/u/3877634/blog/1839088

Sklearn之datasets和训练相关推荐

  1. [Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()

    Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split() 功能: 将数组或矩阵拆分为随机的训练子集和测试子集 ...

  2. Rocchio算法—文本分类

    文本表示:其实就是文本的向量化问题. 向量空间模型的思想是把文档简化为特征项的权重为分量的向量表示,其中选取词作为特征项,权重用词频表示. 其主要用的是TF-IDF算法来计算:TF(词频)是一个词语出 ...

  3. 开源sk-dist,超参数调优仅需3.4秒,sk-learn训练速度提升100倍

    作者 | Evan Harris 译者 | Monanfei 编辑 | Jane  出品 | AI科技大本营(ID:rgznai100) [导语]这篇文章为大家介绍了一个开源项目--sk-dist.在 ...

  4. 将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架

    点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 选自Medium 作者:Evan Harris 机器之心编译 参与: ...

  5. sklearn基础篇(一)-- datasets数据集

    sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:         1. 通用数据集         2. 真实世界中的数据集         3. 样本生成器     ...

  6. sklearn训练感知器用iris数据集

    简化版代码 1 from sklearn import datasets 2 import numpy as np 3 4 #获取data和类标 5 iris = datasets.load_iris ...

  7. Python+sklearn训练结果保存与加载(以垃圾邮件分类为例)

    技术要点:把sklearn中模型的训练结果保存为文件,然后再从文件中加载训练结果直接使用,不需要反复进行训练. 查看原文

  8. example datasets in sklearn

    sklearn.datasets: Datasets¶ make_** ⇒ generator load_** ⇒ loader 0. 可用数据集 iris(三个类别)digits(10个类别) fr ...

  9. sklearn.datasets数据集和下载网站

    sklearn.datasets包包含的数据集有: load_boston:波士顿数据集 load_iris :鸢尾花数据集 load_diabetes :糖尿病数据集 load_digits :数字 ...

最新文章

  1. 快速设置戴尔latitude笔记本的触摸板和指点杆
  2. 图形学大牛归国投身产业,还是个让女孩们败家的赛道
  3. android 自定义event,Android运用onTouchEvent自定义滑动布局
  4. Linux下Sniffer程序的实现
  5. 二十年后的回眸(5)——一部单车闯天下
  6. 9.Boost之正则regex
  7. [C++11]常量表达式函数
  8. 小程序多个echars_小程序界面与逻辑
  9. mysql s授权所有用户_批量获取mysql用户权限的方法
  10. 输入三个字符串,按由小到大的顺序输出 字符串排序-一种简单的方法
  11. ios 从前台返回到回台 从后台返回到前台 或者 支付宝支付订单后 对界面进行操作...
  12. 【PTA】浙大版《C语言程序设计(第3版)》题目集
  13. 蓝桥杯 ADV-105 算法提高 不同单词个数统计
  14. 包含对象的json格式_如何把JSON数据格式转换为Python的类对象?
  15. 初识视觉SLAM:用相机解决定位和建图问题
  16. yuemiao-开发(一)
  17. 安装corelDraw x8过程遇到的坑
  18. 重装系统后计算机无法启动,Win7纯净版系统重装后无法开机的原因和解决方法...
  19. aliyun资源编排 介绍和实例
  20. 怎样实现订单和销量快速增长?电商小程序的五大裂变玩法需了解!

热门文章

  1. 蓝桥杯 ADV-238 算法提高 P0101
  2. [Java] 蓝桥杯PREV-33 历届试题 兰顿蚂蚁
  3. 蓝桥杯 ALGO-103 算法训练 完数
  4. c语言编写自动生成密码,c语言密码生成.doc
  5. zabbix--从入门到精通之zabbix历史数据
  6. 4.安全与NAT策略-1
  7. 多租户数据中心采用SDN的优势和挑战
  8. Android用canvas画哆啦A梦
  9. dom4j 中文api
  10. linux文件的三个主要的修改时间