2019独角兽企业重金招聘Python工程师标准>>>

数据集的操作

以iris数据集为例，首先导入数据集

iris = datasets.load_iris()

数据集是一个类词典的数据，其属性有

data	数据集，类型是numpy的ndarray
target	数据对应的类标记，类型是一维的ndarray
target_name	类标记对应的名字，类型是一维的ndarray
DESCR	数据集的描述信息

拆分训练集和测试集

训练estimator

通过fit(X,y)和predict(X)分别进行训练和预测，这里以SVM为例训练一个estimator并预测

from sklearn import datasets
from sklearn import svm
from matplotlib import pyplot as plt
import numpy as npdigits = datasets.load_digits()
clf = svm.SVC(gamma=0.001, C=100.)
clf.fit(digits.data[:-1],digits.target[:-1])plt.figure(1, figsize=(3, 3))
plt.imshow(digits.images[-1], cmap=plt.cm.gray_r, interpolation='nearest')
plt.show()print(clf.predict(digits.data[-1:]))

保存模型

通过sklearn.externals下的joblib.dump()来保存训练好的模型，再次使用可以通过load进行导入

from sklearn import datasets
from sklearn import svm
from sklearn.externals import joblibiris = datasets.load_iris()
clf = svm.SVC(gamma=0.001, C=100.)
clf.fit(iris.data[:-2], iris.target[:-2])
print('倒数第一条数据的类标记为', iris.target[-1], ', 预测结果为 ',clf.predict(iris.data[-1:]))joblib.dump(clf, 'model.pkl')
print('倒数第二条数据的类标记为', iris.target[-2], ', 预测的结果为 ',joblib.load('model.pkl').predict(iris.data[-2:-1]))

转载于:https://my.oschina.net/u/3877634/blog/1839088

Sklearn之datasets和训练相关推荐

[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()
Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split() 功能: 将数组或矩阵拆分为随机的训练子集和测试子集 ...
Rocchio算法—文本分类
文本表示:其实就是文本的向量化问题. 向量空间模型的思想是把文档简化为特征项的权重为分量的向量表示,其中选取词作为特征项,权重用词频表示. 其主要用的是TF-IDF算法来计算:TF(词频)是一个词语出 ...
开源sk-dist，超参数调优仅需3.4秒，sk-learn训练速度提升100倍
作者 | Evan Harris 译者 | Monanfei 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) [导语]这篇文章为大家介绍了一个开源项目--sk-dist.在 ...
将sklearn训练速度提升100多倍，美国「返利网」开源sk-dist框架
点击我爱计算机视觉标星,更快获取CVML新技术本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载选自Medium 作者:Evan Harris 机器之心编译参与: ...
sklearn基础篇（一）-- datasets数据集
sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类: 1. 通用数据集 2. 真实世界中的数据集 3. 样本生成器 ...
sklearn训练感知器用iris数据集
简化版代码 1 from sklearn import datasets 2 import numpy as np 3 4 #获取data和类标 5 iris = datasets.load_iris ...
Python+sklearn训练结果保存与加载（以垃圾邮件分类为例）
技术要点:把sklearn中模型的训练结果保存为文件,然后再从文件中加载训练结果直接使用,不需要反复进行训练. 查看原文
example datasets in sklearn
sklearn.datasets: Datasets¶ make_** ⇒ generator load_** ⇒ loader 0. 可用数据集 iris(三个类别)digits(10个类别) fr ...
sklearn.datasets数据集和下载网站
sklearn.datasets包包含的数据集有: load_boston:波士顿数据集 load_iris :鸢尾花数据集 load_diabetes :糖尿病数据集 load_digits :数字 ...

Sklearn之datasets和训练

数据集的操作

拆分训练集和测试集

训练estimator

保存模型

Sklearn之datasets和训练相关推荐

最新文章

热门文章