传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。

1. 获取数据

1.1 导入sklearn数据集

sklearn中包含了大量的优质的数据集,在你学习机器学习的过程中,你可以通过使用这些数据集实现出不同的模型,从而提高你的动手实践能力,同时这个过程也可以加深你对理论知识的理解和把握。(这一步我也亟需加强,一起加油!-

首先呢,要想使用sklearn中的数据集,必须导入datasets模块:

from sklearn import datasets
iris = datasets.load_iris() # 导入数据集
X = iris.data # 获得其特征向量
y = iris.target # 获得样本label

1.2 创建数据集

你除了可以使用sklearn自带的数据集,还可以自己去创建训练样本,具体用法参见《Dataset loading utilities》,这里我们简单介绍一些,sklearn中的samples generator包含的大量创建样本数据的方法:

from sklearn.datasets.samples_generator import make_classificationX, y = make_classification(n_samples=6, n_features=5, n_informative=2, n_redundant=2, n_classes=2, n_clusters_per_class=2, scale=1.0, random_state=20)# n_samples:指定样本数
# n_features:指定特征数
# n_classes:指定几分类
# random_state:随机种子,使得随机状可重
for x_,y_ in zip(X,y):print(y_,end=': ')print(x_)
0: [-0.6600737  -0.0558978   0.82286793  1.1003977  -0.93493796]
1: [ 0.4113583   0.06249216 -0.90760075 -1.41296696  2.059838  ]
1: [ 1.52452016 -0.01867812  0.20900899  1.34422289 -1.61299022]
0: [-1.25725859  0.02347952 -0.28764782 -1.32091378 -0.88549315]
0: [-3.28323172  0.03899168 -0.43251277 -2.86249859 -1.10457948]
1: [ 1.68841011  0.06754955 -1.02805579 -0.83132182  0.93286635]

2. 数据预处理

数据预处理阶段是机器学习中不可缺少的一环,它会使得数据更加有效的被模型或者评估器识别。下面我们来看一下sklearn中有哪些平时我们常用的函数:

from sklearn import preprocessing
train_data = [[0, 0], [0, 0], [1, 1], [1, 1]]
test_data = train_data
# 1. 基于mean和std的标准化
scaler = preprocessing.StandardScaler().fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)# 2. 将每个特征值归一化到一个固定范围
scaler = preprocessing.MinMaxScaler(feature_range=(0, 1)).fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)
#feature_range: 定义归一化范围,注用()括起来
array([[0., 0.],[0., 0.],[1., 1.],[1., 1.]])

2.2 正则化(normalize)

当你想要计算两个样本的相似度时必不可少的一个操作,就是正则化。其思想是:首先求出样本的p-范数,然后该样本的所有元素都要除以该范数,这样最终使得每个样本的范数都为1。

‘’’

X = [[ 1., -1., 2.],
… [ 2., 0., 0.],
… [ 0., 1., -1.]]

X_normalized = preprocessing.normalize(X, norm=‘l2’)

X_normalized
array([[ 0.40…, -0.40…, 0.81…],
[ 1. …, 0. …, 0. …],
[ 0. …, 0.70…, -0.70…]])

‘’’

2.3 one-hot编码

one-hot编码是一种对离散特征值的编码方式,在LR模型中常用到,用于给线性模型增加非线性能力。

data = [[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]
encoder = preprocessing.OneHotEncoder().fit(data)
encoder.transform(data).toarray()
/Users/andrew/opt/anaconda3/lib/python3.7/site-packages/sklearn/preprocessing/_encoders.py:415: FutureWarning: The handling of integer data will change in version 0.22. Currently, the categories are determined based on the range [0, max(values)], while in the future they will be determined based on the unique values.
If you want the future behaviour and silence this warning, you can specify "categories='auto'".
In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.warnings.warn(msg, FutureWarning)array([[1., 0., 1., 0., 0., 0., 0., 0., 1.],[0., 1., 0., 1., 0., 1., 0., 0., 0.],[1., 0., 0., 0., 1., 0., 1., 0., 0.],[0., 1., 1., 0., 0., 0., 0., 1., 0.]])
# 作用:将数据集划分为 训练集和测试集
# 格式:train_test_split(*arrays, **options)
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

4. 定义模型

在这一步我们首先要分析自己数据的类型,搞清出你要用什么模型来做,然后我们就可以在sklearn中定义模型了。sklearn为所有模型提供了非常相似的接口,这样使得我们可以更加快速的熟悉所有模型的用法。在这之前我们先来看看模型的常用属性和功能:

拟合模型

model.fit(X_train, y_train)

模型预测

model.predict(X_test)

获得这个模型的参数

model.get_params()

为模型进行打分

model.score(data_X, data_y) # 线性回归:R square; 分类问题: acc

from sklearn.linear_model import LinearRegression

定义线性回归模型

model = LinearRegression(fit_intercept=True, normalize=False,
copy_X=True, n_jobs=1)
“”"
参数

fit_intercept:是否计算截距。False-模型没有截距
normalize: 当fit_intercept设置为False时,该参数将被忽略。 如果为真,则回归前的回归系数X将通过减去平均值并除以l2-范数而归一化。n_jobs:指定线程数

from sklearn.linear_model import LogisticRegression

定义逻辑回归模型

model = LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0,
fit_intercept=True, intercept_scaling=1, class_weight=None,
random_state=None, solver=’liblinear’, max_iter=100, multi_class=’ovr’,
verbose=0, warm_start=False, n_jobs=1)

参数

penalty:使用指定正则化项(默认:l2)
dual: n_samples > n_features取False(默认)
C:正则化强度的反,值越小正则化强度越大
n_jobs: 指定线程数
random_state:随机数生成器
fit_intercept: 是否需要常量

from sklearn import naive_bayes
model = naive_bayes.GaussianNB() # 高斯贝叶斯
model = naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)
model = naive_bayes.BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)
“”"
文本分类问题常用MultinomialNB
参数

alpha:平滑参数
fit_prior:是否要学习类的先验概率;false-使用统一的先验概率
class_prior: 是否指定类的先验概率;若指定则不能根据参数调整
binarize: 二值化的阈值,若为None,则假设输入由二进制向量组成

4.4 决策树DT

from sklearn import tree
model = tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0,
max_features=None, random_state=None, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None,
class_weight=None, presort=False)
参数

criterion :特征选择准则gini/entropy
max_depth:树的最大深度,None-尽量下分
min_samples_split:分裂内部节点,所需要的最小样本树
min_samples_leaf:叶子节点所需要的最小样本数
max_features: 寻找最优分割点时的最大特征数
max_leaf_nodes:优先增长到最大叶子节点数
min_impurity_decrease:如果这种分离导致杂质的减少大于或等于这个值,则节点将被拆分。

from sklearn.svm import SVC
model = SVC(C=1.0, kernel=’rbf’, gamma=’auto’)
参数

C:误差项的惩罚参数C
gamma: 核相关系数。浮点数,If gamma is ‘auto’ then 1/n_features will be used instead.

from sklearn.neural_network import MLPClassifier

定义多层感知机分类算法

model = MLPClassifier(activation=‘relu’, solver=‘adam’, alpha=0.0001)
参数

hidden_layer_sizes: 元祖
activation:激活函数
solver :优化算法{‘lbfgs’, ‘sgd’, ‘adam’}
alpha:L2惩罚(正则化项)参数。

5. 模型评估与选择篇

5.1 交叉验证

from sklearn.model_selection import cross_val_score

cross_val_score(model, X, y=None, scoring=None, cv=None, n_jobs=1)
参数

model:拟合数据的模型
cv : k-fold
scoring: 打分参数-‘accuracy’、‘f1’、‘precision’、‘recall’ 、‘roc_auc’、'neg_log_loss'等等

5.2 检验曲线

使用检验曲线,我们可以更加方便的改变模型参数,获取模型表现。

from sklearn.model_selection import validation_curve
train_score, test_score = validation_curve(model, X, y, param_name, param_range, cv=None, scoring=None, n_jobs=1)
参数

model:用于fit和predict的对象
X, y: 训练集的特征和标签
param_name:将被改变的参数的名字
param_range: 参数的改变范围
cv:k-fold

返回值

train_score: 训练集得分(array)
test_score: 验证集得分(array)

6. 保存模型

最后,我们可以将我们训练好的model保存到本地,或者放到线上供用户使用,那么如何保存训练好的model呢?主要有下面两种方式:

6.1 保存为pickle文件

import pickle

保存模型

with open(‘model.pickle’, ‘wb’) as f:

pickle.dump(model, f)

读取模型

with open(‘model.pickle’, ‘rb’) as f:

model = pickle.load(f)

model.predict(X_test)

6.2 sklearn自带方法joblib

from sklearn.externals import joblib

保存模型

joblib.dump(model, ‘model.pickle’)

载入模型

model = joblib.load(‘model.pickle’)


sklearn API快速上手相关推荐

  1. Python爬虫之pyppeteer常用API快速上手

    文档API Reference - Pyppeteer 0.0.25 documentation 快速上手常用API总结: # -*- coding:utf-8 -*- import asyncio ...

  2. 【JavaScript】百度地图API快速上手

    获取秘钥 账号和获取秘钥 很欣赏百度这个免费的feel,而且大家如果只是个人在本地的浏览器端运行网页,做简单的测试,基本是不受限的. 点击"申请秘钥"去申请秘钥: 设置应用 接下来 ...

  3. thinkcmf5调用指定分类的二级_Tengine快速上手系列教程amp;视频:基于Python API的图片分类应用入门丨附彩蛋...

    前言:近期,Tengine团队加班加点,好消息接踵而来,OpenCV 4.3.0发布,OPEN AI LAB AIoT智能开发平台Tengine与OpenCV合作共同加速边缘智能,Tengine再获业 ...

  4. 百度 AI Studio——《高层API助你快速上手深度学习》课程学习1

    百度 AI Studio--<高层API助你快速上手深度学习>课程学习1 该系列文章系个人读书笔记及总结性内容,任何组织和个人不得转载进行商业活动! 相关链接: 飞桨:飞桨开源框架(Pad ...

  5. ArcGIS API for JavaScript :简介与快速上手

    一.简介 子路曰:"卫君待子而为政,子将奚先?"子曰:"必也正名乎!" 孔子认为,为政最先要做的事情是正名,名不正则言不顺. 语言是上天赋予人类的神奇能力,而& ...

  6. TensorFlow 2.0 快速上手教程与手写数字识别例子讲解

    文章目录 TensorFlow 基础 自动求导机制 参数优化 TensorFlow 模型建立.训练与评估 通用模型的类结构 多层感知机手写数字识别 Keras Pipeline * TensorFlo ...

  7. 【转】Vue.js 2.0 快速上手精华梳理

    Vue.js 2.0 快速上手精华梳理 Sandy 发掘代码技巧:公众号:daimajiqiao 自从Vue2.0发布后,Vue就成了前端领域的热门话题,github也突破了三万的star,那么对于新 ...

  8. WijmoJS 2019V1正式发布:全新的在线 Demo 系统,助您快速上手,开发无忧

    2019独角兽企业重金招聘Python工程师标准>>> 下载WijmoJS 2019 v1 WijmoJS是为企业应用程序开发而推出的一系列包含HTML5和JavaScript的开发 ...

  9. react 快速上手开发_React中测试驱动开发的快速指南

    react 快速上手开发 by Michał Baranowski 通过MichałBaranowski React中测试驱动开发的快速指南 (A quick guide to test-driven ...

最新文章

  1. Rendering failed with a known bug ,Please try a rebuild
  2. 零售业如何用Hadoop开启大数据之门?
  3. Py之BaseHTTPServer:Python库之BaseHTTPServer的简介、安装、使用方法之详细攻略
  4. CCF NOI1123 A-B
  5. 十个jQuery的幻灯片图片轮播切换插件[转]
  6. SecureCRTSecureFX_HH_x64_7.0.0.326 crt部署项目到服务器
  7. Manjaro下的实用命令搜集
  8. jar包冲突与inode
  9. python创建类和类方法
  10. linux php运行用户,Linux中普通用户如何以root身份运行命令
  11. 谷歌浏览器开发调式工具文档
  12. 看见的力量 – (II) 影响地图
  13. 数据结构和算法——树结构(二叉树的创建、查找、遍历和删除)
  14. PHP字符串函数hex2bin( 转换十六进制字符串为二进制字符串)
  15. cass小插件集合_CASS插件合集 - 下载 - 搜珍网
  16. 非晶金属模型建模:Ovito方法
  17. SSL安全证书不受信任怎么办
  18. 机器学习 | 牛顿冷却定律
  19. 网络三剑客之sed编辑器
  20. 2017已经接近尾声,然而我却什么都没干成

热门文章

  1. 机器学习数学基础:数理统计与描述性统计
  2. 剑指offer_第6题_旋转数组的最小数字
  3. 深入浅出统计学(十二)置信区间
  4. 全球最大最干净的人脸公开训练集!格灵深瞳发布Glint360K
  5. 既然很多工作 35 岁就会被裁员,那么深耕一个领域的意义是什么?
  6. 【面试现场】如何在10亿数中找出前1000大的数
  7. Linux里面的正则表达式!
  8. Python高级特性:切片、迭代、列表生成式、生成器与迭代器
  9. Python+OpenCV实现自动扫雷,创造属于自己的世界记录!
  10. AOI检测基本原理与设备构成