作者:Jason Brownlee

编译:Florence Wong – AICUG

本文系AICUG翻译原创,如需转载请联系(微信号:834436689)以获得授权

在对不可见示例进行预测时,模型评估涉及使用可用的数据集来拟合模型,并评估其表现性能。

这是一个具有挑战性的问题,因为用于拟合模型的训练数据集和用于评估模型的测试集都必须足够大,并对潜在问题具有代表性,从而可使对模型性能的最终估计不会过于乐观或悲观。

用于模型评估的两种最常用的方法,是训练/测试拆分和k折(k-fold)交叉验证。尽管这两种方法都可能导致误导性结果,并且在对严重不平衡的分类问题上进行使用时,有可能会失败,但是这两种方法通常都非常有效。

在本教程中,您将发现如何评估不平衡数据集上的分类器模型。

完成本教程后,您将知道:

  • 使用训练/测试拆分和交叉验证在数据集上评估分类器时的挑战。
  • 当评估不平衡数据集上的分类器时,一个k-折交叉验证和训练测试拆分的朴素应用,将如何失败。
  • 修改后的k折交叉验证和训练测试拆分, 如何用于保留数据集中的类分布。

教程概述

本教程分为三个部分:他们是:

  • 评估分类器的挑战
  • k折叠交叉验证的失败
  • 为不平衡分类,修正交叉验证

评估分类器的挑战

评估一个分类模型具有挑战性,因为在使用模型之前,我们不知道模型有多好。

相反,我们必须使用已有目标或结果的可用数据,来估计模型的表现性能。

模型评估不仅仅涉及评估一个模型;还包括测试不同的数据准备方案,不同的学习算法以及针对性能良好的学习算法的不同超参数。

  • 模型=数据准备+学习算法+超参数

理想情况下,可以选择和使用得分最高(根据你选择的测度)的模型构建过程(数据准备,学习算法和超参数)。

最简单的模型评估过程是将数据集分为两部分,其中一部分用于训练模型,第二部分用于测试模型。这样,数据集的各个部分,分别以其功能,训练集和测试集命名。

如果您收集的数据集非常大且能代表问题,则此方法有效。所需的示例数量因问题而异,但可能是数千,数十万或数百万个示例才够用。

训练和测试的分割比例为50/50是理想的,尽管偏斜的分割比例比较普遍,例如训练和测试组合的分割比例为67/33或80/20。

我们很少有足够的数据,从而可以通过使用模型的训练/测试拆分评估,来获得对性能的无偏差估计。取而代之的是,我们的数据集通常比首选数据集小得多,并且必须在该数据集上使用重采样策略。

分类器最常用的模型评估方案是10折(10-folds)交叉验证。

k折交叉验证过程涉及分割训练数据集成ķ部分。前k-1个用于训练模型,第k个保留的部分用作测试集。重复此过程,每个部分都有机会用作保留的测试集。总共对k个模型进行拟合和评估,取其平均值计算得到模型的性能。

与单次训练/测试划分相比,该方法可显示出,在较小训练数据集上模型的不足乐观的性能估计。k = 10的值,显示在多种不同大小的数据集和模型类型上有效。

k折叠交叉验证失败

可悲的是,k折交叉验证不适用于评估不平衡的分类器。

“在分类不平衡的情况下,即使偏斜的极端程度以前考虑要小,十​​倍交叉验证(尤其是机器学习中最常用的错误估计方法)也很容易崩溃。”

—第188页,不平衡的学习:基础,算法和应用,2013年。

原因是数据被分成具有均匀概率分布的k部分。

这对于具有平衡类分布的数据可能会很好,但是当分布严重偏斜时,一部分或多部分折叠可能会出现极少数类的样本很少甚至没有。这意味着某些或许多模型评估会产生误导,因为模型的需求仅是正确预测多数类。

我们可以用一个例子来具体说明。

首先,我们可以定义一个1:100的少数对比多数类分布的数据集。

这可以通过使用make_classification()函数来创建综合数据集,指定示例数(1,000个),类数(2个)以及每个类的权重(99%和1%)来实现。

# generate 2 class dataset

下面的示例生成综合二进制分类数据集并总结类分布。

# create a binary classification dataset
from numpy import unique
from sklearn.datasets import make_classification
# generate 2 class dataset
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.99, 0.01], flip_y=0, random_state=1)
# summarize dataset
classes = unique(y)
total = len(y)
for c in classes:n_examples = len(y[y==c])percent = n_examples / total * 100print('> Class=%d : %d/%d (%.1f%%)' % (c, n_examples, total, percent))

运行示例将创建数据集并汇总每个类中的示例数量。

通过设置random_state参数,可以确保每次运行代码时,我们得到的随机生成的示例相同。

> Class=0 : 990/1000 (99.0%)
> Class=1 : 10/1000 (1.0%)

少数类中总共有10个例子并不多。如果我们使用10-folds,那么在理想情况下,每部分将得到一个示例,这不足以训练模型。出于演示目的,我们将使用5-folds。

在理想情况下,每个部分中将有10/5或两个示例,这意味着训练数据集中的示例量为4 * 2(8),给定测试数据集中的示例量为1 * 2(2)。

首先,我们将使用KFold类将数据集随机分为5部分,并检查每个训练和测试集的组成。下面列出了完整的示例。

# example of k-fold cross-validation with an imbalanced dataset
from sklearn.datasets import make_classification
from sklearn.model_selection import KFold
# generate 2 class dataset
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.99, 0.01], flip_y=0, random_state=1)
kfold = KFold(n_splits=5, shuffle=True, random_state=1)
# enumerate the splits and summarize the distributions
for train_ix, test_ix in kfold.split(X):# select rowstrain_X, test_X = X[train_ix], X[test_ix]train_y, test_y = y[train_ix], y[test_ix]# summarize train and test compositiontrain_0, train_1 = len(train_y[train_y==0]), len(train_y[train_y==1])test_0, test_1 = len(test_y[test_y==0]), len(test_y[test_y==1])print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

运行示例将创建相同的数据集,并枚举数据的每个拆分,从而显示训练集和测试集的类分布。

我们可以看到,在这种情况下,某些拆分有期望的8/2的训练集和测试集的比例,而另一些拆分很差,例如6/4(乐观)和10/0(悲观)。

在这些数据拆分上评估模型不会给出可靠的对性能的评估。

>Train: 0=791, 1=9, Test: 0=199, 1=1
>Train: 0=793, 1=7, Test: 0=197, 1=3
>Train: 0=794, 1=6, Test: 0=196, 1=4
>Train: 0=790, 1=10, Test: 0=200, 1=0
>Train: 0=792, 1=8, Test: 0=198, 1=2

如果我们使用数据集的简单训练/测试拆分,则可以证明类似问题的存在,尽管该问题不太严重。

我们可以使用train_test_split()函数创建数据集的50/50拆分,并且平均而言,如果我们多次执行该拆分操作,我们则希望每个数据集中会出现来自少数类的五个示例。

下面列出了完整的示例。

# example of train/test split with an imbalanced dataset
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
# generate 2 class dataset
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.99, 0.01], flip_y=0, random_state=1)
# split into train/test sets with same class ratio
trainX, testX, trainy, testy = train_test_split(X, y, test_size=0.5, random_state=2)
# summarize
train_0, train_1 = len(trainy[trainy==0]), len(trainy[trainy==1])
test_0, test_1 = len(testy[testy==0]), len(testy[testy==1])
print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

运行示例将创建与之前相同的数据集,并将其拆分为随机训练和测试。

在这种情况下,我们可以看到训练集中都少数类的仅有3个例子,而测试集中有7个。

在这种拆分情况下,评估模型将无法提供足够的示例以供机器学习,示例太多而无法被评估,并且可能会导致性能下降。您可以想象,如果使用更严格意义的随机拆分,情况会变得更糟。

>Train: 0=497, 1=3, Test: 0=493, 1=7

针对不平衡分类的交叉验证的修正

解决方案是在使用k折交叉验证或一个测试拆分时,不要随机拆分数据。

具体来说,尽管我们可以在每个子集中保持相同的类分布,但是我们可以随机拆分数据集。这称为分层或分层抽样,目标变量(y)类用于控制抽样过程。

例如,我们可以使用k折交叉验证的一个版本,该版本保留每个部分中不平衡的类分布。这称为分层k折交叉验证,它将在数据集的每个拆分中强制进行类分布以匹配完整训练数据集中的分布。

“…特别是在类别不平衡的情况下,通常使用分层10折交叉验证,以确保原始数据分布中正例与负例的比例在所有拆分部分中均得到体现。”

—第205页,不平衡的学习:基础,算法和应用,2013年。

我们可以用一个例子来具体说明。

顾名思义,我们可以使用支持分层k折交叉验证的StratifiedKFold类对拆分进行分层。

以下的分层的交叉验证版本,基于相同数据集和相同示例。

# example of stratified k-fold cross-validation with an imbalanced dataset
from sklearn.datasets import make_classification
from sklearn.model_selection import StratifiedKFold
# generate 2 class dataset
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.99, 0.01], flip_y=0, random_state=1)
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=1)
# enumerate the splits and summarize the distributions
for train_ix, test_ix in kfold.split(X, y):# select rowstrain_X, test_X = X[train_ix], X[test_ix]train_y, test_y = y[train_ix], y[test_ix]# summarize train and test compositiontrain_0, train_1 = len(train_y[train_y==0]), len(train_y[train_y==1])test_0, test_1 = len(test_y[test_y==0]), len(test_y[test_y==1])print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

运行示例将像以前一样生成数据集,并汇总每个拆分的训练和测试集的类分布。

在这种情况下,我们可以看到每个拆分均与理想情况下的预期匹配。

少数类中的每个示例都有一个机会在测试集中使用,并且在每个数据集在拆分后的训练和测试集具有相同的类分布。

>Train: 0=792, 1=8, Test: 0=198, 1=2
>Train: 0=792, 1=8, Test: 0=198, 1=2
>Train: 0=792, 1=8, Test: 0=198, 1=2
>Train: 0=792, 1=8, Test: 0=198, 1=2
>Train: 0=792, 1=8, Test: 0=198, 1=2

本示例强调,需要首先为k折交叉验证选择k值,以确保训练和测试集中有足够数量的示例来拟合并评估一个模型(模型中两个来自少数类的示例,对于测试集来说可能太少了)。

它还强调了对不平衡数据集使用分层k折交叉验证的必要性:对一个给定模型的每次评估时,在训练和测试集中,保留了模型的类分布。

我们还可以使用一个训练/测试拆分的分层版本。

这可以通过在应用train_test_split()函数时设置“Stratify“参数,,并将其设置为“ y”-包含数据集中的目标变量的变量。由此,该方程将确定所需的类分布,并确保训练和测试集都具有此分布。

我们可以通过下面列出的示例来证明这一点。

# example of stratified train/test split with an imbalanced dataset
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
# generate 2 class dataset
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.99, 0.01], flip_y=0, random_state=1)
# split into train/test sets with same class ratio
trainX, testX, trainy, testy = train_test_split(X, y, test_size=0.5, random_state=2, stratify=y)
# summarize
train_0, train_1 = len(trainy[trainy==0]), len(trainy[trainy==1])
test_0, test_1 = len(testy[testy==0]), len(testy[testy==1])
print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

运行示例将对数据集创建一个随机拆分的方法,旨在将数据拆分为训练集和测试集时,保留类分布,在这种情况下,每个数据集中保留五个示例。

>Train: 0=495, 1=5, Test: 0=495, 1=5

进一步阅读

如果您想更深入,这里提供了有关该主题的更多资源。

教程:

A Gentle Introduction to k-fold Cross-Validation:

A Gentle Introduction to k-fold Cross-Validation - Machine Learning Mastery​machinelearningmastery.com

书籍:

Imbalanced Learning: Foundations, Algorithms, and Applications, 2013:

https://amzn.to/32K9K6d​amzn.to

API

sklearn.model_selection.KFold - scikit-learn 0.22.2 documentation​scikit-learn.org

sklearn.model_selection.StratifiedKFold - scikit-learn 0.22.2 documentation​scikit-learn.org

sklearn.model_selection.train_test_split - scikit-learn 0.22.2 documentation​scikit-learn.org

k折交叉验证法python实现_Jason Brownlee专栏| 如何解决不平衡分类的k折交叉验证-不平衡分类系列教程(十)...相关推荐

  1. 时序算法交叉验证法python实现

    介绍: 交叉验证_百度百科 时序算法模型的交叉验证: 需求:我们在进行机器学习算法,为了保能够得到可靠稳定的模型,通常需要用到交叉验证法来对模型进行验证.常见的交叉验证形式有Holdout验证,K-f ...

  2. 【深度学习入门到精通系列】留一交叉验证法Python实现(看不懂你来打我~!)

    文章目录 1 留一交叉验证: 2 测试代码 3 代码1输出结果 1 留一交叉验证: 就是将样本集中的样本每次抽取一个不同的样本作为测试集,剩余的样本作为训练集.需要进行原样本个数次抽取,以进行后续的操 ...

  3. 留一法(交叉验证法,Leave-One-Out Cross Validation)

    交叉验证法 这种方法比较简单易懂,就是把一个大的数据集分为k个小数据集,其中k-1个作为训练集,剩下的一个作为测试集,然后选择下一个作为测试集,剩下的k-1个作为训练集,以此类推.这其中,k的取值就比 ...

  4. python交叉验证法_Python实现K折交叉验证法的方法步骤

    学习器在测试集上的误差我们通常称作"泛化误差".要想得到"泛化误差"首先得将数据集划分为训练集和测试集.那么怎么划分呢?常用的方法有两种,k折交叉验证法和自助法 ...

  5. 波斯顿房价(lasso、线性回归、留出法、k折交叉验证法)

    经过几天水水的学习,利用波斯顿房价数据集做了一点小小练习,并写此笔记来记录自己点滴实验心得.新手实验,望有经验人士勿喷,本人抛砖引玉,望得到宝贵建议.如今后有新的体会,则会更新笔记. 1.线性回归+留 ...

  6. 十折交叉验证pythoniris_数据集的划分——交叉验证法

    本文作者:王 歌 文字编辑:戴 雯 技术总编:张 邯Python云端培训课程火热招生中~重大通知!!!爬虫俱乐部于2020年7月11日至14日在线上举行为期四天的Stata编程技术定制培训,招生工作已 ...

  7. 5折交叉验证_数据集的划分——交叉验证法

    本文作者:王 歌 文字编辑:戴 雯 技术总编:张 邯 前面我们在举例时,通常是将所使用的数据集按照75%和25%的比例划分为训练集和测试集,这主要是为了我们举例方便,同时划分后的数据量也依然符合大样本 ...

  8. python 模型交叉验证法_使用交叉验证法(Cross Validation)进行模型评估

    scikit-learn中默认使用的交叉验证法是K折叠交叉验证法(K-fold cross validation):它将数据集拆分成k个部分,再用k个数据集对模型进行训练和评分. 1.K折叠交叉验证法 ...

  9. Java机器学习库ML之九交叉验证法(Cross Validation)

    交叉验证(Cross Validation,CV)是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分 ...

最新文章

  1. java map深拷贝_java 实现Map的深复制
  2. linux文件自动删除,自动删除文件脚本(Linux shell脚本)
  3. Unity版本使用情况统计报告
  4. 2019.3.1版本pycharm撤销及恢复图解
  5. 用JavaScript 控制input的值
  6. 程序员面试100题之九:求子数组的最大和
  7. 推荐收藏!图深度学习发展历史、最新进展与应用
  8. 关于iOS 'The sandbox is not sync with the Podfile.lock'问题解决方法
  9. python如何读取二进制文件为图片_python读取图片,并获取每个像素点的二进制值...
  10. html背景设置为彩色,CSS3 彩色网格背景
  11. Oracle sql语句简单优化
  12. python中trun是什么意思_Python 中 'unicodeescape' codec can't decode bytes in position XXX: trun错误解...
  13. 区块链 链上脚本、智能合约和Dapp的关系区别
  14. Ubuntu上安装NS3(最详细的图文介绍)
  15. excel表格如何画斜线并写字
  16. 20分钟搞定平衡二叉树(AVL树)【超详细】
  17. QT读写Sqlite数据库的三种方式
  18. 大数据Hadoop之——Spark SQL+Spark Streaming
  19. IPv6 基本原理详解介绍
  20. Xshell用root用户连接Linux

热门文章

  1. textlayout Java_Java TextLayout.getBounds方法代码示例
  2. ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集!
  3. 阿里P8架构师谈:高并发与多线程的关系、区别、高并发的技术方案
  4. 论文浅尝 | 基于Freebase的问答研究
  5. 微型计算机性能指标以及分类
  6. 国科大高级人工智能5-RNN/LSTM/GRU/集束搜索/attention
  7. 为什么百度查到的ip地址和ipconfig查到的不同;详解公网Ip和私网ip; 网络分类ABC类;
  8. hdu5693 D gamehdu 5712 D++ game
  9. 一至七-----小东西
  10. 携带cookie进行数据请求