0. 前言

本篇介绍机器学习中的多分类和类别不平衡问题。

1. 多分类学习

一些算法可以直接进行多分类，而另一些算法则不行，基本思路是：将多分类任务拆为若干个二分类任务求解。

一对一（One vs. One, OvO）：给定数据集，将NNN个类别两两配对，产生N(N−1)/2N(N-1)/2N(N−1)/2个二分类任务，最终结果通过投票产生
一对其余（One vs. Rest, OvR）：给定数据集，每次将一个类作为正类，其余类作为反类，训练NNN个分类器，最终结果通过投票产生
多对多（Many vs. Many, MvM）：给定数据集，每次将若干个类作为正类，若干个其他类作为反类，使用纠错输出码ECOC，对NNN个类别作MMM次划分，产生MMM个分类器，MMM个分类器对测试样例进行预测，预测结果组成一个编码，与NNN个类别的编码对比，距离最短的类别就是结果

在类别较少时，OvO的存储开销和测试时间开销通常比OvR更大。

在类别较多时，OvO的训练时间开销通常比OvR更小。

ECOC编码越长，纠错能力越强，计算、存储开销越大。对于同等长度的编码，任意两个类别之间的距离越远，纠错能力越强。

2. 类别不平衡

类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大。

现有技术大体上有三类做法：

对数目多的类别欠采样：去除一些样例，使得正例、反例数目接近
对数目少的类别过采样：增加一些样例，使得正例、反例数目接近
阈值移动：直接对原始数据集进行学习，在决策时使用再缩放，y′1−y′=y1−y×m−m+>1\frac{y'}{1-y'}=\frac{y}{1-y}\times\frac{m^-}{m^+}>11−y′y′=1−yy×m+m−>1，则判断为正例，m+m^+m+表示正例数目，m−m^-m−表示反例数目

如果欠采样随机丢失样例，可能丢失一些重要信息。

如果过采样不能简单的进行重采样，可能会导致过拟合。

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔，我会非常开心的~

西瓜书+实战+吴恩达机器学习（三）机器学习基础（多分类、类别不平衡）相关推荐

西瓜书+实战+吴恩达机器学习（二）机器学习基础（偏差、方差、调试模型技巧）
文章目录 0. 前言 1. 偏差方差的解决方法 2. 高偏差高方差的学习曲线 3. 调试模型技巧如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言泛化误差可分解为 ...
西瓜书+实战+吴恩达机器学习（二一）概率图模型之贝叶斯网络
文章目录 0. 前言 1. 贝叶斯网络结构 2. 近似推断 2.1. 吉布斯采样 3. 隐马尔可夫模型HMM 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言概率 ...
西瓜书+实战+吴恩达机器学习（十五）无监督学习之关联分析（Apriori, FP-growth）
文章目录 0. 前言 1. Apriori算法 1.1. 寻找频繁项集 1.2. 挖掘关联规则 2. FP-growth算法 2.1. 构建FP树 2.2. 寻找频繁项集如果这篇文章对你有一点小小的 ...
西瓜书+实战+吴恩达机器学习（十四）无监督学习之聚类（k-means, LVQ, 高斯混合聚类, DBSCAN, AGNES）
文章目录 0. 前言 1. 性能度量 1.1. 外部指标 1.2. 内部指标 2. 距离计算 3. k-means算法 4. 学习向量量化 5. 高斯混合聚类 6. 密度聚类 DBSCAN 7. 层次 ...
西瓜书+实战+吴恩达机器学习（七）监督学习之决策树 Decision Tree
文章目录 0. 前言 1. 划分选择 1.1. ID3决策树 1.2. C4.5决策树 1.3. CART决策树 2. 剪枝 3. 连续值处理 4. 缺失值处理如果这篇文章对你有一点小小的帮助,请给 ...
西瓜书+实战+吴恩达机器学习（二二）概率图模型之马尔可夫随机场
文章目录 0. 前言 1. 马尔可夫随机场结构 2. 近似推断 2.1. Metropolis-Hastings 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 ...
西瓜书+实战+吴恩达机器学习（十九）特征选择（过滤式选择、包裹式选择）
文章目录 0. 前言 1. 过滤式选择 2. 包裹式选择如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言特征选择是一个很重要的数据预处理过程: 选择出重要的特征 ...
西瓜书+实战+吴恩达机器学习（十八）降维（主成分分析 PCA）
文章目录 0. 前言 1. 主成分分析PCA 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言维数灾难:在高维情形下出现的数据样本稀疏.距离计算困难等问题. 缓解 ...
西瓜书+实战+吴恩达机器学习（十七）规则学习（序贯覆盖）
文章目录 0. 前言 1. 序贯覆盖如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则. ⊕←f1∧ ...

西瓜书+实战+吴恩达机器学习（三）机器学习基础（多分类、类别不平衡）

文章目录

0. 前言

1. 多分类学习

2. 类别不平衡

西瓜书+实战+吴恩达机器学习（三）机器学习基础（多分类、类别不平衡）相关推荐

最新文章

热门文章