多分类任务和 Softmax 回归

在我们解决多类线性可分问题的时候，常会遇到单标签二分类问题、单标签多分类问题、多标签算法问题，下面分别讨论。而前面讲的线性分类模型，原则上只能解决二分类问题，但通过一些技巧就可以解决多分类问题。

1 简介

1.1 单标签二分类问题

单标签二分类这种问题是我们最常见的算法问题，主要是指标签（label）的取值只有两种，并且算法中只有一个需要预测的label；直白来讲就是每个实例的可能类别只有两种（A or B）；此时的分类算法其实是在构建一个分类线将数据划分为两个类别。常见的算法：Logistic、SVM、KNN、决策树等。

1.2 单标签多分类问题

单标签多分类问题其实是指待预测的label只有一个，但是label的取值可能有多种情况；直白来讲就是每个实例的可能类别有 KKK 种（t1,t2,⋯,tk,k≥3t_1, t_2, \cdots, t_k, k≥3t1,t2,⋯,tk,k≥3）；常见算法：Softmax、KNN、决策树等；

在实际的工作中，如果是一个多分类的问题，我们可以将这个待求解的问题转换为二分类算法的延伸，即将多分类任务拆分为若干个二分类任务求解，具体的策略如下：

One-Versus-One(OvO)：一对一
One-Versus-All / One-Versus-the-Rest(OvA/OvR)：一对多
Error Correcting Output codes(纠错码机制)：多对多（MvM）

1.3 多标签算法问题

Multi-Label Machine Learning（MLL算法）是指预测模型中存在多个 yyy 值，具体分为两类不同情况：

多个待预测的 yyy 值；
在分类模型中，一个样例可能存在多个不固定的类别。

根据多标签业务问题的复杂性，可以将问题分为两大类：

待预测值之间存在相互的依赖关系；
待预测值之间是不存在依赖关系的。

对于这类问题的解决方案可以分为两大类：

转换策略(Problem Transformation Methods)；
算法适应(Algorithm Adaptation)。

详细介绍，请阅读：多标签分类算法原理及代码、多分类及多标签分类算法

2 多分类问题

2.1 OvO

OvO（一对一，One vs One）：假如数据 DDD 中有 NNN 个类别，将 NNN 个类别进行两两配对，会得到 N(N−1)/2N(N-1)/2N(N−1)/2 个二分类器。在预测中，将测试样本输入这 N(N−1)/2N(N-1)/2N(N−1)/2 个二分类器中得到相应个数的预测结果，然后再将被预测结果数最多的（Voting）作为最终分类结果。

下面举个例子，当有4个类别的时候，首先把类别两两组合（6种组合）。组合完之后，其中一个类别作为正类，另一个作为负类（这个正负只是相对而言，目的是转化为二分类）。然后对每个二分类器进行训练。可以得到6个二分类器。然后把测试样本在6个二分类器上面进行预测。从结果上可以看到，类别1被预测的最多，故测试样本属于类别1。

2.2 OvR

OvR（一对其余，One vs Rest）: 将一个类别作为正例，其余所有类别作为反例，这样 NNN 个类别可以产生 NNN 个二分类器，将测试样本输入这些二分类器中中得到 NNN 个预测结果，如果仅有一个分类器预测为正类，则将对应的预测结果作为最终预测结果。如果有多个分类器预测为正类，则选择置信度最大的类别作为最终分类结果。

下面举个例子，当有4个类别的时候，每次把其中一个类别作为正类别，其余作为负类别，共有4种组合，对于这4中组合进行分类器的训练，我们可以得到4个分类器。对于测试样本，放进4个分类器进行预测，仅有一个分类器预测为正类，于是取这个分类器的结果作为预测结果，分类器2预测的结果是类别2，于是这个样本便属于类别2。

其实，有人会有疑问，那么预测为负类的分类器就不用管了吗？是的，因为预测为负类的时候有多种可能，无法确定，只有预测为正类的时候才能唯一确定属于哪一类。比如对于分类器3，分类结果是负类，但是负类有类别1，类别2，类别4三种，到底属于哪一种？

2.3 OvO与OvR的对比

OvR只需训练 NNN 个分类器，而OvO需训练 N(N−1)/2N(N - 1)/2N(N−1)/2 个分类器，因此，OvO的存储开销和测试时间开销通常比OvR更大。但在训练时，OvR的每个分类器均使用全部训练样例，而OvO的每个分类器仅用到两个类的样例，因此，在类别很多时，OvO的训练时间开销通常比OvR更小。至于预测性能，则取决于具体的数据分布，在多数情形下两者差不多。

综上:

OvO的优点是，在大数据集和和类别较多的情况下，训练时间要比OvR少。缺点是，分类器个数多。
OvR的优点是，分类器个数少，存储开销和测试时间比OvO少。缺点是，类别很多时，训练时间长。

补充：
有的地方也会提到一种改进的“一对其余”方式，假设一个多分类问题的类别为 {1,2,⋯,