模型选择、欠拟合和过拟合

【代码】

引入：当模型在训练数据集上更准确时，它在测试数据集上却不一定更准确。

1. 训练误差和泛化误差

机器学习模型应关注降低泛化误差

要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意⼀个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用损失函数。

训练误差可以认为是做往年高考试题（训练题）时的错误率，泛化误差则可以通过真正参加高考（测试题）时的答题错误率来近似。假设训练题和测试题都随机采样于⼀个未知的依照相同考纲的巨大试题库。如果让⼀名未学习中学知识的小学生去答题，那么测试题和训练题的答题错误率可能很相近。但如果换成⼀名反复练习训练题的高三备考⽣答题，即使在训练题上做到了错误率为0，也不代表真实的⾼考成绩会如此。

假设训练数据集（训练题）和测试数据集（测试题）⾥的每⼀个样本都是从同⼀个概率分布中相互独立地生成的。基于该独立同分布假设，给定任意⼀个机器学习模型（含参数），它的训练误差的期望和泛化误差都是⼀样的。例如，如果我们将模型参数设成随机值（小学生），那么训练误差和泛化误差会非常相近。模型的参数是通过在训练数据集上训练模型而学习出的，参数的选择依据了最小化训练误差（⾼三备考生）。所以，训练误差的期望小于或等于泛化误差。也就是说，⼀般情况下，由训练数据集学到的模型参数会使模型在训练数据集上的表现优于或等于在测试数据集上的表现。由于无法从训练误差估计泛化误差，⼀味地降低训练误差并不意味着泛化误差⼀定会降低。

2. 模型选择

在机器学习中，通常需要评估若干候选模型的表现并从中选择模型。可供选择的候选模型可以是有着不同超参数的同类模型。以多层感知机为例，我们可以选择隐藏层的个数，以及每个隐藏层中隐藏单元个数和激活函数。

验证数据集

从严格意义上讲，测试集只能在所有超参数和模型参数选定后使用⼀次。不可以使⽤测试数据选择模型，如调参。由于无法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。鉴于此，我们可以预留⼀部分在训练数据集和测试数据集以外的数据来进⾏模型选择。这部分数据被称为验证数据集，简称验证集（validation set）。例如，我们可以从给定的训练集中随机选取⼀小部分作为验证集，而将剩余部分作为真正的训练集。

K折交叉验证

由于验证数据集不参与模型训练，当训练数据不够⽤时，预留大量的验证数据显得太奢侈。⼀种改善的方法是K折交叉验证（K-fold cross-validation）。在K折交叉验证中，我们把原始训练数据分割成K个不重合的子数据集，然后我们做K次模型和验证。每一次，我们使用一个子数据集验证模型，并使用其他K-1个子数据集来训练模型。在这K次训练和验证中，每次用来验证模型的子数据集都不同。最后，我们对这K次训练误差和验证误差分别求平均。

3. 欠拟合和过拟合

模型训练中经常出现的两类典型问题：⼀类是模型无法得到较低的训练误差，我们将这⼀现象称作欠拟合（underfitting）；另⼀类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。

模型复杂度

为了解释模型复杂度，我们以多项式函数拟合为例。给定⼀个由标量数据特征xxx和对应的标量标签yyy组成的训练数据集，多项式函数拟合的⽬标是找⼀个KKK阶多项式函数：
y^=b+∑k=1Kxkwk(1)\hat{y}=b+\sum_{k=1}^{K} x^k w_k \tag 1 y^=b+k=1∑Kxkwk(1)
来近似yyy。在上式中，wkw_kwk是模型的权重参数，bbb是偏差参数。与线性回归相同，多项式函数拟合也是用平方损失函数。

因为高阶多项式函数模型参数更多，模型函数的选择空间更⼤，所以高阶多项式函数比低阶多项式函数的复杂度更⾼。因此，高阶多项式函数⽐低阶多项式函数更容易在相同的训练数据集上得到更低的训练误差。给定训练数据集，模型复杂度和误差之间的关系通常如图所⽰。给定训练数据集，如果模型的复杂度过低，很容易出现欠拟合；如果模型复杂度过高，很容易出现过拟合。应对⽋拟合和过拟合的⼀个办法是针对数据集选择合适复杂度的模型。

训练数据集大小

影响⽋拟合和过拟合的另⼀个重要因素是训练数据集的⼤小。⼀般来说，如果训练数据集中样本数过少，特别是⽐模型参数数量（按元素计）更少时，过拟合更容易发⽣。此外，泛化误差不会随训练数据集⾥样本数量增加而增⼤。因此，在计算资源允许的范围之内，我们通常希望训练数据集大⼀些，特别是在模型复杂度较⾼时，例如层数较多的深度学习模型。

4. 多项式函数拟合实验

# 导包
%matplotlib inline
from mxnet import autograd, gluon, nd
from mxnet.gluon import data as gdata, loss as gloss, nn

生成数据集

我们将⽣成⼀个人工数据集。在训练数据集和测试数据集中，给定样本特征xxx，我们使⽤如下的三阶多项式函数来⽣成该样本的标签：
y=1.2x−3.4x2+5.6x3+5+ε(2)y=1.2x-3.4x^2+5.6x^3+5+\varepsilon \tag 2 y=1.2x−3.4x2+5.6x3+5+ε(2)
其中噪声项ε\varepsilonε服从均值为0、标准差为0.1的正态分布。训练数据集和测试数据集的样本数都设为100。

n_train, n_test, true_w, true_b = 100, 100, [1.2, -3.4, 5.6], 5
features = nd.random.normal(shape=(n_train + n_test, 1))
poly_features = nd.concat(features, nd.power(features, 2), nd.power(features, 3))
labels = (true_w[0] * poly_features[:,0] + true_w[1] * poly_features[:,1] + true_w[2] * poly_features[:,2] + true_b)
labels += nd.random.normal(scale=0.1, shape=labels.shape)

生成的数据集的前两个样本。

features[:2], poly_features[:2], labels[:2]

([[1.1630785][0.4838046]]<NDArray 2x1 @cpu(0)>,[[1.1630785  1.3527517  1.5733565 ][0.4838046  0.2340669  0.11324265]]<NDArray 2x3 @cpu(0)>,[10.534649  5.530093]<NDArray 2 @cpu(0)>)

定义、训练和测试模型

先定义作图函数semilogy，其中yyy轴使用了对数尺度。

import matplotlib.pyplot as plt
from utils import set_figsize
def semilogy(x_vals, y_vals, x_label, y_label, x2_vals=None, y2_vals=None, legend=None, figsize=(3.5, 2.5)):set_figsize(figsize)plt.xlabel(x_label)plt.ylabel(y_label)plt.semilogy(x_vals, y_vals)if x2_vals and y2_vals:plt.semilogy(x2_vals, y2_vals, linestyle=':')plt.legend(legend)

num_epochs, loss = 100, gloss.L2Loss()
def fit_and_plot(train_features, test_features, train_labels, test_labels):net = nn.Sequential()net.add(nn.Dense(1))net.initialize()batch_size = min(10, train_labels.shape[0])train_iter = gdata.DataLoader(gdata.ArrayDataset(train_features, train_labels), batch_size, shuffle=True)trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.01})train_ls, test_ls = [], []for _ in range(num_epochs):for X, y in train_iter:with autograd.record():l = loss(net(X), y)l.backward()trainer.step(batch_size)train_ls.append(loss(net(train_features), train_labels).mean().asscalar())test_ls.append(loss(net(test_features), test_labels).mean().asscalar())print('final epoch: train loss', train_ls[-1], 'test loss', test_ls[-1])semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss', range(1, num_epochs + 1), test_ls, ['train', 'test'])print('weight:', net[0].weight.data().asnumpy(), '\nbias:', net[0].bias.data().asnumpy())

三阶多项式函数拟合（正常）

我们先使用与数据生成函数同阶的三阶多项式函数拟合。实验表明，这个模型的训练误差和在测试数据集的误差都较低。

fit_and_plot(poly_features[:n_train, :], poly_features[n_train:, :], labels[:n_train], labels[n_train:])

final epoch: train loss 0.00698169 test loss 0.0063500497
weight: [[ 1.1729248 -3.3906946  5.604663 ]]
bias: [4.985479]

线性函数拟合（欠拟合）

线性函数拟合。很明显，该模型的训练误差在迭代早期下降后便很难继续降低。在完
成最后⼀次迭代周期后，训练误差依旧很⾼。线性模型在⾮线性模型（如三阶多项式函数）⽣成的数据集上容易⽋拟合。

fit_and_plot(features[:n_train, :], features[n_train:, :], labels[:n_train], labels[n_train:])

final epoch: train loss 159.33257 test loss 102.91761
weight: [[22.651974]]
bias: [-0.65602565]

训练样本不足（过拟合）

即便使⽤与数据⽣成模型同阶的三阶多项式函数模型，如果训练样本不⾜，该模型依然
容易过拟合。让我们只使⽤两个样本来训练模型。显然，训练样本过少了，甚⾄少于模型参数的数量。这使模型显得过于复杂，以⾄于容易被训练数据中的噪声影响。在迭代过程中，尽管训练误差较低，但是测试数据集上的误差却很⾼。这是典型的过拟合现象。

fit_and_plot(poly_features[0:2,:], poly_features[n_train:,:], labels[0:2], labels[n_train:])

final epoch: train loss 0.47576833 test loss 133.27455
weight: [[2.0588458 1.9273669 2.0477402]]
bias: [2.482129]