机器学习----过拟合和欠拟合实例+效果图详解

前言

使用多项式回归可能出现的问题：过拟合和欠拟合

过拟合（Over Fitting）：算法所训练的模型过多的表达了数据间的噪音关系。

就是太过于细节了！

欠拟合（Under Fitting）：算法所训练的模型不能完全表述数据关系。

就是太笼统了！

上手实践

线性回归：

x=np.random.uniform(-3,3,size=100) #生成x特征 -3到3  100个
X=x.reshape(-1,1)#将x编程100行1列的矩阵
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)#模拟的是标记y  对应的是x的二次函数#使用线性回归看下score
from sklearn.linear_model import LinearRegression
reg=LinearRegression()
reg.fit(X,y)
reg.score(X,y)#将预测值y_pre画图 对比真实y
y_pre=reg.predict(X)
plt.scatter(x,y)
plt.plot(np.sort(x),y_pre[np.argsort(x)],color='r')#查看MSE
from sklearn.metrics import mean_squared_error
mean_squared_error(y,y_pre)

线性回归score：

0.5029149851435246

拟合效果图此时曲线过于简单就是欠拟合

多项式回归：

#将Pipeline封装 方便使用
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
def PolynomialRegression(degree):return Pipeline([#构建Pipeline("poly",PolynomialFeatures(degree=degree)),#构建PolynomialFeatures("std_scaler",StandardScaler()),#构建归一化StandardScaler("lin_reg",LinearRegression())#构建线性回归LinearRegression
])#设置degree=2 进行fit拟合
poly2_reg =PolynomialRegression(2)
poly2_reg.fit(X,y)#求出MSE
y2_pre = poly2_reg.predict(X)
mean_squared_error(y2_pre,y)

MSE结果：
1.1286611246028457

拟合效果图：

如果我们使用degree=10 训练的预测结果更好的。

dgree=100 效果更好并不是真正的拟合曲线，只是原有数据点连接的曲线，对训练数据集的拟合程度太高，不具有泛化能力。曲线变得更弯曲更加复杂，过拟合数据点但是逐渐变得更不能反应样本数据的形态了。

多项式回归deree传入越大拟合越高，取特别大的话能MSE为0，但是并不能反映样本数据形态。

模型的泛化能力

过拟合的情况下，如以上曲线，虽然学习到的曲线使得整个样本使用曲线预测误差变现小，新的样本呢？

如紫色的点，预测值显然错误的，这样这个模型的泛化能力差，即对新数据预测能力。

模型的构建就是为了能够有更好的泛化能力，这样才能是一个好模型，能够更小的误差预测

怎么评判模型的泛化能力呢？

使用训练数据进行模型的拟合，使用测试数据进行模式的测试。

因为在拟合的时候使用的是训练数据，并没有牵扯到测试数据，这样的话我们用训练数据拟合的模型在测试数据上预测的话就能够看出这个模型的泛化能力怎么样。测试数据就相当于新来的数据，对新增加的数据预测。根据测试数据预测的结果对比测试数据的标记，能够检测出此模型的泛化能力。

网格搜索？