8-4 为什么要训练数据集与测试数据集

为什么使用测试数据集

过拟合

train test split的意义

8-5 学习曲线05-Learning-Curve

8-6 验证数据集与交叉验证

使用交叉验证

回顾网格搜索

cv参数

留一法Loo-CV

8-4 为什么要训练数据集与测试数据集

为什么使用测试数据集

过拟合

模型的泛化能力差

from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScalerdef PolynomialRegression(degree):return Pipeline([("poly", PolynomialFeatures(degree=degree)),("std_scaler", StandardScaler()),("lin_reg", LinearRegression())])

from sklearn.metrics import mean_squared_errorpoly100_reg = PolynomialRegression(degree=100)
poly100_reg.fit(X, y)y100_predict = poly100_reg.predict(X)
mean_squared_error(y, y100_predict)

机器学习主要解决的是过拟合的问题

模型能力太差，不是为了完全拟合这些数据，应该是模型的泛化能力

train test split的意义

二阶的模型比一阶的模型泛化能力要强

10阶时变小，泛化能力下降了，100时就更明显了

模型复杂度对于不对算法含义不同

knn是k , 多项式回归是n，

对于训练数据就复杂高则准确率会高，但对测试数据就不一样了

过拟合到欠拟合的过程

欠不能表达数据的关系

有眼睛的都是猫或狗，则模型是欠拟合的

毛发是黄色则为过拟合的，太细节的标准做为判断标准

之前的网格搜索一直就是这么干的

8-5 学习曲线05-Learning-Curve

学习曲线

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_errortrain_score = []
test_score = []
for i in range(1, 76):lin_reg = LinearRegression()lin_reg.fit(X_train[:i], y_train[:i])y_train_predict = lin_reg.predict(X_train[:i])train_score.append(mean_squared_error(y_train[:i], y_train_predict))y_test_predict = lin_reg.predict(X_test)test_score.append(mean_squared_error(y_test, y_test_predict))plt.plot([i for i in range(1, 76)], np.sqrt(train_score), label="train")
plt.plot([i for i in range(1, 76)], np.sqrt(test_score), label="test")
plt.legend()
plt.show()

def plot_learning_curve(algo, X_train, X_test, y_train, y_test):train_score = []test_score = []for i in range(1, len(X_train)+1):algo.fit(X_train[:i], y_train[:i])y_train_predict = algo.predict(X_train[:i])train_score.append(mean_squared_error(y_train[:i], y_train_predict))y_test_predict = algo.predict(X_test)test_score.append(mean_squared_error(y_test, y_test_predict))plt.plot([i for i in range(1, len(X_train)+1)], np.sqrt(train_score), label="train")plt.plot([i for i in range(1, len(X_train)+1)], np.sqrt(test_score), label="test")plt.legend()plt.axis([0, len(X_train)+1, 0, 4])plt.show()plot_learning_curve(LinearRegression(), X_train, X_test, y_train, y_test)

from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipelinedef PolynomialRegression(degree):return Pipeline([("poly", PolynomialFeatures(degree=degree)),("std_scaler", StandardScaler()),("lin_reg", LinearRegression())])poly2_reg = PolynomialRegression(degree=2)
plot_learning_curve(poly2_reg, X_train, X_test, y_train, y_test)

稳定后两者的间距很大，这样通常就是过拟合的情况，泛化能力不够

欠拟合训练数据上大

训练的上小，但测试的上大，两者的间距也大

8-6 验证数据集与交叉验证

的训练数据集上误差很好，但测试上不好

所以将数据集分开

这样肯定比只用全为训练数据要好

有了模型后，通过测试数据上效率最好，调试参数，模型在围绕着测试数据集打转，有可能在测试数据集上过拟合

找到训练的模型在已知测试数据集上过拟合，如通过将数据分为三部分解决

训练好后，模型给验证数据，找到验证数据的好参数模型

测试数据没有用过，完全不知的

这时的问题是随机，数据集的分割，如果有特殊的数据直接影响模型的结果

为了解决这个问题就是交叉验证

把数据分为k分，比如三分

每一个会有一个模型参数，求匀值

from sklearn.neighbors import KNeighborsClassifierbest_k, best_p, best_score = 0, 0, 0
for k in range(2, 11):for p in range(1, 6):knn_clf = KNeighborsClassifier(weights="distance", n_neighbors=k, p=p)knn_clf.fit(X_train, y_train)score = knn_clf.score(X_test, y_test)if score > best_score:best_k, best_p, best_score = k, p, scoreprint("Best K =", best_k)
print("Best P =", best_p)
print("Best Score =", best_score)

使用交叉验证

默认分为三分，自己实现时先可以用随机的方法来分割数据

best_k, best_p, best_score = 0, 0, 0
for k in range(2, 11):for p in range(1, 6):knn_clf = KNeighborsClassifier(weights="distance", n_neighbors=k, p=p)scores = cross_val_score(knn_clf, X_train, y_train)score = np.mean(scores)if score > best_score:best_k, best_p, best_score = k, p, scoreprint("Best K =", best_k)
print("Best P =", best_p)
print("Best Score =", best_score)

交叉验证和结果不一样

可能交叉验证的结果要好，1，因为这可能是中过拟合test数据集的结构 2，分数低，因为它不过拟合数据一般

交叉验证是为了得到最佳的k和p，然后就能有自己的最好的分类器

回顾网格搜索

默认分为三分，i为9种可能，p为5种可能，即45*3= 135个模型的结果

用三交叉验证的方式得到的结果，用了完全模型没用的数据来衡量模型

from sklearn.model_selection import GridSearchCVparam_grid = [{'weights': ['distance'],'n_neighbors': [i for i in range(2, 11)], 'p': [i for i in range(1, 6)]}
]grid_search = GridSearchCV(knn_clf, param_grid, verbose=1)
grid_search.fit(X_train, y_train)

cv参数

把数据分为几分通过CV来决定

留一法Loo-CV

第8章多项式回归与模型泛化学习笔记中相关推荐

第8章多项式回归与模型泛化
问题:线性回归要求假设我们的数据背后存在线性关系: , 如果将x的平方理解成一个特征,x理解成另一个特征:本来只有一个特征x,现在看成有两个特征的数据集,多了一个特征,就是x的平方,其实式子本身依然是 ...
HTML5 权威指南第 10 章文档分节学习笔记
HTML5 权威指南第 10 章文档分节学习笔记第 8 章标记文字内容从从文字出发,专注如何将单体内容正确的呈现出来:第 9 章组织内容内容从段落出发,专注如何将单体内容合理的放在段落中 ...
【14天鸿蒙设备开发实战-第七章设备联网上云学习笔记】
14天鸿蒙设备开发实战-第七章设备联网上云学习笔记一.开发环境.平台与硬件需求二.华为IoT平台API 2.1 初始化 2.1.1 设备信息初始化 2.1.2 华为IoT平台初始化 2.1. ...
MATLAB simulink 模型验证学习笔记
MATLAB simulink 模型验证学习笔记一.静态验证 1.Model Advisor 模型验证意思是用matlab自带的规范检查工具来检查自己画的模型是否符合规范. 进行模型验证需要用到的模 ...
网规第二版：第8章网络规划与设计论文学习笔记(含历年真题)（完结）
第8章网络规划与设计论文学习笔记 8.1写作范围要求 1.网络技术应用与对比分析 2.网络技术对应用系统建设的影响 3.专用网络需求分析.设计.实施和项目管理 4.下一代网络技术分析 8.2论文考试 ...
《C++Primer》第二章-变量和基本类型-学习笔记(1)
<C++Primer>第二章-变量和基本类型-学习笔记(1) 文章目录 <C++Primer>第二章-变量和基本类型-学习笔记(1) 摘要主体基本(内置)类型算数类型整 ...
【ember zigbee】序章:协议栈相关文档学习笔记
原文地址:https://blog.csdn.net/tainjau/article/details/90648114 文章目录写在前面一.材料出处二.文档解析 2.1.EZSP Protoco ...
MPC模型预测控制学习笔记-2021.10.27
MPC模型预测控制学习笔记-点击目录就可以跳转 1. 笔者介绍 2. 参考资料 3. MPC分类 4. 数据的标准化与归一化 5. MATLAB-MPC学习笔记 5.1 获取测试信号:gensig( ...
Elasticsearch7学习笔记(中)
Elasticsearch是实时全文搜索和分析引擎,提供搜集.分析.存储数据三大功能:是一套开放REST和JAVA API等结构提供高效搜索功能,可扩展的分布式系统.它构建于Apache Lucene ...
多项式回归与模型泛化
1.多项式回归线性回归的局限性是只能应用于存在线性关系的数据中,但是在实际生活中,很多数据之间是非线性关系,虽然也可以用线性回归拟合非线性回归,但是效果会变差,这时候就需要对线性回归模型进行改进,使 ...

第8章多项式回归与模型泛化学习笔记中

8-4 为什么要训练数据集与测试数据集

为什么使用测试数据集

过拟合

train test split的意义

8-5 学习曲线05-Learning-Curve

8-6 验证数据集与交叉验证

使用交叉验证

回顾网格搜索

cv参数

留一法Loo-CV

第8章多项式回归与模型泛化学习笔记中相关推荐

最新文章

热门文章

第8章 多项式回归与模型泛化 学习笔记中

8-4 为什么要训练数据集与测试数据集

为什么使用测试数据集

过拟合

train test split的意义

8-5 学习曲线05-Learning-Curve

8-6 验证数据集与交叉验证

使用交叉验证

回顾网格搜索

cv参数

留一法Loo-CV

第8章 多项式回归与模型泛化 学习笔记中相关推荐

最新文章

热门文章

第8章多项式回归与模型泛化学习笔记中

第8章多项式回归与模型泛化学习笔记中相关推荐