多项式回归 过拟合 模型泛化 模型误差
很过数据是没有线性关系的==》非线性 =》多项式模拟非线性曲线
添加的特征是原来特征的线性组合==》解决非线性问题=》数据集升维 (PCA降维) 有时升维有时降维
=》x^2 x 虽然是同一特征 但我们把它x^2当做是另一个特征
Pipeline 创建多项式回归: 通过增加特征 依然使用使用线性回归
多项式回归拟合非线性:
一个二次曲线 ==》过拟合 100次太复杂了 训练集上好 在验证集 和 测试集不好 欠拟合 1次不够
学习狗的图片:
有眼睛的是狗:只学习一部分特征 欠拟合
四爪 眼睛 ... 斑点 :所有符合的基础上又加上了 斑点 斑点只是一部分狗才有 可过拟合学出了斑点特征 太细节的特征
泛化能力:由此及彼能力 根据训练得到的曲线 面对新的数据的能力
最终的模型最终能力不是拟合训练集 而是更好的拟合 测试集 新数据 =》
train valitation test
欠拟合:训练 测试上dou不好 过拟合 :训练上低 测试上高
为了防止 验证集中有极端数据 防止关于验证集的过拟合 ==》交叉验证
评价模型准确度更加靠谱:
==》每次都要训练k个模型 才确定一组参数 比正常多耗时K倍
M个样本分为 m分 用其中一份作为验证集 其他用于训练
高偏差:模型太偏离原问题 ==》 一些数据可能原本就不是线性的 如果非要用线性拟合的话就容易高偏差 》特征取得不好
我们假设数据是符合某个模型的一旦不符合极易出现高偏差 degree越小越简单 degree越大形状越奇怪引入的方差越大
高方差:泛化能力差 KNN 多依赖于数据==》非参数学习 k越小模型越复杂 方差可能越大
偏差 和 方差是可以避免的 不可避免的误差如 数据中有噪音
偏差:
1.用名字预测成绩 选取特征 离目标是高度不相关的
2.欠拟合
方差:过拟合 学习的过度 分的太细
1.降低模型复杂度
2.过拟合可能学到的太多的噪音数据
3.增加样本量 深度学习的条件是数据规模要足够的大 不然不如简单地模型
4.使用验证集 防止模型针对测试数据集过拟合
假设数据来源可靠 特征明显 ==》机器学习算法 主要考虑方差
模型正则化 :系数越大曲线越陡峭==》让theta平方和小 theta0不在其中 theta0是截距
阿尔法是一个新的超参数=》决定theta平方和(尽可能小) 占整的损失函数的多少
阿尔法=0相当于没有加入正则化==》阿尔法无穷大 MS额E比重就比较小 此时的优化任务变为让每一个theta变小
我们要做的是要在预测准确度和让每个theta尽量小 两件事之间做一个平衡
方法:
岭回归
LASSO回归
岭回归过分 =》阿尔法取值过大就变成 是theta平方和最小 =》小到一定程度 为零 就成为了 线性函数 甚至平行于X轴
lasso回归:选择怎么表达theta最小上不一样 有降维作用
因为不想像回归逐渐的走 每个theta都是有数值的
lasso |x|导数 = x/|x| 非0即+-1 沿着某一个方向一直走 直到一个theta为零换方向 继续直到直到最小值点
最后theta有可能很多维度上 达到零 (下面图有走的过程)
lasso回归缺点:有可能错误的将有用的特征前参数为0 使有用特征降掉 极易将某些元素化为0 一般从计算准确度上来讲还是岭回归比较好
优点:如果特征特别大 用多项回归degree要100 特征数非常多 此时使用lasso 也是非常好的 起到降维的作用 模型特征变小
选择顺序 岭回归 》 弹性网 》 lasso回归
无论是岭回归还是LASSO回归 两种模型正则化 都是在原始的损失函数后面添加一项 为了减小学习到的theta 使得模型的泛化能力变强 使模型系数不那么大 函数图像不那么怪
多项式回归 过拟合 模型泛化 模型误差相关推荐
- 机器学习模型调优方法(过拟合、欠拟合、泛化误差、集成学习)
机器学习模型调优方法 过拟合和欠拟合 降低过拟合风险的方法 降低欠拟合风险的方法 泛化误差.偏差和方差 泛化误差 偏差和误差 模型评估 Holdout检验 交叉检验 自助法 集成学习 Boosting ...
- Python机器学习:多项式回归与模型泛化004为什么需要训练数据集和测试数据集
泛化能力:由此及彼能力 遇见新的拟合能力差 数据 #数据 import numpy as np import matplotlib.pyplot as plt x = np.random.unifor ...
- 多项式回归与模型泛化
1.多项式回归 线性回归的局限性是只能应用于存在线性关系的数据中,但是在实际生活中,很多数据之间是非线性关系,虽然也可以用线性回归拟合非线性回归,但是效果会变差,这时候就需要对线性回归模型进行改进,使 ...
- 模型评估与模型选择(训练误差和测试误差+过拟合)| 15mins 入门 | 《统计学习方法》学习笔记(四)
模型评估与模型选择 当损失函数给定时,基于损失函数的模型的训练误差(training error)和模型的测试误差(test error)就自然成为学习方法评估的标准. 训练误差的大小,对判定给定的问 ...
- 机器学习中模型泛化能力和过拟合现象(overfitting)的矛盾、以及其主要缓解方法正则化技术原理初探...
1. 偏差与方差 - 机器学习算法泛化性能分析 在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去 ...
- 量纲与无量纲、标准化、归一化、正则化【能够帮助梯度下降中学习进度收敛的更快、提升模型的收敛速度提升模型的精度、防止模型过拟合,提高模型的泛化能力】
目录 1 量纲与无量纲 1.1 量纲 1.2 无量纲 2 标准化 3 归一化 归一化的好处 4 正则化 5 总结 1 量纲与无量纲 1.1 量纲 物理量的大小与单位有关.就比如1块钱和1分钱,就是两个 ...
- 【模型泛化:偏差、方差、噪声】
转载 https://blog.csdn.net/Robin_Pi/article/details/104539998 参考 https://www.jianshu.com/p/3a07adbfa03 ...
- 机器学习实战教程(九):模型泛化
泛化能力 模型泛化是指机器学习模型对新的.未见过的数据的适应能力.在机器学习中,我们通常会将已有的数据集划分为训练集和测试集,使用训练集训练模型,然后使用测试集来评估模型的性能.模型在训练集上表现得好 ...
- 对于机器学习中数据拟合度和模型复杂度的一些建议
Advice for Applying Machine Learning 我这里想做的是,确保大家在设计机器学习系统时,能够明白怎样选择一条最合适.最正确的路径.因此,接下来我们要讨论一些实用的建议和 ...
最新文章
- leetcode--Median of Two Sorted Arrays
- 谢百三:救市后股民应牢记教训?
- MVC捕获数据保存时的具体字段验证错误代码
- 4008-基于邻接矩阵的新边的增加(C++,附思路)
- Jupyter notebook增加新的kernel
- c统计查找的字符串个数
- 数值补码和原码计算方法介绍
- 实时分析你的Windows Phone 7使用状况
- 【CSDN最全java项目实战500篇】练手/项目经验/毕设刚需
- 窝在二线城市很难受,要杀回一线城市重造吗?
- BZOJ1777: [Usaco2010 Hol]rocks 石头木头
- A. Equalize Prices Again
- 【5年Android从零复盘系列之十七】Android自定义View(12):手势绘制及GestureOverlayView事件详解(图文)
- PHP - 回调函数概念与用法实例分析 - 学习/实践
- maven 解决Cannot access alimaven (httpmaven.aliyun.comnexuscontentrepositoriescentral)
- 【CF1509B】TMT
- 黑马训练营10届开学典礼
- kingSCADA3.7 本机建立与modsim32的仿真modbustcp通讯
- 秒杀项目之商品展示及商品秒杀
- 天境生物将在美国圣迭戈建立全新的研发中心 ;泛生子与复星医药签订Seq-MRD独家商业化合作协议 | 医药健闻...