model trainning 模型训练
学习笔记
模型的理解,构建、神经网络的训练
使用封闭方程来求解,获得模型在当前训练集上最优的参数==》在训练集上使得损失函数达到最小值时模型的参数
使用迭代优化的方法,梯度下降(GD),在训练集上,逐渐的调整模型参数,而获得最小的损失函数,最终参数收敛到和封闭方程求解一样得到相同的值。
批量梯度下降(Batch GD),随机地图下降(Stochastic GD)、小批量梯度下降(Mini-batch GD)(此三个在后面的神经网络里会经常用到)
复杂模型—》多项式回归,可以拟合非线性数据集:过拟合(参数较多会造成),学习曲线判断是否过拟合,正则化减少过拟合
逻辑回归(Logistic)、softmax回归(多类别回归)
线性回归的理解:
线性回归预测模型的一般化公式:=+++...+
:预测结果;
N:特征个数;
Xi:第i个特征值;
j:第j个参数(:偏置项;、...:特征权重值)
线性回归预测模型的一般公式可简化为:=h()= X
:模型的参数向量。(:偏置项,、:特征权重值)
:向量的转置。(行向量变成了列向量)
x:每个样本中特征值的向量形式。(包括到,而且恒为1)
X:与X的点积。
h():参数为的假设函数
模型训练:指的是设置模型的参数,使得该模型在训练集上表现最好。
线性模型训练:指的是训练一个线性模型,就需要找到一个,使得均方差最小。
MSE(X,)=
使用正规方程来求解: =
:最小化损失的值
y:是一个向量,包含了到的值
线性回归各种算法优劣比较:
算法 | 损失函数 | 正规方程 | 大数据量 | 多特征 | 训练集 | 精确度 | 最优值 | sklean |
---|---|---|---|---|---|---|---|---|
求最小均方差 | 快 | <2 | <10万 | 高 | 最优 | 有 | ||
慢 | >2 | 10万> | ||||||
Batch GD | 慢 | 。。 | 全集 | 高 | 优 | 无 | ||
Stochastic GD | 快 | 。。 | 小部分 | 低 | 接近 | 有 | ||
Mini-Batch GD | 快 | 。。 | 小集合 | 高 | 较优 | 无 |
线性回归、Ridge回归、Lasso回归、stochasticNet:
什么是线性回归、Ride回归、lasso回归、StochasticNet?
特点、优点、缺点?
如何选择使用?
1、什么是线性回归、Ride回归、lasso回归、StochasticNet?
线性回归:
回归模型:
模型向量表达式:
mean squared error loss :(均方差损失函数)
Square loss:(平方误差损失函数)
最小二乘法(或正规方程): =
Ridge 回归:
损失函数: J()=MSE()+(线性回归+L2)
正规方程:=
Lasso回归:
损失函数: J()=MSE()+(线性回归+L1)
StochasticNet:
损失函数:J()=MSE()+ + (线性回归+L1+L2)
2、特点、优点、缺点?
线性回归:
- 各个特征量之间相互独立。
- 直接可以用方程快速求解
- 线性模型,正则化通过约束模型的权重来实现
- 多项式模型,正则化可以通过减少阶数来实现
Ride回归:
- 数据 特征中有多个量之间具有相关性
- 数据特征量大,有可能特征量大于样本量(p>n)
(1)、训练样本量少,可能少于特征量,会导致数据矩阵无法求逆
(2)、样本特征中存在大量相似的特征,造成参数的代表的意义重复。本质上是考虑到数据有一定的偏差,使得特征相关系数变小
- 对无效特征变量没有进行处理
- 用来消除特征所具有的共性,使用模型的平方处理
- 增加一个平方项(L2)来正则化,减小方差,但有可能增大了偏差。
- 由于可能增大了偏差,造成过拟合出现
Lasso回归:
- 增加了一个L1项,可以解决偏差问题。
- 在参数缩减过程中,将重复的参数直接完全缩减掉,达到了只提取有用的特征的作用。
- 自动的筛选了无用的参数,不用靠人为的方式去筛选变量。
- 使用lasso可以达到实际操作中筛选变量的作用。
- 压缩变量,起到降维。
StochasticNet:
- Ride回归和Lasso回归的混合
- 处理包含Ridge回归的正则化性质,同时考虑变量压缩的情况
在线性回归选择中,一般情况下,尽量避免朴素线性回归,对模型进行一定的正则化处理,如何选择正则化方法呢?
岭回归,常用;
如果只有少量可用的特征,考虑使用StochasticNet或Lasso。一般来说,弹性网络使用更广泛,尤其是在特征维度高于训练样本数或特征强相关情况下,Lasso回归表现不太稳定。
回归正则化方法(Lasso回归,岭回归和ElasticNet)在数据集中的变量之间具有高维度和多重共线性的情况下也能有良好的效果
3、如何选择使用?
线性回归:
- 建模快速简单,适用于要建模的关系不是非常复杂且数据量不大的情况
- 有直观的理解和解释
- 线性回归对异常值非常敏感
多项式回归:
创建非线性可分数据的模型时,使用多项式回归。最佳拟合线不是一条直线,是符合数据点的曲线
多项式回归,自变量的指数是大于1
- 能够模拟非线性可分的数据(线性回归不能做到),总体上更灵活,可以模拟复杂关系
- 完全控制要素变量的建模
- 需要详细设置
- 如果指数不当,容易出现过拟合
Ridge回归:
- 高共线性
(1)、自变量之间存在近似线性关系。
(2)、添加、删除X特征变量时,回归系数会发生显著的变化
(3)、X特征变量具有较高的成对相关性
- 回归假设与最小平方差回归相同。
不同点:最小平方回归,假设数据的误差服从高斯分布,使用的极大似然估计(MLE)。
岭回归,添加了正则项(也叫偏差因子),使用的是极大后验估计(MAP)来得到最终参数的。
- 缩小了系数值,但未达到0,无特征选择功能。
Lasso回归:
- 内置特征选择
- 稀疏性
- 计算效率
StochasticNet:
- 它鼓励在高度相关变量的情况下的群体效应,而不是像Lasso那样将其中一些置零。当多个特征和另一个特征相关的时候,弹性网络非常有用。Lasso 倾向于随机选择其中一个,而弹性网络更倾向于选择两个。
- 对所选变量的数量没有限制
model trainning 模型训练相关推荐
- TensorFlow2.0学习笔记-3.模型训练
3.模型训练 3.1.Keras版本模型训练 • 构建模型(顺序模型.函数式模型.子类模型) • 模型训练: model.fit() • 模型验证: model.evaluate() • 模型预测: ...
- Foursquare: 如何构建我们的模型训练引擎(Model Training Engine)
英文原文地址:How we built our Model Training Engine 翻译:大魁,时间短暂,翻译的比较粗糙 在Foursquare,我们面临大规模的机器学习任务.例如,要从低质量 ...
- python实现glove,gensim.word2vec模型训练实例
20210331 https://blog.csdn.net/sinat_26917383/article/details/83029140 glove实例 https://dumps.wikimed ...
- 轻松学Pytorch – 行人检测Mask-RCNN模型训练与使用
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 大家好,这个是轻松学Pytorch的第20篇的文章分享,主要是给大 ...
- Tensorflow + OpenCV4 安全帽检测模型训练与推理
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 开发环境 软件版本信息: Windows10 64位 Tensor ...
- NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练
NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP(3)| seq to seq 模型 前言:出于种种原因,总是不自觉把 ...
- gpu处理信号_在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练
先进的深度学习模型参数正以指数级速度增长:去年的GPT-2有大约7.5亿个参数,今年的GPT-3有1750亿个参数.虽然GPT是一个比较极端的例子但是各种SOTA模型正在推动越来越大的模型进入生产应用 ...
- plt保存图片_人工智能Keras CNN卷积神经网络的图片识别模型训练
CNN卷积神经网络是人工智能的开端,CNN卷积神经网络让计算机能够认识图片,文字,甚至音频与视频.CNN卷积神经网络的基础知识,可以参考:CNN卷积神经网络 LetNet体系结构是卷积神经网络的&qu ...
- FCN模型训练中遇到的困难
FCN模型训练中遇到的困难 标签: 深度学习FCN神经网络caffe 2017-02-24 10:54 2675人阅读 评论(6) 收藏 举报 分类: 深度学习(18) 版权声明:本文为博主原创文 ...
最新文章
- php贺卡生成,用php与mysql的电子贺卡程序
- web前端技术分享:多行文本溢出问题解决方案
- js读取本地excel文档数据
- Leetcode PHP题解--D29 973. K Closest Points to Origin
- 1711: [Usaco2007 Open]Dingin吃饭
- 自己动手构造编译系统:编译、汇编与链接2.4.1 汇编词法、语法分析
- jsp当参数为空的时候默认显示值
- 杭电OJ分类题目(4)-Graph
- Preference Learning——Object Ranking
- 使用js实现网页录音并上传服务器
- Javaweb项目导出Excel文件无法下载问题
- HTML技术(基础/列表/表格/表单)
- java 苹果cms 萌果_苹果cms打包app
- 【JSP】关于The JSP specification requires that an attribute name is preceded by whitespace
- 转如何管理好开源软件社区:开源项目管理方法
- 一个小问题,解决提示无法启动程序,“....exe”。系统找不到指定文件
- google搜索特殊字符
- ddraw 的blt 方法
- Python Flask开源博客系统Blog_mini
- java设计模式之—OO面向对象思维 Object Oriented(农场一头小母牛,每年生头小母牛,母牛5岁产母牛,20年上多少牛?)
热门文章
- 高级中学计算机配置标准,江苏省高级中学艺术装备标准
- RabbitMQ 6种应用场景
- python大数据工程师薪资待遇_2019年就业薪资,凭什么大数据工程师遥遥领先?...
- 做PPT只会用黑体和宋体?这些可商用字体瞬间提升你的PPT档次
- 春林文件批量改名系统
- 用excel和window系统自带功能给文件批量改名(超详细小白教程!)
- tween.js 用户指南 - 与 Three.js 配合使用的补间动画库
- 学习笔记:简谈推挽电路
- GBase8a如何选择 hash 分布列
- 这是我见过最美的公众号图文排版,不接受反驳。