有监督回归:最小二乘学习法
1.前言
接下来几篇博客将总结回归问题中的各种有监督学习算法。本片博客介绍回归问题中的最基本算法——最小二乘学习法;下一篇介绍为了避免过拟合而设置约束条件的最小二乘学习法。之后,我也会介绍难度高一点的稀疏学习法和鲁棒学习法。在以下几篇文章中,我们将对以d次方的实数向量X作为输入、以实数值y作为输出。可以描述为y=f(X)。这里,真实的函数关系f是未知的,通过学习过程中作为训练集进行学习。一般情况下,输出样本yi的真实值f(xi)中经常会观测到噪声。
2.最小二乘学习法
最小二乘学习法是对模型的输出fΘ(xi)和训练集输出{yi}i=1->n的平方误差为最小时的参数Θ进行学习。核心原理如下公式所示:
LS是Least Square的首字母。这一要说明的是:1/2是自己添加的,目的是为了约去对Jls进行微分时得到的2。平方误差可以理解为每一次观测残差的L2范数。所以很多情况下,最小二乘学习法也被称为L2范数损失最小化学习法。
如果使用线性模型:
训练样本的平方差Jls就能够表示为下面的形式:
在这里,y=(y1,..,yn)是训练输入的n维向量(更多的时候,我们把它称为标签),Φ是下式中定义的n*b阶矩阵,也称为设计矩阵。
训练样本的平方差Jls的参数向量Θ的偏微分可以计算得到:
当偏微分等于0时,可以取得极值,最小二乘关系可以表示为下式:
求解参数Θ的过程,实际上就是计算逆矩阵的过程,即:
我们需要注意的是:相对于只有方阵、非奇异矩阵才能定义逆矩阵,广义逆矩阵则是矩形矩阵或奇异矩阵都可以定义,是对逆矩阵的推广。
2.1 最小二乘学习法MATLAB实例
目标:使用三角多项式基函数:
基于参数的线性模型进行最小二乘法学习,实现对复杂非线性函数的近似。
2.2 加权最小二乘学习法
对顺序为i的训练样本的平方差通过权重wi≥0进行加权,然后再采用最小二乘学习,这称为加权最小二乘学习法。
加权最小二乘学习法,与没有权重时相同。
通过下式可以进行求解:
上式中,W是以w1,w2,...,wn为对角元素的对角阵。
2.3 最小二乘解的性质
首先来考虑设计矩阵Φ的奇异值分解:
上述三个参量分别称为奇异值、左奇异向量、右奇异向量。奇异值全部是非负的,奇异向量满足正交性:
注意:使用MATLAB中的SVD函数,可以非常简单地进行奇异值求解。
进行奇异值分解后,Φ的广义矩阵Φ’就可以表示为下式:
2.4 大规模数据的学习算法
设计矩阵Φ的维数为n*b,当训练样本数n或参数个数b是非常大的数值的时候,经常会出现计算机内存不足的现象。在这种情况下,使用随机梯度算法(SGD)往往会产生很好的效果。随机梯度是指,沿着训练平方误差Jls的梯度下降,对参数Θ一次进行学习的算法。其原理可以用下图表示:
一般而言,与线性模型相对应的训练平方误差Jls为凸函数。J(Θ)函数为凸函数是指,对于任意的两点Θ1,Θ2和任意的t∈[0,1];都有下式成立:
因为凸函数是只有一个峰值的函数,所以通过梯度法就可以得到训练平方误差Jls在值域范围内的最优解,即全局最优解。
2.5 实例
对于下式的高斯核函数模型:
采用最小二乘法的随机梯度算法如下所示:
将训练样本数n设定为50,高斯核h设定为0.3,在本例中,从随机、任意的初始值开始学习,经过200次迭代后,基本上就得到了近似的函数结果。但是,如果在这之后想要得到较为理想的收敛结果,则共需要11556次的迭代结果。
2.6 讨论
梯度法的收敛速度,强烈依赖于梯度下降的幅度以及收敛结果的判断方法。如果能够合理地调整这些值得设置,收敛速度也能得到一定程度的提高。例如,对于梯度下降的步幅,可以首先将其设置为较大的值,然后慢慢地设置为较小的值。然而在实际操作过程中,想要将梯度下降的步幅设置为最优,是很困难的。
有监督回归:最小二乘学习法相关推荐
- 图解机器学习-l2约束的最小二乘学习法-matlab源码
约束条件 L2约束的最小二乘学习法是以参数空间的圆点为圆心,在一定半径范围的圆内进行求解. 拉格朗日对偶问题: 原始问题:在约束条件 下求 引入拉格朗日函数: 称 ...
- 有监督回归:稀疏学习
1.前言 带有约束条件的最小二乘学习法和交叉验证的组合,在实际应用中是非常有效的回归方法.然而,当参数特别多的时候,求解各参数以及学习得到的函数的输出值的过程,都需要耗费大量的时间. 这篇博客主要介绍 ...
- 有监督回归:鲁棒学习
1.前言 虽然最小二乘学习法是非常实用的机器学习方法,但是当训练样本中包含异常值的时候,学习效果非常易于受到影响.下图展示的是对于线性模型: 以10个训练样本进行最小二乘学习的例子.测试结果如下图所示 ...
- 有监督回归:约束条件下的最小二乘法
1.前言 前面介绍的最小二乘学习法,是众多机器学习算法中极为重要的一种基础算法.但是,单纯的最小二乘法对于包含噪声的学习过程经常有过拟合的弱点.如下图所示: 这往往是由于学习模型对于训练样本而言过于复 ...
- MG-BERT:利用无监督原子表征学习进行分子性质预测
MG-BERT:利用无监督原子表征学习进行分子性质预测 MG-BERT: leveraging unsupervised atomic representation learning for mole ...
- 何恺明最新一作论文:无监督胜有监督,迁移学习无压力,刷新7项检测分割任务...
鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 何恺明的一作论文,又刷新了7项分割检测任务. 这一次,涉及的是无监督表征学习.这一方法广泛应用在NLP领域,但尚未在计算机视觉中引起注意. ...
- [能力提升][费曼学习法]学习方法
[背景知识] 费曼学习法 费曼学习法可以简化为四个单词:Concept (概念).Teach (教给别人).Review (评价).Simplify (简化). 第一步:把它教给一个小孩子. 第二步: ...
- 《费曼学习法》知识体系
思维导图 #mermaid-svg-VSfaUBVMRsXeLOEt {font-family:"trebuchet ms",verdana,arial,sans-serif;fo ...
- 【NLP】文献翻译5——用自我监督的多任务学习学习特定模式的表征,用于多模态情感分析
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal S ...
最新文章
- Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准...
- SAP概念之Client(集团)
- 开关电源之PCB安规设计规范
- .net数据库连接池配置技巧(默认值)
- Docker PHP 扩展配置
- zookeeper 大量连接断开重连原因排查
- eclipse如何开发python
- 如何规范化数据库模型设计
- mac抓包工具charles破解版安装及简单使用
- donet core 应用 部署到CentOS
- 全球及中国细胞和基因治疗用融化设备行业发展模式及未来前景分析报告2022-2028年
- 【乐谱】摇篮曲(小宝宝要睡觉)五线谱-单音和声版
- Android开发之音乐播放器所遇到的问题
- 机器人局部避障的动态窗口法(dynamic window approach) DWA
- springCloud面试之feign+ribbon+hystirx交互概览
- 在kibana中查询elasticsearch数据的方法(lucene和kql语法)
- 如何更好的建设标准化数字化智慧工地?
- C++入门之命名空间、缺省函数、重载函数及引用
- python全栈开发书籍推荐_python全栈开发学习 01
- 如何使用Xshell连接阿里云服务器