(转载)机器学习知识点(十二)坐标下降法(Coordinate descent)
首先介绍一个算法:coordinate-wise minimization
问题的描述:给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。
形式化的描述为:是不是对于所有的d,i都有
这里的代表第i个标准基向量。
答案为成立。
这是因为:
但是问题来了,如果对于凸函数f,若不可微该会怎样呢?
答案为不成立,上面的图片就给出了一个反例。
那么同样的问题,现在,其中g是可微的凸函数,每一个hi都是凸的?
答案为成立。
证明如下,对每一个y
坐标下降(Coordinate descent):
这就意味着,对所有的,其中g是可微的凸函数,每一个hi都是凸的,我们可以使用坐标下降寻求一个最小值,我们从一个最初的猜想开始,对k进行循环:
每一次我们解决了,我们都会使用新的值。
Tseng (2001)的开创性工作证明:对这种f(f在紧集上连续,且f到达了其最小值),的极限值,k=1,2,3….是f的一个最小元(minimizer)。
在实分析领域:
随后收敛与x*( Bolzano-Weierstrass)
收敛于f*( monotoneconvergence)
其中:
坐标下降的顺序是任意的,可以是从1到n的任意排列。
可以在任何地方将单个的坐标替代成坐标块
关键在于一次一个地更新,所有的一起更新有可能会导致不收敛
我们现在讨论一下坐标下降的应用:
线性回归:
令,其中,A有p列:
最小化xi,对所有的xj,j不等于i:
解得:
坐标下降重复这个更新对所有的
对比坐标下降与梯度下降在线性回归中的表现(100个实例,n=100,p=20)
将坐标下降的一圈与梯度下降的一次迭代对比是不是公平呢?是的。
其中r=y-Ax。每一次的坐标更新需要O(n)个操作,其中O(n)去更新r,O(n)去计算,所以一圈就需要O(np),跟梯度下降是一样的。
我们用相同的例子,用梯度下降进行比较,似乎是与计算梯度下降的最优性相违背。
那么坐标下降是一个一阶的方法吗?事实上不是,它使用了比一阶更多的信息。
现在我们再关注一下支持向量机:
SVM对偶中的坐标下降策略:
SMO(Sequentialminimal optimization)算法是两块的坐标下降,使用贪心法选择下一块,而不是用循环。
回调互补松弛条件(complementaryslackness conditions):
v,d,s是原始的系数,截距和松弛,其中,使用任何的(1)中i使得来计算d,利用(1)(2)来计算2.
SMO重复下面两步:
选出不满足互补松弛的αi,αj
第一步使用启发式的方法贪心得寻找αi,αj,第二步使用等式约束。
从初始值X0求取F的局部值,然后迭代的求取一个序列X0,X1,X2,…
This process is illustrated below.
(转载)机器学习知识点(十二)坐标下降法(Coordinate descent)相关推荐
- LASSO坐标下降法Coordinate Descent Method公式推导及代码
文章目录 LASSO by Coordinate Descent Method Coordinate Descent Method Framework Coordinate Descent Metho ...
- (转载)机器学习知识点(十五)从最大似然到EM算法浅解
从最大似然到EM算法浅解 机器学习十大算法之一:EM算法.能评得上十大之一,让人听起来觉得挺NB的.什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题.神为什么是神,因为神能做 ...
- (转载)机器学习知识点(十四)EM算法原理
1.引言 以前我们讨论的概率模型都是只含观测变量(observable variable), 即这些变量都是可以观测出来的,那么给定数据,可以直接使用极大似然估计的方法或者贝叶斯估计的方法:但是当模型 ...
- 坐标下降法(Coordinate descent)
- 一天1个机器学习知识点(二)
陆陆续续整理的机器学习的知识点,资料大多数来自网上,不做盈利目的,如果侵权请告知即删!如果文章中有错误的地方还请各位同学指正,,一起学习,一起进步! 每天都在更新中,记得收藏,每天进步一点点!! 一天 ...
- Spark机器学习实战 (十二) - 推荐系统实战
0 相关源码 将结合前述知识进行综合实战,以达到所学即所用.在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统. 1 ...
- 最小二乘法、迭代优化、坐标轴下降法(Coordinate Descent, CD)、坐标下降和梯度下降对比、梯度下降法/最速下降法
最小二乘法.迭代优化.坐标轴下降法(Coordinate Descent, CD).坐标下降和梯度下降对比.梯度下降法/最速下降法 目录
- [2022]李宏毅深度学习与机器学习第十二讲(必修)-Reinforcement Learning RL
[2022]李宏毅深度学习与机器学习第十二讲(必修)-Reinforcement Learning RL 做笔记的目的 What is RL Policy Gradient Version 1 Ver ...
- (转载)机器学习知识点(二十九)LDA入门级学习笔记
入门级学习笔记 1.1文本建模相关 统计文本建模的目的其实很简单:就是估算一组参数,这组参数使得整个语料库出现的概率最大.这是很简单的极大似然的思想了,就是认为观测到的样本的概率是最大的. 建模的目标 ...
最新文章
- 解决sdk manager 下载API失败的问题
- linux wget下载整个ftp目录(含子目录)
- APP中的悬浮球设计总结
- 清华大学《操作系统》(八):置换算法
- SQL经典语句(转载)
- Ubuntu 软件源sources.list
- Spring Batch之批处理实践
- 部署应用程序到Tomcat的webapps目录
- Sql Server 2000 无法打开用户默认数据库。登录失败
- Zabbix触发器和监控项设置时间范围.
- jQuery 选择器、DOM操作、事件、动画
- python开发环境规范——pycharm
- python输出去掉空格
- 计算机网络基础(一)
- 【OP-TEE】TA的加载(超详细)
- PMP培训第一次听课笔记(第1-3章)
- 【高项备考】多种类型计算题学习
- 【渝粤题库】广东开放大学 市场调查与预测 形成性考核
- oracle logon只有3项,oracle 10g 审计logon和logoff
- jupyter和spider;Anaconda、Python、Jupyter、Pycharm、Spyder、conda、pip
热门文章
- Netty详解(七):Netty 编解码以及消息头编解码器
- 数据库系统概论:第十章 数据库恢复技术
- html ie浏览器视频无法播放视频,HTML5视频以Chrome格式播放,但不播放IE9
- pve 群晖 virtio速度慢_群晖DS Note高级教程——教你使用智能记事本
- python day-15 匿名函数 sorted ()函数 filter()函数 map()函数 递归 二分法...
- 【Django】模型层说明
- EasyUI combobox 中文无法检索最终解决方案!
- Jekyll Bootstrap初始
- matplotlib安装
- 修改表主键字段数据类型(V2.0)