(转载)机器学习知识点(十二)坐标下降法(Coordinate descent)

首先介绍一个算法：coordinate-wise minimization

问题的描述：给定一个可微的凸函数，如果在某一点x，使得f(x)在每一个坐标轴上都是最小值，那么f(x)是不是一个全局的最小值。

形式化的描述为：是不是对于所有的d，i都有

这里的代表第i个标准基向量。

答案为成立。

这是因为：

但是问题来了，如果对于凸函数f，若不可微该会怎样呢？

答案为不成立，上面的图片就给出了一个反例。

那么同样的问题，现在，其中g是可微的凸函数，每一个hi都是凸的？

答案为成立。

证明如下，对每一个y

坐标下降(Coordinate descent)：

这就意味着，对所有的，其中g是可微的凸函数，每一个hi都是凸的，我们可以使用坐标下降寻求一个最小值，我们从一个最初的猜想开始，对k进行循环：

每一次我们解决了，我们都会使用新的值。

Tseng (2001)的开创性工作证明：对这种f（f在紧集上连续，且f到达了其最小值），的极限值，k=1,2,3….是f的一个最小元(minimizer)。

在实分析领域：

随后收敛与x*( Bolzano-Weierstrass)

收敛于f*( monotoneconvergence)

其中：

坐标下降的顺序是任意的，可以是从1到n的任意排列。

可以在任何地方将单个的坐标替代成坐标块

关键在于一次一个地更新，所有的一起更新有可能会导致不收敛

我们现在讨论一下坐标下降的应用：

线性回归：

令，其中，A有p列：

最小化xi，对所有的xj，j不等于i：

解得：

坐标下降重复这个更新对所有的

对比坐标下降与梯度下降在线性回归中的表现（100个实例，n=100，p=20）

将坐标下降的一圈与梯度下降的一次迭代对比是不是公平呢？是的。

其中r=y-Ax。每一次的坐标更新需要O(n)个操作，其中O(n)去更新r，O(n)去计算，所以一圈就需要O(np)，跟梯度下降是一样的。

我们用相同的例子，用梯度下降进行比较，似乎是与计算梯度下降的最优性相违背。

那么坐标下降是一个一阶的方法吗？事实上不是，它使用了比一阶更多的信息。

现在我们再关注一下支持向量机：

SVM对偶中的坐标下降策略：

SMO(Sequentialminimal optimization)算法是两块的坐标下降，使用贪心法选择下一块，而不是用循环。

回调互补松弛条件(complementaryslackness conditions)：

v，d，s是原始的系数，截距和松弛，其中，使用任何的（1）中i使得来计算d，利用（1）（2）来计算2.

SMO重复下面两步：

选出不满足互补松弛的αi，αj

最小化αi，αj使所有的变量满足条件

第一步使用启发式的方法贪心得寻找αi，αj，第二步使用等式约束。

——————维基百科的解释——————

坐标下降优化方法是一种非梯度优化算法。为了找到一个函数的局部极小值，在每次迭代中可以在当前点处沿一个坐标方向进行一维搜索。在整个过程中循环使用不同的坐标方向。一个周期的一维搜索迭代过程相当于一个梯度迭代。

坐标下降法基于最小化多变量目标函数可以通过每次沿一个方向最小化目标函数来求解。与梯度方法的变化的梯度方向不同，坐标下降方法固定其他的梯度方向。例如，坐标方向为e₁,e₂,…,e_n。每次沿一个坐标方向最小化目标函数，循环地沿每个坐标方向进行计算。如果给定X^k，X^k+1的第i个坐标由如下给定：

从初始值X₀求取F的局部值，然后迭代的求取一个序列X₀，X₁，X₂，…

通过在每次迭代中进行一维搜索，可以有如下结论：

It can be shown that this sequence has similar convergence properties as steepest descent. No improvement after one cycle of line search along coordinate directions implies a stationary point is reached.

This process is illustrated below.

其实，gradient descent 方法是利用目标函数的导数（梯度）来确定搜索方向的，而该梯度方向可能不与任何坐标轴平行。而coordinate descent方法是利用当前坐标系统进行搜索，不需要求目标函数的导数，只按照某一坐标方向进行搜索最小值。

(转载)机器学习知识点(十二)坐标下降法(Coordinate descent)相关推荐

LASSO坐标下降法Coordinate Descent Method公式推导及代码
文章目录 LASSO by Coordinate Descent Method Coordinate Descent Method Framework Coordinate Descent Metho ...
(转载)机器学习知识点(十五)从最大似然到EM算法浅解
从最大似然到EM算法浅解机器学习十大算法之一:EM算法.能评得上十大之一,让人听起来觉得挺NB的.什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题.神为什么是神,因为神能做 ...
(转载)机器学习知识点(十四)EM算法原理
1.引言以前我们讨论的概率模型都是只含观测变量(observable variable), 即这些变量都是可以观测出来的,那么给定数据,可以直接使用极大似然估计的方法或者贝叶斯估计的方法:但是当模型 ...
坐标下降法(Coordinate descent)
一天1个机器学习知识点（二）
陆陆续续整理的机器学习的知识点,资料大多数来自网上,不做盈利目的,如果侵权请告知即删!如果文章中有错误的地方还请各位同学指正,,一起学习,一起进步! 每天都在更新中,记得收藏,每天进步一点点!! 一天 ...
Spark机器学习实战 (十二) - 推荐系统实战
0 相关源码将结合前述知识进行综合实战,以达到所学即所用.在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统. 1 ...
最小二乘法、迭代优化、坐标轴下降法(Coordinate Descent， CD)、坐标下降和梯度下降对比、梯度下降法/最速下降法
最小二乘法.迭代优化.坐标轴下降法(Coordinate Descent, CD).坐标下降和梯度下降对比.梯度下降法/最速下降法目录
[2022]李宏毅深度学习与机器学习第十二讲（必修）-Reinforcement Learning RL
[2022]李宏毅深度学习与机器学习第十二讲(必修)-Reinforcement Learning RL 做笔记的目的 What is RL Policy Gradient Version 1 Ver ...
(转载)机器学习知识点(二十九)LDA入门级学习笔记
入门级学习笔记 1.1文本建模相关统计文本建模的目的其实很简单:就是估算一组参数,这组参数使得整个语料库出现的概率最大.这是很简单的极大似然的思想了,就是认为观测到的样本的概率是最大的. 建模的目标 ...

(转载)机器学习知识点(十二)坐标下降法(Coordinate descent)

(转载)机器学习知识点(十二)坐标下降法(Coordinate descent)相关推荐

最新文章

热门文章