Derivation of the ADMM algorithm

To facilitate the application of proximal operators involving ρλ\rho_\lambdaρλ, we first construct the following equation:
min⁡w∈Rk,v∈Rkϕ2w′Σw−μ′w+ρλ(v)s.t.{w=v∑i=1kwi=1\begin{aligned} &\min_{w\in\mathbb{R}^k, v\in\mathbb{R}^k} \frac{\phi}{2}w'\Sigma w-\mu'w+\rho_\lambda(v)\\ &s.t. \begin{cases} w=v\\ \sum_{i=1}^kw_i=1 \end{cases} \end{aligned} w∈Rk,v∈Rkmin2ϕw′Σw−μ′w+ρλ(v)s.t.{w=v∑i=1kwi=1
where ρλ(w)=∑i=1kλi∣w∣(i)\rho_\lambda(w)=\sum_{i=1}^k\lambda_i|w|_{(i)}ρλ(w)=∑i=1kλi∣w∣(i) is the sorted lll_1-Norm corresponding to the sequence λSLOPE=(λ1,λ2,…,λk)′\lambda_{SLOPE}=(\lambda_1, \lambda_2, \dots, \lambda_k)'λSLOPE=(λ1,λ2,…,λk)′ satisfying λ1≥λ2…λk≥0\lambda_1\geq \lambda_2\dots\lambda_k\geq 0λ1≥λ2…λk≥0. An ADMM algorithm is designed to solve the augumented Lagrangian function and on partial updates for the primal variables. The associated augmented Lagrangian is given as:
Lη=ϕ2w′Σw−μ′w+ρλ(v)+α′(w−v)+β′(e′w−1)+η2{∣∣w−v∣∣2+(e′w−1)2}L_\eta=\frac{\phi}{2}w'\Sigma w-\mu'w+\rho_\lambda(v)+\alpha'(w-v)+\beta'(e'w-1)+\frac{\eta}{2}\{||w-v||^2+(e'w-1)^2\} Lη=2ϕw′Σw−μ′w+ρλ(v)+α′(w−v)+β′(e′w−1)+2η{∣∣w−v∣∣2+(e′w−1)2}
Compared to the Lagrangian L0L_0L0 without the penalty term, the augumented Lagrangian LηL_\etaLη with η>0\eta>0η>0 brings the benefit that the dual objective gη(α,β):=inf⁡w,vLη(w,v,α,β)g_\eta(\alpha, \beta):=\inf_{w, v}L_\eta(w,v,\alpha,\beta)gη(α,β):=infw,vLη(w,v,α,β) becomes differentiable without requiring further assumption on the primal objective. The ADMM algorithm consists of the updates:
{wj+1=arg min⁡wLη(w,vj,αj,βj)vj+1=arg min⁡vLη(wj+1,v,αj,βj)αj+1=αj+η(wj+1−vj+1)βj+1=βj+η(e′wj+1−1)\begin{cases} w^{j+1}=\argmin_{w}L_\eta(w, v^j, \alpha^j, \beta^j)\\ v^{j+1}=\argmin_{v} L_\eta(w^{j+1}, v, \alpha^j, \beta^j)\\ \alpha^{j+1}=\alpha^j+\eta(w^{j+1}-v^{j+1})\\ \beta^{j+1}=\beta^j+\eta(e'w^{j+1}-1) \end{cases} ⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧wj+1=wargminLη(w,vj,αj,βj)vj+1=vargminLη(wj+1,v,αj,βj)αj+1=αj+η(wj+1−vj+1)βj+1=βj+η(e′wj+1−1)
The first iterates w0,v0,α0,β0w^0, v^0, \alpha^0, \beta^0w0,v0,α0,β0 are typically intialized as the zero vectors.

Stopping criterion: Primal-Dual Gap

The stopping criterion for the ADMM algorithm is based on the Primal-Dual Gap. First, taking the infimum over (w,v)(w, v)(w,v) of the Lagrangian, we get the dual objective:
g(α,β)=inf⁡wϕ2w′Σw−(μ−α−βe)′w−β−ρλ∗(α)g(\alpha, \beta)=\inf_w \frac{\phi}{2}w'\Sigma w-(\mu-\alpha-\beta e)'w-\beta-\rho_\lambda^*(\alpha) g(α,β)=winf2ϕw′Σw−(μ−α−βe)′w−β−ρλ∗(α)
From the optimality condition for the infimum over www, we have
w∗=ϕ−1Σ−1(μ−α−βe)w^*=\phi^{-1}\Sigma^{-1}(\mu-\alpha-\beta e) w∗=ϕ−1Σ−1(μ−α−βe)
Also,
ρλ∗=sup⁡v{αTv−ρλ(v)}={0α∈Cλ\rho_\lambda^*=\sup_v\{\alpha^Tv-\rho_\lambda(v)\}= \begin{cases} 0 & \alpha\in C_\lambda\\ \end{cases} ρλ∗=vsup{αTv−ρλ(v)}={0α∈Cλ
where Cλ:={v:Rk,ρλD(v)≤1}C_\lambda:=\{v:\mathbb{R}^k, \rho_\lambda^D(v)\leq 1\}Cλ:={v:Rk,ρλD(v)≤1} is the unit sphere defined in the dual norm. Plugging-in these, we get the dual problem:
max⁡α,β−12ϕ(μ−α−βe)′Σ−1(μ−α−βe)−β\max_{\alpha, \beta} -\frac{1}{2\phi}(\mu-\alpha-\beta e)'\Sigma^{-1}(\mu-\alpha-\beta e)-\beta α,βmax−2ϕ1(μ−α−βe)′Σ−1(μ−α−βe)−β
Estimate the primal-dual gap as follows:
G=12ϕ(w∗)Σw∗−μ′w∗+ρλ(w∗)+12ϕ(μ−α∗−β∗e)′Σ−1(μ−α∗−β∗e)+β∗=−(α∗+βe)′w∗+β∗+ρ+λ(v∗)\begin{aligned} G &= \frac{1}{2}\phi(w^*)\Sigma w^*-\mu'w^*+\rho_\lambda(w^*)+\frac{1}{2\phi}(\mu-\alpha^*-\beta^*e)'\Sigma^{-1}(\mu-\alpha^*-\beta^*e)+\beta^*\\ &=-(\alpha^*+\beta e)'w^*+\beta^*+\rho+\lambda(v^*) \end{aligned} G=21ϕ(w∗)Σw∗−μ′w∗+ρλ(w∗)+2ϕ1(μ−α∗−β∗e)′Σ−1(μ−α∗−β∗e)+β∗=−(α∗+βe)′w∗+β∗+ρ+λ(v∗)

Reference

Sparse portfolio selection via the sorted l1l_1l1-Norm

【ADMM】ADMM Gap相关推荐

【IoT】蓝牙 GAP 和 GATT 协议简析
文章背景: 理论知识是实践开发的基础,对于产品研发来说更是如此,理论结合实践才可以开发出满足市场需求的稳定产品. 1.基础简介 1.1.profile profile 可以理解为一种规范,一个标准的通 ...
【DG】 DataGuard 中处理archive gap的方法
[DG] DataGuard 中处理archive gap的方法 DG 中处理archive gap的方法 ==================== 当Primary Database的某些日志没有成 ...
Ubuntu上mysql的安装及使用【转】
原创 Ubuntu上mysql的安装及使用 2019-02-10 13:54:24 baiduoWang 阅读数 196更多分类专栏: Linux MySql 版权声明:本文为博主原创文章,遵循 C ...
【Math】P=NP问题
文章目录 **P vs NP** **0 P=NP基本定义** 0.1 Definition of NP-Completeness 0.2 NP-Complete Problems 0.3 NP-Ha ...
P4722 【模板】最大流
P4722 [模板]最大流加强版 / 预流推进今日心血来潮,打算学习hlpp 然后学了一阵子.发现反向边建错了.容量并不是0.qwq 然后就荒废了一晚上. 算法流程的话.有时间补上 #includ ...
洛谷P2057 【SHOI2007】善意的投票
洛谷P2057 [SHOI2007]善意的投票题目链接这道题是最小割的一个经典应用:划分集合. 题目的意思就是就是将所有的小朋友分为两个集合:同意睡觉和不同意睡觉的.不同的集合之间的边都要断开. ...
ioremap 与 mmap【转】
转自:http://blog.csdn.net/junllee/article/details/7415732 内存映射对于提供了MMU(存储管理器,辅助操作系统进行内存管理,提供虚实地址转换等硬件 ...
【控制】多智体系统一致性基础知识
多智体控制多智体一致性控制图论 1. 无向图.有向图.同构图 2. 邻接表.邻接矩阵.关联矩阵 3. 连通性图论矩阵 1. 度矩阵 2. 邻接矩阵 3. 拉普拉斯矩阵 4. 拉氏矩阵的性质 5. ...
【分布式计算】DFS BigTable
1.背景分布式计算的发迹应该是google在2003年发表的三篇paper,分别是GFS.MapReduce.BigTable.其中MapReduce大家都很熟悉了,不懂的同学也可以看看我之前写的文 ...
【NLP】XLnet：GPT和BERT的合体，博采众长，所以更强
前面介绍过BERT,作为一种非常成功的预训练模型,取得了非常不错的成绩,那么,他还有改进的空间吗? 本文介绍BERT的改进版,XLnet.看看它用了什么方法,改进了BERT的哪些弱点. 作者& ...

【ADMM】ADMM Gap

Navigator

Derivation of the ADMM algorithm

Stopping criterion: Primal-Dual Gap

Reference

【ADMM】ADMM Gap相关推荐

最新文章

热门文章