论文笔记——Asynchronous Stochastic Gradient Descent with Delay Compensation

论文对ASGD算法进行了改进,对具有延迟的梯度设计了新的更新规则。

ASGD

下图为ASGD训练过程,梯度gt应该对应模型wt,但是由于延迟,在参数服务器接收到时,模型已经更新到了wt+τ,ASGD对于延迟的梯度不做处理。

论文利用泰勒展开,将梯度展开,尝试补偿延迟

部分则为hessian矩阵,因为参数数量过多,导致计算出精确的hessian矩阵会降低训练效率,所以文中提出了一种hessian近似器。

DC-ASGD算法

给出DC-ASGD算法更新规则:

客户端

服务器端

实验

在两个数据集上做了实验CIFAR-10 (Hinton, 2007) 和ImageNetILSVRC 2013 (Russakovsky et al., 2015).

原文见论文题目

论文笔记——Asynchronous Stochastic Gradient Descent with Delay Compensation相关推荐

  1. 论文笔记——Asynchronous Decentralized Parallel Stochastic Gradient Descent

    论文笔记--Asynchronous Decentralized Parallel Stochastic Gradient Descent 改变了中心化的结构,使用了分布式的结构 算法过程 每个wor ...

  2. 论文阅读------Stochastic Gradient Descent with Differentially Private updates

    论文阅读------Stochastic Gradient Descent with Differentially Private updates SGD 代价函数 正则化描述 训练过程 梯度偏导 参 ...

  3. 【Byrd-SAGA】Federated Variance-Reduced Stochastic Gradient Descent with Robustness

    Federated Variance-Reduced Stochastic Gradient Descent with Robustness to Byzantine Attacks 对拜占庭攻击具有 ...

  4. UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介

    UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...

  5. 随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比

     随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比.实现对比 标签: 梯度下降最优化迭代 2013 ...

  6. Minibatch Stochastic Gradient Descent

    Reference: https://d2l.ai/chapter_linear-networks/linear-regression.html https://d2l.ai/chapter_line ...

  7. 随机梯度下降(Stochastic gradient descent)

    总目录 一. 凸优化基础(Convex Optimization basics) 凸优化基础(Convex Optimization basics) 二. 一阶梯度方法(First-order met ...

  8. 手工实现:SVM with Stochastic Gradient Descent

    手工实现:SVM with Stochastic Gradient Descent 引入 实际问题 理论知识 SVM 直观认识 什么是分的好? 1.是不是只要都分对了就是分的好? 2.是不是只要训练集 ...

  9. 【文献阅读】Federated Accelerated Stochastic Gradient Descent

    文章目录 1 Federated Accelerated Stochastic Gradient Descent (FedAc) 2 challenge 3 how to do 4 baseline ...

最新文章

  1. Google Chrome(谷歌浏览器) 发布下载
  2. 5.jsp中动态include与静态include的区别
  3. Apollo后台配置:配置集群
  4. 用getBoundingClientRect()来获取页面元素的位置
  5. nlp gpt论文_GPT-3:NLP镇的最新动态
  6. 58-混沌感悟.(2015.2.11)
  7. System.getProperty(user.dir) 获取jar包所在目录
  8. Git 提交报错,账户和密码错误 和 git add/git commit 文件太大太多
  9. 基于51单片机的蜂鸣计算器设计
  10. jdk1.8新特性的应用-Stream 的终止操作
  11. vb中SendMessage函数
  12. python语句命令的概念_Python学习笔记1-基础概念
  13. 历年研究生数学建模赛题题目
  14. 局域网聊天程序 ——灵活使用winsock控件完成局域网数据传输
  15. 打气球游戏——Burst Balloons
  16. opencv函数测试对话框
  17. 怎么找到一抛物线数组的顶点_抛物线与顶点坐标的关系如何确定抛物线开口是向上还是向下?知道抛物线的定点坐标,和x轴的交点或y轴的交点,怎么求抛物线的解析式?抛物线的顶点坐标与抛物线还有什么关系?...
  18. 自定义springboot-starter,感受框架的魅力和原理
  19. 关闭Chrome浏览器的自动更新和升级提示
  20. altium designer拼版例子

热门文章

  1. [UE5蓝图基础一]14.制作一个自动旋转的风车
  2. ctp java_期货 CTP的JAVA接口 JNI实现
  3. 是心跳影响情绪,还是情绪影响心跳?
  4. 太厉害了,目前 Redis 可视化工具最全的横向评测
  5. 新聘应届生入职培训计划(华为)
  6. php 多进程脚本,php多进程_php多进程并行执行脚本的代码
  7. visual studio 和visual studio code 的区别是什么?
  8. k8s+jenkins自动化部署
  9. Linux Command ipmitool
  10. python are you ready_笨方法学python Lesson 45