点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:机器之心

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

梯度下降算法具有广泛的用途,但是关于它的计算复杂度的理论研究却非常少。最近,来自利物浦大学、牛津大学的研究者从数学的角度证明了梯度下降的计算复杂度,这项研究也入选 STOC 2021 的最佳论文奖 。

当前应用研究的很多方面都依赖于一种名为梯度下降的算法。这是一个求解某个数学函数最大 / 最小值的过程(函数优化),从计算产品的最佳生产方式,到工人轮班的最佳安排方法,这一算法都能派上用场。

尽管梯度下降算法具有广泛的用途,但是关于它计算复杂度的理论研究却非常少。现在,来自利物浦大学、牛津大学等机构的研究者在论文《 The Complexity of Gradient Descent: CLS = PPAD ∩ PLS 》中给出了答案,梯度下降从本质上解决了一个非常困难的计算问题。这篇文章也入选了 STOC 2021 的最佳论文。

论文地址:https://arxiv.org/pdf/2011.01929.pdf

本文作者由牛津大学的 Paul Goldberg 、Alexandros Hollender 与利物浦大学的 John Fearnley 、 Rahul Savani 共同撰写。

梯度下降计算复杂性

梯度下降是现代应用研究的重要工具,但它在许多常见问题上效果不佳。在这项研究之前,并没有学者进行全面研究究竟是什么让梯度下降陷入困境,现在计算复杂性理论有助于回答这个问题。

「梯度下降的很多工作都没有涉及复杂性理论,」麻省理工学院的副教授 Costis Daskalakis 说。

计算复杂性是对解决或验证不同计算问题的解决方案所需资源(通常是计算时间)的研究。研究人员将问题分为不同的类别,同一类别中的所有问题共享一些基本的计算特征。

举例来说,想象一个城镇,人多于房子,每个人都住在房子里。给你一本电话簿,上面写着镇上每个人的姓名和地址,你需要找到住在同一所房子里的两个人。你可以完成这个任务,不过因为人多于房子,这可能需要一些时间进行查找(特别是如果他们不共享姓氏)。

上述问题属于 TFNP(total function nondeterministic polynomial) 复杂类问题。它是所有计算问题的集合,能够保证存在解决方案,并且可以快速检查解决方案的正确性。

研究人员专注于 TFNP 中两个子集问题的交集:

第一个子集称为 PLS(polynomial local search)。这是一系列问题的集合,涉及在特定区域中寻找函数的最小值或最大值, 这些问题的答案必须确保可以通过相对直接的推理找到。

PLS 类别中的一个典型问题是路径规划:假如要求你以尽可能短的旅行距离访问固定数量的城市,且只能通过切换相邻城市对的顺序来改变行程。要计算所有设想路线的长度并不难,并且由于可以调整行程的方式受到限制,因此很容易看出哪些更改会缩短行程。

也就是说,最终你会找到一条路线,这条路线不能再进一步缩短路程了,那么这条路线就是你要找到的最小值,就是所谓的局部极小值。

TFNP 问题的第二个子集是 PPAD。这些问题的解来自更复杂的过程,称为布劳威尔不动点定理,即对于任何连续函数,存在一个点保持不变。在日常生活中也是如此,比如你搅拌一杯水,该定理保证一定有一个水分子最终会回到它开始的地方。

PLS 和 PPAD 类的交集本身形成了一类称为「 PLS ∩ PPAD」 的问题。这类问题包含许多复杂性研究人员所关注的自然问题。然而,直到现在,研究人员都无法找到一个对 「 PLS ∩ PPAD」来说是完全的自然问题,所谓「完全」意味着它可能是这类问题中最难的问题。

而 PLS 与 PPAD 的交集,被他们证明等价于 CLS (连续局域搜索问题)。

在这篇论文之前,唯一已知的「 PLS ∩ PPAD 」完全问题可以说是一个人工构造的问题,这个问题有时被称为「Either-Solution」。它将来自 PLS 的一个完全问题和来自 PPAD 的一个完全问题联合,形成了研究人员极少在「 PLS ∩ PPAD 」之外遇到的问题。在这篇论文中,研究人员证明了梯度下降与「Either-Solution」一样难,梯度下降本身就是「 PLS ∩ PPAD 」完全问题。

速度与精度不能平衡

哥伦比亚大学数据科学中心教授 Tim Roughgarden 说道:「我们人类本来就应该努力去深入了解计算本质的各个方面。所以我对这项研究结果的发现感到十分兴奋。」

这一发现并不意味着梯度下降会一直表现不佳。事实上,对于大多数任务来说,梯度下降与以往一样快速和高效。

「关于计算复杂性有一种略带幽默的刻板印象,即我们经常会拿以前在实践中已经被解决的问题出来,然后在证明它是非常难的,」论文二作 Goldberg 说。

但这一结果确实意味着,应用研究人员不应该期望梯度下降法为一些精度很重要的问题提供精确的解决方案。

精度问题涉及计算复杂性的核心——资源需求的评估。在许多复杂问题中,精度和速度之间存在基本联系。要使算法被认为是有效的,你必须有能够提高解决方案的精度,而无需为找到该解决方案所花费的时间付出相应的高昂代价。新的结果也显示了,对于那些需要非常精确的解决方案的应用,梯度下降也许不是一种可行的方法。

例如,梯度下降在机器学习中经常以不需要极端精确的方式使用。但机器学习研究人员想要将实验的精度提高一倍。在这种情况下,新的结果意味着他们可能需要将梯度下降算法的运行时间增加四倍。这种做法并不理想,但梯度下降还能起作用。

但对于其他应用,比如在数值分析中,研究人员可能需要将精度进行成倍提升,为了实现这样的改进,他们可能必须将梯度下降的运行时间进行更多倍的提升,这样一来,计算更加难以处理。

如果想要使用梯度下降,研究者必须做出妥协,要么接受精度较低的解,做一些比较简单的问题,要么找到管理冗长运行时间的方法。

但这并意味着快速梯度下降算法不存在,相反,快速算法有可能存在。但这一结果暗示着「 PLS ∩ PPAD 」 的所有问题都存在快速算法,这比仅仅为梯度下降找到快速算法的难度要高得多。

「数学上的进步可以解决许多现有问题,这也是为什么我们希望得到一个非常自然的问题,比如梯度下降,能够捕捉整个交叉领域的复杂性。」Daskalakis 说道。

参考链接:

https://www.quantamagazine.org/computer-scientists-discover-limits-of-major-research-algorithm-20210817/

https://www.youtube.com/watch?v=as720_SRpY0

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

最佳论文!牛津大学揭示梯度下降复杂度理论相关推荐

  1. 不能兼顾速度与精度,STOC 2021最佳论文揭示梯度下降复杂度理论

    ©作者 | 机器之心编辑部 来源 | 机器之心 梯度下降算法具有广泛的用途,但是关于它的计算复杂度的理论研究却非常少.最近,来自利物浦大学.牛津大学的研究者从数学的角度证明了梯度下降的计算复杂度,这项 ...

  2. 步子太快容易牺牲精度,梯度下降复杂度这一简单道理,获严格数学证明

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 梯度下降是机器学习中求最小值最常用的一种算法.尽管这种算法应用广泛,但是人们关于它计算复杂度的理论研究却寥寥无几. 在今年ACM举办的计算机 ...

  3. 【机器学习】梯度下降的Python实现

    作者 | Vagif Aliyev 编译 | VK 来源 | Towards Data Science 梯度下降是数据科学的基础,无论是深度学习还是机器学习.对梯度下降原理的深入了解一定会对你今后的工 ...

  4. 梯度下降—Python实现

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达   磐创AI分享   作者 | Vagif Aliyev 编译 | ...

  5. 误差、梯度下降、概率分类模型、logistic回归笔记

    PS:学习内容来自李宏毅机器学习2019版 误差 误差的来源   平均误差(Average Error)会随着模型复杂增加呈指数上升趋势.更复杂的模型并不能给测试集带来更好的效果,而这些Error的主 ...

  6. 【李宏毅机器学习】04:梯度下降Gradient Descent

    李宏毅机器学习04:梯度下降Gradient Descent 文章目录 李宏毅机器学习04:梯度下降Gradient Descent 一.梯度下降方法 二.梯度下降的改进方法 Tip 1: Tunin ...

  7. 牛津数学与计算机专业面试三次,录取率只有7%的牛津大学计算机科学专业面试真题来了 没看过就是放弃面试了...

    计算机科学专业可谓是牛津大学的专业之一了,在2021年的QS世界大学排名全英,超过了帝国理工和剑桥大学.在2017年到2019年间,录取率只有7%.牛津大学计算机专业着重于在理论和实践之间建立联系.它 ...

  8. 被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 牛津大学的这篇博士论文对神经微分方程(NDE)展开了全面细致的研究.论 ...

  9. 牛津大学231页博士论文全面阐述神经微分方程(NDE),Jeff Dean点赞

    ©作者 | 机器之心编辑部 来源 | 机器之心 牛津大学的这篇博士论文对神经微分方程(NDE)展开了全面细致的研究.论文作者表示,他希望这篇论文可以吸引到对深度学习与动力学系统结合感兴趣的读者,并希望 ...

最新文章

  1. LeetCode刷题记录8——605. Can Place Flowers(easy)
  2. R语言数据包自带数据集之mtcars数据集字段解释、数据导入实战
  3. 解密!谷歌这样搞定美军世纪难题,从眼科诊断到无人驾驶
  4. stm32硬件消抖_在 STM32 上使用 C++ 指南
  5. 【Netty】主从反应器 ( Reactor ) 多线程模型
  6. Bootstrap的目录结构
  7. Linux下mysql设置密码
  8. 从QQ进程内存中搜索出QQ号码
  9. 【SpringMVC】SpringMVC 对 Date 类型转换
  10. 分别用邻接矩阵和邻接表实现图的深度优先遍历和广度优先遍历_数据结构与算法学习笔记:图...
  11. 图片不能及时显示_电脑主机正常运行,显示器黑屏,有六种原因,前三种方法要掌握!...
  12. async 与 await
  13. linux内存泄露检查工具
  14. MTK 一个分支兼容多客户开机Logo方案
  15. ZYNQ ucos-ii中使用lwip及usb
  16. php手册经常见到,什么是“二进制安全”?
  17. 硬盘 SMART 检测参数详解[转]
  18. python制作好看的界面_python漂亮界面
  19. matlab读取TXT文件数据,二进制文件数据
  20. 简简单单说外键和级联

热门文章

  1. php3级分类,关于php非递归三级分类输出json数据
  2. 字典排序什么意思_列表及字典的排序
  3. 此服务器的时钟与主域控制器的时钟不一致_基于域的GPS时钟同步配置
  4. 分支结构定义java_[Android-Java]2.分支结构-(4-7)
  5. Register DLL and OCX
  6. 基础测试题(字符串、列表、元组、字典)
  7. django 中datetimefile 问题
  8. 九度OJ1111题-单词替换
  9. u3d中刚体与碰撞体的理解以及is Trigger属性的意义
  10. BZOJ 2565: 最长双回文串