陈天奇团队新研究：自动优化深度学习工作负载

深度学习在我们的日常生活中已经无处不在。深度学习模型现在可以识别图像，理解自然语言，玩游戏，以及自动化系统决策（例如设备放置和索引）。张量算符（tensor operators），如矩阵乘法和高维卷积，是深度学习模型的基本组成部分。

可扩展的学习系统依赖于手动优化的高性能张量操作库，如cuDNN。这些库针对较窄范围的硬件进行了优化。为了优化张量算符，程序员需要从逻辑上等价的许多实现中进行选择，但由于线程，内存重用， pipelining和其他硬件因素的不同，性能上的差别很大。

支持多种硬件后端需要巨大的工程努力。即使在当前支持的硬件上，深度学习框架和模型的开发也从根本上受到库中优化操作符设置的限制，阻止了诸如操作符熔合（operator fusion）之类的优化，从而产生不受支持的操作符。

针对这个问题，华盛顿大学计算机系博士生陈天奇、以及上海交通大学和复旦大学的研究团队提出一个基于学习的框架，以优化用于深度学习工作负载的张量程序（ tensor programs）。

我们提出一个基于学习的框架，以优化用于深度学习工作负载的张量程序（ tensor programs）。矩阵乘法和高维卷积等张量算符（ tensor operators）的高效实现是有效的深度学习系统的关键。然而，现有的系统依赖于手工优化的库，如cuDNN，这些库只有很少的服务器级GPU能很好地支持。对硬件有要求的操作库的依赖限制了高级图形优化的适用性，并且在部署到新的硬件目标时会产生巨大的工程成本。我们利用学习来消除这种工程负担。我们学习了领域特定的统计成本模型，以指导在数十亿可能的程序变体上搜索张量算符的实现。我们通过跨工作负载的有效模型迁移来进一步加快搜索速度。

实验结果表明，我们的框架能够为低功耗CPU，移动GPU和服务器级GPU提供与最先进手工调优库相媲美的性能。

学习优化张量程序问题的形式化方法

我们提出以下问题：我们是否可以通过学习来减轻这种工程负担，并自动优化给定硬件平台的张量算符程序？本论文为这个问题提供了肯定的答案。我们建立了统计成本模型来预测给定的低级程序的程序运行时间。这些成本模型指导了对可能程序空间的探索。我们的成本模型使用可迁移的表示形式，可以在不同的工作负载之间进行泛化，以加速搜索。这一工作的贡献如下：

我们提供了 学习优化张量程序 问题的一种形式化方法，并总结了其关键特征。
我们提出了一个 基于机器学习的框架 来解决这个新问题。
我们使用迁移学习将优化速度进一步 提高2倍至10倍 。

我们在这个框架中提供了详细的组件设计选择和实证分析。

在实际的深度学习工作负载的实验结果表明，我们的框架提供的端到端性能改进比现有框架好1.2倍至3.8倍。

讨论和结论

我们提出了一种基于机器学习的框架来自动优化深度学习系统中张量算符的实现。我们的统计成本模型允许在工作负载之间进行有效的模型共享，并通过模型迁移加速优化过程。这个新方法的优秀实验结果显示了对深度学习部署的好处。

在我们的解决方案框架之外，这个新问题的具体特征使它成为相关领域创新的一个理想测试平台，如神经程序建模、贝叶斯优化、迁移学习和强化学习。

在系统方面，学习优化张量程序可以使更多的融合操作符、数据布局和数据类型跨不同的硬件后端。这些改进对于改进深度学习系统至关重要。我们将开放我们的实验框架，以鼓励在这些方向进行更多的研究。

原文发布时间为：2018-05-23

本文作者：肖琴

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”。

原文链接：陈天奇团队新研究：自动优化深度学习工作负载

陈天奇团队新研究：自动优化深度学习工作负载相关推荐

陈天奇团队发布TVM：把深度学习部署到手机、树莓派等更多硬件
本文来自AI新媒体量子位(QbitAI) △ 陈天奇,华盛顿大学计算机系博士生,此前毕业于上海交通大学ACM班.XGBoost.cxxnet等著名机器学习工具的作者,MXNet的主要贡献者之一. DM ...
李飞飞新研究：基于深度学习和视觉化语言来了解不同物体间的关系
来源:凤凰科技概要:最近她所在的实验室正在做一项新研究,基于深度学习和视觉化语言模式了解不同物体之间的关系. 2017未来科学大奖颁奖典礼暨未来论坛年会28.29日在京举办,斯坦福大学终身教授.谷歌 ...
陈天奇高赞文章：新一代深度学习编译技术变革和展望
©作者 | 陈天奇来源 | 机器之心陈天奇是机器学习领域著名的青年华人学者之一,本科毕业于上海交通大学ACM班,博士毕业于华盛顿大学计算机系,研究方向为大规模机器学习.在本文中,陈天奇回答了目前深 ...
我在iPhone上装了70亿参数大模型，来自陈天奇团队最新成果
克雷西发自凹非寺量子位 | 公众号 QbitAI 跑大语言模型的门槛,已经降低到一部iPhone了. 当然安卓版本也有,只要手机RAM够6G,听上去是不是比用2060还要震撼? 而且这次还是开箱 ...
无损链接分解_一点都不能少！伯克利研究人员提出深度学习锻造无损数据压缩新方法...
From: BAIR 编译: T.R 数据压缩对于高速传输和高密度保存至关重要.近日来自伯克利的研究人员基于深度学习提出了一种可广泛应用的有效无损数据压缩方法,基于bits-back编码和非对称数字系 ...
新论文推荐：Auto-Keras:自动搜索深度学习模型的网络架构和超参数
Auto-Keras 是一个开源的自动机器学习库,由美国德州农工大学(Texas A&M University)助理教授胡侠和他的两名博士生:金海峰.Qingquan Song提出.Auto- ...
如何从系统层面优化深度学习计算？
编者按:在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习已经被证明是非常有效的,并且在某些问题上已经达到甚至超越了人类的水平.然而,深度学习对于计算能力有着很大的依赖,除了改变模型和 ...
手把手教你从系统层面优化深度学习计算
来源: 微软研究院AI头条本文约5643字,建议阅读10分钟. 在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习是非常有效的,并且某些问题已经达到甚至超越了人类的水平.除了改变模型 ...
系统层面优化深度学习计算
百度首页 yuancsnuist 如何从系统层面优化深度学习计算? 搜狐科技05-1717:18 编者按:在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习已经被证明是非常有效的,并且 ...

陈天奇团队新研究：自动优化深度学习工作负载

陈天奇团队新研究：自动优化深度学习工作负载相关推荐

最新文章

热门文章