Pytorch有什么节省内存（显存）的小技巧？

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要9分钟

跟随小博主，每天进步一丢丢

编辑：忆臻

https://www.zhihu.com/question/341336919

本文仅作为学术分享，如果侵权，会删文处理

来自：机器学习算法与自然语言处理

Pytorch有什么节省内存（显存）的小技巧？

作者：Lyken
https://www.zhihu.com/question/274635237/answer/755102181

咦，大家都没看过陈天奇的 Training Deep Nets with Sublinear Memory Cost 吗？

训练 CNN 时，Memory 主要的开销来自于储存用于计算 backward 的 activation，一般的 workflow 是这样的

对于一个长度为 N 的 CNN，需要 O(N) 的内存。这篇论文给出了一个思路，每隔 sqrt(N) 个 node 存一个 activation，中需要的时候再算，这样显存就从 O(N) 降到了 O(sqrt(N))。

对于越深的模型，这个方法省的显存就越多，且速度不会明显变慢。

PyTorch 我实现了一版，有兴趣的同学可以来试试 https://github.com/Lyken17/pyto

作者：郑哲东
https://www.zhihu.com/question/274635237/answer/573633662

在不修改网络结构的情况下, 有如下操作：

同意

Jiaming

, 尽可能使用inplace操作，比如relu 可以使用 inplace=True 。

一个简单的使用方法，如下：

def inplace_relu(m):classname = m.__class__.__name__if classname.find('ReLU') != -1:m.inplace=True
model.apply(inplace_relu)

2.进一步，比如ResNet 和 DenseNet 可以将 batchnorm 和relu打包成inplace，在bp时再重新计算。使用到了pytorch新的checkpoint特性，有以下两个代码。由于需要重新计算bn后的结果，所以会慢一些。

gpleiss/efficient_densenet_pytorch
mapillary/inplace_abn

3. 每次循环结束时删除 loss，可以节约很少显存，但聊胜于无。可见如下issue

Tensor to Variable and memory freeing best practices

4. 使用float16精度混合计算。我用过

NVIDIA英伟达

apex，很好用，可以节约将近50%的显存，但是要小心一些不安全的操作如 mean和sum，溢出fp16。

NVIDIA/apex

补充：最近我也尝试在我CVPR19的GAN模型中加入fp16的训练，可以从15G的显存需求降到约10G，这样大多数1080Ti等较为常见的显卡就可以训练了。欢迎大家star一波 https://github.com/NVlabs/DG-Net

5. 对于不需要bp的forward，如validation 请使用 torch.no_grad , 注意model.eval() 不等于 torch.no_grad() 请看如下讨论。

'model.eval()' vs 'with torch.no_grad()'

6. torch.cuda.empty_cache() 这是del的进阶版，使用nvidia-smi 会发现显存有明显的变化。但是训练时最大的显存占用似乎没变。大家可以试试。

How can we release GPU memory cache?

另外，会影响精度的骚操作还有:

把一个batchsize=64分为两个32的batch，两次forward以后，backward一次。但会影响 batchnorm等和batchsize相关的层。

作者：GaryLIU
https://www.zhihu.com/question/274635237/answer/574193034

一般呢，神经网络显存的占用可以简单分为这三部分：

网络模型自身参数占用的显存。
模型计算时（包括forward/backward/optimizer）所产生的中间变量或参数也有占用显存。
编程框架自身一些额外的开销。

依据个人一些小经验，改变网络结构和不改变其结构的节省显存的方法有：

减小Batch-size（这哪门子算trick，哈哈，- -！）
出自https://oldpan.me/archives/how-to-use-memory-pytorch，牺牲计算速度减少显存用量，将计算过程分为两半，先计算一半模型的结果，保存中间结果再计算后面一半的模型。如下

# 输入
input = torch.rand(1, 10)
# 假设我们有一个非常深的网络
layers = [nn.Linear(10, 10) for _ in range(1000)]
model = nn.Sequential(*layers)
output = model(input)### 可进行如下更改
# 首先设置输入的input=>requires_grad=True
# 如果不设置可能会导致得到的gradient为0
input = torch.rand(1, 10, requires_grad=True)
layers = [nn.Linear(10, 10) for _ in range(1000)]# 定义要计算的层函数，可以看到我们定义了两个
# 一个计算前500个层，另一个计算后500个层
def run_first_half(*args):x = args[0]for layer in layers[:500]:x = layer(x)return xdef run_second_half(*args):x = args[0]for layer in layers[500:-1]:x = layer(x)return x# 我们引入新加的checkpoint
from torch.utils.checkpoint import checkpointx = checkpoint(run_first_half, input)
x = checkpoint(run_second_half, x)
# 最后一层单独调出来执行
x = layers[-1](x)
x.sum.backward()  # 这样就可以了

使用pooling，减小特征图的size。
减少全连接层的使用。
relu(inplace=true)，inplace_abn
使用半精度float16。
optimizer的变换使用，理论上，sgd<momentum<adam，可以从计算公式中看出有额外的中间变量。
Depthwise Convolution。
暂时想到这些，最后贴一张模型大小和准确率的图，忘记是哪篇paper了，侵删

方便交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读：

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biafﬁne Dependency Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的？

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作

让更多的人知道你“在看”

Pytorch有什么节省内存（显存）的小技巧？相关推荐

内存显存，cpu,GPU，显卡
内存显存,cpu,GPU 1 硬件上的区别 1 内存条 2 cpu如下图: 3 显存:属于显卡的组成部分,主要负责存储GPU需要处理的各种数据: 4 GPU:在显卡上,属于显卡的芯片,又称图形处理单 ...
【NVIDIA】GeForce-GTX-1080Ti单算法服务内存显存占用
[NVIDIA]GeForce-GTX-1080Ti单算法服务内存显存占用 1.背景 2.关于Gunicorn 服务器 3.测试内存显存占用 3.1 使用1个工作进程 3.2 使用2个工作进程 3.3 ...
fcpx瘦身插件_FCPX减小内存，瘦身小技巧 - Final Cut - 沃CG - 一个更有价值的艺术设计学习平台 - ae教程 c4d教程 - Powered By EduSoho...
FCPX在使用的时候通常因为后台自动渲染,会产生很多的渲染文件,这个时候如果电脑内存不足的话,FCPX使用起来就会非常卡,下面几个小技巧可以减小FCPX内存. 1.在素材导入中选择正确的设置在素材导 ...
OOM？教你如何在PyTorch更高效地利用显存
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨派派星来源丨CVHub 编辑丨极市平台导读本文介绍了如何在不减少输入数据尺寸以及Batch ...
【半精度】Pytorch模型加速和减少显存
如标题所示,这是PyTorch框架提供的一个方便好用的trick:开启半精度.直接可以加快运行速度.减少GPU占用,并且只有不明显的accuracy损失. 之前做硬件加速的时候,尝试过多种精度的权重和 ...
RuntimeError: CUDA out of memory. Tried to allocate XX.XX MiB. pytorch训练超出撑爆显存的问题
1.batch_size设置过大这种比较好理解,就是单卡batch_size设置大了,数据量就大了,显存可能就放不下了.不过一般batch_size也不宜设置过小,不然如果batch里含有噪声数据其 ...
内存和显存_小科普 |“内存”和“显存”有啥关系？
上周,我们一起了解了什么是DIMM.什么是DDR内存(戳这里),相信有不少人心里还有个疑惑:"内存与显存有什么差别?为什么显卡都GDDR6了,CPU还在用DDR4?"那么我们今天就 ...
显卡内存和计算机内存,显存和内存的关系和区别
显存和内存是什么关系?显存和内存有什么区别?接下来我们来讨论一下.通常说到显存和内存的时候,还会说一下缓存.存储,我们一起介绍一下. 1.显存即显卡内存,也叫帧缓存,是用来存储显卡芯片处理过或者即将 ...
Jetson TX2内存/显存
一.参考资料 CUDA for Tegra 知否,NVIDIA Jetson 产品显存到底多少? 二.重要概念 1. integrated GPU (iGPU) 集成显卡 2. discrete GP ...
大型3d游戏资源加载三步曲(硬盘内存显存)
http://blog.csdn.net/fuzb/article/details/2084362 做过游戏的人都知道游戏的资源非常庞大,需要有一个好的后台预加载机制.现在一般都是再开一个I/O线程, ...

Pytorch有什么节省内存（显存）的小技巧？

Pytorch有什么节省内存（显存）的小技巧？

Pytorch有什么节省内存（显存）的小技巧？相关推荐

最新文章

热门文章