Pytorch训练SSD网络时遇到的问题

当我使用大神利用pytorch复现的SSD网络进行训练时，遇到如下问题：

1、loss突然变为NAN

问题分析及解决方案：由于我的显存只有4G，因此将默认的batch_size由32改为了2。在batch_size减小的情况下，应适当减小学习率，即可解决问题。比较合适的组合如下：

batch_size=32 lr=1e-3

batch_size=8 lr=1e-4

batch_size=2 lr=1e-5

2、Stop Iteration（自动跳出迭代）

#使用如下代码代替：images, targets = next(batch_iterator)
try:images, targets = next(batch_iterator)
except StopIteration:batch_iterator=iter(data_loader)images, targets = next(batch_iterator)

3、loss_c[pos] = 0，提示Pos与loss_c形状不匹配

#在loss_c[pos]=0前添加如下代码，改变loss_c形状
loss_c = loss_c.view(pos.size()[0],pos.size()[1])

4、在GPU下执行webcam demo

源码中live.py文件默认只能在cpu下执行，如果想要在gpu下执行，则需要修改如下几处代码:

    #1、新增代码：创建网络对象net后，将其转移到gpu上if args.cuda > 0:net.cuda()# 2、修改代码：将 cv2_demo(net.eval(), transform)改为如下代码with torch.no_grad():cv2_demo(net.eval(), transform)#3、新增代码：在函数predict里的x = Variable(x.unsqueeze(0))代码后新增如下代码，将输入转移到gpu上计算if args.cuda > 0:x = x.cuda()#4、ssd.py文件中detect函数的输入self.priors.type(type(x.data)) 改为如下代码self.priors.type_as(x)

参考：https://blog.csdn.net/dingkm666/article/details/88775428

Pytorch训练SSD网络时遇到的问题相关推荐

Pytorch 训练与测试时爆显存(cuda out of memory)的终极解决方案，使用cpu(勿喷)
Pytorch 训练与测试时爆显存(cuda out of memory)的终极解决方案,使用cpu(勿喷) 参见了很多方法,都没有用. 简单点,直接把gpu设成-1
keras用cpu加速_在训练某些网络时，Keras（Tensorflow后端）在GPU上比在CPU上慢CPU
我很难理解GPU和CPU速度与小尺寸网络(CPU有时更快)相似的原因,而GPU更快更大尺寸的网络.问题底部的代码在i7-6700k上以103.7s运行,但是当使用tensorflow-gpu时,代码运 ...
python吃显卡还是内存不足_解决Pytorch 训练与测试时爆显存(out of memory)的问题
Pytorch 训练时有时候会因为加载的东西过多而爆显存,有些时候这种情况还可以使用cuda的清理技术进行修整,当然如果模型实在太大,那也没办法. 使用torch.cuda.empty_cache() ...
在PyTorch训练一个epoch时，模型不能接着训练，Dataloader卡死
笔者在训练模型的时候,突然偶遇这个问题,即训练一个epoch时,模型不能接着训练,只能通过Ctrl+C强制性暂停,见下图: Ctrl+C之后呈现的信息表明,这个bug是和多线程有关系. 经过笔者实验, ...
Pytorch 训练与测试时爆显存(out of memory)的一个解决方案
Pytorch 训练时有时候会因为加载的东西过多而爆显存,有些时候这种情况还可以使用cuda的清理技术进行修整,当然如果模型实在太大,那也没办法. 使用torch.cuda.empty_cache() ...
解决Pytorch 训练与测试时爆显存(out of memory)的问题
Pytorch 训练时有时候会因为加载的东西过多而爆显存,有些时候这种情况还可以使用cuda的清理技术进行修整,当然如果模型实在太大,那也没办法. 使用torch.cuda.empty_cache() ...
Pytorch训练PTB数据集时速度慢的问题
项目场景: 利用Pytorch在PTB数据集上训练的词嵌入模型的实现. 问题描述: 在训练过程中,发现训练速度很慢,利用GPU-Z查看后,发现GPU利用率基本为0. 原因分析: 为了找到耗时大的程序段 ...
pytorch训练WGAN网络
使用8个高斯分布做对抗网络训练. wgan_gp.py,代码: import torch from torch import nn, optim, autograd import numpy as n ...
报错(已解决)：训练SSD网络时候出现DuplicateFlagError: The flag 'loss_alpha' is defined twice. 问题求助
https://blog.csdn.net/liuyan20062010/article/details/78905517#commentsedit 第一: 按照上述博客方法做训练博客中的方案3 方案 ...
目标检测算法SSD用于行人检测（二）：训练和测试SSD网络
将Caltech数据集转化为caffe的输入数据格式LMDB请参考上一篇文章:https://blog.csdn.net/sunshine_zkf/article/details/86173247 前 ...

Pytorch训练SSD网络时遇到的问题

Pytorch训练SSD网络时遇到的问题相关推荐

最新文章

热门文章