情况说明

相同的数据集用yolov3tiny跑了一遍,结果还好,想换成yolov3看看效果会不会有提升。(均匀GPU加速)

Using cuda _CudaDeviceProperties(name='GeForce RTX 2060', major=7, minor=5, total_memory=6144MB, multi_processor_count=30)

yolov3tiny的各参数如下

train.py

epochs=10,
batch_size=16,
accumulate=1,

yolov3-tiny.cfg

batch=1
subdivisions=1
width=416
height=416

其他所有参数都是原来的模型里的参数。

用同样的参数跑YOLOv3模型(GPU暂时还扛得住,在这个batch下)

然后就nan了,第227次,开始爆炸,然后nan

尝试解决

情况1:GPU替换问题

求助:YOLOv3中loss为nan_谋天下的博客-CSDN博客

很明显我之前在GPU跑成功过,应该不是这个问题。

情况2:数据集或者标签问题

关于YOLO训练自己的数据出现nan的问题_pts_mjt的博客-CSDN博客_yolov3训练出现nan

同上,跑成功过也不是这个问题。也不是图片大小问题,不用修改cfg的图片尺寸。

情况3:batch和subdivision调节问题

yolov3训练模型的时候avg为Nan的一种解决方法_雅痞匪徒(Nike)的博客-CSDN博客

调数值

batch=64
subdivisions=8

在第271次爆炸,nan

情况4:权重文件问题

Yolov3 出现avg loss nan的情况_ystsaan的博客-CSDN博客

结果最后使用之前训练我所需要检测图片已经训练过的权重当做detector train的起始权重,不用yolov3 darknet作者提供的darknet53.conv.74权重文件,avg loss正常下降。说明起始权重所对应图片集与我所要训练的图片集若有较大差异,训练会出现问题

我更换了yolov3-tiny.cfg文件,仍旧nan

情况5:修改步长

用yolov3 VOC训练自己的数据时出现的问题及解决方法_小蜗zdh的博客-CSDN博客

原来程序的步长

steps=40000,45000
scales=.1,.1

修改后步长

steps=100,10000,70000,80000,90000        # 训练到相应次数后学习率变化
scales=10,10,.1,.1,.1   

也不行。。。。

情况6:修改学习率(成功)

炼丹手册——NaN值问题_爱做菜的炼丹师-CSDN博客

学习率大造成loss异常

学习率太大有可能引起梯度值过大产生梯度爆炸从而出现NaN值,学习率的大小通常和神经网络的深度有一定关系,由于网络越深在反向传播时链式法则的求导会不断放大梯度所以建议学习率越小,针对这个问题可以采用以下几个解决方法:

调节学习率,把lr以10倍下降的方式结合自身网络深度进行测试;
调节网络结构,梯度值异常增长会随着网络深度的而加剧,减少网络深度或者采用Highway等方式设计网络;
加入梯度裁剪,每当梯度达到一定的阈值,就把它拉回一个小的数值
————————————————
版权声明:本文为CSDN博主「思绪零乱成海」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/neil3611244/article/details/113354996

把学习率从0.001降到了0.005,就可以跑起来了

对应的迭代次数从200加到400

yolov3出现nun情况解决过程笔记相关推荐

  1. OTA制作及升级过程笔记【转】

    本文转载自:http://www.it610.com/article/5752570.htm 1.概述 1.1   文档概要 前段时间学习了AndroidRecovery模式及OTA升级过程,为加深理 ...

  2. oracle pls 00905,【案例】Oracle报错PLS-00714 PLS-00951原因和解决办法笔记

    [案例]Oracle报错PLS-00714 PLS-00951原因和解决办法笔记 时间:2016-11-14 11:07   来源:Oracle研究中心   作者:代某人   点击: 次 天萃荷净 P ...

  3. Win7 32位安装.net framework 4失败的解决过程

    Win7 32位安装.net framework 4失败的解决方法(比较全). 以前安装过.net framework 4,3.5,2,1,后来全部在控制面板中卸载,近来想重新装回去,发现无法安装.折 ...

  4. 生产环境GC故障解决过程记录

    2019独角兽企业重金招聘Python工程师标准>>> 排查了五六个小时,终于解决了GC的问题,记录一下希望可以帮到有需要的人,本文假定读者对GC知识有一定的了解 如果不了解可以先参 ...

  5. Cisco 3560 丢失 IOS 解决过程

    Cisco 3560 丢失 IOS 解决过程 Flash 被清空的情况下,只能使用 Xmodem 导入,速度大约4k/s. 思科交换机3560 IOS 被删除,插上 console 之后,只能显示&q ...

  6. 滴滴算法大赛算法解决过程 - 机器学习

    按照前面文章的方法进行数据预测,完全不使用POI,天气,交通情况的数据,可以达到0.43的成绩. 不过如果想要获得更好的成绩,简单的预测方法显然无法满足要求了. GBDT 网友说可以使用GBDT的方法 ...

  7. 滴滴算法大赛算法解决过程 - 拟合算法

    拟合 概论 Gap的预测,是建立在一个拟合函数上的.也有一些机器学习的味道. 总的Gap函数 = 函数(时间,地区) TimeID : 时间片编号 DistricID:地区编号 Traffic:交通流 ...

  8. linux mariadb 乱码,MariaDB插入中文数据乱码解决过程

    基本情况: MariaDB安装方式:yum 乱码解决过程: 1.查看当前数据库编码(登录数据库后) # show variables like 'character%'; (上图为已经配置成功) 2. ...

  9. vb.net服务器启动后cpu占用了70_记一次服务器被异常程序占用的解决过程(怀疑黑客攻击)...

    最近在跑实验,但是突然发现程序运行变慢,然后top命令查看程序运行情况,发现有异常进程,名字叫 bash,占用 2400% CPU计算资源. 刚开始怀疑是挖矿程序,因实验室网络IP为教育网公网,怀疑被 ...

最新文章

  1. 太TM难看了,我自己都看不下去了
  2. 来了个假阿里? | 每日趣闻
  3. Asp.net MVC防止图片盗链的实现方法,通过自定义RouteHandler来操作
  4. ThinkPHP开发中遇到的小坑
  5. webSocket使用心跳包实现断线重连
  6. 编程之美-求二叉树中节点的最大距离方法整理
  7. InetAddress 解析
  8. Elasticsearch与SpringBoot整合 High-level-client-rest
  9. [TJOI2017]DNA
  10. TDirectory.GetDirectoryRoot获取指定目录的根目录
  11. python学习手册笔记——29.运算符重载
  12. javascript DOM操作
  13. 【RecSys】推荐系统和计算广告经典算法论文及实现总结
  14. 基于php的小区物业管理系统
  15. 中国各省名称+ 经纬度
  16. android实现按键找图功能,从零学起之安卓篇《按键精灵安卓版找图找色应用汇总介绍》更新20140603 _ 教程中心 - 按键精灵论坛...
  17. php xheditor 上传图片,codeigniter整合xheditor之后,xheditor上图片问题
  18. osm 搭建离线地图_利用OpenStreetMap(OSM)数据搭建一个地图服务
  19. 【甲级PAT】-1132 Cut Integer (20分)-数字处理
  20. 当一个女生说她要减肥的时候

热门文章

  1. MSN Messenger聊天机器人颁奖典礼
  2. php-ant一体小烟,2018上半年最受欢迎的几款可注油电子小烟,你抽过几款?
  3. MLdonkey与sancho安装使用及设置详解
  4. netbox怎么用?
  5. 搭建DNF台服之开启拍卖行
  6. [考研]考研倒计时第10天
  7. 让图片和文字居中对齐的方法
  8. {2018.5.8}荀(gou)彧(huo)的贪心初步小结
  9. 【Matlab小问题】记一次simulink修改后保存就会崩溃问题解决
  10. 数据库 sql 语句查字段包含某个字符串