谢邀,我也不是很确定,手边暂时也没法google,先抛个砖吧,期待后续有大佬来解答。

之前用keras训练模型也遇到过类似的问题,pre-trained model 直接inference倒是没什么问题,但如果继续train的话会发现loss很高,并没有在上次的loss基础上开始继续优化。

之前google到的回答大概意思是在保存的时候记得optimizer也要保存,然后continuously train的时候,除了load模型和参数,也要load optimizer.torch.save(optimiser.state_dict(), 'optimiser.pth')

optimiser.load_state_dict(torch.load('optimiser.pth'))

Update:

If you trained your model using Adam, you need to save the optimizer state dict as well and reload that. Also, if you used any learning rate decay, you need to reload the state of the schedulerbecause it gets reset if you don’t, and you may end up with a higher learning rate that will make the solution state oscillate. Finally, if you have any dropout or batch norm in your model architecture, and you saved your model after a test loop (in which casemodel.eval()was called), make sure to callmodel.train()before the training loop.

pytorch保存模型pth_Pytorch模型的加载和保存是否有坑?相关推荐

  1. Pytorch 加载和保存模型

    目录 保存和加载模型 1.  什么是状态字典:state_dict? 2.保存和加载推理模型 2.1 保存/加载 state_dict (推荐使用) 2.2 保存/加载完整模型 3. 保存和加载 Ch ...

  2. PyTorch框架学习十九——模型加载与保存

    PyTorch框架学习十九--模型加载与保存 一.序列化与反序列化 二.PyTorch中的序列化与反序列化 1.torch.save 2.torch.load 三.模型的保存 1.方法一:保存整个Mo ...

  3. [Pytorch系列-41]:卷积神经网络 - 模型参数的恢复/加载 - 搭建LeNet-5网络与MNIST数据集手写数字识别

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  4. Tensorflow模型加载与保存、Tensorboard简单使用

    先上代码: from __future__ import absolute_import from __future__ import division from __future__ import ...

  5. 【待更新】GPU 保存模型参数,GPU 加载模型参数

    GPU 保存模型参数,GPU 加载模型参数 保存 # 模型 device = torch.device('cuda') net = KGCN(num_user, num_entity, num_rel ...

  6. Python gensim库使用word2vec 加载和保存模型、在预训练基础上训练自己的预料

    Python gensim库使用word2vec 常见: gensim.models.word2vec.Word2Vec(size=300, sg=1, min_count=1) 加载和保存模型 ge ...

  7. 解析OBJ模型并将其加载到Unity3D场景中

    版权声明:本文由秦元培创作和发表,采用署名(BY)-非商业性使用(NC)-相同方式共享(SA)国际许可协议进行许可,转载请注明作者及出处,本文作者为秦元培,本文标题为解析OBJ模型并将其加载到Unit ...

  8. 基于Flask+Nginx+uWSGI实现CentOS服务端模型部署及预加载

    基于Flask+Nginx+uWSGI实现CentOS服务端模型部署及预加载http://www.manongjc.com/article/37802.html

  9. 多输出模型实例的数据加载

    多输出模型实例的数据加载 相关的数据集放在C:/Users/Administrator/data/moc import tensorflow as tf from tensorflow import ...

  10. unity下载模型到本地并加载

    目录 1.目的 2.参考 2.1 Unity3D 动态加载本地/网络GLB模型 2.2 unity下载模型到本地并加载 2.3 插件:TriLib2.0 3.注意 4.操作 4.1 3dmax简单的制 ...

最新文章

  1. C#事件回调委托EventHandler
  2. cmd中如何切换指定目录
  3. 8.程序什么时候应该使用线程,什么时候单线程效率高?
  4. LSMW批导数据文件注意
  5. 海龟交易代码java_海龟交易算法,实现量化交易(1)数据获取
  6. 提供做某事Do you want me to..._45
  7. matlab中运用demod解调程序,matlab调制解调源码有代码解释原理分析
  8. pycharm TabError: inconsistent use of tabs and spaces in indentation
  9. android simple-xml,使用Maven构建Android项目-dexer在simple-xml依赖项上失败
  10. 一个基于protobuf的极简RPC
  11. jdbc连接timesten_采用java链接timesten内存数据库
  12. 低代码--功能模块化,逻辑图形化
  13. 键盘表和ASCII码表
  14. 十大web安全扫描工具
  15. 华为MatePad Pro和华为MatePad区别
  16. 怎么对文件夹进行随机重命名?怎么批量给多个文件夹生成随机名称?
  17. 【算法16】递归算法的时间复杂度终结篇
  18. 【工具】JS脚本|网页任意视频倍速播放(包括MOOC、本地视频、其他的视频)
  19. 软件测试,作为职场新鸟?我该怎么办?看看资深5年测试的见解......
  20. Vue 滚动事件穿透解决方案

热门文章

  1. 重磅:《肠道产业》2020-2021年度榜单
  2. ME | 决定性过程促进了深层土壤微生物空间周转率的增加
  3. 宏基因组蚂蚁森林合种——胡杨专车
  4. 病毒进入体内的48小时
  5. R语言ggplot2可视化:jupyter中设置全局图像大小、jupyter中自定义单个ggplot2图像结果的大小
  6. R语言散点图可视化:自定义标题和标签、拟合回归线、lowess为散点图添加平滑拟合线、修改散点图中点颜色和点符号、分组散点图、添加图例、pairs可视化散点图矩阵、ggplt2可视化、lattice
  7. R语言使用ggplot2包的快速可视化函数qplot绘制分组散点图(添加平滑曲线与标准差带)实战
  8. windows通过脚本批量设置环境变量(env、path)实战:java环境、scala环境、maven环境、gradle环境、nodejs、git等
  9. R语言对dataframe(data.table)数据分层随机抽样实战
  10. 机器学习数据清洗之缺失值处理、缺失的原因、缺失值删除、缺失值填充、KNN填充