tensorflow 模型预训练后的参数restore finetuning

之前训练的网络中有一部分可以用到一个新的网络中，但是不知道存储的参数如何部分恢复到新的网络中，也了解到有许多网络是通过利用一些现有的网络结构，通过finetuning进行改造实现的，因此了解了一下关于模型预训练后部分参数restore和finetuning的内容

更多内容参见：

https://blog.csdn.net/mieleizhi0522/article/details/80535189

https://blog.csdn.net/leo_xu06/article/details/79200634

https://blog.csdn.net/b876144622/article/details/79962727

https://blog.csdn.net/ying86615791/article/details/76215363

首先了解一下变量（tf.Variable），变量是tf框架中用于存储参数的对象，我们这里要恢复的参数也是variable类型的。训练的参数是放在不同名字下的variable中的，checkpoint中存储的变量也是通过不同的名字进行区分的，这里如果要恢复指定的参数可以使用

with tf.variable_scope('', reuse = True):sess.run(tf.get_variable(your_var_name).assign(reader.get_tensor(pretrained_var_name)))

Saver是用于保存变量的对象。下面是saver对象的创建和调用

saver = tf.train.Saver()
save_path = saver.save(sess, "/tmp/model.ckpt")

如果仅在session开始时恢复模型变量的一个子集，需要对剩下的变量执行初始化op。

# Create some variables.
v1 = tf.Variable(..., name="v1")
v2 = tf.Variable(..., name="v2")
...
# Add ops to save and restore only 'v2' using the name "my_v2"
saver = tf.train.Saver({"my_v2": v2})

对已有checkpoint内容进行查看，可以使用一下代码（来自https://blog.csdn.net/mieleizhi0522/article/details/80535189），然后就可以结合之前的指定变量名的方法对参数进行restore了。注意，在完成部分参数的restore后要记得对没有初始化的变量进行初始化，否则报错。

import tensorflow as tfimport osfrom tensorflow.python import pywrap_tensorflowmodel_dir=r'G:\KeTi\C3D'checkpoint_path = os.path.join(model_dir, "sports1m_finetuning_ucf101.model")# 从checkpoint中读出数据reader = pywrap_tensorflow.NewCheckpointReader(checkpoint_path)# reader = tf.train.NewCheckpointReader(checkpoint_path) # 用tf.train中的NewCheckpointReader方法var_to_shape_map = reader.get_variable_to_shape_map()# 输出权重tensor名字和值for key in var_to_shape_map:print("tensor_name: ", key,reader.get_tensor(key).shape)

输出

tensor_name: var_name/wc4a (3, 3, 3, 256, 512)tensor_name: var_name/wc3a (3, 3, 3, 128, 256)tensor_name: var_name/wd1 (8192, 4096)tensor_name: var_name/wc5b (3, 3, 3, 512, 512)tensor_name: var_name/bd1 (4096,)tensor_name: var_name/wd2 (4096, 4096)tensor_name: var_name/wout (4096, 101)tensor_name: var_name/wc1 (3, 3, 3, 3, 64)tensor_name: var_name/bc4b (512,)tensor_name: var_name/wc2 (3, 3, 3, 64, 128)tensor_name: var_name/bc3a (256,)tensor_name: var_name/bd2 (4096,)tensor_name: var_name/bc5a (512,)tensor_name: var_name/bc2 (128,)tensor_name: var_name/bc5b (512,)tensor_name: var_name/bout (101,)tensor_name: var_name/bc4a (512,)tensor_name: var_name/bc3b (256,)tensor_name: var_name/wc4b (3, 3, 3, 512, 512)tensor_name: var_name/bc1 (64,)tensor_name: var_name/wc3b (3, 3, 3, 256, 256)tensor_name: var_name/wc5a (3, 3, 3, 512, 512)

tensorflow 模型预训练后的参数restore finetuning相关推荐

解密万亿参数M6模型预训练背后的分布式框架Whale
简介: 最近,阿里云PAI团队和达摩院智能计算实验室一起发布"低碳版"巨模型M6,大幅降低万亿参数超大模型训练能耗.借助我们自研的Whale框架仅使用480卡GPU,即训练出了规模 ...
PTMs：大模型预训练技巧之ZeRO训练优化技术(DeepS库-减少参数的冗余+优化通信)的简介(四大核心(模型分片/梯度累积/内存优化/分布式训练)、两大优化(非精度/冗余消除))、ZeRO3三个版
PTMs:大模型预训练技巧之ZeRO训练优化技术(DeepSpeed库-减少参数的冗余+优化通信)的简介(四大核心技术(模型分片/梯度累积/内存优化/分布式训练).两大优化技术(ZeRO-Offloa ...
清华研究登Nature子刊：面向大规模预训练语言模型的参数高效微调
©作者 | 机器之心编辑部来源 | 机器之心近年来,清华大学计算机系孙茂松团队深入探索语言大模型参数高效微调方法的机理与特性,与校内其他相关团队合作完成的研究成果"面向大规模预训练语言模 ...
Tensorflow模型优化训练思路
问题现状随着深度学习模型越来越大,数据集越来越大,模型的训练变得越来越慢.这对于想要快速验证算法的研究人员来说,是个比较麻烦的问题. 那么一般来说,我们会想要优化模型训练,以期更快验证模型效果. 无 ...
TensorFlow 调用预训练好的模型—— Python 实现
1. 准备预训练好的模型 TensorFlow 预训练好的模型被保存为以下四个文件 data 文件是训练好的参数值,meta 文件是定义的神经网络图,checkpoint 文件是所有模型的保存路径,如 ...
预训练后性能反而变差，自训练要取代预训练了吗？
2020-07-18 13:53:03 编译 | JocelynWang 编辑 | 丛末早在2018年底,FAIR的研究人员就发布了一篇名为<Rethinking ImageNet Pre- ...
CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达作者:于旭敏 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu. ...
[深度学习] 自然语言处理 --- Huggingface-Pytorch中文语言Bert模型预训练
Hugging face 是一家总部位于纽约的聊天机器人初创服务商,开发的应用在青少年中颇受欢迎,相比于其他公司,Hugging Face更加注重产品带来的情感以及环境因素.官网链接在此 https: ...
【无标题】tensorflow hub 预训练模型库
TensorFlow Hub 是一个包含经过训练的机器学习模型的代码库,这些模型稍作调整便可部署到任何设备上.您只需几行代码即可重复使用经过训练的模型,例如 BERT 和 Faster R-CNN. ...

tensorflow 模型预训练后的参数restore finetuning

tensorflow 模型预训练后的参数restore finetuning相关推荐

最新文章

热门文章