1.什么是微调?

这个东西其实和模型迁移是相互连接在一起的,就是你将本身类似的一个东西拿到这里拿过来,在这里再稍微训练一下接着使用了,这里稍微再训练一下就是微调了。

2.为什么微调是有效的?

2.1浅层的网络更适合共用

这里我们注意这样的一个问题,在一个模型当中,我们实际上大约可以从浅到深笼统的将其分成大约三个部分:1.特征提取(1.1浅层提取细节上的信息1.2深层上提取总体的信息)2.结果输出。
这里我们可以看出来浅层网络其实在类似的学习模型中,是比较类似的,所以浅层网络是比较可以共用的。

2.2训练时,不同层之间的训练率差异

我们可以因为梯度会越乘算越小,所以我们在计算的过程中会有梯度消失的现象,虽然我们可以使用ResNet来进行优化,但是实际上浅层网络(在forward的过程中他是浅层,但是在backward的过程中就会变成深层)训练起来会比较慢。

2.3综合起来

本身我们就是想改变深层网络的参数情况,保留浅层网络的参数,训练的特性正好帮我们完成了这件事,所以,非常好。

3.怎么实现

什么是微调?什么是模型迁移?相关推荐

  1. 使用迁移学习后使用微调再次提高模型训练的准确率

    使用迁移学习后使用微调再次提高模型训练的准确率 1.微调 所谓微调:冻结模型库的底部的卷积层,共同训练新添加的分类器层和顶部部分卷积层.这允许我们"微调"基础模型中的高阶特征表示, ...

  2. 神经网络学习小记录19——微调VGG分类模型训练自己的数据(猫狗数据集)

    神经网络学习小记录19--微调VGG分类模型训练自己的数据(猫狗数据集) 注意事项 学习前言 什么是VGG16模型 VGG模型的复杂程度 训练前准备 1.数据集处理 2.创建Keras的VGG模型 3 ...

  3. 技术干货|昇思MindSpore NLP模型迁移之Roberta ——情感分析任务

    熟悉 BERT 模型的小伙伴对于 Roberta 模型肯定不陌生了.Roberta 模型在 BERT 模型的基础上进行了一定的改进,主要改进点有以下几个部分: 1. 训练语料:BERT只使用 16 G ...

  4. 飞桨上线万能转换小工具,教你玩转TensorFlow、Caffe等模型迁移

    百度推出飞桨(PaddlePaddle)后,不少开发者开始转向国内的深度学习框架.但是从代码的转移谈何容易,之前的工作重写一遍不太现实,成千上万行代码的手工转换等于是在做一次二次开发. 现在,有个好消 ...

  5. Pytorch模型迁移和迁移学习,导入部分模型参数

    Pytorch模型迁移和迁移学习 目录 Pytorch模型迁移和迁移学习 1. 利用resnet18做迁移学习 2. 修改网络名称并迁移学习 3.去除原模型的某些模块 1. 利用resnet18做迁移 ...

  6. 使用 Azure CLI 将 IaaS 资源从经典部署模型迁移到 Azure Resource Manager 部署模型

    以下步骤演示如何使用 Azure 命令行接口 (CLI) 命令将基础结构即服务 (IaaS) 资源从经典部署模型迁移到 Azure Resource Manager 部署模型. 本文中的操作需要 Az ...

  7. 手势识别:使用EfficientNet模型迁移、VGG16模型迁移

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) EfficientNet中的每个模型要求的输入形状大小 每个网 ...

  8. 将TensorFlow训练好的模型迁移到Android APP上(TensorFlowLite)

    将TensorFlow训练好的模型迁移到Android APP上(TensorFlowLite) 1. 写在前面   最近在做一个数字手势识别的APP(关于这个项目,我会再写一篇博客仔细介绍,博客地址 ...

  9. NLP-分类模型-2016-文本分类:FastText【使用CBOW的模型结构;作用:①文本分类、②训练词向量、③词向量模型迁移(直接拿FastText官方已训练好的词向量来使用)】【基于子词训练】

    <原始论文:Bag of Tricks for Efficient Text Classification> <原始论文:Enriching Word Vectors with Su ...

最新文章

  1. 使用PHP对数据库输入进行恶意代码清除
  2. mysql5.7.23权限问题_部署MySQL5.7时的权限问题
  3. Solaris的syslog机制
  4. 人工智能:各种知识收集----不断追加内容
  5. java 桥梁模设计,Java设计模式学习篇(九)桥接设计模式
  6. HDU 1856 Brave Game(巴什博奕)
  7. 客户端显示服务器图片不显示,客户端请求服务器图片不显示
  8. 東方 project 联机版开发日记(1)
  9. 统计学习方法读书笔记12-逻辑斯蒂回归与最大熵
  10. 467.环绕字符串中唯一的子字符串
  11. echarts 地图散点
  12. 禁用win10触摸屏手势_笔记本WIN10系统启用或关闭触控板的多指(多点)触控功能步骤...
  13. MODIS数据之HEG拼接重采样批处理(Python_MacOS)
  14. 电脑桌面计算机怎么设置,电脑桌面日历怎么设置全透
  15. 清理Elasticsearch中过期的日志索引
  16. BDB(C) Getting Started - Introduction to Berkeley DB
  17. 41、防火检查中安全疏散设施的要求
  18. 微信最强花式操作,带你玩转 wxpy
  19. [倚天屠龙记] vim 查找与替换(正则表达式)
  20. 坛经与禅宗的智慧-王德峰

热门文章

  1. MySQL连接数超过限制的解决方法
  2. Tomcat源码分析(六)--日志记录器和国际化
  3. Microsoft .NET Pet Shop 4
  4. Prism学习笔记(三):对Prism中模块化程序的理解。
  5. 我们为什么需要工作流
  6. .NET基础示例系列之二十:对图片的几种简单处理
  7. 执行 pip3 install selenium 时出现 fail to create process
  8. 运筹学期末复习2020年
  9. Leetcode62 DP
  10. ubuntu 12.04 交叉编译 arm/mips 平台的 strace