学习目标:

预训练(pre-training/trained)和微调(fine tuning)这两个词经常在论文中见到,今天主要按以下两点来说明。

什么是预训练和微调?
它俩有什么作用?

一、什么是预训练和微调?

预训练(pre-training/trained):你需要搭建一个网络来完成一个特定的图像分类的任务。首先,你需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当你觉得结果很满意的时候,就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是pre-training。之后,你又接收到一个类似的图像分类的任务。这个时候,你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数,然后在训练的过程中,依据结果不断进行一些修改。这时候,你使用的就是一个pre-trained模型,而过程就是fine-tuning。

所以,预训练就是指预先训练的一个模型或者指预先训练模型的过程;微调 就是指将预训练过的模型作用于自己的数据集,并参数适应自己数据集的过程。

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、微调的作用?

在CNN领域中。很少人自己从头训练一个CNN网络。主要原因上自己很小的概率会拥有足够大的数据集,从头训练,很容易造成过拟合。

所以,一般的操作都是在一个大型的数据集上训练一个模型,然后使用该模型作为类似任务的初始化或者特征提取器。比如VGG,Inception等模型都提供了自己的训练参数,以便人们可以拿来微调。这样既节省了时间和计算资源,又能很快的达到较好的效果。

参考文献: https://www.jianshu.com/p/330ee6e7ceda

ML笔记:预训练(pre-training/trained)与微调(fine tuning)相关推荐

  1. 《预训练周刊》第51期:无重构预训练、零样本自动微调、一键调用OPT

    No.51 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...

  2. 清华研究登Nature子刊:面向大规模预训练语言模型的参数高效微调

    ©作者 | 机器之心编辑部 来源 | 机器之心 近年来,清华大学计算机系孙茂松团队深入探索语言大模型参数高效微调方法的机理与特性,与校内其他相关团队合作完成的研究成果"面向大规模预训练语言模 ...

  3. 预训练+微调+Rethinking ImageNet Pre-training论文阅读笔记

    文章目录 一.前言 二.预训练+微调 1.预训练 2.微调 3.Pytroch实现 三.Rethinking ImageNet Pre-training论文笔记 参考文献 一.前言 近期在阅读何凯明大 ...

  4. 《预训练周刊》第13期:CPM-2:大规模经济高效的预训练语言模型、变换器作为编程语言...

    No.13 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第13期&l ...

  5. Tensorflow【实战Google深度学习框架】预训练与微调含代码(看不懂你来打我)

    文章目录 1.前言 2.什么是预训练和微调 3.预训练和微调的作用 4.在一个新任务上微调一个预训练的模型代码实现 1.前言 预训练(pre-training/trained)和微调(fine tun ...

  6. 革命性提升-宇宙最强的NLP预训练BERT模型(附官方代码)

    编辑 忆臻 公众号 | 机器学习算法与自然语言处理 yizhennotes 1.  Bert官方源码公开 终于是千呼万唤始出来,Google AI 发表于10月中旬的论文: <BERT: Pre ...

  7. 【论文阅读】用于自动中文作文评分的多阶段预训练

    摘要 这篇文章提出了一个基于预训练的中文作品评分方法.方法包含3个成分:弱监督预训练,有监督的交叉提示(cross-prompt)微调 和 有监督的目标提示(target-prompt)微调. 一个文 ...

  8. 预训练技术在美团到店搜索广告中的应用

    猜你喜欢 0.2021年轻人性生活调研报告1.如何搭建一套个性化推荐系统?2.从零开始搭建创业公司后台技术栈3.2021年10月份热门报告免费下载4.微博推荐算法实践与机器学习平台演进5.腾讯PCG推 ...

  9. 不要停止预训练实战-Roberta与Albert

    文章目录 前言 任务描述 任务数据集 实验设置 预训练数据生成 roberta的预训练数据处理 albert的预训练数据处理 预训练代码 模型结构 Roberta embedding_lookup e ...

  10. MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。

    项目设计集合(人工智能方向):助力新人快速实战掌握技能.自主完成项目设计升级,提升自身的硬实力(不仅限NLP.知识图谱.计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户 ...

最新文章

  1. 使用@Transactional应注意的问题
  2. python智能办公系统_用 Python 自动化办公能做到哪些有趣或有用的事情?
  3. 计算机网络各层代表设备
  4. 通过游戏的方式与陌生人聊天,破冰是如何做到的?
  5. BZOJ 1005: [HNOI2008]明明的烦恼
  6. 给正在努力的您几条建议(附开源代码)
  7. 同步服务老是报错_悬而未决:MYSQL配置好主从同步后没有报错,但数据一直没有同步过来是什么原因? | 学步园...
  8. 作者:牟少敏,博士,山东农业大学教授。
  9. c语言指针的地址存放,c语言 - *指针 和 地址
  10. 拟合方程是什么matlab,matlab离散型数据拟合方程,求系数,哪个大神能说说方法...
  11. cocos2dx android运行Luac编译后的lua代码
  12. java输出横纵坐标点_java编程 知道坐标求三角形 做了一部分题目要求写出一个Point(点)类,该类具有x,y(表示点的横、纵坐标)两个属...
  13. 智慧通用大屏看板+智慧旅游/政府服务大屏看板+常用图表组件折线图+圆柱图+散点图+热力图+漏斗图+雷达图+航线图+中国动态地图+智慧电商实时动态数据大屏看板+智慧web端高保真大数据动态可视化大屏看板
  14. Multisim卸载删除经历(已重新安装)
  15. ARM汇编程序——加法
  16. js输出100以内的质数
  17. [车]上海外地“苏牌”竟要万元
  18. markdown颜色索引及表格背景颜色填充
  19. android studio keystore.jks,jks和keystore的区别
  20. 为什么宝宝做错事被骂哭后,还要求抱抱?家长早知道早受益

热门文章

  1. android 百度地图 根据地址 查到其经纬度,使用百度地图api实现根据地址查询经纬度...
  2. 5G时代的到来--5G技术介绍
  3. ESP8266串口WIFI 无线控制模块
  4. 云桌面到底是干什么的?
  5. dhcp服务器在作用,dhcp的作用是什么?dhcp优缺点
  6. 未群发消息接腾讯服务器吗,腾讯企业QQ(协同)如何设置并群发消息?
  7. 智能语音对话处理过程
  8. 正则表达式 压缩 HTML 字符串
  9. 1237 -- 地盘划分
  10. 线性代数---(2)n维向量组