文章目录

  • 一:过拟合
    • 1.1 直接finetune
    • 1.2 layer finetune
    • 1.3ULMFiT
  • 2 Bert节省内存
  • 3 Bert蒸馏
  • 4.post train

一:过拟合

1.1 直接finetune

容易过拟合

1.2 layer finetune

拷贝部分预训练参数,而其他随机初始化

  1. 两部分一同训练:提升(左下线5)
  2. 只训练随机初始化的部分:破坏(左下线2),但在此基础上再解冻剩余部分会恢复(左下线3)

    李宏毅transfer learning.
    How transferable are features in deep neural networks? 论文笔记
    How transferable are features in deep neural networks?

1.3ULMFiT

Universal Language Model Fine-tuning for Text Classification
从最后一层到前层,逐层解冻

2 Bert节省内存

以时间节省内存

3 Bert蒸馏

Bert短路–>加速了

4.post train

不是很懂,大体是对已经与训练过的模型,使用新的数据集进一步预训练,之后再做finetune。
疫情期间微博数据情感分析的任务中,第一名(还是第三名?)用这个方法进行进一步预训练,数据集大小10w

finetune与Bert相关推荐

  1. 干货 | 谷歌BERT模型fine-tune终极实践教程

    作者 | 奇点机智 从11月初开始,Google Research就陆续开源了BERT的各个版本.Google此次开源的BERT是通过TensorFlow高级API-- tf.estimator进行封 ...

  2. 谷歌BERT模型fine-tune终极实践教程

    从11月初开始,Google Research就陆续开源了BERT的各个版本.Google此次开源的BERT是通过TensorFlow高级API-- tf.estimator进行封装(wrapper) ...

  3. BERT中的黑暗秘密

    2020-01-30 17:00:34 作者:Anna Rogers 编译:ronghuaiyang 导读 在finetune BERT的时候发生了什么? 这篇博客文章总结了我们EMNLP 2019年 ...

  4. 06_1.Pytorch中如何表示字符串、word embedding、One - hot、Embedding(Word2vec、BERT、Glove)【学习总结】

    1.6.1.如何表示字符串 1.6.1.1.word embedding 1.6.1.1.1.文本表示(Representation) 1.6.1.1.2.独热编码 | one-hot represe ...

  5. bert简介_BERT简介

    bert简介 BERT, Bi-directional Encoder Representation from Transformer, is a state of the art language ...

  6. 李宏毅机器学习(七)自监督学习(二)BERT奇闻轶事

    WHY does BERT work? BERT会考虑上下文! 进行Word Embedding!将一个单词表示成向量,比如苹果单词中的"果"和苹果公司中的"果" ...

  7. BERT实战(1):使用DistilBERT作为词嵌入进行文本情感分类,与其它词向量(FastText,Word2vec,Glove)进行对比

    这次根据一篇教程Jay Alammar: A Visual Guide to Using BERT for the First Time学习下如何在Pytorch框架下使用BERT. 主要参考了中文翻 ...

  8. 最火的几个全网络预训练模型梳理整合(BERT、ALBERT、XLNet详解)

    前言 过去两年可谓是NLP领域的高光年,自从18年BERT提出,狂刷了11项下游任务的记录之后,全网络预训练模型开启了NLP嵌入表示的新时代,真正意义上实现了自然语言处理的迁移学习. 作为一个刚入坑没 ...

  9. 【BERT蒸馏】DistilBERT、Distil-LSTM、TinyBERT、FastBERT(论文+代码)

    文章目录 0. 引言 1. FastBERT: a Self-distilling BERT with Adaptive Inference Time 1.1 摘要 1.2 动机 1.3 贡献(适用于 ...

最新文章

  1. c如何正常中断一个运行的线程
  2. 解决pandas:ValueError: Cannot convert non-finite values (NA or inf) to integer
  3. 前NASA工程师硬核“复仇”,自制闪光臭屁炸弹,把快递小偷都整不会了
  4. linux下tar包追加与其他压缩追加方式
  5. Oracle 11g客户端及PLSQL Developer配置|Instant Client Setup-64位|OraClientLite11g_x86
  6. Linux下配置CollabNet Subversion Edge
  7. 现代软件工程 (备份)
  8. 经典面试题:聊一聊垃圾回收算法
  9. java.sql.SQLException: Protocol violation 解决方法
  10. 数据结构: 树 (查找树)
  11. cocos2d-x 3.0对label的改进
  12. yuki翻译器钩子_GalGame 翻译器
  13. DEA各种模型原理及stata代码实现
  14. 免费的多功能视频格式转换工具XMedia Recode
  15. 引言-知识技能树(数据分析相关)
  16. MySql实验嵌套查询_数据库实验:SQL嵌套查询
  17. 一只蝴蝶引发的海啸:垂死的CDN行业风云再起
  18. 2020年9月电子学会Python等级考试试卷(四级)考题解析
  19. Neutrino追问®AMA第10期|Hydro联合创始人:分叉的目的是给生态提供更好的去中心化交易
  20. JAVA validation的使用

热门文章

  1. ARM 原子操作里的两个汇编指令
  2. 大工奥鹏计算机在线作业,大工20春《计算机网络技术》在线作业1题目【标准答案】...
  3. c语言 修改密码源码,基于51单片机串口密码修改设计-(源码+电路图)
  4. Linux C高级编程——目录操作
  5. go int 转char_GO语言实现 一 栈和队列
  6. Web框架——Flask系列之json、jsonify模块的使用(十四)
  7. 天池 在线编程 回合制游戏(前缀和)
  8. LeetCode 1705. 吃苹果的最大数目(优先队列)
  9. 天池 在线编程 旅行计划(暴力回溯)
  10. LeetCode 1390. 四因数