2022 - 如何有效的使用自督导式模型 - Data-Efficient & Parameter-Efficient Tuning_哔哩哔哩_bilibili

Recent advances in pre-trained language models   姜成翰

background knowledge

language models

构造不完整的句子,根据构造方式,可以把language model的训练大概分成两种:

1.ALMs

sampling不一定是几率最大的被sample出来

transformer based autoregressive language model长什么样:

embedding layer就是把离散的token转换成连续的向量,这些向量就会被丢到一层又一层的transformer,每层的transformer就会抽出每一个token对应的embedding,到最后一层就会抽出最凶的embedding

当我们想预测”气“后面会出现什么字,就拿”气“对应token的embedding,让他过一个language model head(LM head)(是一个linear layer)

language model训练其实是一种self-supervised learning。self-supervised learning这是最近几年窜出来的一个名词,没有一个明确的定义,大概想法是:预测input的某一部分,给定其他的部分

2.MLMs

pre-trained language models

预训练模型的好处:

利用一个PLM、把他当成一个classifier

应用场景:推文分析、pronoun resolution、语义理解、语法错误改正、 词形还原(Lemmatization)、clinical relation extraction(关系提取)....

2018年之后跟language model相关的paper暴增,

The problems of PLMs

The solutions of Those problems

  • Labeled data scarcity--> data-efficient fine-tuning

    • prompt tuning

我们就是要用一个natural language去提示这个language model他现在要做什么,

prompt tuning方法好,因为

  • 加入human knowledge
  • 没有新增任何parameter,一个classifier head参数量大概768*2 or *3, 会远大于label data数量(如果只有几百笔),就很难会train起来

  • few-shot learning

  • semi-supervised learning

2021年’

vs.   2020年GPT3   ”language models are few-shot learners“

  • zero-shot learning

与其让model 隐性的学到multi-task的能力,不如让model主动具备这样的能力

T5 用multi-task leaning的方式fine-tuning

就是说,multi-task的学习 可以让model有zero-shot的能力

PLMs are gigantic --> reducing the number of parameters

以上方法不是NLP model也可以用,下面讲一些特别为NLP设计的方法:

  • parameter-efficient fine-tuning

  •  Adapter

​​​​​​

  • LoRA 

LoRA的优势

  1. Adapter增加了深度,训练时间会长一点点
  2. LoRA中间r的参数量可以压的非常非常小,所以参数量比Adapter还要再小点
  • prefix tuning

这个prefix 你可以决定要插多少

  • soft prompting

可以看成prefix tuning的简化版

”soft“是说 连续向量,

如果改变hard prompt,整个model 都要fine-tuning,因为没法直接调这个字,不连续,没法微分。 而soft prompt只用调整黄色部分向量。

early exit

early exit想法也是某种程度上减少下游任务所需要的参数,减少方式:动态减少

summary

closing remarks

解决数据太少的方法:

解决参数太多的方法:

更多关于PLMs的问题:

  • 自监督模型为什么能work 还需要继续研究、
  • 模型的可解释性、
  • 将pre trained模型应用于专业领域 如医疗 如何让模型还能发挥功能、
  • fine-tuning时如何让PLM做到continual learning  和 pre-training时做到continual learning(比如Bert训练在2018年) 如何让PLM持续更新知识(最近突然红起来的领域)、
  • PLM容易被attack  PLM会泄露pre-training的资料   如何让PLM可以安全的被应用

Data efficient parameter efficient tuning 助教 姜成翰相关推荐

  1. Failed to set attribute: Invalid input data or parameter 解决

    arm64 swconfig 配置vlan 失败问题 Failed to set attribute: Invalid input data or parameter 解决 内核版本:linux-5. ...

  2. 姜成学SEO:什么是长尾关键词?

    今天姜成跟大家分享学些SEO的第二课:什么是长尾关键词? 什么是长尾关键词? 这将是,你在这里学到的第一个非常重要的概念. 你听说过长尾理论吗? 简单说下这个理论的大体意思. 你可以举你自己网站作为例 ...

  3. role cache - set data user parameter - /UI2/CACHE_DISABLE

    Created by Wang, Jerry, last modified on Apr 20, 2015

  4. 安装mysq的时候执行mysqld --initialize --console时候报错:can not create directory data文件夹需要把分隔符改成反方向

  5. 【免费诊断】网站SEO诊断分析服务说明 - 姜成SEO博客

    开通网站SEO诊断板块,主要是为了免费帮助新手SEO诊断网站,分析网站目前存在的问题及有待提升的方方面面. 基于多年的SEO(搜索引擎优化)实战经验,对博客用户提交的网站进行全面的SEO诊断分析,找出 ...

  6. 百度优化指南解读-姜成

    期待中的<百度互联网站长俱乐部搜索引擎优化指南>V1.0终于发布,就像指南中所述:"百度决定提供更加公开化的白帽SEO指南,营造更好的舆论氛围,以使SEO行业,有更加良性的发展. ...

  7. 【李宏毅】GNN学习笔记

    视频链接 [TA 補充課 Graph Neural Network (1/2) (由助教姜成翰同學講授) - YouTube] [TA 補充課 Graph Neural Network (2/2) ( ...

  8. [PyG] 1.如何使用GCN完成一个最基本的训练过程(含GCN实现)

    0. 前言 为啥要学习Pytorch-Geometric呢?(下文统一简称为PyG) 简单来说,是目前做的项目有用到,还有1个特点,就是相比NYU的DeepGraphLibrary, DGL的问题是A ...

  9. LLMs:《Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca》翻译与解读

    LLMs:<Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca>翻译与解读 目录 相关文章 LLMs:&l ...

最新文章

  1. MySQL新建数据库+用Navicat查看MySQL的方法
  2. 用html编写一个贪吃蛇,HTML编写的贪吃蛇代码
  3. VB API 之 第十一课 绘制矩形
  4. 为你讲解ELK的组成与部署
  5. oracle---函数(trunc,nvl,nvl2)
  6. 【jenkins】jenkins build项目的三种方式
  7. Android设计模式之——Builder模式
  8. MySQL中update修改数据与原数据相同会再次执行吗
  9. thymeleaf的常见用法
  10. 网络通信中关于请求数据、断点续传和写入本地文件
  11. python中多对多替换_Python对指定文件内容进行全局替换
  12. 什么是最大传输单元(MTU)?什么又是最大分段大小(MSS)以及如何计算?
  13. Leecode刷题热题HOT100导航目录
  14. c语言实训报告银行存款利息利税,银行存款利息和利税的调查总结.docx
  15. 消息中间件学习总结(19)——生产案例:消息中间件 MQ 如何处理消费失败的消息?
  16. CCF2015-9-2日期计算
  17. [ios开发]锁屏后的相机的方向检查,与图片的自动旋转
  18. java中sql查找_Java 中如何使用 SQL 查询文本
  19. Python实现爬取google翻译API结果
  20. 国内稳定的暗黑2服务器,国内暗黑2战网的基本概念介绍

热门文章

  1. 【雕虫小技第9篇】scratch编程技巧之Scratch3.0字体调节,字体变大缩放。
  2. 几行代码爬取某东商品评论并写入数据库做成词云
  3. 向超级中央计算机迈进--智能汽车电子构架变革迎接数字化重塑...
  4. Spring基于@Configuration的类配置的内部源码实现
  5. 基恩士IV3工业相机的使用
  6. 用户画像(一)利用mysql进行用户画像
  7. 【工具推荐】Arduino仿真工具合辑
  8. 这样理解数字签名你懂了吗?
  9. python爬取加密qq空间_使用python+selenium爬取qq空间好友动态
  10. C# Solidworks二次开发:删除螺纹孔