Data efficient parameter efficient tuning 助教 姜成翰
2022 - 如何有效的使用自督导式模型 - Data-Efficient & Parameter-Efficient Tuning_哔哩哔哩_bilibili
Recent advances in pre-trained language models 姜成翰
background knowledge
language models
构造不完整的句子,根据构造方式,可以把language model的训练大概分成两种:
1.ALMs
sampling不一定是几率最大的被sample出来
transformer based autoregressive language model长什么样:
embedding layer就是把离散的token转换成连续的向量,这些向量就会被丢到一层又一层的transformer,每层的transformer就会抽出每一个token对应的embedding,到最后一层就会抽出最凶的embedding
当我们想预测”气“后面会出现什么字,就拿”气“对应token的embedding,让他过一个language model head(LM head)(是一个linear layer)
language model训练其实是一种self-supervised learning。self-supervised learning这是最近几年窜出来的一个名词,没有一个明确的定义,大概想法是:预测input的某一部分,给定其他的部分
2.MLMs
pre-trained language models
预训练模型的好处:
利用一个PLM、把他当成一个classifier
应用场景:推文分析、pronoun resolution、语义理解、语法错误改正、 词形还原(Lemmatization)、clinical relation extraction(关系提取)....
2018年之后跟language model相关的paper暴增,
The problems of PLMs
The solutions of Those problems
Labeled data scarcity--> data-efficient fine-tuning
prompt tuning
我们就是要用一个natural language去提示这个language model他现在要做什么,
prompt tuning方法好,因为
- 加入human knowledge
- 没有新增任何parameter,一个classifier head参数量大概768*2 or *3, 会远大于label data数量(如果只有几百笔),就很难会train起来
few-shot learning
semi-supervised learning
2021年’
vs. 2020年GPT3 ”language models are few-shot learners“
zero-shot learning
与其让model 隐性的学到multi-task的能力,不如让model主动具备这样的能力
T5 用multi-task leaning的方式fine-tuning
就是说,multi-task的学习 可以让model有zero-shot的能力
PLMs are gigantic --> reducing the number of parameters
以上方法不是NLP model也可以用,下面讲一些特别为NLP设计的方法:
parameter-efficient fine-tuning
- Adapter
- LoRA
LoRA的优势
- Adapter增加了深度,训练时间会长一点点
- LoRA中间r的参数量可以压的非常非常小,所以参数量比Adapter还要再小点
- prefix tuning
这个prefix 你可以决定要插多少
- soft prompting
可以看成prefix tuning的简化版
”soft“是说 连续向量,
如果改变hard prompt,整个model 都要fine-tuning,因为没法直接调这个字,不连续,没法微分。 而soft prompt只用调整黄色部分向量。
early exit
early exit想法也是某种程度上减少下游任务所需要的参数,减少方式:动态减少
summary
closing remarks
解决数据太少的方法:
解决参数太多的方法:
更多关于PLMs的问题:
- 自监督模型为什么能work 还需要继续研究、
- 模型的可解释性、
- 将pre trained模型应用于专业领域 如医疗 如何让模型还能发挥功能、
- fine-tuning时如何让PLM做到continual learning 和 pre-training时做到continual learning(比如Bert训练在2018年) 如何让PLM持续更新知识(最近突然红起来的领域)、
- PLM容易被attack PLM会泄露pre-training的资料 如何让PLM可以安全的被应用
Data efficient parameter efficient tuning 助教 姜成翰相关推荐
- Failed to set attribute: Invalid input data or parameter 解决
arm64 swconfig 配置vlan 失败问题 Failed to set attribute: Invalid input data or parameter 解决 内核版本:linux-5. ...
- 姜成学SEO:什么是长尾关键词?
今天姜成跟大家分享学些SEO的第二课:什么是长尾关键词? 什么是长尾关键词? 这将是,你在这里学到的第一个非常重要的概念. 你听说过长尾理论吗? 简单说下这个理论的大体意思. 你可以举你自己网站作为例 ...
- role cache - set data user parameter - /UI2/CACHE_DISABLE
Created by Wang, Jerry, last modified on Apr 20, 2015
- 安装mysq的时候执行mysqld --initialize --console时候报错:can not create directory data文件夹需要把分隔符改成反方向
- 【免费诊断】网站SEO诊断分析服务说明 - 姜成SEO博客
开通网站SEO诊断板块,主要是为了免费帮助新手SEO诊断网站,分析网站目前存在的问题及有待提升的方方面面. 基于多年的SEO(搜索引擎优化)实战经验,对博客用户提交的网站进行全面的SEO诊断分析,找出 ...
- 百度优化指南解读-姜成
期待中的<百度互联网站长俱乐部搜索引擎优化指南>V1.0终于发布,就像指南中所述:"百度决定提供更加公开化的白帽SEO指南,营造更好的舆论氛围,以使SEO行业,有更加良性的发展. ...
- 【李宏毅】GNN学习笔记
视频链接 [TA 補充課 Graph Neural Network (1/2) (由助教姜成翰同學講授) - YouTube] [TA 補充課 Graph Neural Network (2/2) ( ...
- [PyG] 1.如何使用GCN完成一个最基本的训练过程(含GCN实现)
0. 前言 为啥要学习Pytorch-Geometric呢?(下文统一简称为PyG) 简单来说,是目前做的项目有用到,还有1个特点,就是相比NYU的DeepGraphLibrary, DGL的问题是A ...
- LLMs:《Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca》翻译与解读
LLMs:<Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca>翻译与解读 目录 相关文章 LLMs:&l ...
最新文章
- MySQL新建数据库+用Navicat查看MySQL的方法
- 用html编写一个贪吃蛇,HTML编写的贪吃蛇代码
- VB API 之 第十一课 绘制矩形
- 为你讲解ELK的组成与部署
- oracle---函数(trunc,nvl,nvl2)
- 【jenkins】jenkins build项目的三种方式
- Android设计模式之——Builder模式
- MySQL中update修改数据与原数据相同会再次执行吗
- thymeleaf的常见用法
- 网络通信中关于请求数据、断点续传和写入本地文件
- python中多对多替换_Python对指定文件内容进行全局替换
- 什么是最大传输单元(MTU)?什么又是最大分段大小(MSS)以及如何计算?
- Leecode刷题热题HOT100导航目录
- c语言实训报告银行存款利息利税,银行存款利息和利税的调查总结.docx
- 消息中间件学习总结(19)——生产案例:消息中间件 MQ 如何处理消费失败的消息?
- CCF2015-9-2日期计算
- [ios开发]锁屏后的相机的方向检查,与图片的自动旋转
- java中sql查找_Java 中如何使用 SQL 查询文本
- Python实现爬取google翻译API结果
- 国内稳定的暗黑2服务器,国内暗黑2战网的基本概念介绍
热门文章
- 【雕虫小技第9篇】scratch编程技巧之Scratch3.0字体调节,字体变大缩放。
- 几行代码爬取某东商品评论并写入数据库做成词云
- 向超级中央计算机迈进--智能汽车电子构架变革迎接数字化重塑...
- Spring基于@Configuration的类配置的内部源码实现
- 基恩士IV3工业相机的使用
- 用户画像(一)利用mysql进行用户画像
- 【工具推荐】Arduino仿真工具合辑
- 这样理解数字签名你懂了吗?
- python爬取加密qq空间_使用python+selenium爬取qq空间好友动态
- C# Solidworks二次开发:删除螺纹孔