论文标题:Pretrained Transformer As Universal Computation Engines - CoRR 2021

原文传送门:https://arxiv.org/abs/2103.05247https://arxiv.org/abs/2103.05247

1. Abstarct

作者研究了在语言上预训练的Transformer以最少的微调泛化到其他模态的能力——特别是在没有微调residual blocks (Self-Attn和FFN Layers)的情况下。

他们称该预训练模型为 Frozen Pretrained Transformer (FPT),在涵盖数值计算、视觉和蛋白质折叠预测的各种序列分类任务上对其进行微调。

与在相同模态数据集下预训练+微调的模型比较,基于自然语言的预训练可提高非语言下游任务的性能和计算效率。此外,还与随机初始化Transformer、LSTM 进行了比较。

总体性能图:

2. Introduction & Methodology

Introduction:简而言之,在大型语料库训练GPT,在不同任务的小数据集上做微调。注:仅针对线性输入和输出层,以及位置嵌入和层范数参数。

Methodology:

I. Bit memory, Bit XOR, ListOps. (数值计算任务) / MNIST, CIFAR-10, CIFAR-10 LRA (图像分类任务) / Remote homology detection (蛋白质折叠预测) II. Transformer模型就不做赘述;

3. Empirical Evaluations

3.1 Can pretrained language models transfer to different modalities?

结论:7个任务下,FPT基本和随机初始化Transformer持平,比随机初始化LSTM好。

3.2 What is the importance of the pretraining modality?

Random initialization (Random): 随机初始化的GPT-2;

Bit memory pretraining (Bit): 在Bit Memory数据集上预训练;

Image pretraining (ViT): 在ImageNet-21K上预训练;

结论:7个任务下,FPT最好;而其他预训练模型,在各自模态数据下会较优。

3.3 How important is the transformer architecture compared to LSTM architecture?

Trans.: 随机初始化Transformer

LSTM: 随机初始化LSTM

LSTM*: +12-Layer + Residual Connections + Positional Embeddings

结论:Transformer较之LSTM,存在明显模型优势。

3.4 Does language pretraining improve compute efficiency over random initialization?

结论:FPT模型收敛速度 faster >> Random Transformer

3.5 Do the frozen attention layers attend to modality-specific tokens?

结论: FPT 关注到数据中语义有效的模式,仅限Bit XOR任务

3.6 Does freezing the transformer prevent overfitting or underfitting?

结论: FPT 会欠拟合,可在增大模型容量来改进;Linformer反映Transformer会在低资源数据下过拟合。

3.7 Does performance scale with model size?

结论:较之从头训练的Transformer,FPT增大模型容量不会出现过拟合和模型不收敛。

3.8 Can performance be attributed simply to better statistics for initialization?

结论:移除FPT中的逐层均值和标准差,该Statistics Only模型介于FPT和 Random Transformer之间。

3.9 Can we train a transformer by only finetuning the output layer?

结论:FPT仅用于线性分类(Table. 10两项任务)的特征提取,1) 收敛加速;2)性能下降,模型过拟合(缺少对特征的正则化操作)

3.10 What is the role of model depth in token mixing?

With finetuning layernorm.:层少时,使用Pretrained Layer时对Token Mixing有效,层多到6层就没区别了。 Without finetuning layernorm.:Random模型一直不行,而Pretrained会ok,但是需要足够多的层才能恢复原始性能。

3.11 Can training more parameters improve performance?

结论:微调FFN Layer可提升性能,CIFAR-10只微调最后一个注意力层最佳;

3.12 Which parameters of the model are important to finetune?

消融仅微调选择参数,以查看哪些参数最敏感。

结论:+ layernorm, + input, + positions 都有用,其中+ layernorm最好

3.13 Is finetuning layer norm necessary for FPT to perform well?

只考虑微调输入和输出层,将整个FPT作为黑盒。

结论:仿射层范数参数的内部调制有所帮助,类似加入更精细的位置信息。

3.14 How well do the trends hold across other transformer models?

使用其他Transformer变种,如BERT,T5,Longformer;

结论:基于自然语言的预训练可提高非语言下游任务的性能和计算效率,该结论同样成立

4 Related Work and Discussion 略

5 Conclusion 略

【2】Pretrained Transformer As Universal Computation Engines相关推荐

  1. CV-Model【5】:Transformer

    系列文章目录 Transformer 系列网络(一): CV-Model[5]:Transformer Transformer 系列网络(二): CV-Model[6]:Vision Transfor ...

  2. 【NLP】关于Transformer的常见问题及解答

    作者 | Adherer 编辑 | NewBeeNLP PDF版文末自行下载哈~ 写在前面 前些时间,赶完论文,开始对 Transformer.GPT.Bert 系列论文来进行仔仔细细的研读,然后顺手 ...

  3. 【NLP】图解Transformer(完整版)

    译者:张贤,哈尔滨工程大学,Datawhale原创作者 本文约16000字,是NLP专栏第一篇,建议收藏阅读 审稿人:Jepson,Datawhale成员,毕业于中国科学院,目前在腾讯从事推荐算法工作 ...

  4. 【CV】Swin Transformer:使用 Shifted Windows 的分层视觉 Transformer

    论文名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文下载:https://arxiv.org/ ...

  5. 【NLP】使用Transformer模型进行文本分类

    作者 | Eric Fillion 编译 | VK 来源 | Towards Data Science 文本分类是NLP最常见的应用.与大多数NLP应用一样,Transformer模型近年来在该领域占 ...

  6. 【综述】基于Transformer的视频语言预训练

    关注公众号,发现CV技术之美 ▊ 1. 论文和代码地址 Survey: Transformer based Video-Language Pre-training 论文地址:https://arxiv ...

  7. 【解析】Vision Transformer 在图像分类中的应用

    An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale 代码:https://github.com/goog ...

  8. 【CS224n】(lecture9)Transformer的变体

    学习总结 Transformer 的进一步改进可能在于以下几个方向: 0.1 理论分析 Transformer 的架构已被证明能够支持具有足够参数的大规模训练数据集.许多工作表明,Transforme ...

  9. 论文笔记33 -- (CV)【ICCV2021】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    CV + Transformer 论文:点这里 官方代码:点这里 第三方代码:点这里 Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,S ...

最新文章

  1. python每隔2s执行一次hello world!
  2. 牌类游戏使用微服务重构笔记(四): micro框架使用经验
  3. Caffe源码解析5:Conv_Layer
  4. 发那科机器人控制柜示教器不通电_FANUC发那科工业机器人本地自动运行的设置方式...
  5. G - 变形课 HDU - 1181(搜索之dfs)
  6. 本地开发时同时启动多个tomcat服务器
  7. 机器人电焊电流电压怎么调_西安焊接机器人工作站的主要设备有哪些?西安瑞斯曼...
  8. mysql索引机制_mysql索引原理详解
  9. 关于YUV格式的一些总结
  10. LwIP协议栈之数据包pbuf
  11. 方舟基础物品指令代码大全
  12. stm32 操作W25Q256 W25Q16 spi flash
  13. 【转】SourceInsight4.0的使用--一遍很详细介绍source insight4使用的文章
  14. windows11 截屏键无法使用 Print screen
  15. python 虚拟环境打包exe方法及路过的坑
  16. 海大10年秋第5题:马克思在《数学手册》中提出如下问题: 有30个人(包括男人,女人和小孩)在一家饭店吃饭共花50先令,其中每个男人花3先令, 每个女人花2先令,每个小孩花1先令,问男人,女人,小孩共
  17. PHPMyWind支持ppt上传
  18. mysql中db的名词解释_数据库原理名词解释
  19. LKJ基础数据源文件固定径路编制软件
  20. Elasticsearch7.x指定JDK及安装时报错

热门文章

  1. Windows Media Player(WMP)对ape格式支持的方法
  2. filetransferdmg魅族下载_mac手机助手(Android File Transfer)下载_mac手机助手(Android File Transfer)官方下载-太平洋下载中心...
  3. python通过代理服务器发送邮件
  4. Hdu2612 Find a way
  5. c语言常量修饰符的作用,C语言杂记(10):关于常量修饰符const
  6. 舍得舍得,只有舍,才有得,总是得,总感觉不太好
  7. 马尔代夫还是欧洲四国,这不是问题。
  8. 引入阿里图标库(iconfont)后图标黑白问题
  9. 跟我学aspectj之六 ----- 插曲
  10. python 协程安全理解