论文地址： https://arxiv.org/abs/2108.05542

1 导言

预训练的来源
- 最开始是基于规则的学习，后来被机器学习取代
- 早期机器学习需要特征工程，需要专业领域的知识，耗时
- 由于硬件和词嵌入的发展，类似于CNN、RNN的深度学习模型出现
  - 问题：除词嵌入外需要从头开始训练模型、需要标记大量实例、成本很高
  - 进而我们期望少量标记实例，尽可能少的训练步数
- 基于迁移学习（允许重用在源任务中学到的知识，以便在目标任务中很好地执行）的启发：
  - 使用大规模标记数据集(如ImageNet[20]，[21])训练大型CNN模型。这些模型学习在所有任务中通用的图像表示法。大型的预先训练的CNN模型通过包括几个特定于任务的层来适应下游任务，然后在目标数据集上进行微调。由于预先训练的CNN模型为下游模型提供了良好的背景知识，他们在许多CV任务中都获得了巨大的成功。
- CNN和RNN长程依赖问题---->Transformer：更好的并行化和长程建模
  - T-PTLM（Transformer-based Pretrain Training Language Model）还支持迁移学习，因为这些模型可以通过对目标数据集进行微调或即时调优来适应下游任务

2 自监督学习 SELF-SUPERVISED LEARNING (SSL)

自我监督学习是一种相对较新的学习范式，由于它能够利用未标记的数据将关于语言、图像或语音的universal knowledge注入到预训练的模型中，因此在人工智能(AI)研究界得到了广泛的关注

2.1 为什么SSL

监督学习的问题使其陷入瓶颈（bottleneck）
- 严重依赖人工标注的实例，生成成本高、耗时长
- 缺乏泛化能力，存在虚假相关性（spurious correlations）
- 许多领域，如医疗和法律，缺乏数据，这限制了人工智能模型在这些领域的应用
- 无法从大量可免费获得的未标记数据中学习

2.2 什么是SSL

定义
- 自监督学习(Self-Supervised Learning，SSL)是一种新的学习范式，它基于训练前任务提供的伪监督，帮助模型学习普遍知识
- Transformer-based模型的综述：AMMUS : A Survey of Transformer-based Pretrained Models in NLP相关推荐
  1. 谷歌研究院出品：高效 Transformer 模型最新综述
    2021-01-02 15:23:28 编译 | Mr Bear 编辑 | 陈彩娴近年来,基于自注意力机制的 Transformer 模型在自然语言处理.计算机视觉.强化学习等领域的学术研究中取得了 ...
  2. 大模型 LLM 综述, A Survey of Large Language Models
    大模型 LLM 综述, A Survey of Large Language Models 一.概述一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B.7B, 工业界用, ...
  3. 《强化学习周刊》第37期：视觉深层框架、Transformer World模型、注意力增强强化学习...
    No.37 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
  4. 复旦邱锡鹏组最新综述：A Survey of Transformers！
    作者 | Tnil@知乎编辑 | NewBeeNLP 转眼Transformer模型被提出了4年了.依靠弱归纳偏置.易于并行的结构,Transformer已经成为了NLP领域的宠儿,并且最近在CV等 ...
  5. 复旦大学邱锡鹏组最新综述：A Survey of Transformers！
    作者 | Tnil@知乎编辑 | NewBeeNLP 转眼Transformer模型被提出了4年了.依靠弱归纳偏置.易于并行的结构,Transformer已经成为了NLP领域的宠儿,并且最近在CV等 ...
  6. 论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型
    Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型目录 Pre-trained Models f ...
  7. 中文NER涨点神器！基于多元数据的双流Transformer编码模型
    ©PaperWeekly 原创 · 作者 | 宁金忠学校 | 大连理工大学博士生研究方向 | 信息抽取本篇论文发表于 ACL 2021,作者聚焦于中文 NER 任务.近些年来,在模型中引入词汇信 ...
  8. 自然语言处理模型：bert 结构原理解析——attention+transformer（翻译自：Deconstructing BERT）
    原文:Deconstructing BERT: Distilling 6 Patterns from 100 Million Parameters 关于transformer 和attention的机 ...
  9. 何恺明MAE大火之后，想梳理下视觉Transformer？这篇综述帮你梳理了100多个
    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达来源丨机器之心编辑丨极市平台这段时间,计算机视觉圈有点热闹.先是何恺明等人用简单的掩蔽自编码器(M ...
  10. NLP/CV模型跨界进行到底，视觉Transformer要赶超CNN?
    机器之心报道机器之心编辑部在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近 ...
  最新文章
  热门文章

Transformer-based模型的综述：AMMUS : A Survey of Transformer-based Pretrained Models in NLP

1 导言

2 自监督学习 SELF-SUPERVISED LEARNING (SSL)

2.1 为什么SSL

2.2 什么是SSL

Transformer-based模型的综述：AMMUS : A Survey of Transformer-based Pretrained Models in NLP相关推荐

最新文章

热门文章