论文地址: https://arxiv.org/abs/2108.05542

1 导言

  • 预训练的来源

    • 最开始是基于规则的学习,后来被机器学习取代
    • 早期机器学习需要特征工程,需要专业领域的知识,耗时
    • 由于硬件和词嵌入的发展,类似于CNN、RNN的深度学习模型出现
      • 问题:除词嵌入外需要从头开始训练模型、需要标记大量实例、成本很高
      • 进而我们期望少量标记实例,尽可能少的训练步数
    • 基于迁移学习(允许重用在源任务中学到的知识,以便在目标任务中很好地执行)的启发:
      • 使用大规模标记数据集(如ImageNet[20],[21])训练大型CNN模型。这些模型学习在所有任务中通用的图像表示法。大型的预先训练的CNN模型通过包括几个特定于任务的层来适应下游任务,然后在目标数据集上进行微调。由于预先训练的CNN模型为下游模型提供了良好的背景知识,他们在许多CV任务中都获得了巨大的成功。
    • CNN和RNN长程依赖问题---->Transformer:更好的并行化和长程建模
      • T-PTLM(Transformer-based Pretrain Training Language Model)还支持迁移学习,因为这些模型可以通过对目标数据集进行微调或即时调优来适应下游任务

2 自监督学习 SELF-SUPERVISED LEARNING (SSL)

  • 自我监督学习是一种相对较新的学习范式,由于它能够利用未标记的数据将关于语言、图像或语音的universal knowledge注入到预训练的模型中,因此在人工智能(AI)研究界得到了广泛的关注

2.1 为什么SSL

  • 监督学习的问题使其陷入瓶颈(bottleneck)

    • 严重依赖人工标注的实例,生成成本高、耗时长
    • 缺乏泛化能力,存在虚假相关性(spurious correlations)
    • 许多领域,如医疗和法律,缺乏数据,这限制了人工智能模型在这些领域的应用
    • 无法从大量可免费获得的未标记数据中学习

2.2 什么是SSL