Transformer-based模型的综述:AMMUS : A Survey of Transformer-based Pretrained Models in NLP
论文地址: https://arxiv.org/abs/2108.05542
1 导言
- 预训练的来源
- 最开始是基于规则的学习,后来被机器学习取代
- 早期机器学习需要特征工程,需要专业领域的知识,耗时
- 由于硬件和词嵌入的发展,类似于CNN、RNN的深度学习模型出现
- 问题:除词嵌入外需要从头开始训练模型、需要标记大量实例、成本很高
- 进而我们期望少量标记实例,尽可能少的训练步数
- 基于迁移学习(允许重用在源任务中学到的知识,以便在目标任务中很好地执行)的启发:
- 使用大规模标记数据集(如ImageNet[20],[21])训练大型CNN模型。这些模型学习在所有任务中通用的图像表示法。大型的预先训练的CNN模型通过包括几个特定于任务的层来适应下游任务,然后在目标数据集上进行微调。由于预先训练的CNN模型为下游模型提供了良好的背景知识,他们在许多CV任务中都获得了巨大的成功。
- CNN和RNN长程依赖问题---->Transformer:更好的并行化和长程建模
- T-PTLM(Transformer-based Pretrain Training Language Model)还支持迁移学习,因为这些模型可以通过对目标数据集进行微调或即时调优来适应下游任务
2 自监督学习 SELF-SUPERVISED LEARNING (SSL)
- 自我监督学习是一种相对较新的学习范式,由于它能够利用未标记的数据将关于语言、图像或语音的universal knowledge注入到预训练的模型中,因此在人工智能(AI)研究界得到了广泛的关注
2.1 为什么SSL
- 监督学习的问题使其陷入瓶颈(bottleneck)
- 严重依赖人工标注的实例,生成成本高、耗时长
- 缺乏泛化能力,存在虚假相关性(spurious correlations)
- 许多领域,如医疗和法律,缺乏数据,这限制了人工智能模型在这些领域的应用
- 无法从大量可免费获得的未标记数据中学习
2.2 什么是SSL
- 定义
- 自监督学习(Self-Supervised Learning,SSL)是一种新的学习范式,它基于训练前任务提供的伪监督,帮助模型学习普遍知识
-
Transformer-based模型的综述:AMMUS : A Survey of Transformer-based Pretrained Models in NLP相关推荐
- 谷歌研究院出品:高效 Transformer 模型最新综述
2021-01-02 15:23:28 编译 | Mr Bear 编辑 | 陈彩娴 近年来,基于自注意力机制的 Transformer 模型在自然语言处理.计算机视觉.强化学习等领域的学术研究中取得了 ...
- 大模型 LLM 综述, A Survey of Large Language Models
大模型 LLM 综述, A Survey of Large Language Models 一.概述 一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B.7B, 工业界用, ...
- 《强化学习周刊》第37期:视觉深层框架、Transformer World模型、注意力增强强化学习...
No.37 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
- 复旦邱锡鹏组最新综述:A Survey of Transformers!
作者 | Tnil@知乎 编辑 | NewBeeNLP 转眼Transformer模型被提出了4年了.依靠弱归纳偏置.易于并行的结构,Transformer已经成为了NLP领域的宠儿,并且最近在CV等 ...
- 复旦大学邱锡鹏组最新综述:A Survey of Transformers!
作者 | Tnil@知乎 编辑 | NewBeeNLP 转眼Transformer模型被提出了4年了.依靠弱归纳偏置.易于并行的结构,Transformer已经成为了NLP领域的宠儿,并且最近在CV等 ...
- 论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型
Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型 目录 Pre-trained Models f ...
- 中文NER涨点神器!基于多元数据的双流Transformer编码模型
©PaperWeekly 原创 · 作者 | 宁金忠 学校 | 大连理工大学博士生 研究方向 | 信息抽取 本篇论文发表于 ACL 2021,作者聚焦于中文 NER 任务.近些年来,在模型中引入词汇信 ...
- 自然语言处理模型:bert 结构原理解析——attention+transformer(翻译自:Deconstructing BERT)
原文:Deconstructing BERT: Distilling 6 Patterns from 100 Million Parameters 关于transformer 和attention的机 ...
- 何恺明MAE大火之后,想梳理下视觉Transformer?这篇综述帮你梳理了100多个
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨机器之心 编辑丨极市平台 这段时间,计算机视觉圈有点热闹.先是何恺明等人用简单的掩蔽自编码器(M ...
- NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?
机器之心报道 机器之心编辑部 在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近 ...
最新文章
- 零基础入门学习Python(33)-图形用户界面编程(GUI编程)EasyGui
- [OS复习]文件管理2
- 整数判重、大整数Hash
- python中的logger模块详细讲解
- 嵌入式linux应用程序实例,嵌入式Linux应用程序访问物理地址的实例
- 数据中台送到家 企业数字化转型“输血”变“造血”
- 图解利用栈实现递归函数的非递归计算
- TransR:实体和关系分开嵌入(知识图谱嵌入)2015 AAAI
- oracle产生随机日期,Oracle生成随机日期时间
- j2se--Socket沟通
- Rickie的软件测试学习笔记-第四周
- 46. Define non-member functions inside templates when type conversions are desired.
- HDU 4849 Wow! Such City!陕西邀请赛C(最短路)
- HDU 3642 Get The Treasury ( 线段树 求长方体体积并 )
- 关于三极管的理解---根据IC符号简易迅速判断三极管导通情况
- 相机图像_基本知识储备
- Mac下移动硬盘的使用
- 面试自我介绍3分钟通用计算机专业,面试自我介绍3分钟
- 深度学习算法(第37期)----如何用强化学习玩游戏?
- python的matplotlib库
热门文章
- Hibernate必须掌握的知识
- linux免安装mysql_Linux 配置mysql 免安装版。
- Git 使用之鉴权失败
- Python学习笔记-2017.5.4thon学习笔记-2017.8.16
- EXCEL:两列数据的重复和非重复值(顺序打乱)
- STA静态时序分析/Formality形式化验证
- java try 性能损耗_Java上的try catch并不影响性能(转)
- AutoJS4.1.0实战教程 ---番茄免费小说
- 【更新】VMware虚拟机黑群晖7.1.1 RC(懒人包)
- 心形代码来了,Java表白大师
- 谷歌研究院出品:高效 Transformer 模型最新综述