预训练模型PTMs的优势包括:

· 在庞大的无标注数据上进行预训练可以获取更通用的语言表示,并有利于下游任务;

· 为模型提供了一个更好的初始化参数,在目标任务上具备更好的泛化性能、并加速收敛;

· 一种有效的正则化手段,避免在小数据集上过拟合(一个随机初始化的深层模型容易对小数据集过拟合);

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。

是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,

这也是分布式表示:向量的每一维度都没有实际意义,而整体代表一个具体概念。

分布式表示相较于传统的独热编码(one-hot)表示具备更强的表示能力,而独热编码存在维度灾难和语义鸿沟(不能进行相似度计算)等问题。

传统的分布式表示方法,如矩阵分解(SVD/LSA)、LDA等均是根据全局语料进行训练,是机器学习时代的产物。

PTMs也属于分布式表示的范畴,本文的PTMs主要介绍深度学习时代、自NNLM以来的 “modern” 词嵌入。

浅层词嵌入,这一类PTMs范式是通常所说的“词向量”,其主要特点是学习到的是上下文独立的静态词嵌入,

主要代表为NNLM、word2vec(CBOW、Skip-Gram)、Glove等。通常采取浅层网络进行训练,而应用于下游任务时,整个模型的其余部分仍需要从头开始学习。

因此这一范式的PTMs没有必要采取深层神经网络进行训练,采取浅层网络加速训练也可以产生好的词嵌入。

浅层词嵌入的主要缺陷为:

· 词嵌入与上下文无关,每个单词的嵌入向量始终是相同,因此不能解决一词多义的问题。

· 通常会出现OOV问题,为了解决这个问题,提出了字符级表示或sub-word表示,如CharCNN 、FastText 和 Byte-Pair Encoding。

Glove可以被看作是更换了目标函数和权重函数的全局word2vec。

第二类PTMs范式为预训练编码器(Contextual Embeddings),

主要目的是通过一个预训练的编码器能够输出上下文相关的词向量,解决一词多义的问题。

这一类预训练编码器输出的向量称之为「上下文相关的词嵌入」。

PTMs按照任务类型可分为2大类:监督学习 和 无监督学习/自监督学习。

参考:

https://zhuanlan.zhihu.com/p/115014536

NLP预训练(PTMs)相关推荐

  1. 《预训练周刊》第5期:智源等研究力证:GPT语言理解能力不输BERT、盘点NLP预训练「兵器谱」...

    No.05 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第5期< ...

  2. NLP 预训练家族再思考

    本文约3000字,建议阅读6分钟 本文为你介绍使用NLP预训练的新思考. 最近整理预训练模型,又复习看了几篇BERT变体的论文,无外乎都是从「模型架构.MASK方式.预训练目标」入手,实话实说,感觉没 ...

  3. NLP预训练家族 | Text-To-Text范式统一NLP任务

    作者 | 周俊贤 整理 | NewBeeNLP 前情提要: 万字梳理!BERT之后,NLP预训练模型发展史 NLP预训练家族 | Transformer-XL及其进化XLNet YYDS!一个针对中文 ...

  4. NLP预训练家族 | 自成一派的GPT!

    作者 | 周俊贤 整理 | NewBeeNLP 之前我们梳理了NLP预训练家族系列文章,今天继续来看看另外一个分支,GPT系列! GPT2论文全称及链接:<Language Models are ...

  5. 最强 NLP 预训练模型库 PyTorch-Transformers 正式开源:支持 6 个预训练框架,27 个预训练模型...

    先上开源地址: https://github.com/huggingface/pytorch-transformers#quick-tour 官网: https://huggingface.co/py ...

  6. AI圈真魔幻!谷歌最新研究表明卷积在NLP预训练上竟优于Transformer?LeCun暧昧表态...

    作者 | 陈大鑫.琰琰 转自:AI科技评论 AI 圈太是太魔幻了! 众所周知,近一年来Transformer火的很,把Transformer用在视觉领域真是屡试不爽,先是分类后是检测,等等等等,每次都 ...

  7. 完胜BERT!NLP预训练利器:小模型也有高精度,单个GPU就能训练

    2020-03-13 12:37:59 十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这款NLP预训练模型,你值得拥有. 它叫ELECTRA,来自谷歌AI,不仅拥有BERT的优势,效率还 ...

  8. 完胜BERT!谷歌NLP预训练利器:小模型也有高精度,单个GPU就能训练 | 代码开源...

    十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这款NLP预训练模型,你值得拥有. 它叫ELECTRA,来自谷歌AI,不仅拥有BERT的优势,效率还比它高. ELECTRA是一种新预训练方 ...

  9. 革命性提升-宇宙最强的NLP预训练BERT模型(附官方代码)

    编辑 忆臻 公众号 | 机器学习算法与自然语言处理 yizhennotes 1.  Bert官方源码公开 终于是千呼万唤始出来,Google AI 发表于10月中旬的论文: <BERT: Pre ...

最新文章

  1. 逻辑回归的相关问题及java实现
  2. 水货刷XT702官方2.21添加google服务包
  3. pytorch datasets.ImageFolder,DataLoader形成的tensor是什么样的?
  4. C#面向对象的三大特性
  5. 什么是空间复杂度(What is actually Space Complexity ?)
  6. 高性能队列——Disruptor
  7. SQL 2005 全文索引
  8. [ECMAScript] 说说你对class的理解
  9. C++ 封装Lua之我行我素
  10. SequentialSearch 顺序表查找
  11. Go 如何利用multipart/form-data实现文件的上传与下载
  12. 【JavaScript】【ChormeDav】问卷星自动填写问卷
  13. Matlab中添加LibPLS安装包
  14. StringUtil类的常用方法
  15. python 自动办公ppt_python自动化办公操作PPT的实现
  16. android模拟器设置静态ip,安卓模拟器多开窗口挂手游切换不同IP防封号技术讲解...
  17. 为什么要ROS2而不是对ROS1修修补补?
  18. 海尔消费金融2019年业绩:营收13.89亿元,净利润2.05亿元
  19. 【我们就爱穿上古着晒幸福】
  20. 2019美和易思第十一期班主任选拔培训(贵州+重庆区域)拉开帷幕

热门文章

  1. python爬取天极网手机信息代码
  2. SimpleDateFormat大写Y和小写y的区别
  3. 花儿虽然最终凋零,但是依然开过 ——《花束般的恋爱》影评
  4. 流行的任天堂电子游戏模拟器 Cemu 计划开源并支持 Linux
  5. 运维学python用不上_数读 | 为什么运维朋友们都需要学Python?
  6. web test LoadRunner docs / loadrunner license、cd-key、download
  7. 爱了爱了!丰巢智能政务柜真的太实用了
  8. java计算机毕业设计化妆品销售网站源码+mysql数据库+系统+lw文档+部署
  9. 给div添加点击效果
  10. 行车记录仪摄像头4线