NLP预训练(PTMs)

预训练模型PTMs的优势包括：

· 在庞大的无标注数据上进行预训练可以获取更通用的语言表示，并有利于下游任务；

· 为模型提供了一个更好的初始化参数，在目标任务上具备更好的泛化性能、并加速收敛；

· 一种有效的正则化手段，避免在小数据集上过拟合（一个随机初始化的深层模型容易对小数据集过拟合）；

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。

是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，

这也是分布式表示：向量的每一维度都没有实际意义，而整体代表一个具体概念。

分布式表示相较于传统的独热编码(one-hot)表示具备更强的表示能力，而独热编码存在维度灾难和语义鸿沟(不能进行相似度计算)等问题。

传统的分布式表示方法，如矩阵分解（SVD/LSA）、LDA等均是根据全局语料进行训练，是机器学习时代的产物。

PTMs也属于分布式表示的范畴，本文的PTMs主要介绍深度学习时代、自NNLM以来的 “modern” 词嵌入。

浅层词嵌入，这一类PTMs范式是通常所说的“词向量”，其主要特点是学习到的是上下文独立的静态词嵌入，

主要代表为NNLM、word2vec（CBOW、Skip-Gram）、Glove等。通常采取浅层网络进行训练，而应用于下游任务时，整个模型的其余部分仍需要从头开始学习。

因此这一范式的PTMs没有必要采取深层神经网络进行训练，采取浅层网络加速训练也可以产生好的词嵌入。

浅层词嵌入的主要缺陷为：

· 词嵌入与上下文无关，每个单词的嵌入向量始终是相同，因此不能解决一词多义的问题。

· 通常会出现OOV问题，为了解决这个问题，提出了字符级表示或sub-word表示，如CharCNN 、FastText 和 Byte-Pair Encoding。

Glove可以被看作是更换了目标函数和权重函数的全局word2vec。

第二类PTMs范式为预训练编码器(Contextual Embeddings)，

主要目的是通过一个预训练的编码器能够输出上下文相关的词向量，解决一词多义的问题。

这一类预训练编码器输出的向量称之为「上下文相关的词嵌入」。

PTMs按照任务类型可分为2大类：监督学习和无监督学习/自监督学习。

参考：

https://zhuanlan.zhihu.com/p/115014536

NLP预训练(PTMs)相关推荐

《预训练周刊》第5期：智源等研究力证：GPT语言理解能力不输BERT、盘点NLP预训练「兵器谱」...
No.05 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第5期< ...
NLP 预训练家族再思考
本文约3000字,建议阅读6分钟本文为你介绍使用NLP预训练的新思考. 最近整理预训练模型,又复习看了几篇BERT变体的论文,无外乎都是从「模型架构.MASK方式.预训练目标」入手,实话实说,感觉没 ...
NLP预训练家族 | Text-To-Text范式统一NLP任务
作者 | 周俊贤整理 | NewBeeNLP 前情提要: 万字梳理!BERT之后,NLP预训练模型发展史 NLP预训练家族 | Transformer-XL及其进化XLNet YYDS!一个针对中文 ...
NLP预训练家族 | 自成一派的GPT！
作者 | 周俊贤整理 | NewBeeNLP 之前我们梳理了NLP预训练家族系列文章,今天继续来看看另外一个分支,GPT系列! GPT2论文全称及链接:<Language Models are ...
最强 NLP 预训练模型库 PyTorch-Transformers 正式开源：支持 6 个预训练框架，27 个预训练模型...
先上开源地址: https://github.com/huggingface/pytorch-transformers#quick-tour 官网: https://huggingface.co/py ...
AI圈真魔幻！谷歌最新研究表明卷积在NLP预训练上竟优于Transformer？LeCun暧昧表态...
作者 | 陈大鑫.琰琰转自:AI科技评论 AI 圈太是太魔幻了! 众所周知,近一年来Transformer火的很,把Transformer用在视觉领域真是屡试不爽,先是分类后是检测,等等等等,每次都 ...
完胜BERT！NLP预训练利器：小模型也有高精度，单个GPU就能训练
2020-03-13 12:37:59 十三发自凹非寺量子位报道 | 公众号 QbitAI 这款NLP预训练模型,你值得拥有. 它叫ELECTRA,来自谷歌AI,不仅拥有BERT的优势,效率还 ...
完胜BERT！谷歌NLP预训练利器：小模型也有高精度，单个GPU就能训练 | 代码开源...
十三发自凹非寺量子位报道 | 公众号 QbitAI 这款NLP预训练模型,你值得拥有. 它叫ELECTRA,来自谷歌AI,不仅拥有BERT的优势,效率还比它高. ELECTRA是一种新预训练方 ...
革命性提升-宇宙最强的NLP预训练BERT模型（附官方代码）
编辑忆臻公众号 | 机器学习算法与自然语言处理 yizhennotes 1. Bert官方源码公开终于是千呼万唤始出来,Google AI 发表于10月中旬的论文: <BERT: Pre ...

NLP预训练(PTMs)

NLP预训练(PTMs)相关推荐

最新文章

热门文章