从词袋模型到Transformer家族的变迁之路

模型名称	年份	描述
`Bag of Words`	`1954`	即 BOW 模型，计算文档中每个单词出现的次数，并将它们用作特征。
`TF-IDF`	`1972`	对 BOW 进行修正，使得稀有词得分高，常见词得分低。
`Word2Vec`	`2013`	每个词都映射到一个称为词嵌入的高维向量，捕获其语义。词嵌入是通过在大型语料库中寻找词相关性的神经网络来学习的。
`RNN`	`1986`	RNN 利用句子中词的上下文计算文档嵌入，这仅靠词嵌入是不可能的。后来发展为 `LSTM`（`1997`）以捕获长期依赖关系，并演变为 `Bidirectional RNN`（`1997`）以捕获从左到右和从右到左的依赖关系。最终，`Encoder-Decoder RNNs`（`2014`）出现了，其中一个 RNN 创建文档嵌入（即编码器），另一个 RNN 将其解码为文本（即解码器）。
`Transformer`	`2017`	一种编码器-解码器模型，它利用注意力机制来计算更好的嵌入并更好地将输出与输入对齐。
`BERT`	`2018`	双向 Transformer，使用掩码语言建模（`Masked Language Modeling`）和下一句预测目标（`Next Sentence Prediction objectives`）的组合进行预训练。它使用全局注意力。
`GPT`	`2018`	第一个基于 Transformer 架构的自回归模型。后来演变成 `GPT-2`（`2019`），一个在 WebText 上预训练的更大和优化的 GPT 版本，以及 `GPT-3`（`2020`），一个更大和优化的 `GPT-2` 版本，在 `Common Crawl` 上预训练。
`CTRL`	`2019`	类似于 GPT，但具有用于条件文本生成的控制代码。
`Transformer-XL`	`2019`	一个自回归 Transformer，可以重用以前计算的隐藏状态来处理更长的上下文。
`ALBERT`	`2019`	BERT 的轻量级版本，其中：（1）下一句预测被句序预测取代；（2）参数减少技术用于降低内存消耗和加快训练速度。
`RoBERTa`	`2019`	BERT 的更好版本，其中：（1）Masked Language Modeling 目标是动态的；（2）Next Sentence Prediction 目标被删除；（3）使用 `BPE tokenizer`；（4）使用更好的超参数.
`XLM`	`2019`	Transformer 使用因果语言建模、掩码语言建模和翻译语言建模等目标在多种语言的语料库上进行了预训练。
`XLNet`	`2019`	Transformer-XL 具有广义自回归预训练方法，可以学习双向依赖性。
`PEGASUS`	`2019`	一个双向编码器和一个从左到右的解码器，使用掩码语言建模和间隙句子生成目标进行了预训练。
`DistilBERT`	`2019`	与 BERT 相同，但更小更快，同时保留 BERT 95% 以上的性能。通过预训练的 BERT 模型的蒸馏进行训练。
`XLM-RoBERTa`	`2019`	`RoBERTa` 在具有掩蔽语言建模目标的多语言语料库上进行训练。
`BART`	`2019`	一个双向编码器和一个从左到右的解码器，通过使用任意噪声函数破坏文本并学习模型来重建原始文本来训练。
`ConvBERT`	`2019`	BERT 的更好版本，其中自注意力模块被新模块取代，利用卷积更好地模拟全局和局部上下文。
`Funnel Transformer`	`2020`	一种 Transformer，它逐渐将隐藏状态的序列压缩到更短的状态，从而降低计算成本。
`Reformer`	`2020`	由于对局部敏感的哈希注意力、轴向位置编码和其他优化，一个更高效的 Transformer。
`T5`	`2020`	一个双向编码器和一个从左到右的解码器，在无监督和监督任务的混合上进行了预训练。
`Longformer`	`2020`	一种将注意力矩阵替换为稀疏矩阵以提高训练效率的 Transformer 模型。
`ProphetNet`	`2020`	一种使用未来 N-gram 预测目标和新颖的自注意力机制训练的 Transformer 模型。
`ELECTRA`	`2020`	与 BERT 相同，但更轻更好。该模型使用 Replaced Token Detection 目标进行训练。
`Switch Transformers`	`2021`	一种稀疏激活的专家 Transformer 模型，旨在简化和改进专家混合模型。

【自然语言处理】从词袋模型到Transformer家族的变迁之路相关推荐

【自然语言处理】词袋模型在文本分类中的用法
词袋模型在文本分类中的用法 1.加载数据 20 Newsgroups:数据被组织成 20 个不同的新闻组,每个新闻组对应一个不同的主题.一些新闻组彼此非常密切相关(例如 comp.sys.ibm.pc ...
python自然语言处理之词袋模型
词袋模型文本分词处理后, 若需要分析文本语义, 需要把分词得到的结果构建样本模型, 词袋模型就是由每一个句子为一个样本, 单词在句子中出现的次数为特征值构建的数学模型. The brown do ...
自然语言处理(nlp)之词袋模型及句子相似度
本博文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何利用词袋模型来计算句子间的相似度(余弦相似度,cosine similarity). 首先,让我们来看一下,什么是词袋模型. ...
【Python自然语言处理】文本向量化的六种常见模型讲解（独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型）
觉得有帮助请点赞关注收藏~~~ 一.文本向量化文本向量化:将文本信息表示成能够表达文本语义的向量,是用数值向量来表示文本的语义. 词嵌入(Word Embedding):一种将文本中的词转换成数字向 ...
java词袋模型_自然语言处理——词袋模型与向量化
词袋模型词袋模型(Bag of Words,简称BoW),所谓的词袋模型是一种用机器学习算法对文本进行建模时表示文本数据的方法. 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词 ...
文档相似度之词条相似度word2vec、及基于词袋模型计算sklearn实现和gensim
文档相似度之词条相似度word2vec.及基于词袋模型计算sklearn实现和gensim 示例代码: import jieba import pandas as pd from gensim.mod ...
java构建词性词袋_词袋模型
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型.此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方 ...
深度学习笔记第五门课序列模型第二周自然语言处理与词嵌入
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
自然语言处理之词向量模型（三）
1. 词向量模型 1.1 实现词向量的挑战挑战一:如何把词转换为向量?自然语言单词是离散信号,比如"香蕉"."橘子"."水果"在我们看来就 ...

【自然语言处理】从词袋模型到Transformer家族的变迁之路

从词袋模型到Transformer家族的变迁之路

【自然语言处理】从词袋模型到Transformer家族的变迁之路相关推荐

最新文章

热门文章