从词袋模型到Transformer家族的变迁之路

模型名称 年份 描述
Bag of Words 1954 即 BOW 模型,计算文档中每个单词出现的次数,并将它们用作特征。
TF-IDF 1972 对 BOW 进行修正,使得稀有词得分高,常见词得分低。
Word2Vec 2013 每个词都映射到一个称为词嵌入的高维向量,捕获其语义。词嵌入是通过在大型语料库中寻找词相关性的神经网络来学习的。
RNN 1986 RNN 利用句子中词的上下文计算文档嵌入,这仅靠词嵌入是不可能的。后来发展为 LSTM1997)以捕获长期依赖关系,并演变为 Bidirectional RNN1997)以捕获从左到右和从右到左的依赖关系。最终,Encoder-Decoder RNNs2014)出现了,其中一个 RNN 创建文档嵌入(即编码器),另一个 RNN 将其解码为文本(即解码器)。
Transformer 2017 一种 编码器-解码器 模型,它利用注意力机制来计算更好的嵌入并更好地将输出与输入对齐。
BERT 2018 双向 Transformer,使用掩码语言建模(Masked Language Modeling)和下一句预测目标(Next Sentence Prediction objectives)的组合进行预训练。它使用全局注意力。
GPT 2018 第一个基于 Transformer 架构的自回归模型。后来演变成 GPT-22019),一个在 WebText 上预训练的更大和优化的 GPT 版本,以及 GPT-32020),一个更大和优化的 GPT-2 版本,在 Common Crawl 上预训练。
CTRL 2019 类似于 GPT,但具有用于条件文本生成的控制代码。
Transformer-XL 2019 一个自回归 Transformer,可以重用以前计算的隐藏状态来处理更长的上下文。
ALBERT 2019 BERT 的轻量级版本,其中:(1)下一句预测被句序预测取代;(2)参数减少技术用于降低内存消耗和加快训练速度。
RoBERTa 2019 BERT 的更好版本,其中:(1)Masked Language Modeling 目标是动态的;(2)Next Sentence Prediction 目标被删除;(3)使用 BPE tokenizer;(4)使用更好的超参数.
XLM 2019 Transformer 使用因果语言建模、掩码语言建模和翻译语言建模等目标在多种语言的语料库上进行了预训练。
XLNet 2019 Transformer-XL 具有广义自回归预训练方法,可以学习双向依赖性。
PEGASUS 2019 一个双向编码器和一个从左到右的解码器,使用掩码语言建模和间隙句子生成目标进行了预训练。
DistilBERT 2019 与 BERT 相同,但更小更快,同时保留 BERT 95% 以上的性能。通过预训练的 BERT 模型的蒸馏进行训练。
XLM-RoBERTa 2019 RoBERTa 在具有掩蔽语言建模目标的多语言语料库上进行训练。
BART 2019 一个双向编码器和一个从左到右的解码器,通过使用任意噪声函数破坏文本并学习模型来重建原始文本来训练。
ConvBERT 2019 BERT 的更好版本,其中自注意力模块被新模块取代,利用卷积更好地模拟全局和局部上下文。
Funnel Transformer 2020 一种 Transformer,它逐渐将隐藏状态的序列压缩到更短的状态,从而降低计算成本。
Reformer 2020 由于对局部敏感的哈希注意力、轴向位置编码和其他优化,一个更高效的 Transformer。
T5 2020 一个双向编码器和一个从左到右的解码器,在无监督和监督任务的混合上进行了预训练。
Longformer 2020 一种将注意力矩阵替换为稀疏矩阵以提高训练效率的 Transformer 模型。
ProphetNet 2020 一种使用未来 N-gram 预测目标和新颖的自注意力机制训练的 Transformer 模型。
ELECTRA 2020 与 BERT 相同,但更轻更好。该模型使用 Replaced Token Detection 目标进行训练。
Switch Transformers 2021 一种稀疏激活的专家 Transformer 模型,旨在简化和改进专家混合模型。

【自然语言处理】从词袋模型到Transformer家族的变迁之路相关推荐

  1. 【自然语言处理】词袋模型在文本分类中的用法

    词袋模型在文本分类中的用法 1.加载数据 20 Newsgroups:数据被组织成 20 个不同的新闻组,每个新闻组对应一个不同的主题.一些新闻组彼此非常密切相关(例如 comp.sys.ibm.pc ...

  2. python自然语言处理之词袋模型

    词袋模型   文本分词处理后, 若需要分析文本语义, 需要把分词得到的结果构建样本模型, 词袋模型就是由每一个句子为一个样本, 单词在句子中出现的次数为特征值构建的数学模型. The brown do ...

  3. 自然语言处理(nlp)之词袋模型及句子相似度

    本博文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何利用词袋模型来计算句子间的相似度(余弦相似度,cosine similarity).   首先,让我们来看一下,什么是词袋模型. ...

  4. 【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)

    觉得有帮助请点赞关注收藏~~~ 一.文本向量化 文本向量化:将文本信息表示成能够表达文本语义的向量,是用数值向量来表示文本的语义. 词嵌入(Word Embedding):一种将文本中的词转换成数字向 ...

  5. java词袋模型_自然语言处理——词袋模型与向量化

    词袋模型 词袋模型(Bag of Words,简称BoW),所谓的词袋模型是一种用机器学习算法对文本进行建模时表示文本数据的方法. 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词 ...

  6. 文档相似度之词条相似度word2vec、及基于词袋模型计算sklearn实现和gensim

    文档相似度之词条相似度word2vec.及基于词袋模型计算sklearn实现和gensim 示例代码: import jieba import pandas as pd from gensim.mod ...

  7. java构建词性词袋_词袋模型

    词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型.此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方 ...

  8. 深度学习笔记 第五门课 序列模型 第二周 自然语言处理与词嵌入

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  9. 自然语言处理之词向量模型(三)

    1. 词向量模型 1.1 实现词向量的挑战 挑战一:如何把词转换为向量?自然语言单词是离散信号,比如"香蕉"."橘子"."水果"在我们看来就 ...

最新文章

  1. oracle 管道通信,oracle管道化表函数
  2. 95-264-040-源码-重启恢复-本地恢复
  3. BZOJ 3203 Sdoi2013 保护出题人 凸包+三分
  4. 史上最强春节红包战:互联网竞争缩影下的百亿争斗
  5. 宋宝华:Linux文件读写(BIO)波澜壮阔的一生
  6. 串口通讯---实现 PC 端之间串口连接传输文件
  7. iphone6连接电脑后计算机不显示器,iPhone6怎么无故显示屏不亮了
  8. 7440 GT540
  9. SecKill学习初步框架时报错记录
  10. 《硅谷钢铁侠》读后感
  11. git 强制拉取最新代码
  12. Python 读文件并按十六进制输出
  13. 做产品路线图规划用什么工具?
  14. 几种漂亮边框制作教程
  15. Staf/Stax安装
  16. RPC 就好像是谈一场异地恋
  17. 有关Amazon站内信邮件类别处理
  18. JavaMai——邮箱验证用户注册
  19. 5-6 人生的不同阶段
  20. ​草莓熊python绘图(春节版,圣诞倒数雪花版)附源代码

热门文章

  1. 计算机关闭自带杀毒,Win10专业版系统中关闭自带杀毒软件操作方法
  2. 算法系列1《DES》
  3. XCTF mobile新手区解题记录(WP)以及一些总结和思考
  4. 一直没搞懂灰盒测试的我,收藏了这篇文章
  5. [乡土民间故事_徐苟三传奇]第廿九回_蠢财主落水知上当
  6. 数据库系统的工作流程
  7. 运动无线耳机哪个品牌比较好、口碑最好的运动蓝牙耳机
  8. 卡通可爱的门户网站登录表单页面
  9. python导入excel散点图_Python 写excel文件并插入散点图
  10. 游戏策划---ACTIONGAME游戏设计(转)