BERT & GPT

近年来,随着大规模预训练语言模型的发展,自然语言处理领域发生了巨大变革。BERTGPT 是其中最流行且最有影响力的两种模型。在本篇博客中,我们将讨论 BERTGPT 之间的区别以及它们的演变过程。

1.起源

2018 2018 2018 年, G o o g l e Google Google 首次推出 BERTBidirectional Encoder Representations from Transformers)。该模型是在大量文本语料库上结合无监督和监督学习进行训练的。 BERT 的目标是创建一种语言模型,可以理解句子中单词的上下文和含义,同时考虑到它前后出现的单词。

2018 2018 2018 年, O p e n A I OpenAI OpenAI 首次推出 GPTGenerative Pre-trained Transformer)。与 BERT 一样,GPT 也是一种大规模预训练语言模型。但是,GPT 是一种生成模型,它能够自行生成文本。 GPT 的目标是创建一种语言模型,该模型可以生成连贯且适当的上下文文本。

2.架构

BERTGPT 都是基于 Transformer 架构构建的。Transformer 架构于 2017 2017 2017 年由 V a s w a n i Vaswani Vaswani 等人首次提出,作为一种神经网络结构,其旨在处理序列数据,例如文本。

BERTGPT 的主要区别在于它们的训练方式。 BERT 使用一种名为 掩码语言建模Masked Language ModelingMLM)的技术进行训练。在 MLM 中,模型经过训练以预测句子中缺失的单词。例如,给定句子The cat ___ on the mat,可能会要求模型预测缺失的单词 sits。这有助于模型学习理解句子中单词的上下文和含义。

另一方面,GPT 使用一种名为 自回归语言建模ALM)的技术进行训练。在 ALM 中,模型通过训练为在给定所有先前单词的情况下预测句子中的下一个单词。例如,给定句子 The cat sat on the ___,可能会要求模型预测缺失的单词 mat。这有助于模型学习生成连贯且适当的上下文文本。

3.性能

BERTGPT 在各种 NLP 任务中都取得了非常好的效果。尤其是 BERT,它在很多任务中都取得了最先进的成果,包括情感分析、问答和自然语言推理。

GPT 也取得了令人瞩目的成果,尤其是在与文本生成相关的任务中。目前,该模型已被广泛应用于诸如新闻、诗歌等领域的生成任务中。

4.演变

自最初发布以来,BERTGPT 都在不断发展和改进。 2019 2019 2019 年, G o o g l e Google Google 发布了 BERT 的更新版本 RoBERTaRobustly Optimized BERT Pretraining Approach)。 RoBERTa 使用更大的文本语料库和更复杂的训练过程进行训练,从而获得了比原始 BERT 模型更好的性能。

与此同时, O p e n A I OpenAI OpenAI 发布了几个新版本的 GPT,包括 GPT-2GPT-3。 2019 2019 2019 年发布的 GPT-2 接受了比原始 GPT 模型更大的文本语料库的训练。 2020 2020 2020 年发布的 GPT-3 是目前​​最大、最强的语言模型之一,拥有 1750 1750 1750 亿个参数。

5.结论

综上所述,BERTGPT 是现代 NLP 中最具影响力的两种语言模型。它们都是使用 Transformer 架构构建的,并使用不同的技术进行训练。BERT 使用掩码语言建模进行训练,专注于理解句子中单词的上下文和含义,而 GPT 使用自回归语言建模进行训练,专注于生成连贯且上下文适当的文本

这两种模型在各种 NLP 任务中都取得了令人难以置信的成功,并且自首次发布以来一直在不断发展和改进。 BERT 已更新为 RoBERTa,而 GPT 已更新为 GPT-2GPT-3,这是目前最大、最强的语言模型之一。

这些模型的发展为 NLP 领域带来了重大进步,它们将继续应用于聊天机器人、机器翻译等各种程序中。随着 NLP 领域的不断发展和演变,这些模型将如何发展?它们可能带来哪些新的突破?我们拭目以待吧!

【自然语言处理】BERT GPT相关推荐

  1. Chapter7-3_BERT and its family - ELMo, BERT, GPT, XLNet, MASS, BART, UniLM, ELECTRA, and more

    文章目录 1 How to pre-train 2 Predict next token 3 Mask Input 4 seq2seq的pre-train model 5 ELECTRA 6 Sent ...

  2. 【李宏毅2020 ML/DL】P25 ELMO, BERT, GPT

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  3. 让chatGPT使用Tensor flow Keras组装Bert,GPT,Transformer

    让chatGPT使用Tensor flow Keras组装Bert,GPT,Transformer implement Transformer Model by Tensor flow Keras i ...

  4. [深度学习] 自然语言处理 --- BERT模型原理

    一 BERT简介 NLP:自然语言处理(NLP)是信息时代最重要的技术之一.理解复杂的语言也是人工智能的重要组成部分.Google AI 团队提出的预训练语言模型 BERT(Bidirectional ...

  5. transformer bert GPT(未完)

    原文标题:⼤规模⽆监督预训练语⾔模型与应⽤(中) 文章目录 1 transformer 1.1 encoder部分 1.1.1 Attention定义 1.1.2 Multi-head Attenti ...

  6. 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

    参考: 李宏毅2021/2022春机器学习课程 王树森 RNN & Transformer 教程 Transformer 详解 文章目录 0. 背景:序列数据及相关任务 1. 早期序列模型 1 ...

  7. 深度学习之 自然语言处理BERT

    Natural Language Processing(NLP)包括自然语言理解和自然语言生成,自然语言理解的应用包括语义分析.机器客服.语音识别.机器翻译等. transformer这一深度网络架构 ...

  8. NLP-预训练模型-2019-NLU+NLG:BART【Bert+GPT的泛化Seq2Seq模型】【噪声破坏后的原文本喂给编码器,解码器输出原文本】【噪音方案:文本填充(文本片段用单个掩码替换)】

    <原始论文:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translat ...

  9. (科普)-nlp-图解BERT+GPT

    图解BERT 在学习完Transformer之后,我们来学习一下将Transformer模型结构发扬光大的一个经典模型:BERT(2018年诞生). 图:结构总览 前沿 如何最好地表示单词和句子,从而 ...

最新文章

  1. 计算机系统基础:校验码知识笔记
  2. 解决:Linux中的CentOS 7的火狐浏览器不能访问服务器
  3. 【王道计组笔记】高速缓存器:局部性原理及性能分析
  4. 通过sql脚本可以从数据库中查到数据,但是通过jdbc却获取不到
  5. 【职场日语】日文简历模板
  6. 【美股】美股基本面的一些指标详解
  7. 直流电机PID控制源码c语言,51单片机PID+PWM直流电机转速闭环控制源码(12864液晶显示)...
  8. html5语义化标签标记定义导航,gogo娱乐-官方网站
  9. (转)Builder模式的误区:将复杂对象的构建进行封装,就是Builder模式了吗?
  10. Python数据存取详解
  11. 贪心法LeetCode算法例子【总】
  12. 企业邮箱是什么?企业邮箱如何免费申请?外贸公司邮箱申请
  13. 三相交流电源中相电压电流符号表示
  14. python生词本查单词译文_GitHub - To-knowledge/Wudao-dict: 有道词典的命令行版本,支持英汉互查和在线查询。...
  15. 奇奇怪怪的大佬:从职业赌徒到互联网大佬
  16. 拼多多618手机品牌官旗销量同比增长124%,4000+高价位手机同比增长156%
  17. 普及一下硬件及硬件编程的问题,适合初学者,对于硬件高级程序员可供参考
  18. 【Python】卡方检验
  19. 1032 挖掘机技术哪家强 (20 分)(测试点分析)
  20. 淘宝天猫商家运营推广,淘宝超级推荐是什么

热门文章

  1. 时光穿梭机特效如何制作?建议试试这个时光机穿梭工具
  2. [SpringCould篇]之服务消费方式Ribbon+RestTemplate
  3. 【神经网络参数初始化方法】
  4. 测试POST传输工具【poster】。
  5. vue如何在一个工程里判断h5还是pc,(利用在一个页面显示不同router-view内容原理,本文只使用于单页面项目,多页面项目请查看我另一篇博文)
  6. xxl-job任务调度平台
  7. 如何简单粗暴的干掉2345主页
  8. (转贴)汉字转拼音缩写
  9. 升级!鹏业云计价i20(西藏)软件V11.0.27版本
  10. 可爱的小老鼠计算机教案,大班语言儿歌教案《小老鼠玩电脑》