Bert和T5的区别

Bert 和 T5 之间的主要区别在于预测中使用的标记（单词）的大小。 Bert 预测一个由单个词组成的目标（single token masking），另一方面，T5 可以预测多个词，如上图所示。它在学习模型结构方面为模型提供了灵活性。

Transformer 是一种使用自注意力机制的深度学习模型。 Self-attention 的工作原理是在给定单词与其周围环境之间建立一定程度的重要性或关系。

在进入细节之前，请记住词嵌入是一个词的实数值数值表示，这种表示对一个词的含义进行编码，这将有助于检查哪个其他词具有相似的编码。相似的编码意味着单词彼此高度相关。

回到自我关注！

“今天我正在写一篇关于搜索引擎的文章。”

假设我想计算“文章”这个词的自注意力。

SA(‘article’) = “article”这个词与句子中其他词之间的关系量 (SA = Self-attention)。

每个箭头代表单词“article”和句子中任何单词之间的注意力。换句话说，每个箭头表示这两个词彼此相关的程度。我们应该注意，这只是一个词的注意力，我们应该对所有其他词重复此步骤。

在该过程的最后，我们将为每个单词获得一个向量，其中包含代表单词及其与其他单词的关系的数值。

他们为什么要创建self-attention机制？
创建自我注意机制的原因是因为在其他基本模型中发现的局限性。

例如，skip-gram 是一个生成词嵌入的模型。在 skip-gram 的训练阶段，它学习预测给定单个单词作为输入的周围特定数量的单词。通常，我们指定窗口大小，即有多少包围的单词将作为输入给出。

但该模型的主要局限在于，对给定单词的预测将仅基于有限数量的周围单词。另一方面，self-attention 不仅会检查句子中的所有其他单词，还会赋予它们一定程度的重要性。

示例：ML 模型如何预测以下句子中的单词“river”：Bank of a (river)

Bert和T5的区别相关推荐

【Bert、T5、GPT】fine tune transformers 文本分类/情感分析
[Bert.T5.GPT]fine tune transformers 文本分类/情感分析 0.前言 text classification emotions 数据集 data visualizati ...
独家 | 解析Tansformer模型—理解GPT-3, BERT和T5背后的模型（附链接）
作者:Dale Markowitz 翻译:王可汗校对:和中华本文约3800字,建议阅读5分钟本文为大家介绍自然语言处理中当下最流行的语言模型--Transformer模型. 标签:自然语言处理 ...
自学大语言模型之Bert和GPT的区别
Bert和GPT的区别起源 2018 年,Google 首次推出 BERT(Bidirectional Encoder Representations from Transformers).该模型是 ...
自然语言处理(NLP)-4.3 BERT、T5与问答系统(BERTT5Question Answering)
1.概述 1.1 问答系统(Question answering) 基于上下文:输入问题和文本,输出答案:如阅读理解封闭系统:直接输入问题,输出答案:如聊天机器人 1.2 迁移学习(Transfer ...
transformers之中mt5和t5的区别
为了查看transformers结构之中mt5结构和t5结构的区别,这里采用代码对比法,相同的程序分别调用mt5结构和t5结构使用mt5的结构 from transformers import T5 ...
万字拆解！追溯ChatGPT各项能力的起源
整理 | 李rumor 大家好,这里是NewBeeNLP.最近有幸看到了一篇十分深度剖析GPT系列模型的文章,读到后赶紧与作者联系,没想到他们很快就翻译成了中文,在这里分享给大家. 英文原版:htt ...
ChatGPT的前世今生
作者|符尧等整理|李rumor 最近有幸看到了一篇十分深度剖析GPT系列模型的文章,读到后赶紧与作者联系,没想到他们很快就翻译成了中文,在这里分享给大家. 英文原版: https://franxya ...
【万字拆解】ChatGPT各项能力的起源
每天给你送来NLP技术干货! 来自:李rumor 卷友们好,最近有幸看到了一篇十分深度剖析GPT系列模型的文章,读到后赶紧与作者联系,没想到他们很快就翻译成了中文,在这里分享给大家. 英文原版:htt ...
国内外学者联合撰写，ChatGPT技术路线图
Datawhale干货作者:符尧,爱丁堡大学,编辑:李rumor 最近有幸看到了一篇十分深度剖析GPT系列模型的文章,读到后赶紧与作者联系,没想到他们很快就翻译成了中文,在这里分享给大家. 英文原版 ...

Bert和T5的区别

Bert和T5的区别相关推荐

最新文章

热门文章