作用：

这是用于存储 transformers.GPT2Model 或 transformers.TFGPT2Model 的配置的配置类。它用于根据指定的参数实例化 GPT-2 模型，定义模型架构。使用默认值实例化配置将产生与 GPT-2 small 架构类似的配置。

参数：

vocab_size (:obj:`int`, `optional`, 默认为 50257)：GPT-2 模型的词汇量。定义在调用 :class:`~transformers.GPT2Model` 或 :class:`~transformers.TFGPT2Model` 时传递的 :obj:`inputs_ids` 可以表示的不同标记的数量。

n_positions (:obj:`int`, `optional`, 默认为 1024)：此模型可能使用的最大序列长度。通常将此设置为较大的值以防万一（例如，512 或 1024 或 2048）。

n_ctx (:obj:`int`, `optional`, 默认为 1024)：因果掩码的维度（通常与 n_positions 相同）。

n_embd (:obj:`int`, `optional`, 默认为 768)：嵌入和隐藏状态的维度。

n_layer (:obj:`int`, `optional`, 默认为 12)：Transformer 编码器中的隐藏层数。

n_head (:obj:`int`, `optional`, 默认为 12)：Transformer 编码器中每个注意力层的注意力头数。

n_inner (:obj:`int`, `optional`, 默认为 None)：内部前馈层的维度。 :obj:`None` 会将其设置为 4 倍n_embd

activation_function:激活函数`[“relu”、“swish”、“gelu”、“tanh”、“gelu_new”]`。

resid_pdrop (:obj:`float`, `optional`, 默认为 0.1)：embeddings、encoder 和 pooler 中所有全连接层的 dropout 概率。

embd_pdrop (:obj:`int`, `optional`, 默认为 0.1)：embedding的丢失率。

attn_pdrop (:obj:`float`, `optional`, 默认为 0.1)：attention 的 dropout 比率。

layer_norm_epsilon (:obj:`float`, `optional`, 默认为 1e-5): 在层标准化层中使用的 epsilon

initializer_range (:obj:`float`, `optional`, 默认为 0.02): 标准差用于初始化所有权重矩阵的 truncated_normal_initializer。

summary_type (:obj:`string`, `optional`, 默认为 :obj:`"cls_index"`)：做序列汇总时使用的参数，用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers.TFGPT2DoubleHeadsModel`。

必须是以下选项之一： - :obj:`"last"`：取最后一个令牌隐藏状态（如 XLNet）。 - :obj:`"first"`：取第一个令牌隐藏状态（如 BERT）。 - :obj:`"mean"`：取所有标记隐藏状态的平均值。 - :obj:`"cls_index"`：提供分类标记位置的张量（如 GPTGPT-2）。 - :obj:`"attn"`: 现在没有实现，使用多头注意力。

summary_use_proj (:obj:`bool`, `optional`, 默认为 :obj:`True`)：做序列汇总时使用的参数，用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers .TFGPT2DoubleHeadsModel`。矢量提取后是否添加投影。

summary_activation (:obj:`str`, `optional`)：进行序列汇总时使用的参数。用于 :class:`~transformers.GPT2DoubleHeadsModel` 中的多项选择头。将 :obj:`"tanh"` 用于 tanh 激活到输出，任何其他值都将导致不激活。

summary_proj_to_labels (:obj:`bool`, `optional`, 默认为 :obj:`True`): 做序列汇总时使用的参数，用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers .TFGPT2DoubleHeadsModel`。投影输出是否应该有 :obj:`config.num_labels` 或 :obj:`config.hidden_size` 类。

summary_first_dropout (:obj:`float`, `optional`, 默认为 0.1)：做序列汇总时使用的参数，用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers.TFGPT2DoubleHeadsModel`。投影和激活后要使用的辍学率。

gradient_checkpointing (:obj:`bool`, `optional`, 默认为 :obj:`False`): 是否使用梯度检查点来节省内存，代价是向后传递速度较慢。

GPT2Config相关推荐

【NLP】Transformers 源码阅读和实践
本文主要针对HuggingFace开源的 transformers,以BERT为例介绍其源码并进行一些实践.主要以pytorch为例 (tf 2.0 代码风格几乎和pytorch一致),介绍BERT使 ...
宿舍晚上温度高，那是你没听“鬼故事”
Hello大家好,我是B站UP主苏苏思量,最近又要开学了. 不禁让我想起之前读书时候,宿舍没空调,晚上睡不着的经历. 所以,用代码为大家排忧解难的我又来了! 天热嘛,出身冷汗就好了. 这次给大家准备了 ...
transformers库使用--模型构建
1. GPT2相关模型 1.1 GPT2模型 transformers.GPT2Model 简介: 最原始的GPT2模型(bare GPT2),transformer输出的hidden_state后不 ...
【Pytorch神经网络实战案例】34 使用GPT-2模型实现句子补全功能（手动加载）
1 GPT-2 模型结构 GPT-2的整体结构如下图,GPT-2是以Transformer为基础构建的,使用字节对编码的方法进行数据预处理,通过预测下一个词任务进行预训练的语言模型. 1.1 GPT- ...
DeepRapper 代码详解
DeepRapper readme 1. Data Preparation 2. Training & Generation train generate 3. Pretrained Mode ...
CPM-main 部署实践 AI生成小说3
CPM-main是用来写作文的,改一下训练集就可以生成小说. 1下载项目打开后下面代码和模型,下载模型解压后放到model目录 GitHub - yangjianxin1/CPM: Easy-to ...
GPT2-Chinese 文本生成,训练AI写小说,AI写小说2
GPT2-Chinese 介绍 GPT-2 (Generative Pre-trained Transformer 2) 是由 OpenAI 开发的一种基于 Transformer 模型的自然语言处理 ...
GPT-2生成式多轮对话入门-----深入理解“用于中文闲聊的GPT2模型”项目
UPDATE 2.28.2020 纠正之前文末的思维误区. 2.26.2020 增加了Jay Alammar The Illustrated GPT-2 博客的翻译增加了关于Transformer你 ...
MindNLP-基于Mindspore2.0的GPT2预训练模型迁移教程
前言动机大家好,我是Super_WZB,最近MindSpore快要上线2.0版本了,由于之前主要是参与MindSpore的开发工作,一直想找机会多用一用.而自春节开始也是参与到了一项基于MindS ...
基于Mindspore2.0的GPT2预训练模型迁移教程
摘要: 这篇文章主要目的是为了让大家能够清楚如何用MindSpore2.0来进行模型的迁移. 本文分享自华为云社区<MindNLP-基于Mindspore2.0的GPT2预训练模型迁移教程> ...

GPT2Config

作用：

参数：

GPT2Config相关推荐

最新文章

热门文章