作用:

这是用于存储 transformers.GPT2Model 或 transformers.TFGPT2Model 的配置的配置类。它用于根据指定的参数实例化 GPT-2 模型,定义模型架构。使用默认值实例化配置将产生与 GPT-2 small 架构类似的配置。

参数:

vocab_size (:obj:`int`, `optional`, 默认为 50257):GPT-2 模型的词汇量。定义在调用 :class:`~transformers.GPT2Model` 或 :class:`~transformers.TFGPT2Model` 时传递的 :obj:`inputs_ids` 可以表示的不同标记的数量。

n_positions (:obj:`int`, `optional`, 默认为 1024):此模型可能使用的最大序列长度。通常将此设置为较大的值以防万一(例如,512 或 1024 或 2048)。

n_ctx (:obj:`int`, `optional`, 默认为 1024):因果掩码的维度(通常与 n_positions 相同)。

n_embd (:obj:`int`, `optional`, 默认为 768):嵌入和隐藏状态的维度。

n_layer (:obj:`int`, `optional`, 默认为 12):Transformer 编码器中的隐藏层数。

n_head (:obj:`int`, `optional`, 默认为 12):Transformer 编码器中每个注意力层的注意力头数。

n_inner (:obj:`int`, `optional`, 默认为 None):内部前馈层的维度。 :obj:`None` 会将其设置为 4 倍n_embd

activation_function:激活函数`[“relu”、“swish”、“gelu”、“tanh”、“gelu_new”]`。

resid_pdrop (:obj:`float`, `optional`, 默认为 0.1):embeddings、encoder 和 pooler 中所有全连接层的 dropout 概率。

embd_pdrop (:obj:`int`, `optional`, 默认为 0.1):embedding的丢失率。

attn_pdrop (:obj:`float`, `optional`, 默认为 0.1):attention 的 dropout 比率。

layer_norm_epsilon (:obj:`float`, `optional`, 默认为 1e-5): 在层标准化层中使用的 epsilon

initializer_range (:obj:`float`, `optional`, 默认为 0.02): 标准差用于初始化所有权重矩阵的 truncated_normal_initializer。

summary_type (:obj:`string`, `optional`, 默认为 :obj:`"cls_index"`):做序列汇总时使用的参数,用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers.TFGPT2DoubleHeadsModel`。

必须是以下选项之一: - :obj:`"last"`:取最后一个令牌隐藏状态(如 XLNet)。 - :obj:`"first"`:取第一个令牌隐藏状态(如 BERT)。 - :obj:`"mean"`:取所有标记隐藏状态的平均值。 - :obj:`"cls_index"`:提供分类标记位置的张量(如 GPTGPT-2)。 - :obj:`"attn"`: 现在没有实现,使用多头注意力。

summary_use_proj (:obj:`bool`, `optional`, 默认为 :obj:`True`):做序列汇总时使用的参数,用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers .TFGPT2DoubleHeadsModel`。矢量提取后是否添加投影。

summary_activation (:obj:`str`, `optional`):进行序列汇总时使用的参数。用于 :class:`~transformers.GPT2DoubleHeadsModel` 中的多项选择头。将 :obj:`"tanh"` 用于 tanh 激活到输出,任何其他值都将导致不激活。

summary_proj_to_labels (:obj:`bool`, `optional`, 默认为 :obj:`True`): 做序列汇总时使用的参数,用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers .TFGPT2DoubleHeadsModel`。投影输出是否应该有 :obj:`config.num_labels` 或 :obj:`config.hidden_size` 类。

summary_first_dropout (:obj:`float`, `optional`, 默认为 0.1):做序列汇总时使用的参数,用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers.TFGPT2DoubleHeadsModel`。投影和激活后要使用的辍学率。

gradient_checkpointing (:obj:`bool`, `optional`, 默认为 :obj:`False`): 是否使用梯度检查点来节省内存,代价是向后传递速度较慢。

GPT2Config相关推荐

  1. 【NLP】Transformers 源码阅读和实践

    本文主要针对HuggingFace开源的 transformers,以BERT为例介绍其源码并进行一些实践.主要以pytorch为例 (tf 2.0 代码风格几乎和pytorch一致),介绍BERT使 ...

  2. 宿舍晚上温度高,那是你没听“鬼故事”

    Hello大家好,我是B站UP主苏苏思量,最近又要开学了. 不禁让我想起之前读书时候,宿舍没空调,晚上睡不着的经历. 所以,用代码为大家排忧解难的我又来了! 天热嘛,出身冷汗就好了. 这次给大家准备了 ...

  3. transformers库使用--模型构建

    1. GPT2相关模型 1.1 GPT2模型 transformers.GPT2Model 简介: 最原始的GPT2模型(bare GPT2),transformer输出的hidden_state后不 ...

  4. 【Pytorch神经网络实战案例】34 使用GPT-2模型实现句子补全功能(手动加载)

    1 GPT-2 模型结构 GPT-2的整体结构如下图,GPT-2是以Transformer为基础构建的,使用字节对编码的方法进行数据预处理,通过预测下一个词任务进行预训练的语言模型. 1.1 GPT- ...

  5. DeepRapper 代码详解

    DeepRapper readme 1. Data Preparation 2. Training & Generation train generate 3. Pretrained Mode ...

  6. CPM-main 部署实践 AI生成小说3

    CPM-main是用来写作文的,改一下训练集就可以生成小说. 1下载项目 打开后下面代码和模型,下载模型解压后 放到model目录 GitHub - yangjianxin1/CPM: Easy-to ...

  7. GPT2-Chinese 文本生成,训练AI写小说,AI写小说2

    GPT2-Chinese 介绍 GPT-2 (Generative Pre-trained Transformer 2) 是由 OpenAI 开发的一种基于 Transformer 模型的自然语言处理 ...

  8. GPT-2生成式多轮对话入门-----深入理解“用于中文闲聊的GPT2模型”项目

    UPDATE 2.28.2020 纠正之前文末的思维误区. 2.26.2020 增加了Jay Alammar The Illustrated GPT-2 博客的翻译 增加了关于Transformer你 ...

  9. MindNLP-基于Mindspore2.0的GPT2预训练模型迁移教程

    前言 动机 大家好,我是Super_WZB,最近MindSpore快要上线2.0版本了,由于之前主要是参与MindSpore的开发工作,一直想找机会多用一用.而自春节开始也是参与到了一项基于MindS ...

  10. 基于Mindspore2.0的GPT2预训练模型迁移教程

    摘要: 这篇文章主要目的是为了让大家能够清楚如何用MindSpore2.0来进行模型的迁移. 本文分享自华为云社区<MindNLP-基于Mindspore2.0的GPT2预训练模型迁移教程> ...

最新文章

  1. 楼主考南师计算机学硕,南京师范大学考研详解:据说这所学校不太好考?嗯,是真的!...
  2. 微软服务器应用软件,HTTP 服务器示例应用程序
  3. 解决项目中.a文件的冲突
  4. java stringBuilder的用法
  5. 第十七部分-Python文档和测试
  6. LeetCode 26 删除有序数组中的重复项
  7. 你真的明白RPC 吗?一起来探究 RPC 的实质
  8. android shell用户界面,shell界面下安装和卸载Android应用程序(apk包)
  9. 如何查看python的版本号
  10. 员工管理系统————员工修改模块
  11. 关于WINDOWS超级终端的使用来调试MODEM,串口.
  12. 【无标题】FOC SDK电机库与STM32用串口指令使能电机开启关闭
  13. UI设计中金刚区图标设计总结
  14. 视频封装格式篇(TS)
  15. App Store审核宝典
  16. destoon网站mysql分表_destoon二次开发常用数据库操作_PHP
  17. 数据分析师必备技能之埋点
  18. Java IDE介绍和使用
  19. Jenkins版本升级指南
  20. csgo准星设置代码_csgo准星设置指令

热门文章

  1. perl Data::Dumper和Storable的例子
  2. 性能优化,进无止境-内存篇(上)
  3. HDU4121 UVa1589 Xiangqi 解题报告
  4. 解决Establishing SSL connection without server‘s identity verification is not recommended问题
  5. ELK之Kibana入门及使用
  6. Win10如何优化系统?电脑运行比较卡怎么优化?
  7. 经验:中小微企业网站上云怎样选择适合自己的云虚拟主机?
  8. MySQL导入数据遇到Error Number: 1467 Failed to read auto-increment value from storage engine错误
  9. 离获得支付牌照还有多远?今日头条申请“字节支付”商标
  10. Windows11安装Android子系统——使用篇