GPT2Config
作用:
这是用于存储 transformers.GPT2Model 或 transformers.TFGPT2Model 的配置的配置类。它用于根据指定的参数实例化 GPT-2 模型,定义模型架构。使用默认值实例化配置将产生与 GPT-2 small 架构类似的配置。
参数:
vocab_size (:obj:`int`, `optional`, 默认为 50257):GPT-2 模型的词汇量。定义在调用 :class:`~transformers.GPT2Model` 或 :class:`~transformers.TFGPT2Model` 时传递的 :obj:`inputs_ids` 可以表示的不同标记的数量。
n_positions (:obj:`int`, `optional`, 默认为 1024):此模型可能使用的最大序列长度。通常将此设置为较大的值以防万一(例如,512 或 1024 或 2048)。
n_ctx (:obj:`int`, `optional`, 默认为 1024):因果掩码的维度(通常与 n_positions 相同)。
n_embd (:obj:`int`, `optional`, 默认为 768):嵌入和隐藏状态的维度。
n_layer (:obj:`int`, `optional`, 默认为 12):Transformer 编码器中的隐藏层数。
n_head (:obj:`int`, `optional`, 默认为 12):Transformer 编码器中每个注意力层的注意力头数。
n_inner (:obj:`int`, `optional`, 默认为 None):内部前馈层的维度。 :obj:`None` 会将其设置为 4 倍n_embd
activation_function:激活函数`[“relu”、“swish”、“gelu”、“tanh”、“gelu_new”]`。
resid_pdrop (:obj:`float`, `optional`, 默认为 0.1):embeddings、encoder 和 pooler 中所有全连接层的 dropout 概率。
embd_pdrop (:obj:`int`, `optional`, 默认为 0.1):embedding的丢失率。
attn_pdrop (:obj:`float`, `optional`, 默认为 0.1):attention 的 dropout 比率。
layer_norm_epsilon (:obj:`float`, `optional`, 默认为 1e-5): 在层标准化层中使用的 epsilon
initializer_range (:obj:`float`, `optional`, 默认为 0.02): 标准差用于初始化所有权重矩阵的 truncated_normal_initializer。
summary_type (:obj:`string`, `optional`, 默认为 :obj:`"cls_index"`):做序列汇总时使用的参数,用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers.TFGPT2DoubleHeadsModel`。
必须是以下选项之一: - :obj:`"last"`:取最后一个令牌隐藏状态(如 XLNet)。 - :obj:`"first"`:取第一个令牌隐藏状态(如 BERT)。 - :obj:`"mean"`:取所有标记隐藏状态的平均值。 - :obj:`"cls_index"`:提供分类标记位置的张量(如 GPTGPT-2)。 - :obj:`"attn"`: 现在没有实现,使用多头注意力。
summary_use_proj (:obj:`bool`, `optional`, 默认为 :obj:`True`):做序列汇总时使用的参数,用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers .TFGPT2DoubleHeadsModel`。矢量提取后是否添加投影。
summary_activation (:obj:`str`, `optional`):进行序列汇总时使用的参数。用于 :class:`~transformers.GPT2DoubleHeadsModel` 中的多项选择头。将 :obj:`"tanh"` 用于 tanh 激活到输出,任何其他值都将导致不激活。
summary_proj_to_labels (:obj:`bool`, `optional`, 默认为 :obj:`True`): 做序列汇总时使用的参数,用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers .TFGPT2DoubleHeadsModel`。投影输出是否应该有 :obj:`config.num_labels` 或 :obj:`config.hidden_size` 类。
summary_first_dropout (:obj:`float`, `optional`, 默认为 0.1):做序列汇总时使用的参数,用于模型:class:`~transformers.GPT2DoubleHeadsModel` 和:class:`~transformers.TFGPT2DoubleHeadsModel`。投影和激活后要使用的辍学率。
gradient_checkpointing (:obj:`bool`, `optional`, 默认为 :obj:`False`): 是否使用梯度检查点来节省内存,代价是向后传递速度较慢。
GPT2Config相关推荐
- 【NLP】Transformers 源码阅读和实践
本文主要针对HuggingFace开源的 transformers,以BERT为例介绍其源码并进行一些实践.主要以pytorch为例 (tf 2.0 代码风格几乎和pytorch一致),介绍BERT使 ...
- 宿舍晚上温度高,那是你没听“鬼故事”
Hello大家好,我是B站UP主苏苏思量,最近又要开学了. 不禁让我想起之前读书时候,宿舍没空调,晚上睡不着的经历. 所以,用代码为大家排忧解难的我又来了! 天热嘛,出身冷汗就好了. 这次给大家准备了 ...
- transformers库使用--模型构建
1. GPT2相关模型 1.1 GPT2模型 transformers.GPT2Model 简介: 最原始的GPT2模型(bare GPT2),transformer输出的hidden_state后不 ...
- 【Pytorch神经网络实战案例】34 使用GPT-2模型实现句子补全功能(手动加载)
1 GPT-2 模型结构 GPT-2的整体结构如下图,GPT-2是以Transformer为基础构建的,使用字节对编码的方法进行数据预处理,通过预测下一个词任务进行预训练的语言模型. 1.1 GPT- ...
- DeepRapper 代码详解
DeepRapper readme 1. Data Preparation 2. Training & Generation train generate 3. Pretrained Mode ...
- CPM-main 部署实践 AI生成小说3
CPM-main是用来写作文的,改一下训练集就可以生成小说. 1下载项目 打开后下面代码和模型,下载模型解压后 放到model目录 GitHub - yangjianxin1/CPM: Easy-to ...
- GPT2-Chinese 文本生成,训练AI写小说,AI写小说2
GPT2-Chinese 介绍 GPT-2 (Generative Pre-trained Transformer 2) 是由 OpenAI 开发的一种基于 Transformer 模型的自然语言处理 ...
- GPT-2生成式多轮对话入门-----深入理解“用于中文闲聊的GPT2模型”项目
UPDATE 2.28.2020 纠正之前文末的思维误区. 2.26.2020 增加了Jay Alammar The Illustrated GPT-2 博客的翻译 增加了关于Transformer你 ...
- MindNLP-基于Mindspore2.0的GPT2预训练模型迁移教程
前言 动机 大家好,我是Super_WZB,最近MindSpore快要上线2.0版本了,由于之前主要是参与MindSpore的开发工作,一直想找机会多用一用.而自春节开始也是参与到了一项基于MindS ...
- 基于Mindspore2.0的GPT2预训练模型迁移教程
摘要: 这篇文章主要目的是为了让大家能够清楚如何用MindSpore2.0来进行模型的迁移. 本文分享自华为云社区<MindNLP-基于Mindspore2.0的GPT2预训练模型迁移教程> ...
最新文章
- 楼主考南师计算机学硕,南京师范大学考研详解:据说这所学校不太好考?嗯,是真的!...
- 微软服务器应用软件,HTTP 服务器示例应用程序
- 解决项目中.a文件的冲突
- java stringBuilder的用法
- 第十七部分-Python文档和测试
- LeetCode 26 删除有序数组中的重复项
- 你真的明白RPC 吗?一起来探究 RPC 的实质
- android shell用户界面,shell界面下安装和卸载Android应用程序(apk包)
- 如何查看python的版本号
- 员工管理系统————员工修改模块
- 关于WINDOWS超级终端的使用来调试MODEM,串口.
- 【无标题】FOC SDK电机库与STM32用串口指令使能电机开启关闭
- UI设计中金刚区图标设计总结
- 视频封装格式篇(TS)
- App Store审核宝典
- destoon网站mysql分表_destoon二次开发常用数据库操作_PHP
- 数据分析师必备技能之埋点
- Java IDE介绍和使用
- Jenkins版本升级指南
- csgo准星设置代码_csgo准星设置指令
热门文章
- perl Data::Dumper和Storable的例子
- 性能优化,进无止境-内存篇(上)
- HDU4121 UVa1589 Xiangqi 解题报告
- 解决Establishing SSL connection without server‘s identity verification is not recommended问题
- ELK之Kibana入门及使用
- Win10如何优化系统?电脑运行比较卡怎么优化?
- 经验:中小微企业网站上云怎样选择适合自己的云虚拟主机?
- MySQL导入数据遇到Error Number: 1467 Failed to read auto-increment value from storage engine错误
- 离获得支付牌照还有多远?今日头条申请“字节支付”商标
- Windows11安装Android子系统——使用篇