transformers PreTrainedTokenizer
class transformers.PreTrainedTokenizer
Class attributes (overridden by derived classes)
属性 | 描述 |
---|---|
vocab_files_names (Dict[str, str]) | |
pretrained_vocab_files_map (Dict[str, Dict[str, str]]) | |
max_model_input_sizes (Dict[str, Optinal[int]]) | |
pretrained_init_configuration (Dict[str, Dict[str, Any]]) | |
model_input_names (List[str]) | |
padding_side (str) |
Parameters
参数 | 描述 |
---|---|
model_max_length (int, optional) | |
padding_side – (str, optional) | |
model_input_names (List[string], optional) | |
bos_token (str or tokenizers.AddedToken, optional) | |
eos_token (str or tokenizers.AddedToken, optional) | |
unk_token (str or tokenizers.AddedToken, optional) | |
sep_token (str or tokenizers.AddedToken, optional) | |
pad_token (str or tokenizers.AddedToken, optional) | |
cls_token (str or tokenizers.AddedToken, optional) | |
mask_token (str or tokenizers.AddedToken, optional) | |
additional_special_tokens (tuple or list of str or tokenizers.AddedToken, optional) |
call
参数 | 描述 |
---|---|
text (str, List[str], List[List[str]]) | 单个句子或多个句子 |
text_pair (str, List[str], List[List[str]]) | 成对的单个句子或多个句子 |
add_special_tokens (bool, optional, defaults to True) | |
padding (bool, str or PaddingStrategy, optional, defaults to False) | 是否padding |
truncation (bool, str or TruncationStrategy, optional, defaults to False) | |
max_length (int, optional) | |
stride (int, optional, defaults to 0) | |
is_pretokenized (bool, optional, defaults to False) | 是否已经编码成数字了 |
pad_to_multiple_of (int, optional) | |
return_tensors (str or TensorType, optional) | ‘tf’>tf.constant,‘pt’>torch.Tensor,‘np’>np.ndarray |
return_token_type_ids (bool, optional) | |
return_attention_mask (bool, optional) | |
return_overflowing_tokens (bool, optional, defaults to False) | |
return_special_tokens_mask (bool, optional, defaults to False) | |
return_offsets_mapping (bool, optional, defaults to False) | |
return_length (bool, optional, defaults to False) | |
verbose (bool, optional, defaults to True) |
Returns
参数 | 描述 |
---|---|
input_ids | |
token_type_ids | |
attention_mask | |
overflowing_tokens | |
num_truncated_tokens | |
special_tokens_mask | |
length |
https://huggingface.co/transformers/main_classes/tokenizer.html#transformers.PreTrainedTokenizer
transformers PreTrainedTokenizer相关推荐
- transformers Tokenizer
API class transformers.PreTrainedTokenizer(**kwargs) 参考: https://huggingface.co/transformers/main_cl ...
- HuggingFace BERT源码详解:基本模型组件实现
©PaperWeekly 原创 · 作者 | 李泺秋 学校 | 浙江大学硕士生 研究方向 | 自然语言处理.知识图谱 本文记录一下对 HuggingFace 开源的 Transformers 项目代码 ...
- pyTorch api
应用 pytorch FC_regression pytorch FC_classification pytorch RNN_regression pytorch LSTM_regression py ...
- 『NLP打卡营』实践课5:文本情感分析
『NLP直播课』Day 5:情感分析预训练模型SKEP 本项目将详细全面介绍情感分析任务的两种子任务,句子级情感分析和目标级情感分析. 同时演示如何使用情感分析预训练模型SKEP完成以上两种任务,详细 ...
- 【NLP】(task4)编写BERT模型
学习总结 (1)回顾上次所学,GPT是采用传统的基于自回归的语言建模方法,而BERT是用了基于自编码(Auto-Encoding)的预训练任务进行训练.有些问题如transformer 为什么使用 l ...
- huggingface调用一些细节记录
huggingface调用一些细节记录 Model Input Model Foward BertModel 写给我自己看的一些小细节,因为不是每天写代码,总是会忘 要多看文档!!! Model In ...
- 动手搭建深度强化学习的自动股票量化交易系统
基于深度强化学习的股票量化交易 ⭐ ⭐ ⭐ 欢迎点个小小的Star支持!⭐ ⭐ ⭐ 开源不易,希望大家多多支持~ 更多实践案例(AI识虫,基于PaddleX实现森林火灾监测,眼疾识别,智能相册分类等) ...
- 科大讯飞 中文成语填空挑战赛xlnet baseline
比赛名称:中文成语填空挑战赛算法挑战大赛 比赛链接:https://challenge.xfyun.cn/topic/info?type=chinese-idioms 关注"Challeng ...
- 【LLM】浅析chatglm的sft+p-tuning v2
note GLM将针对不同类型下游任务的预训练目标统一为了自回归填空,结合了混合的注意力机制和新的二维位置编码. 本文浅析sft,并基于GLM在广告描述数据集上进行sft+p-tuning代码的数据流 ...
最新文章
- BED文件如何排序,sort按列排序
- 如何调用华为云api_postman调用华为云接口添加资源
- 白话Elasticsearch08-深度探秘搜索技术之基于boost的细粒度搜索条件权重控制
- 在 SAP 电商云 Spartacus UI 里使用自定义配置控制 UI 调试的开关
- 常用模块之hashlib,configparser,logging模块
- redis命令大全参考手册
- py2exe将脚本生成exe可执行文件,不用安装复杂的环境了
- js 滚动条自动滚动到最底部
- 【js】js中const,var,let区别
- 【原】上一学年的课程设计
- redis的持久化(RDBAOF的区别)
- 9、Ubuntu控制Android系统设备(Android手机)应用(图形化界面和访问文件系统及启动App)
- 信号处理基础——傅里叶变换与短时傅里叶变换
- Spss-多元回归案例实操
- kafka sasl java_Kafka安装及开启SASL_PLAINTEXT认证(用户名和密码认证)
- 微信小程序,图片双指放大缩小
- 版本动态 | Apache Linkis(Incubating) 计算中间件1.1.2 版本发布
- MYSQL数据库的数据存储文件
- 记一次对微信引流网站的简单渗透测试
- CSS 实战: Switch 按钮开关(checkbox 实现)