class transformers.PreTrainedTokenizer

Class attributes (overridden by derived classes)

属性	描述
vocab_files_names (Dict[str, str])
pretrained_vocab_files_map (Dict[str, Dict[str, str]])
max_model_input_sizes (Dict[str, Optinal[int]])
pretrained_init_configuration (Dict[str, Dict[str, Any]])
model_input_names (List[str])
padding_side (str)

Parameters

参数	描述
model_max_length (int, optional)
padding_side – (str, optional)
model_input_names (List[string], optional)
bos_token (str or tokenizers.AddedToken, optional)
eos_token (str or tokenizers.AddedToken, optional)
unk_token (str or tokenizers.AddedToken, optional)
sep_token (str or tokenizers.AddedToken, optional)
pad_token (str or tokenizers.AddedToken, optional)
cls_token (str or tokenizers.AddedToken, optional)
mask_token (str or tokenizers.AddedToken, optional)
additional_special_tokens (tuple or list of str or tokenizers.AddedToken, optional)

call

参数	描述
text (str, List[str], List[List[str]])	单个句子或多个句子
text_pair (str, List[str], List[List[str]])	成对的单个句子或多个句子
add_special_tokens (bool, optional, defaults to True)
padding (bool, str or PaddingStrategy, optional, defaults to False)	是否padding
truncation (bool, str or TruncationStrategy, optional, defaults to False)
max_length (int, optional)
stride (int, optional, defaults to 0)
is_pretokenized (bool, optional, defaults to False)	是否已经编码成数字了
pad_to_multiple_of (int, optional)
return_tensors (str or TensorType, optional)	‘tf’>tf.constant,‘pt’>torch.Tensor,‘np’>np.ndarray
return_token_type_ids (bool, optional)
return_attention_mask (bool, optional)
return_overflowing_tokens (bool, optional, defaults to False)
return_special_tokens_mask (bool, optional, defaults to False)
return_offsets_mapping (bool, optional, defaults to False)
return_length (bool, optional, defaults to False)
verbose (bool, optional, defaults to True)

Returns

参数	描述
input_ids
token_type_ids
attention_mask
overflowing_tokens
num_truncated_tokens
special_tokens_mask
length

https://huggingface.co/transformers/main_classes/tokenizer.html#transformers.PreTrainedTokenizer

transformers PreTrainedTokenizer相关推荐

transformers Tokenizer
API class transformers.PreTrainedTokenizer(**kwargs) 参考: https://huggingface.co/transformers/main_cl ...
HuggingFace BERT源码详解：基本模型组件实现
©PaperWeekly 原创 · 作者 | 李泺秋学校 | 浙江大学硕士生研究方向 | 自然语言处理.知识图谱本文记录一下对 HuggingFace 开源的 Transformers 项目代码 ...
pyTorch api
应用 pytorch FC_regression pytorch FC_classification pytorch RNN_regression pytorch LSTM_regression py ...
『NLP打卡营』实践课5：文本情感分析
『NLP直播课』Day 5:情感分析预训练模型SKEP 本项目将详细全面介绍情感分析任务的两种子任务,句子级情感分析和目标级情感分析. 同时演示如何使用情感分析预训练模型SKEP完成以上两种任务,详细 ...
【NLP】(task4)编写BERT模型
学习总结 (1)回顾上次所学,GPT是采用传统的基于自回归的语言建模方法,而BERT是用了基于自编码(Auto-Encoding)的预训练任务进行训练.有些问题如transformer 为什么使用 l ...
huggingface调用一些细节记录
huggingface调用一些细节记录 Model Input Model Foward BertModel 写给我自己看的一些小细节,因为不是每天写代码,总是会忘要多看文档!!! Model In ...
动手搭建深度强化学习的自动股票量化交易系统
基于深度强化学习的股票量化交易 ⭐ ⭐ ⭐ 欢迎点个小小的Star支持!⭐ ⭐ ⭐ 开源不易,希望大家多多支持~ 更多实践案例(AI识虫,基于PaddleX实现森林火灾监测,眼疾识别,智能相册分类等) ...
科大讯飞中文成语填空挑战赛xlnet baseline
比赛名称:中文成语填空挑战赛算法挑战大赛比赛链接:https://challenge.xfyun.cn/topic/info?type=chinese-idioms 关注"Challeng ...
【LLM】浅析chatglm的sft+p-tuning v2
note GLM将针对不同类型下游任务的预训练目标统一为了自回归填空,结合了混合的注意力机制和新的二维位置编码. 本文浅析sft,并基于GLM在广告描述数据集上进行sft+p-tuning代码的数据流 ...

transformers PreTrainedTokenizer

Class attributes (overridden by derived classes)

Parameters

call

Returns

transformers PreTrainedTokenizer相关推荐

最新文章

热门文章