class transformers.PreTrainedTokenizer

Class attributes (overridden by derived classes)

属性 描述
vocab_files_names (Dict[str, str])
pretrained_vocab_files_map (Dict[str, Dict[str, str]])
max_model_input_sizes (Dict[str, Optinal[int]])
pretrained_init_configuration (Dict[str, Dict[str, Any]])
model_input_names (List[str])
padding_side (str)

Parameters

参数 描述
model_max_length (int, optional)
padding_side – (str, optional)
model_input_names (List[string], optional)
bos_token (str or tokenizers.AddedToken, optional)
eos_token (str or tokenizers.AddedToken, optional)
unk_token (str or tokenizers.AddedToken, optional)
sep_token (str or tokenizers.AddedToken, optional)
pad_token (str or tokenizers.AddedToken, optional)
cls_token (str or tokenizers.AddedToken, optional)
mask_token (str or tokenizers.AddedToken, optional)
additional_special_tokens (tuple or list of str or tokenizers.AddedToken, optional)

call

参数 描述
text (str, List[str], List[List[str]]) 单个句子或多个句子
text_pair (str, List[str], List[List[str]]) 成对的单个句子或多个句子
add_special_tokens (bool, optional, defaults to True)
padding (bool, str or PaddingStrategy, optional, defaults to False) 是否padding
truncation (bool, str or TruncationStrategy, optional, defaults to False)
max_length (int, optional)
stride (int, optional, defaults to 0)
is_pretokenized (bool, optional, defaults to False) 是否已经编码成数字了
pad_to_multiple_of (int, optional)
return_tensors (str or TensorType, optional) ‘tf’>tf.constant,‘pt’>torch.Tensor,‘np’>np.ndarray
return_token_type_ids (bool, optional)
return_attention_mask (bool, optional)
return_overflowing_tokens (bool, optional, defaults to False)
return_special_tokens_mask (bool, optional, defaults to False)
return_offsets_mapping (bool, optional, defaults to False)
return_length (bool, optional, defaults to False)
verbose (bool, optional, defaults to True)

Returns

参数 描述
input_ids
token_type_ids
attention_mask
overflowing_tokens
num_truncated_tokens
special_tokens_mask
length

https://huggingface.co/transformers/main_classes/tokenizer.html#transformers.PreTrainedTokenizer

transformers PreTrainedTokenizer相关推荐

  1. transformers Tokenizer

    API class transformers.PreTrainedTokenizer(**kwargs) 参考: https://huggingface.co/transformers/main_cl ...

  2. HuggingFace BERT源码详解:基本模型组件实现

    ©PaperWeekly 原创 · 作者 | 李泺秋 学校 | 浙江大学硕士生 研究方向 | 自然语言处理.知识图谱 本文记录一下对 HuggingFace 开源的 Transformers 项目代码 ...

  3. pyTorch api

    应用 pytorch FC_regression pytorch FC_classification pytorch RNN_regression pytorch LSTM_regression py ...

  4. 『NLP打卡营』实践课5:文本情感分析

    『NLP直播课』Day 5:情感分析预训练模型SKEP 本项目将详细全面介绍情感分析任务的两种子任务,句子级情感分析和目标级情感分析. 同时演示如何使用情感分析预训练模型SKEP完成以上两种任务,详细 ...

  5. 【NLP】(task4)编写BERT模型

    学习总结 (1)回顾上次所学,GPT是采用传统的基于自回归的语言建模方法,而BERT是用了基于自编码(Auto-Encoding)的预训练任务进行训练.有些问题如transformer 为什么使用 l ...

  6. huggingface调用一些细节记录

    huggingface调用一些细节记录 Model Input Model Foward BertModel 写给我自己看的一些小细节,因为不是每天写代码,总是会忘 要多看文档!!! Model In ...

  7. 动手搭建深度强化学习的自动股票量化交易系统

    基于深度强化学习的股票量化交易 ⭐ ⭐ ⭐ 欢迎点个小小的Star支持!⭐ ⭐ ⭐ 开源不易,希望大家多多支持~ 更多实践案例(AI识虫,基于PaddleX实现森林火灾监测,眼疾识别,智能相册分类等) ...

  8. 科大讯飞 中文成语填空挑战赛xlnet baseline

    比赛名称:中文成语填空挑战赛算法挑战大赛 比赛链接:https://challenge.xfyun.cn/topic/info?type=chinese-idioms 关注"Challeng ...

  9. 【LLM】浅析chatglm的sft+p-tuning v2

    note GLM将针对不同类型下游任务的预训练目标统一为了自回归填空,结合了混合的注意力机制和新的二维位置编码. 本文浅析sft,并基于GLM在广告描述数据集上进行sft+p-tuning代码的数据流 ...

最新文章

  1. BED文件如何排序,sort按列排序
  2. 如何调用华为云api_postman调用华为云接口添加资源
  3. 白话Elasticsearch08-深度探秘搜索技术之基于boost的细粒度搜索条件权重控制
  4. 在 SAP 电商云 Spartacus UI 里使用自定义配置控制 UI 调试的开关
  5. 常用模块之hashlib,configparser,logging模块
  6. redis命令大全参考手册
  7. py2exe将脚本生成exe可执行文件,不用安装复杂的环境了
  8. js 滚动条自动滚动到最底部
  9. 【js】js中const,var,let区别
  10. 【原】上一学年的课程设计
  11. redis的持久化(RDBAOF的区别)
  12. 9、Ubuntu控制Android系统设备(Android手机)应用(图形化界面和访问文件系统及启动App)
  13. 信号处理基础——傅里叶变换与短时傅里叶变换
  14. Spss-多元回归案例实操
  15. kafka sasl java_Kafka安装及开启SASL_PLAINTEXT认证(用户名和密码认证)
  16. 微信小程序,图片双指放大缩小
  17. 版本动态 | Apache Linkis(Incubating) 计算中间件1.1.2 版本发布
  18. MYSQL数据库的数据存储文件
  19. 记一次对微信引流网站的简单渗透测试
  20. CSS 实战: Switch 按钮开关(checkbox 实现)

热门文章

  1. STL不是线程安全的啊
  2. Python稳基修炼之计算机等级考试易错细节题2(含答案和解析)
  3. Python验证码的生成
  4. php实现soap,PHP的SOAP原理及实现详解
  5. 06:校门外的树【一维数组】
  6. 微课|玩转Python轻松过二级:第3章课后习题解答4
  7. 微课|中学生可以这样学Python(2.3.3节):reduce()函数
  8. C语言中短路求值问题
  9. python之父的名字-Python 常见双下划线关键字的用法
  10. 力扣打家劫舍系列总结