使用 Tokenizers 的 tokenizers

PreTrainedTokenizerFast 依赖于 Tokenizers 库。从 Tokenizers 库获得的tokenizers可以非常简单地加载到Transformers。

在详细讨论之前,让我们先用几行代码创建一个虚拟的tokenizer:

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespacetokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])tokenizer.pre_tokenizer = Whitespace()
files = [...]
tokenizer.train(files, trainer)

我们现在有一个针对我们定义的文件的训练器。我们可以继续在运行时中使用它,或者将它保存到 JSON 文件中以便将来重用。

直接从 tokenizer 对象加载

让我们看看如何在Transformers库中利用这个 tokenizer 对象。通过接受实例化的 tokenizer 对象作为参数,PreTrainedTokenizerFast 类允许简单的实例化:

from transformers import PreTrainedTokenizerFastfast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)

这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。

从 JSON 文件加载

为了从 JSON 文件中加载 tokenizer,让我们首先保存 tokenizer:

tokenizer.save("tokenizer.json")

我们保存这个文件的路径可以使用 tokenizer_file 参数传递给 PreTrainedTokenizerFast 初始化方法:

from transformers import PreTrainedTokenizerFastfast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")

这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。

本文是抱抱脸(Hugging Face)教程中文翻译,仅学习使用

原文链接

抱抱脸(hugging face)教程-中文翻译-使用 Tokenizers 的 tokenizers相关推荐

  1. 抱抱脸(hugging face)教程-中文翻译-模型概要

    模型概要 这是一个总结的模型可在Transformers.假设您熟悉最初的Transformers模型.或者温柔的介绍,看看有注释的Transformers.在我们关注模特之间的高度差异之前.你可以在 ...

  2. 抱抱脸(hugging face)教程-中文翻译-分享一个模型

    分享一个模型 最后两个教程展示了如何使用 PyTorch. Keras 和 Accelerate 优化分布式设置的模型.下一步就是把你的模型公之于众!我们相信公开分享知识和资源,使人工智能大众化.我们 ...

  3. 抱抱脸(hugging face)教程-中文翻译-预处理

    预处理 在您可以在模型中使用数据之前,需要将数据处理为模型可接受的格式.模型不理解原始文本.图像或音频.这些输入需要转换成数字并组装成张量.在本教程中,您将: 用tokenizer处理文本. 用特征提 ...

  4. 抱抱脸(hugging face)教程-中文翻译-创建一个自定义架构

    创建一个自定义架构 AutoClass 自动推导模型架构,并下载预先训练的配置和权重.通常,我们建议使用 AutoClass 生成与检查点无关的代码.但是,想要更多地控制特定模型参数的用户可以从几个基 ...

  5. MMpose 教程中文翻译-tutorial 0:学习配置文件

    这是一个对mmpose docs的中文翻译,自己在阅读的时候整理的,后续会继续翻译tutorial的内容.欢饮大佬们提建议,我也只是个学习中的小菜鸡 以下是mmpose教程链接 教程 0:学习 配置文 ...

  6. 抱抱脸(hugging face)教程-中文翻译-任务总结

    任务总结 任务摘要 此页面显示了使用库时最常见的用例.可用的模型允许许多不同的配置,并且在用例中有很大的通用性.这里展示了最简单的方法,展示了问题回答.序列分类.命名实体识别等任务的用法. 这些示例利 ...

  7. CMake官方教程中文翻译

    看见一博主翻译的一篇官方cmke教程,觉得很不错就转载并稍作一些细小修改,我提供的3.16版本的文档是最新的,博主之前翻译的是3.7的,内容比3.16少一点点,想看3.16完整内容,下面也有链接. 提 ...

  8. 《Swift编程语言教程》中文翻译及读书笔记page21

    <The Swift Programming Language>中文翻译及读书笔记,附件中为英文原版教程 因21页之前内容和技术关系不大,不做翻译整理,从第21页开始 第21页 1 swi ...

  9. LAN8742 教程(2) 数据手册 中文翻译(2)

    LAN8742 教程(2) 数据手册 中文翻译(2) LAN8742 教程(1) 数据手册 中文翻译(1) LAN8742 教程(2) 数据手册 中文翻译(2) 文章目录 LAN8742 教程(2) ...

  10. LAN8742 教程(1) 数据手册 中文翻译

    LAN8742 教程(1) 数据手册 中文翻译 LAN8742 教程(1) LAN8742 教程(1) 数据手册 中文翻译 文章目录 LAN8742 教程(1) 数据手册 中文翻译 前言 1.0 介绍 ...

最新文章

  1. HTML:减少页面加载时间的方法
  2. java 通常在函数内部创建对象还是在外部创建对象_java中为什么在主函数中创建外部类对象可以,创建内部类对象就失败了呢?2类不都是非静态的吗?...
  3. MFC UI按钮多线程
  4. Android 系统(200)---Android build.prop参数详解
  5. selenium 定位方式2
  6. RHEL6.3更换163 centos源或本地源(适用rhel7)
  7. IAR软件安装图文教程
  8. HashSet去重方法VS数据库去重查询
  9. 宝马和戴姆勒冻结自动驾驶合作项目
  10. 武汉大学计算机学院夏桂松,武汉大学电子信息学院导师介绍:何楚
  11. 重装系统时的硬盘格式化
  12. column xxx is of type integer but expression is of type character varying。String的成员变量存到int的数据库列 报错
  13. (转载)SPSS之聚类分析(图文+数据集)
  14. 太阳能路灯实际功率怎么计算?
  15. (三十一)论文阅读 | 文本检测之EAST
  16. 长沙周边最美露营基地:安化云台山风景区星空露营公园
  17. 深圳电子行业的mes系统的需求分析方法~先达智控
  18. Windows Server 2019 WEB和FTP服务器配置
  19. 客服软件强攻略——改善客户自助服务
  20. 手把手教你学AltiumDesigner之入门安装篇

热门文章

  1. 【英语语法】Unit1 冠词、名词、代词和数词
  2. 3des加密及解密处理
  3. 零基础入门学习Python4
  4. c#语言絢止函数是,取汉子拼音首字母的C#和VB.Net方法
  5. mysql数据狛聘_.net 生成拼音码与五笔码实例代码
  6. 信息差怎么赚钱?这个小众项目完全0门槛
  7. Matlab 图像平移、旋转、缩放、镜像
  8. html对话框取消确定,alert 确定 取消
  9. 小白学Oracle基础知识(一)
  10. 演绎与归纳,双管齐下