抱抱脸(hugging face)教程-中文翻译-使用 Tokenizers 的 tokenizers
使用 Tokenizers 的 tokenizers
PreTrainedTokenizerFast 依赖于 Tokenizers 库。从 Tokenizers 库获得的tokenizers可以非常简单地加载到Transformers。
在详细讨论之前,让我们先用几行代码创建一个虚拟的tokenizer:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespacetokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])tokenizer.pre_tokenizer = Whitespace()
files = [...]
tokenizer.train(files, trainer)
我们现在有一个针对我们定义的文件的训练器。我们可以继续在运行时中使用它,或者将它保存到 JSON 文件中以便将来重用。
直接从 tokenizer 对象加载
让我们看看如何在Transformers库中利用这个 tokenizer 对象。通过接受实例化的 tokenizer 对象作为参数,PreTrainedTokenizerFast 类允许简单的实例化:
from transformers import PreTrainedTokenizerFastfast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。
从 JSON 文件加载
为了从 JSON 文件中加载 tokenizer,让我们首先保存 tokenizer:
tokenizer.save("tokenizer.json")
我们保存这个文件的路径可以使用 tokenizer_file 参数传递给 PreTrainedTokenizerFast 初始化方法:
from transformers import PreTrainedTokenizerFastfast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。
本文是抱抱脸(Hugging Face)教程中文翻译,仅学习使用
原文链接
抱抱脸(hugging face)教程-中文翻译-使用 Tokenizers 的 tokenizers相关推荐
- 抱抱脸(hugging face)教程-中文翻译-模型概要
模型概要 这是一个总结的模型可在Transformers.假设您熟悉最初的Transformers模型.或者温柔的介绍,看看有注释的Transformers.在我们关注模特之间的高度差异之前.你可以在 ...
- 抱抱脸(hugging face)教程-中文翻译-分享一个模型
分享一个模型 最后两个教程展示了如何使用 PyTorch. Keras 和 Accelerate 优化分布式设置的模型.下一步就是把你的模型公之于众!我们相信公开分享知识和资源,使人工智能大众化.我们 ...
- 抱抱脸(hugging face)教程-中文翻译-预处理
预处理 在您可以在模型中使用数据之前,需要将数据处理为模型可接受的格式.模型不理解原始文本.图像或音频.这些输入需要转换成数字并组装成张量.在本教程中,您将: 用tokenizer处理文本. 用特征提 ...
- 抱抱脸(hugging face)教程-中文翻译-创建一个自定义架构
创建一个自定义架构 AutoClass 自动推导模型架构,并下载预先训练的配置和权重.通常,我们建议使用 AutoClass 生成与检查点无关的代码.但是,想要更多地控制特定模型参数的用户可以从几个基 ...
- MMpose 教程中文翻译-tutorial 0:学习配置文件
这是一个对mmpose docs的中文翻译,自己在阅读的时候整理的,后续会继续翻译tutorial的内容.欢饮大佬们提建议,我也只是个学习中的小菜鸡 以下是mmpose教程链接 教程 0:学习 配置文 ...
- 抱抱脸(hugging face)教程-中文翻译-任务总结
任务总结 任务摘要 此页面显示了使用库时最常见的用例.可用的模型允许许多不同的配置,并且在用例中有很大的通用性.这里展示了最简单的方法,展示了问题回答.序列分类.命名实体识别等任务的用法. 这些示例利 ...
- CMake官方教程中文翻译
看见一博主翻译的一篇官方cmke教程,觉得很不错就转载并稍作一些细小修改,我提供的3.16版本的文档是最新的,博主之前翻译的是3.7的,内容比3.16少一点点,想看3.16完整内容,下面也有链接. 提 ...
- 《Swift编程语言教程》中文翻译及读书笔记page21
<The Swift Programming Language>中文翻译及读书笔记,附件中为英文原版教程 因21页之前内容和技术关系不大,不做翻译整理,从第21页开始 第21页 1 swi ...
- LAN8742 教程(2) 数据手册 中文翻译(2)
LAN8742 教程(2) 数据手册 中文翻译(2) LAN8742 教程(1) 数据手册 中文翻译(1) LAN8742 教程(2) 数据手册 中文翻译(2) 文章目录 LAN8742 教程(2) ...
- LAN8742 教程(1) 数据手册 中文翻译
LAN8742 教程(1) 数据手册 中文翻译 LAN8742 教程(1) LAN8742 教程(1) 数据手册 中文翻译 文章目录 LAN8742 教程(1) 数据手册 中文翻译 前言 1.0 介绍 ...
最新文章
- HTML:减少页面加载时间的方法
- java 通常在函数内部创建对象还是在外部创建对象_java中为什么在主函数中创建外部类对象可以,创建内部类对象就失败了呢?2类不都是非静态的吗?...
- MFC UI按钮多线程
- Android 系统(200)---Android build.prop参数详解
- selenium 定位方式2
- RHEL6.3更换163 centos源或本地源(适用rhel7)
- IAR软件安装图文教程
- HashSet去重方法VS数据库去重查询
- 宝马和戴姆勒冻结自动驾驶合作项目
- 武汉大学计算机学院夏桂松,武汉大学电子信息学院导师介绍:何楚
- 重装系统时的硬盘格式化
- column xxx is of type integer but expression is of type character varying。String的成员变量存到int的数据库列 报错
- (转载)SPSS之聚类分析(图文+数据集)
- 太阳能路灯实际功率怎么计算?
- (三十一)论文阅读 | 文本检测之EAST
- 长沙周边最美露营基地:安化云台山风景区星空露营公园
- 深圳电子行业的mes系统的需求分析方法~先达智控
- Windows Server 2019 WEB和FTP服务器配置
- 客服软件强攻略——改善客户自助服务
- 手把手教你学AltiumDesigner之入门安装篇