encode和tokenize的区别
encode和encode_plus的区别可以参考我的另一篇博客:https://blog.csdn.net/weixin_41862755/article/details/120070535
encode和tokenize的区别
区别
- encode编码出来的结果,包含开始的
[CLS]
和结尾的[SEP]
,所以程序输出结果比原sentence多两位。 - tokenize编码出来的结果,就是sentence对应的id,无多余项。
import torch
from transformers import BertTokenizermodel_name = 'bert-base-uncased'# a.通过词典导入分词器
tokenizer = BertTokenizer.from_pretrained(model_name)
sentence = "Hello, my son is laughing."input_ids = torch.tensor(tokenizer.encode(sentence))input_id = tokenizer.tokenize(sentence)
input_id2 = tokenizer.convert_tokens_to_ids(input_id)print("input_ids结果是:",input_ids)
print("input_id2的结果是:",input_id2)
执行结果如下:
input_ids结果是: tensor([ 101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102])
input_id2的结果是: [7592, 1010, 2026, 2365, 2003, 5870, 1012]
注意:
input_id2[0:len(input_id2)]) #取得和input_ids一样的结果
encode和tokenize的区别相关推荐
- encode和encode_plus的区别
encode和encode_plus的区别 区别 1. encode仅返回input_ids 2. encode_plus返回所有的编码信息,具体如下: 'input_ids:是单词在词典中的编码 ' ...
- split分词和tokenize的区别
split分词只把单词分出来,形成由单个单词构成的字符串: tokenize把单词和标点符号都分出来,形成由单词和标点构成的一个字符串变量: 但是二者分出的词都是区分大小写的,使用停用词表时,只会删除 ...
- Python中encode和encoding的区别是什么?
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 今逢四海为家日,故垒萧萧芦荻秋. ...
- python中文编码-python中文编码与json中文输出问题详解
前言 python2.x版本的字符编码有时让人很头疼,遇到问题,网上方法可以解决错误,但对原理还是一知半解,本文主要介绍 python 中字符串处理的原理,附带解决 json 文件输出时,显示中文而非 ...
- Go语言学习之encoding/json包
json json大家都不陌生: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式.它基于 ECMAScript 规范的一个子集,采用 ...
- Hugo 主题 Hugo-book 中英文搜索配置
Hugo 主题 Hugo-book 中英文搜索配置 可以直接看解决方案修改即可,前提defaultContentLanguage = "zh".因为修改的就是 zh.yaml 文件 ...
- 【Python基础】实验——Lab 1 Python编程基础
实验项目1 设计一个工作量计算器,基本需求如下: 功能:a)已知项目大小.工作人数.计算出需要多少工时才能完成: b)或已知项目大小.总工时,计算要在这样的工时内完成,至少需要的人数. 已知信息:标准 ...
- tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异
一.tokenizer.encode和tokenizer.tokeninze tokenizer.tokenize :先分词,再转成id,直接输出tensor tokenizer.encode :直接 ...
- tokenizer.encode() 与 tokenizer.tokenize()对比,言简意赅 转 高人讲学
tokenizer.encode()_不知道起什么名字-CSDN博客_tokenizer.encode tokenizer.encode("说你跑的挺远",add_special_ ...
最新文章
- [置顶]使用 maven 插件 maven-shade-plugin 对可执行 java 工程及其全部依赖 jar 进行打包...
- python3与python2的编码问题
- python32-python32和
- 做业务与技术之间的桥梁
- MyBatis-23MyBatis缓存配置【二级缓存】
- spark 调度模块详解及源码分析
- 前端面试之Vue相关总结
- 提高python执行效率_提升Python程序运行效率的6个方法
- DB Query Analyzer中的事务管理在DB2中的应用
- VHDL----基础知识1
- SharePoint列表下拉框优化
- python json转换为dict的编码问题_python中json和字符编码的转换
- JAFFE表情库介绍
- RabbitMQ使用手册中文
- NOD32升级ID获取器For流星无语
- 会议记录管理系统(4) - 会议记录添加模块
- 2021最火表情包壁纸小程序,全自动一键采集,对接外卖cps,独立后台,无需授权。
- 赛门铁克为 Google 域名颁发证书
- 好家伙!六成大学生认为自己毕业10年内会年入百万!看来是我格局小了。。...
- Alpha 事后诸葛亮
热门文章
- [导入]IDesign C#编程规范[转]
- C#开发WPF/Silverlight动画及游戏系列教程(Game Tutorial):(三十三) 锦上添花之魔法特效装饰
- android多媒体文件扫描
- 谁在抢占「低代码」高地?
- 2021年汽车修理工(中级)考试APP及汽车修理工(中级)新版试题
- 《可复制的领导力》阅读记
- Skype的P2P的技术特点是什么?
- 【DIY小记】Ubuntu22.04去掉侧边菜单栏Floppy Disk图标的方法
- THINKPHP 5.1多用户商城+Ucenter整合业内第一家!
- ubuntu18里用python编写modbus-RTS