encode和encode_plus的区别可以参考我的另一篇博客:https://blog.csdn.net/weixin_41862755/article/details/120070535

encode和tokenize的区别

区别
  1. encode编码出来的结果,包含开始的[CLS]和结尾的[SEP],所以程序输出结果比原sentence多两位。
  2. tokenize编码出来的结果,就是sentence对应的id,无多余项。
import torch
from transformers import BertTokenizermodel_name = 'bert-base-uncased'# a.通过词典导入分词器
tokenizer = BertTokenizer.from_pretrained(model_name)
sentence = "Hello, my son is laughing."input_ids = torch.tensor(tokenizer.encode(sentence))input_id = tokenizer.tokenize(sentence)
input_id2 = tokenizer.convert_tokens_to_ids(input_id)print("input_ids结果是:",input_ids)
print("input_id2的结果是:",input_id2)

执行结果如下:

input_ids结果是: tensor([ 101, 7592, 1010, 2026, 2365, 2003, 5870, 1012,  102])
input_id2的结果是: [7592, 1010, 2026, 2365, 2003, 5870, 1012]
注意:
input_id2[0:len(input_id2)])  #取得和input_ids一样的结果

encode和tokenize的区别相关推荐

  1. encode和encode_plus的区别

    encode和encode_plus的区别 区别 1. encode仅返回input_ids 2. encode_plus返回所有的编码信息,具体如下: 'input_ids:是单词在词典中的编码 ' ...

  2. split分词和tokenize的区别

    split分词只把单词分出来,形成由单个单词构成的字符串: tokenize把单词和标点符号都分出来,形成由单词和标点构成的一个字符串变量: 但是二者分出的词都是区分大小写的,使用停用词表时,只会删除 ...

  3. Python中encode和encoding的区别是什么?

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 今逢四海为家日,故垒萧萧芦荻秋. ...

  4. python中文编码-python中文编码与json中文输出问题详解

    前言 python2.x版本的字符编码有时让人很头疼,遇到问题,网上方法可以解决错误,但对原理还是一知半解,本文主要介绍 python 中字符串处理的原理,附带解决 json 文件输出时,显示中文而非 ...

  5. Go语言学习之encoding/json包

    json  json大家都不陌生:  JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式.它基于 ECMAScript 规范的一个子集,采用 ...

  6. Hugo 主题 Hugo-book 中英文搜索配置

    Hugo 主题 Hugo-book 中英文搜索配置 可以直接看解决方案修改即可,前提defaultContentLanguage = "zh".因为修改的就是 zh.yaml 文件 ...

  7. 【Python基础】实验——Lab 1 Python编程基础

    实验项目1 设计一个工作量计算器,基本需求如下: 功能:a)已知项目大小.工作人数.计算出需要多少工时才能完成: b)或已知项目大小.总工时,计算要在这样的工时内完成,至少需要的人数. 已知信息:标准 ...

  8. tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

    一.tokenizer.encode和tokenizer.tokeninze tokenizer.tokenize :先分词,再转成id,直接输出tensor tokenizer.encode :直接 ...

  9. tokenizer.encode() 与 tokenizer.tokenize()对比,言简意赅 转 高人讲学

    tokenizer.encode()_不知道起什么名字-CSDN博客_tokenizer.encode tokenizer.encode("说你跑的挺远",add_special_ ...

最新文章

  1. [置顶]使用 maven 插件 maven-shade-plugin 对可执行 java 工程及其全部依赖 jar 进行打包...
  2. python3与python2的编码问题
  3. python32-python32和
  4. 做业务与技术之间的桥梁
  5. MyBatis-23MyBatis缓存配置【二级缓存】
  6. spark 调度模块详解及源码分析
  7. 前端面试之Vue相关总结
  8. 提高python执行效率_提升Python程序运行效率的6个方法
  9. DB Query Analyzer中的事务管理在DB2中的应用
  10. VHDL----基础知识1
  11. SharePoint列表下拉框优化
  12. python json转换为dict的编码问题_python中json和字符编码的转换
  13. JAFFE表情库介绍
  14. RabbitMQ使用手册中文
  15. NOD32升级ID获取器For流星无语
  16. 会议记录管理系统(4) - 会议记录添加模块
  17. 2021最火表情包壁纸小程序,全自动一键采集,对接外卖cps,独立后台,无需授权。
  18. 赛门铁克为 Google 域名颁发证书
  19. 好家伙!六成大学生认为自己毕业10年内会年入百万!看来是我格局小了。。...
  20. Alpha 事后诸葛亮

热门文章

  1. [导入]IDesign C#编程规范[转]
  2. C#开发WPF/Silverlight动画及游戏系列教程(Game Tutorial):(三十三) 锦上添花之魔法特效装饰
  3. android多媒体文件扫描
  4. 谁在抢占「低代码」高地?
  5. 2021年汽车修理工(中级)考试APP及汽车修理工(中级)新版试题
  6. 《可复制的领导力》阅读记
  7. Skype的P2P的技术特点是什么?
  8. 【DIY小记】Ubuntu22.04去掉侧边菜单栏Floppy Disk图标的方法
  9. THINKPHP 5.1多用户商城+Ucenter整合业内第一家!
  10. ubuntu18里用python编写modbus-RTS