d2l.Vocab(sentences, min_freq=2, reserved_tokens=['<pad>', '<mask>', '<cls>', '<sep>'])
sentences:源句子,比如说 sentences赋值为下边的五个句子 注意第一句我手动添加了两个'<unk>',第二句添加了'<pad>', '<mask>', '<cls>', '<sep>',作为第三个参数的测试
[['<unk>', '<unk>', 'the', 'ottoman', 'turkish', 'empire', 'entered', 'the', 'first', 'world', 'war', 'on', 'the', 'side', 'of', 'the', 'central', 'powers', 'on', '31', 'october', '1914'], ['<pad>', '<mask>', '<cls>', '<sep>', 'the', 'stalemate', 'of', 'trench', 'warfare', 'on', 'the', 'western', 'front', 'convinced', 'the', 'british', 'imperial', 'war', 'cabinet', 'that', 'an', 'attack', 'on', 'the', 'central', 'powers', 'elsewhere', ',', 'particularly', 'turkey', ',', 'could', 'be', 'the', 'best', 'way', 'of', 'winning', 'the', 'war'], ['from', 'february', '1915', 'this', 'took', 'the', 'form', 'of', 'naval', 'operations', 'aimed', 'at', 'forcing', 'a', 'passage', 'through', 'the', 'dardanelles', ',', 'but', 'after', 'several', 'setbacks', 'it', 'was', 'decided', 'that', 'a', 'land', 'campaign', 'was', 'also', 'necessary'],['to', 'that', 'end', ',', 'the', 'mediterranean', 'expeditionary', 'force', 'was', 'formed', 'under', 'the', 'command', 'of', 'general', 'ian', 'hamilton'],['three', 'amphibious', 'landings', 'were', 'planned', 'to', 'secure', 'the', 'gallipoli', 'peninsula', ',', 'which', 'would', 'allow', 'the', 'navy', 'to', 'attack', 'the', 'turkish', 'capital', 'constantinople', ',', 'in', 'the', 'hope', 'that', 'would', 'convince', 'the', 'turks', 'to', 'ask', 'for', 'an', 'armistice', '.']
]
min_freq:把出现次数少于2次的低频率词元视为相同的未知词元即视为'<unk>'
reserved_tokens:如果遇到reserved_tokens中的词也作为token保留下来

一个完整的例子:

d2l.Vocab(sentences, min_freq=5, reserved_tokens=[‘<pad>‘, ‘<mask>‘, ‘<cls>‘, ‘<sep>‘]) 参数讲解相关推荐

  1. BERT和ERNIE中[PAD],[CLS],[SEP],[MASK],[UNK]所代表的含义

    在BERT和ERNIE等预训练模型的词汇表文件vocab.txt中,有[PAD],[CLS],[SEP],[MASK],[UNK]这几种token,它们代表的具体含义如下: 1,[PAD] 要将句子处 ...

  2. NLP中的特殊标记(Special Tokens)[PAD]、[CLS]、[SEP]、[UNK]

    这些是BERT模型中的特殊标记(Special Tokens).它们的含义如下: [PAD]:在batch中对齐序列长度时,用 [PAD]进行填充以使所有序列长度相同.可以通过将其添加到较短的序列末尾 ...

  3. 自然语言处理:预训练

    14.8 来自trans的双向编码器表示(Bert) Bidirectional Encoder Representation from Transformers 14.8.1 从上下文无关 到 上下 ...

  4. Pytorch BERT

    Pytorch BERT 0. 环境介绍 环境使用 Kaggle 里免费建立的 Notebook 教程使用李沐老师的 动手学深度学习 网站和 视频讲解 小技巧:当遇到函数看不懂的时候可以按 Shift ...

  5. BERT - PyTorch

    动手学深度学习笔记 一.BERT 1.BERT:把两个结合起来 2.BERT的输入表示 3.编码器 4.预训练任务 掩蔽语言模型 下一句预测 5.整合代码 二.用于预训练BERT的数据集 1.下载并读 ...

  6. 【动手学深度学习】李沐——循环神经网络

    本文内容目录 序列模型 文本预处理 语言模型和数据集 循环神经网络 RNN的从零开始实现 RNN的简洁实现 通过时间反向传播 门控循环单元GRU 长短期记忆网络(LSTM) 深度循环神经网络 双向循环 ...

  7. 机器翻译baseline

    1 下载和预处理数据集 # 导包 import os import torch from d2l import torch as d2l D:\ana3\envs\nlp_prac\lib\site- ...

  8. NLP应用:情感分析和自然语言推断

    0 序言 回顾: 如何在文本序列中表示词元 训练了词元的表示 这样的预训练文本可通过不同的模型架构,放入不同的下游NLP任务 之前的提到的NLP应用没有使用 预训练 本章: 重点:如何应用 DL表征学 ...

  9. 【动手学习pytorch笔记】28.机器翻译数据集

    机器翻译数据集 import os import torch from d2l import torch as d2l 下载和预处理数据集 #@save d2l.DATA_HUB['fra-eng'] ...

最新文章

  1. 聊一聊 SpringBoot 自动配置的原理
  2. 自定义 checkbox 新玩法 ?
  3. 开发环境中实现Lombok消除Java冗余
  4. 全志A33-串口的使用
  5. 前端学习(1734):前端系列javascript之发行
  6. 1134 Vertex Cover
  7. Echarts数据可视化echarts实例的相关操作,开发全解+完美注释
  8. Java 获取指定日期的方法汇总
  9. 通过消息跨进程发送与接收 TCopyDataStruct 数据 - 回复 skymesh
  10. word2016 图片去底灰_87平开门见厅,镜面扩容,将黑白灰用到极致,不奢华但精致...
  11. 表情包生成引流源码 - Jason原创
  12. 计算机网络知识点汇总
  13. JavaWeb_CSS(14)_文字处理_字体和字号
  14. PRML读书会第九章 Mixture Models and EM(Kmeans,混合高斯模型,Expectation Maximization)...
  15. 微积分专项----MIT GS老师
  16. Deeplink(深度链接)拉起App,我是这样做到的
  17. 水星WM150U无线网卡开机掉驱动的解决方法
  18. 应用SqlHelper例子(userService)
  19. 解读:基于图卷积特征的卷积神经网络的股票趋势预测(文末赠书)
  20. android 通过adb工具实现无线连接安卓设备并调试

热门文章

  1. 现货黄金的优越性是什么?
  2. 能够做到亚马逊月销售额50w以上的运营,他们有什么共同点 和技巧
  3. linux设备号——常见设备的主次设备号
  4. [Win Desktop] Windows 桌面应用推荐一
  5. 杜比AC-3与DTS的音效对比 浅解
  6. 入行月薪过万的数据挖掘必看的学习建议!
  7. Named Route ‘***‘ has a default child route. When navigating to this named route
  8. 软件工程实验:原型设计
  9. 如何区分apk游戏引擎
  10. 小米手环6获取auth_key更换第三方表盘(零基础)