d2l.Vocab(sentences, min_freq=5, reserved_tokens=[‘<pad>‘, ‘<mask>‘, ‘<cls>‘, ‘<sep>‘]) 参数讲解
d2l.Vocab(sentences, min_freq=2, reserved_tokens=['<pad>', '<mask>', '<cls>', '<sep>'])
sentences:源句子,比如说 sentences赋值为下边的五个句子 注意第一句我手动添加了两个'<unk>',第二句添加了'<pad>', '<mask>', '<cls>', '<sep>',作为第三个参数的测试
[['<unk>', '<unk>', 'the', 'ottoman', 'turkish', 'empire', 'entered', 'the', 'first', 'world', 'war', 'on', 'the', 'side', 'of', 'the', 'central', 'powers', 'on', '31', 'october', '1914'], ['<pad>', '<mask>', '<cls>', '<sep>', 'the', 'stalemate', 'of', 'trench', 'warfare', 'on', 'the', 'western', 'front', 'convinced', 'the', 'british', 'imperial', 'war', 'cabinet', 'that', 'an', 'attack', 'on', 'the', 'central', 'powers', 'elsewhere', ',', 'particularly', 'turkey', ',', 'could', 'be', 'the', 'best', 'way', 'of', 'winning', 'the', 'war'], ['from', 'february', '1915', 'this', 'took', 'the', 'form', 'of', 'naval', 'operations', 'aimed', 'at', 'forcing', 'a', 'passage', 'through', 'the', 'dardanelles', ',', 'but', 'after', 'several', 'setbacks', 'it', 'was', 'decided', 'that', 'a', 'land', 'campaign', 'was', 'also', 'necessary'],['to', 'that', 'end', ',', 'the', 'mediterranean', 'expeditionary', 'force', 'was', 'formed', 'under', 'the', 'command', 'of', 'general', 'ian', 'hamilton'],['three', 'amphibious', 'landings', 'were', 'planned', 'to', 'secure', 'the', 'gallipoli', 'peninsula', ',', 'which', 'would', 'allow', 'the', 'navy', 'to', 'attack', 'the', 'turkish', 'capital', 'constantinople', ',', 'in', 'the', 'hope', 'that', 'would', 'convince', 'the', 'turks', 'to', 'ask', 'for', 'an', 'armistice', '.']
]
min_freq:把出现次数少于2次的低频率词元视为相同的未知词元即视为'<unk>'
reserved_tokens:如果遇到reserved_tokens中的词也作为token保留下来
一个完整的例子:
d2l.Vocab(sentences, min_freq=5, reserved_tokens=[‘<pad>‘, ‘<mask>‘, ‘<cls>‘, ‘<sep>‘]) 参数讲解相关推荐
- BERT和ERNIE中[PAD],[CLS],[SEP],[MASK],[UNK]所代表的含义
在BERT和ERNIE等预训练模型的词汇表文件vocab.txt中,有[PAD],[CLS],[SEP],[MASK],[UNK]这几种token,它们代表的具体含义如下: 1,[PAD] 要将句子处 ...
- NLP中的特殊标记(Special Tokens)[PAD]、[CLS]、[SEP]、[UNK]
这些是BERT模型中的特殊标记(Special Tokens).它们的含义如下: [PAD]:在batch中对齐序列长度时,用 [PAD]进行填充以使所有序列长度相同.可以通过将其添加到较短的序列末尾 ...
- 自然语言处理:预训练
14.8 来自trans的双向编码器表示(Bert) Bidirectional Encoder Representation from Transformers 14.8.1 从上下文无关 到 上下 ...
- Pytorch BERT
Pytorch BERT 0. 环境介绍 环境使用 Kaggle 里免费建立的 Notebook 教程使用李沐老师的 动手学深度学习 网站和 视频讲解 小技巧:当遇到函数看不懂的时候可以按 Shift ...
- BERT - PyTorch
动手学深度学习笔记 一.BERT 1.BERT:把两个结合起来 2.BERT的输入表示 3.编码器 4.预训练任务 掩蔽语言模型 下一句预测 5.整合代码 二.用于预训练BERT的数据集 1.下载并读 ...
- 【动手学深度学习】李沐——循环神经网络
本文内容目录 序列模型 文本预处理 语言模型和数据集 循环神经网络 RNN的从零开始实现 RNN的简洁实现 通过时间反向传播 门控循环单元GRU 长短期记忆网络(LSTM) 深度循环神经网络 双向循环 ...
- 机器翻译baseline
1 下载和预处理数据集 # 导包 import os import torch from d2l import torch as d2l D:\ana3\envs\nlp_prac\lib\site- ...
- NLP应用:情感分析和自然语言推断
0 序言 回顾: 如何在文本序列中表示词元 训练了词元的表示 这样的预训练文本可通过不同的模型架构,放入不同的下游NLP任务 之前的提到的NLP应用没有使用 预训练 本章: 重点:如何应用 DL表征学 ...
- 【动手学习pytorch笔记】28.机器翻译数据集
机器翻译数据集 import os import torch from d2l import torch as d2l 下载和预处理数据集 #@save d2l.DATA_HUB['fra-eng'] ...
最新文章
- 聊一聊 SpringBoot 自动配置的原理
- 自定义 checkbox 新玩法 ?
- 开发环境中实现Lombok消除Java冗余
- 全志A33-串口的使用
- 前端学习(1734):前端系列javascript之发行
- 1134 Vertex Cover
- Echarts数据可视化echarts实例的相关操作,开发全解+完美注释
- Java 获取指定日期的方法汇总
- 通过消息跨进程发送与接收 TCopyDataStruct 数据 - 回复 skymesh
- word2016 图片去底灰_87平开门见厅,镜面扩容,将黑白灰用到极致,不奢华但精致...
- 表情包生成引流源码 - Jason原创
- 计算机网络知识点汇总
- JavaWeb_CSS(14)_文字处理_字体和字号
- PRML读书会第九章 Mixture Models and EM(Kmeans,混合高斯模型,Expectation Maximization)...
- 微积分专项----MIT GS老师
- Deeplink(深度链接)拉起App,我是这样做到的
- 水星WM150U无线网卡开机掉驱动的解决方法
- 应用SqlHelper例子(userService)
- 解读:基于图卷积特征的卷积神经网络的股票趋势预测(文末赠书)
- android 通过adb工具实现无线连接安卓设备并调试
热门文章
- 现货黄金的优越性是什么?
- 能够做到亚马逊月销售额50w以上的运营,他们有什么共同点 和技巧
- linux设备号——常见设备的主次设备号
- [Win Desktop] Windows 桌面应用推荐一
- 杜比AC-3与DTS的音效对比 浅解
- 入行月薪过万的数据挖掘必看的学习建议!
- Named Route ‘***‘ has a default child route. When navigating to this named route
- 软件工程实验:原型设计
- 如何区分apk游戏引擎
- 小米手环6获取auth_key更换第三方表盘(零基础)