前言

这是一篇NLP tricks的集合，在自然语言处理的模型中，有很多优化模型效果的技巧，其中很多技巧已经称为默认设置，不再文章中额外说明。

技巧列表

前言
Weight Average
Adaptive Embedding
Variational Dropout
Sampled Softmax
GLUE

Weight Average

Weight Average是一种自动集成方式，指的是在最终进行模型测试前，取前面每个checkpoint模型权重的平均值作为最终的测试模型。

Adaptive Embedding

Adaptive embedding 是一种自适应词频的词嵌构建方法，通常用于词表较大的数据集（PTB这种小集就不用了）。这种方法的出发点是词频越高的词往往越容易出现一词多义的现象，同时其本身的含义也越丰富。
同时伴随的一般是一组Cut-off值，这个值将词频分为了几个区间，比如[300000, 60000, 2000]。这时，在不同区间的词有不一样大小的词嵌矩阵。对任意一个词进行词嵌操作，会首先根据不同词频映射为不同大小的词嵌向量，再通过线性映射，统一投影为规定维度大小。如下图所示：

高频词The和little通过高频词表转化为维度为d的词向量，而低频词dog转化为维度为 $dkn−1\frac{d}{k^{n-1}}$ 的词向量，而后再将这些向量映射到d维的向量作为输入的token。

Variational Dropout

依据AWD-LSTM给出的解释，Variational Dropout不同于标准的Dropout，在每层，每次传递信息时使用Dropout都会随机生成一个Dropout mask。Variational Dropout会在第一次执行时就确定一个固定的Dropout mask。这个mask只会在下一个mini-batch时改变。

Sampled Softmax

当我们在做语言模型或其他NLP任务时，每一步的输出很有可能是一个词。一般来说，我们输出这个词的策略是在最后一层输出一个词表大小的向量，然后使用softmax函数对这个向量的每一个元素打分，根据打分（或概率）的结果输出这个词。而这样做有一个很大的弊端，就是当词表非常大的时候，我们每一次进行输出都要遍历一遍词表。
Bengio（原文章）提出我们可以针对每个mini-batch汇总一次词表，以减小每次输出时遍历造成的高额运算，这就是Sampled Softmax。

GLUE

GLUE全称为General Language Understanding Evaluation，可以访问其benchmark官网。其中分为了多个任务，以下表格详细说明：

Task name	中文翻译	数据集说明	评估矩阵
CoLA (The Corpus of Linguistic Acceptability)	评估数据集语法接受程度	单句的二分类问题, 判断一个英文句子在语法上是不是可接受的	Matthew’s Corr
SST-2 (The Stanford Sentiment Treebank)	标准情感数据集	单句的二分类问题, 句子的来源于人们对一部电影的评价判断这个句子的情感倾向为 Positive/Negative	Accuracy
MRPC (Microsoft Research Paraphrase Corpus)	微软复述语料库	句子对来源于对同一条新闻的评论判断这一对句子在语义上是否相同	F1/Accuracy
STS-B (Semantic Textual Similarity Benchmark)	语义文本相似度数据	类似回归问题,给出一对句子使用1~5的评分评价两者在语义上的相似程度	Pearson-Spearman Corr
QQP (Quora Question Pairs)	Quara问题对	Quora 上的问题答案数据集, 目的是判断两个来自于Quora的问题句子在语义上是否是等价的	F1 / Accuracy
MNLI (MultiNL - matched/mismached)	多自然语言句型/跨句型匹配	推断两个句子是意思相近, 矛盾, 还是无关	Accuracy
QNLI (Question NLI)	自然语言问题推断	二分类问题, 两个句子是一个QA对正样本为Answer是对应Question的答案, 负样本为不是	Accuracy
RTE (Recognizing Textual Entailment)	文本蕴含识别	二分类问题, 判断两个句子是否意思相近, 但是数据量较少	Accuracy
WNLI (Winograd NLI)	自然语言推理数据集	推断两个句子是意思相近, 矛盾, 还是无关	Accuracy

NLP(自然语言处理) - Tricks Dataset 集合相关推荐

Dataset：数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏，持续更新)
Dataset:数据集集合(NLP方向数据集)--常见的自然语言处理数据集大集合(建议收藏,持续更新) 目录 NLP数据集特点常见的NLP数据集 1.生物数据集以及自然语言处理数据集常见的使用案例 ...
nlp自然语言处理_自然语言处理（NLP）：不要重新发明轮子
nlp自然语言处理介绍 (Introduction) Natural language processing (NLP) is an intimidating name for an intimid ...
NLP 自然语言处理实战
前言自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和 ...
nlp自然语言处理_不要被NLP Research淹没
nlp自然语言处理自然语言处理 (Natural Language Processing) 到底是怎么回事? (What is going on?) NLP is the new Computer ...
15个小时彻底搞懂NLP自然语言处理（2021最新版附赠课件笔记资料）【LP自然语言处理涉及到深度学习和神经网络的介绍、 Pytorch、 RNN自然语言处理】笔记
15个小时彻底搞懂NLP自然语言处理(2021最新版附赠课件笔记资料)[LP自然语言处理涉及到深度学习和神经网络的介绍. Pytorch. RNN自然语言处理] 笔记教程与代码地址 P1 机器学习与 ...
NLP自然语言处理实例——实现机器自动生成商品的推荐标题和推荐语
NLP自然语言处理实例--实现机器自动生成商品的推荐标题和推荐语一.案例目的及实现二.环境配置 1.安装库时遇到的问题三.数据预处理 1.移除特殊符号 2.去除停用词 3.文本分词jiaba 四 ...
数据分析学习总结笔记16：NLP自然语言处理与文本探索性分析
文章目录 1 引言 2 数据集 3 文本统计信息分析 4 Ngram模型探索 5 基于pyLDAvis的主题模型探索 6 绘制词云图 7 情感分析 7.1 TextBlob 7.2 Vader Sen ...
21- 朴素贝叶斯 (NLP自然语言算法) (算法)
朴素贝叶斯要点概率图模型算法往往应用于NLP自然语言处理领域. 根据文本内容判定分类 . 概率密度公式: 高斯朴素贝叶斯算法: from sklearn.naive_bayes import ...
NLP自然语言处理系列- week6-文本生成案例（5）（PGN+Beam Search）
NLP自然语言处理系列- week6-文本生成案例(5)(PGN+Beam Search) PGN 模型 Beam Search 在计算机科学中,Beam Search是一种启发式搜索算法,通过在有限 ...

NLP(自然语言处理) - Tricks Dataset 集合

前言