前言

这是一篇NLP tricks的集合,在自然语言处理的模型中,有很多优化模型效果的技巧,其中很多技巧已经称为默认设置,不再文章中额外说明。

技巧列表

  • 前言
  • Weight Average
  • Adaptive Embedding
  • Variational Dropout
  • Sampled Softmax
  • GLUE

Weight Average

Weight Average是一种自动集成方式,指的是在最终进行模型测试前,取前面每个checkpoint模型权重的平均值作为最终的测试模型。

Adaptive Embedding

Adaptive embedding 是一种自适应词频的词嵌构建方法,通常用于词表较大的数据集(PTB这种小集就不用了)。这种方法的出发点是词频越高的词往往越容易出现一词多义的现象,同时其本身的含义也越丰富。
同时伴随的一般是一组Cut-off值,这个值将词频分为了几个区间,比如[300000, 60000, 2000]。这时,在不同区间的词有不一样大小的词嵌矩阵。对任意一个词进行词嵌操作,会首先根据不同词频映射为不同大小的词嵌向量,再通过线性映射,统一投影为规定维度大小。如下图所示:

高频词Thelittle通过高频词表转化为维度为d的词向量,而低频词dog转化为维度为dkn−1\frac{d}{k^{n-1}}kn1d的词向量,而后再将这些向量映射到d维的向量作为输入的token。

Variational Dropout

依据AWD-LSTM给出的解释,Variational Dropout不同于标准的Dropout,在每层,每次传递信息时使用Dropout都会随机生成一个Dropout mask。Variational Dropout会在第一次执行时就确定一个固定的Dropout mask。这个mask只会在下一个mini-batch时改变。

Sampled Softmax

当我们在做语言模型或其他NLP任务时,每一步的输出很有可能是一个词。一般来说,我们输出这个词的策略是在最后一层输出一个词表大小的向量,然后使用softmax函数对这个向量的每一个元素打分,根据打分(或概率)的结果输出这个词。而这样做有一个很大的弊端,就是当词表非常大的时候,我们每一次进行输出都要遍历一遍词表。
Bengio(原文章)提出我们可以针对每个mini-batch汇总一次词表,以减小每次输出时遍历造成的高额运算,这就是Sampled Softmax。

GLUE

GLUE全称为General Language Understanding Evaluation,可以访问其benchmark官网。 其中分为了多个任务,以下表格详细说明:

Task name 中文翻译 数据集说明 评估矩阵
CoLA
(The Corpus of Linguistic Acceptability)
评估数据集语法接受程度 单句的二分类问题, 判断一个英文句子在语法上是不是可接受的 Matthew’s Corr
SST-2
(The Stanford Sentiment Treebank)
标准情感数据集 单句的二分类问题, 句子的来源于人们对一部电影的评价
判断这个句子的情感倾向为 Positive/Negative
Accuracy
MRPC
(Microsoft Research Paraphrase Corpus)
微软复述语料库 句子对来源于对同一条新闻的评论
判断这一对句子在语义上是否相同
F1/Accuracy
STS-B
(Semantic Textual Similarity Benchmark)
语义文本相似度数据 类似回归问题,给出一对句子
使用1~5的评分评价两者在语义上的相似程度
Pearson-Spearman Corr
QQP
(Quora Question Pairs)
Quara问题对 Quora 上的问题答案数据集, 目的是判断两个来自于Quora的问题句子在语义上是否是等价的 F1 / Accuracy
MNLI
(MultiNL - matched/mismached)
多自然语言句型/跨句型匹配 推断两个句子是意思相近, 矛盾, 还是无关 Accuracy
QNLI
(Question NLI)
自然语言问题推断 二分类问题, 两个句子是一个QA对
正样本为Answer是对应Question的答案, 负样本为不是
Accuracy
RTE
(Recognizing Textual Entailment)
文本蕴含识别 二分类问题, 判断两个句子是否意思相近, 但是数据量较少 Accuracy
WNLI
(Winograd NLI)
自然语言推理数据集 推断两个句子是意思相近, 矛盾, 还是无关 Accuracy

NLP(自然语言处理) - Tricks Dataset 集合相关推荐

  1. Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)

    Dataset:数据集集合(NLP方向数据集)--常见的自然语言处理数据集大集合(建议收藏,持续更新) 目录 NLP数据集特点 常见的NLP数据集 1.生物数据集以及自然语言处理数据集 常见的使用案例 ...

  2. nlp自然语言处理_自然语言处理(NLP):不要重新发明轮子

    nlp自然语言处理 介绍 (Introduction) Natural language processing (NLP) is an intimidating name for an intimid ...

  3. NLP 自然语言处理实战

    前言 自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和 ...

  4. nlp自然语言处理_不要被NLP Research淹没

    nlp自然语言处理 自然语言处理 (Natural Language Processing) 到底是怎么回事? (What is going on?) NLP is the new Computer ...

  5. 15个小时彻底搞懂NLP自然语言处理(2021最新版附赠课件笔记资料)【LP自然语言处理涉及到深度学习和神经网络的介绍、 Pytorch、 RNN自然语言处理】 笔记

    15个小时彻底搞懂NLP自然语言处理(2021最新版附赠课件笔记资料)[LP自然语言处理涉及到深度学习和神经网络的介绍. Pytorch. RNN自然语言处理] 笔记 教程与代码地址 P1 机器学习与 ...

  6. NLP自然语言处理实例——实现机器自动生成商品的推荐标题和推荐语

    NLP自然语言处理实例--实现机器自动生成商品的推荐标题和推荐语 一.案例目的及实现 二.环境配置 1.安装库时遇到的问题 三.数据预处理 1.移除特殊符号 2.去除停用词 3.文本分词jiaba 四 ...

  7. 数据分析学习总结笔记16:NLP自然语言处理与文本探索性分析

    文章目录 1 引言 2 数据集 3 文本统计信息分析 4 Ngram模型探索 5 基于pyLDAvis的主题模型探索 6 绘制词云图 7 情感分析 7.1 TextBlob 7.2 Vader Sen ...

  8. 21- 朴素贝叶斯 (NLP自然语言算法) (算法)

    朴素贝叶斯要点 概率图模型算法往往应用于NLP自然语言处理领域. 根据文本内容判定 分类 . 概率密度公式:   高斯朴素贝叶斯算法: from sklearn.naive_bayes import ...

  9. NLP自然语言处理系列- week6-文本生成案例(5)(PGN+Beam Search)

    NLP自然语言处理系列- week6-文本生成案例(5)(PGN+Beam Search) PGN 模型 Beam Search 在计算机科学中,Beam Search是一种启发式搜索算法,通过在有限 ...

最新文章

  1. 2013年上半年全国计算机技术与软件专业技术资格(水平)考试工作安排
  2. DBI(i80)/DPI(RGB)/DSI【转】
  3. Tomcat forward debug - how is jsp file served in Tomcat
  4. 依赖插件版本冲突问题
  5. 学python后做什么工作好_学习完Python课程后可以做什么工作?
  6. 如何击败腾讯_要击败这个新的电子游戏,请对其重新编程
  7. Python机器学习:多项式回归与模型泛化006验证数据集与交叉验证
  8. Python DES
  9. ffmpeg系列-解复用流程解析
  10. JSP详细教学新手必看
  11. php文件如何转为ppt,pdf文件转换成ppt文件 pdf如何转为ppt
  12. 炫富神器 | 辣条专业国内首开,网友:中国吃货石锤了 ​!
  13. 英语语言标准C1,【CEFR】国际通用的学生英语能力水平评测标准
  14. g2o学习记录(4)cmake-gui再次编译g2o及不太完美的处理cs.h错误[20190323已找到完美解决方案](非干货纯记录,可不看)
  15. 设计模式:设配器模式
  16. Python OpenCV --Drowsiness Detector 睡意检测--项目记录
  17. 【Python 文件粉碎工具】——用python制作一款可以粉碎文件的软件工具,用文件恢复工具都找不回来,非常可靠
  18. 3_使用seurat sct方法中的reference based处理大数据超过100000个细胞 science advance
  19. 第七讲:5.物联网开关——自动化控制任务光照控制台灯实验例程
  20. 急!急!急!有偿求助

热门文章

  1. 致远oa读取服务器信息失败,致远OA A8V5常见问题集
  2. Mysql免安装版win精简教程
  3. ElementUI 图标字体无法正常显示 本地CDN文件
  4. R语言数据可视化包ggplot2之折线图
  5. 国考省考行测:问题型材料主旨分析,有问题有对策,主旨是对策,有问题无对策,要合理引申对策
  6. 解决mysql ERROR 2002 (HY000): Can't connect to local MySQL server through socket错误的方法
  7. 苹果自带浏览器服务器无响应,苹果safari浏览器打开网页,因为服务器已停止响应...
  8. ADB环境部署+ADB常见命令
  9. 使用 maven-semantic-release 实现自动化发版
  10. 全面解读系统更新,收藏下这份 Android 12 (S) 版本适配自查表