GLUE基准数据集介绍及下载

介绍：

所有任务都是单句或者句子对分类，除了STS-B是一个回归任务。MNLI有3个类别，所有其他分类任务都是2个类别。

像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。目前，大家要把预测结果上传到官方的网站上，官方会给出测试的结果。

GLUE的论文为：GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

GLUE共有九个任务，分别是CoLA、SST-2、MRPC、STS-B、QQP、MNLI、QNLI、RTE、WNLI。如下图图2所示，可以分为三类，分别是单句任务，相似性和释义任务，所有任务都是单句或者句子对分类，除了STS-B是一个回归任务。MNLI有3个类别，所有其他分类任务都是2个类别。

1 CoLA数据集

CoLA(The Corpus of Linguistic Acceptability，语言可接受性语料库)，单句子分类任务，语料来自语言理论的书籍和期刊，每个句子被标注为是否合乎语法的单词序列。本任务是一个二分类任务，标签共两个，分别是0和1，其中0表示不合乎语法，1表示合乎语法。

样本个数：训练集8, 551个，开发集1, 043个，测试集1, 063个。
任务：可接受程度，合乎语法与不合乎语法二分类。

2 SST-2数据集

SST-2(The Stanford Sentiment Treebank，斯坦福情感树库)，单句子分类任务，包含电影评论中的句子和它们情感的人类注释。这项任务是给定句子的情感，类别分为两类正面情感（positive，样本标签对应为1）和负面情感（negative，样本标签对应为0），并且只用句子级别的标签。也就是，本任务也是一个二分类任务，针对句子级别，分为正面和负面情感。

样本个数：训练集67, 350个，开发集873个，测试集1, 821个。
任务：情感分类，正面情感和负面情感二分类。

3 MRPC数据集

MRPC(The Microsoft Research Paraphrase Corpus，微软研究院释义语料库)，相似性和释义任务，是从在线新闻源中自动抽取句子对语料库，并人工注释句子对中的句子是否在语义上等效。类别并不平衡，其中68%的正样本，所以遵循常规的做法，报告准确率（accuracy）和F1值。

样本个数：训练集3, 668个，开发集408个，测试集1, 725个。

任务：是否释义二分类，是释义，不是释义两类。
评价准则：准确率（accuracy）和F1值。

4 STSB数据集

STSB(The Semantic Textual Similarity Benchmark，语义文本相似性基准测试)，相似性和释义任务，是从新闻标题、视频标题、图像标题以及自然语言推断数据中提取的句子对的集合，每对都是由人类注释的，其相似性评分为0-5(大于等于0且小于等于5的浮点数，原始paper里写的是1-5，可能是作者失误）。任务就是预测这些相似性得分，本质上是一个回归问题，但是依然可以用分类的方法，可以归类为句子对的文本五分类任务。

5 QQP数据集

QQP(The Quora Question Pairs, Quora问题对数集)，相似性和释义任务，是社区问答网站Quora中问题对的集合。任务是确定一对问题在语义上是否等效。与MRPC一样，QQP也是正负样本不均衡的，不同是的QQP负样本占63%，正样本是37%，所以我们也是报告准确率和F1值。我们使用标准测试集，为此我们从作者那里获得了专用标签。我们观察到测试集与训练集分布不同。

样本个数：训练集363, 870个，开发集40, 431个，测试集390, 965个。
任务：判定句子对是否等效，等效、不等效两种情况，二分类任务。

标签为1（正样本，互为释义，等效）的样例（每个样例是两句话，中间用tab隔开）：
How can I improve my communication and verbal skills? What should we do to improve communication skills?
What has Hillary Clinton done that makes her trustworthy? Why do Democrats consider Hillary Clinton trustworthy?
标签为0（负样本，不互为释义，不等效）的样例：
Why are you so sexy? How sexy are you?
Which programming languages are common to develop in the area of gamification? Who is the worst Director in the history of MNIT/MREC?
How do I solve 3^1/3? How do I solve (x^2-1) /(x-3) <0?

MNLI数据集

MNLI(The Multi-Genre Natural Language Inference Corpus, 多类型自然语言推理数据库)，自然语言推断任务，是通过众包方式对句子对进行文本蕴含标注的集合。给定前提（premise）语句和假设（hypothesis）语句，任务是预测前提语句是否包含假设（蕴含, entailment），与假设矛盾（矛盾，contradiction）或者两者都不（中立，neutral）。前提语句是从数十种不同来源收集的，包括转录的语音，小说和政府报告。

样本个数：训练集392, 702个，开发集dev-matched 9, 815个，开发集dev-mismatched9, 832个，测试集test-matched 9, 796个，测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本，所以又分为了matched和mismatched两个版本的数据集，matched指的是训练集和测试集的数据来源一致，mismached指的是训练集和测试集来源不一致。

任务：句子对，一个前提，一个是假设。前提和假设的关系有三种情况：蕴含（entailment），矛盾（contradiction），中立（neutral）。句子对三分类问题。
评价准则：matched accuracy/mismatched accuracy。

标签为蕴含（entailment）的句子对示例：
you know during the season and i guess at at your level uh you lose them to the next level if if they decide to recall the the parent team the Braves decide to call to recall a guy from triple A then a double A guy goes up to replace him and a single A guy goes up to replace him You lose the things to the following level if the people recall.
ow do you know? All this is their information again. This information belongs to them.
well you see that on television also You can see that on television, as well.
According to the Office of the Actuary at the Health Care Financing Administration, the estimated net present value of future additional resources needed to fund HI benefits alone over the 75 years is $4. The net present value of future additional resources for funding HI benefits was $4.

标签为矛盾（contradiction）的句子对示例：
They’re made from a secret recipe handed down to the present-day villagers by their Mallorcan ancestors, who came here in the early 17th century as part of an official repopulation scheme. The recipe passed down from Mallorcan ancestors is known to everyone.
Felicia’s Journey takes place behind the eyes of its central a young Irish girl, Felicia, who crosses the sea to England in a hopeful quest to find the father of her unborn child; and the fat, middle-aged catering manager, Hiditch, who takes a paternal interest in the lass when it becomes clear that her young man has caddishly given her the slip. The woman did not care where the man was as long as it was far.
Poirot, I exclaimed, with relief, and seizing him by both hands, I dragged him into the room. Poirot was now back and I was sorry that he would take over what I now considered my own investigation.
but that takes too much planning It doesn’t take much planning.

标签为中立（neutral）的句子对示例：
Conceptually cream skimming has two basic dimensions - product and geography. Product and geography are what make cream skimming work.
hebes held onto power until the 12th Dynasty, when its first king, Amenemhet Iwho reigned between 1980 1951 b.c. established a capital near Memphis. The capital near Memphis lasted only half a century before its inhabitants abandoned it for the next capital.
When the trust fund begins running cash deficits in 2016, the government as a whole must come up with the cash to finance Social Security’s cash deficit by reducing any projected non-Social Security surpluses, borrowing from the public, raising other taxes, or reducing other government spending. The public would generally prefer to see the government reduce its spending in other areas to finance Social Security.
She smiled back. She was so happy she couldn’t stop smiling.

QNLI数据集

QNLI(Qusetion-answering NLI，问答自然语言推断)，自然语言推断任务。QNLI是从另一个数据集The Stanford Question Answering Dataset(斯坦福问答数据集, SQuAD 1.0)[3]转换而来的。SQuAD 1.0是有一个问题-段落对组成的问答数据集，其中段落来自维基百科，段落中的一个句子包含问题的答案。这里可以看到有个要素，来自维基百科的段落，问题，段落中的一个句子包含问题的答案。通过将问题和上下文（即维基百科段落）中的每一句话进行组合，并过滤掉词汇重叠比较低的句子对就得到了QNLI中的句子对。相比原始SQuAD任务，消除了模型选择准确答案的要求；也消除了简化的假设，即答案适中在输入中并且词汇重叠是可靠的提示。

样本个数：训练集104, 743个，开发集5, 463个，测试集5, 461个。

任务：判断问题（question）和句子（sentence，维基百科段落中的一句）是否蕴含，蕴含和不蕴含，二分类。
评价准则：准确率（accuracy）。

RTE数据集

RTE(The Recognizing Textual Entailment datasets，识别文本蕴含数据集)，自然语言推断任务，它是将一系列的年度文本蕴含挑战赛的数据集进行整合合并而来的，包含RTE1[4]，RTE2，RTE3[5]，RTE5等，这些数据样本都从新闻和维基百科构建而来。将这些所有数据转换为二分类，对于三分类的数据，为了保持一致性，将中立（neutral）和矛盾（contradiction）转换为不蕴含（not entailment）。
样本个数：训练集2, 491个，开发集277个，测试集3, 000个。
任务：判断句子对是否蕴含，句子1和句子2是否互为蕴含，二分类任务。
评价准则：准确率（accuracy）。

WNLI数据集

WNLI(Winograd NLI，Winograd自然语言推断)，自然语言推断任务，数据集来自于竞赛数据的转换。Winograd Schema Challenge[6]，该竞赛是一项阅读理解任务，其中系统必须读一个带有代词的句子，并从列表中找到代词的指代对象。这些样本都是都是手动创建的，以挫败简单的统计方法：每个样本都取决于句子中单个单词或短语提供的上下文信息。为了将问题转换成句子对分类，方法是通过用每个可能的列表中的每个可能的指代去替换原始句子中的代词。任务是预测两个句子对是否有关（蕴含、不蕴含）。训练集两个类别是均衡的，测试集是不均衡的，65%是不蕴含。

样本个数：训练集635个，开发集71个，测试集146个。

任务：判断句子对是否相关，蕴含和不蕴含，二分类任务。

评价准则：准确率（accuracy）。

使用以下几个官方的下载方法（需要科学上网）：

官方的下载链接：https://gluebenchmark.com/tasks
官方下载脚本：https://github.com/nyu-mll/jiant/blob/master/scripts/download_glue_data.py
下载数据的脚本：https://gist.github.com/W4ngata

bert常用基准数据集：GLUE数据集介绍以及数据集资源相关推荐

ciaodvd数据集的简单介绍_COCO数据集的简单介绍
COCO通过大量使用Amazon Mechanical Turk来收集数据.COCO数据集现在有3种标注类型:object instances(目标实例), object keypoints(目标上的 ...
KITTI数据集下载及介绍
KITTI数据集下载及介绍 KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集.该数据集用于评测立体图像(stereo), ...
【ML】机器学习数据集：sklearn中分类数据集介绍
目录 1.乳腺癌分类数据集(二分类) 2.鸢尾花分类数据集(三分类) 3.葡萄酒分类数据集(三分类) 4.手写数字分类数据集(十分类) 5.其他数据集参考资料在机器学习的教程中,我们会看到很多的d ...
python数据集划分_机器学习和数据集介绍、数据集划分、特征抽取、归一化
机器学习介绍和数据集介绍机器学习: 机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识 ...
多目标跟踪数据集：mot16、mot17数据集介绍
文章目录 MOT16 数据集 MOT17数据集介绍多目标跟踪数据集 MOT16 .MOT1数据集介绍: MOT16 数据集数据集百度网分享: 点击此处提取码: miao 文件格式: 解压MOT1 ...
Scikit-learn学习系列 | 1. sklearn的简要使用介绍与数据集获取
如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. scikit-lear ...
DEMO-lidar原理介绍及数据集运行测试
文章目录 DEMO-lidar介绍论文标识指代: 运动估计公式推导: 运动估计算法流程深度特征点关联 BA(Bundle Adjustment)后端优化 demo_lidar的坐标系旋转矩阵世 ...
【ML】机器学习数据集：sklearn中回归数据集介绍
目录 1. Boston房价预测数据集 2. California房价预测数据集 3. 糖尿病预测数据集在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集. ...
megaface 数据集组成，介绍，Identification/Verification逻辑
下载的megaface测试数据集 megaface测试数据集和devkit,下载的文件有: ①MegaFace Dataset(65GB),即Gallery dataset,或Distractors ...
CoCo2017数据集使用(简单介绍)
本人使用训练图片用在目标跟踪上作为数据集扩展,因此只查看了train的json文件. 目录绪论标注文件:instances_train2017.json info: licenses: image ...

bert常用基准数据集：GLUE数据集介绍以及数据集资源