最近在学习bert,想下载一些数据集练练手,官网给出GLUE的数据集需要外网下载。翻阅多个博客后发现了一下下载路径。

其中一个路径是https://blog.csdn.net/Light2077/article/details/104561960这个博客,里面博主给出了百度云的连接。

还有一种方式就是下面的方式,可以下载对应任务的数据集。

内容来自https://www.cnblogs.com/Arborday/p/11711343.html

通常来说,NLP可以分为自然语言理解(NLU)和自然语言生成(NLG)。在NLU方面,我们拿时下最流行的GLUE(General Language Understanding Evaluation)排行榜举例,其上集合了九项NLU的任务,分别是

  • CoLA(The Corpus of Linguistic Acceptability):纽约大学发布的有关语法的数据集,该任务主要是对一个给定句子,判定其是否语法正确,因此CoLA属于单个句子的文本二分类任务;
  • SST(The Stanford Sentiment Treebank),是斯坦福大学发布的一个情感分析数据集,主要针对电影评论来做情感分类,因此SST属于单个句子的文本分类任务(其中SST-2是二分类,SST-5是五分类,SST-5的情感极性区分的更细致);
  • MRPC(Microsoft Research Paraphrase Corpus),由微软发布,判断两个给定句子,是否具有相同的语义,属于句子对的文本二分类任务;
  • STS-B(Semantic Textual Similarity Benchmark),主要是来自于历年SemEval中的一个任务(同时该数据集也包含在了SentEval),具体来说是用1到5的分数来表征两个句子的语义相似性,本质上是一个回归问题,但依然可以用分类的方法做,因此可以归类为句子对的文本五分类任务;
  • QQP(Quora Question Pairs),是由Quora发布的两个句子是否语义一致的数据集,属于句子对的文本二分类任务;
  • MNLI(Multi-Genre Natural Language Inference),同样由纽约大学发布,是一个文本蕴含的任务,在给定前提(Premise)下,需要判断假设(Hypothesis)是否成立,其中因为MNLI主打卖点是集合了许多不同领域风格的文本,因此又分为matched和mismatched两个版本的MNLI数据集,前者指训练集和测试集的数据来源一致,而后者指来源不一致。该任务属于句子对的文本三分类问题。
  • QNLI(Question Natural Language Inference),其前身是SQuAD 1.0数据集,给定一个问句,需要判断给定文本中是否包含该问句的正确答案。属于句子对的文本二分类任务;
  • RTE(Recognizing Textual Entailment),和MNLI类似,也是一个文本蕴含任务,不同的是MNLI是三分类,RTE只需要判断两个句子是否能够推断或对齐,属于句子对的文本二分类任务;
  • WNLI(Winograd Natural Language Inference),也是一个文本蕴含任务,不过似乎GLUE上这个数据集还有些问题;

NLP中GLUE数据集下载相关推荐

  1. Dataset:机器学习中常用数据集下载链接集合之详细攻略

    Dataset:机器学习中常用数据集下载链接集合之详细攻略 目录 机器学习中常用数据集下载链接集合之详细攻略 sklearn.datasets数据集所有csv文件集合 seaborn-data数据集所 ...

  2. EarthData中NDVI数据集下载教程

    一.MODIS数据简介 了解这一部分的主要是为数据的搜寻打基础,一般数据名称要记住,例如NDVI数据是MOD13. 1.基础简介 MODIS是搭载在Terra和Aqua两颗卫星上的中分辨率成像光谱仪, ...

  3. EarthData中NPP数据集下载教程

    一.NPP数据简介 净初级生产力是指绿色植物利用太阳光进行光合作用,即太阳光+无机物质+H2O+CO2→热量+O2+有机物质,把无机碳(CO2)固定.转化为有机碳这一过程的能力.多种卫星遥感数据反演净 ...

  4. 数据挖掘中免费数据集下载网站

    数据挖掘实验数据集参考,从网上搜集汇总而来,感谢所有贡献的作者. 常用的基本上UCI和w3c的.关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等.Weka还在不断的更新其算 ...

  5. Pytorch:NLP 迁移学习、NLP中的标准数据集、NLP中的常用预训练模型、加载和使用预训练模型、huggingface的transfomers微调脚本文件

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) run_glue.py微调脚本代码 python命令执行run ...

  6. Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载

    Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载 Penn Treebank数据集介绍 NLP底层技术之句法分析 NLP常用公开数 ...

  7. 常见目标跟踪数据集下载链接整理(更新中)

    搜罗一下,感觉没人把常见的目标跟踪数据集下载链接汇总整理的,这里就整理一下,因为有些网址很难打开,这里也是想方便之后大家获取,来看看吧!我就从大佬图中来找几个吧!因为不是全接触过,有些链接不是很好,有 ...

  8. NLP中的对话机器人——预训练基准模型

    引言 本文是七月在线<NLP中的对话机器人>的视频笔记,主要介绍FAQ问答型聊天机器人的实现. 场景二 上篇文章中我们解决了给定一个问题和一些回答,从中找到最佳回答的任务. 在场景二中,我 ...

  9. 使用NeMo快速完成NLP中的信息抽取任务,英伟达专家实战讲解,内附代码

    信息抽取(IE)是从非结构化.半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务.信息抽取技术为文本挖掘.智能检索.智能对话.知识图谱.推荐系统等应用提供了基本的技术支持. 近日,英伟达x ...

  10. 【NLP】一文搞懂NLP中的对抗训练

    本文主要串烧了FGSM, FGM, PGD, FreeAT, YOPO, FreeLB, SMART这几种对抗训练方法,希望能使各位大佬炼出的丹药更加圆润有光泽,一颗永流传 简介 对抗训练是一种引入噪 ...

最新文章

  1. 分布式缓存 - hash环/一致性hash
  2. applyDimension的用法
  3. git push前请先git pull
  4. 四川省内二本计算机公立好的大学排名,四川有哪些二本院校是公立的?附四川省公立二本大学排名及分数线...
  5. php取整函数ceil,floor,round,intval函数的区别
  6. mysql update 几万 非常慢_面试官:谈谈你对mysql索引的认识?
  7. oracle客户端 centos,Centos7-安装oracle客户端11.2.0.4
  8. c/c++教程 - 2.4.2.1~2 对象的初始化和清理,构造函数和析构函数,构造函数的分类和调用(有参构造,无参构造,普通构造,拷贝构造,括号法,显示法,隐式转换法,匿名对象)
  9. 分析了 200w 行 OpenHarmony 2.0 源码后,有了这些发现
  10. 树莓派:漂洋过海来看你
  11. java 回调函数的写法
  12. 三类IP地址ABC类的划分
  13. Java读取数据库中的数据
  14. 十大Java编程工具
  15. IMSI号和IMEI解释
  16. 详解sprintf()sprintf_s()
  17. sql查询in条件超过1000条解决方案
  18. 电脑组成部件介绍图解之电脑由哪些部件组成?各个部件作用又是什么 ?主要功能是什么?
  19. 8、智慧交通项目(1)
  20. MYSQL高可用环境搭建

热门文章

  1. 求字符串中对称的子字符串的最大长度
  2. ubuntu开机自动关闭独显,使用集成显卡
  3. I帧,P帧,B帧简介
  4. C#调用c++Dll结构体数组指针的问题
  5. python HTTP请求过程
  6. Intel Edison学习笔记(一)—— 刷系统
  7. qstring转string
  8. 前端------Codepen 用起来非常舒服的工具
  9. Action的mapping.findFoward(forwardName)必须要在struts-config.xml中的对应的action节点配置一个forward节点...
  10. 利用webBrowser实现万能打印