诸神缄默不语-个人CSDN博文目录

最近更新时间:2023.6.27
最早更新时间:2023.4.25

文本摘要主题的数据集见我之前写的另一篇博文:文本摘要数据集的整理、总结及介绍(持续更新ing…)
序列标注/信息抽取主题的数据集见我之前写的另一篇博文:序列标注/信息抽取任务(持续更新ing…)
智能司法主题的数据集见我写的另一篇博文:LegalAI公开数据集的整理、总结及介绍(持续更新ing…)
推理(包括数值和常识推理)的数据集见我写的另一篇博文:推理数据集(持续更新ing…)
(由于多种数据集之间存在耦合,所以主要是专项数据放在专项博文里。但是这也不一定毕竟很多数据集集合也是混分类的,而且分类之间的界限并不清晰)

其他NLP数据集见下:

文章目录

  • 1. 语料库
    • 1.1 中文
    • 1.2 英文
  • 2. NLG
    • 2.1 复述
    • 2.2 代码生成
    • 2.3 QA
      • 1. 英文
      • 2. 中文
  • 3. 对话系统
    • 3.1 open-domain
      • 3.1.1 中文
  • 4. 多模态
    • 4.1 图文匹配
  • 5. 自然语言推理NLI
    • 5.1 集锦
    • 5.2 英文
  • 6. 其他集成性项目 / benchmark
    • 6.1 中文
    • 6.2 中文多模态
    • 6.3 英文
    • 6.4 多语言
  • 7. 文本分类
    • 7.1 多语言
  • 还没整理完,先罗列在这里

1. 语料库

1.1 中文

  1. CLUEbenchmark/CLUECorpus2020: Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
  2. FudanNLPLAB/CBook-150K: 中文图书语料MD5链接
  3. Index of /zhwiki/latest/
  4. PCL-Platform.Intelligence/Chinese_WPLC: 中文长上下文词语预测(Chinese WPLC)数据集 - Chinese_WPLC - OpenI - 启智AI开源社区提供普惠算力!
  5. 诗歌和音韵:THUNLP-AIPoet/Datasets: Poetry-related datasets developed by THUAIPoet (Jiuge) group.
  6. WuDaoCorpora Text文本预训练数据集

1.2 英文

  1. HappyDB | Kaggle:这个数据是集成了各种生活中快乐时光(比如I was happy when my son got 90% marks in his examination

2. NLG

2.1 复述

  1. ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations

    1. Para-nmt-50m https://drive.google.com/file/d/1rbF3daJjCsa1-fu2GANeJd2FBXos1ugD/view?usp=sharing
    2. Para-nmt-5m-processed https://drive.google.com/file/d/19NQ87gEFYu3zOIp_VNYQZgmnwRuSIyJd/view?usp=sharing

2.2 代码生成

  1. HumanEval Dataset | Papers With Code

2.3 QA

1. 英文

  1. QQP First Quora Dataset Release: Question Pairs - Data @ Quora - Quora

2. 中文

  1. (繁中)DRCD
    官方GitHub项目:DRCKnowledgeTeam/DRCD: A 30000+ Chinese MRC dataset - Delta Reading Comprehension Dataset

3. 对话系统

3.1 open-domain

3.1.1 中文

  1. https://huggingface.co/datasets/fnlp/moss-002-sft-data
  2. https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins
  3. https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_plugins
  4. thu-coai/CDial-GPT: A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models
  5. 中文对话指令集:OpenLabel-Chinese Conversations Dataset (OL-CC)

4. 多模态

4.1 图文匹配

  1. Flickr 30k From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions

5. 自然语言推理NLI

5.1 集锦

  1. 赛尔笔记 | 自然语言推理数据集简述 - 知乎
  2. GLUE部分基准数据集介绍:RTE、MRPC、SST-2、QNLI、MNLI、QQP_真·skysys的博客-CSDN博客

5.2 英文

  1. SNLI https://nlp.stanford.edu/projects/snli/

6. 其他集成性项目 / benchmark

6.1 中文

  1. CLUEbenchmark/CLUE: 中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
  2. 中文医疗信息处理评测基准CBLUE
  3. 千言(LUGE)| 全面的中文开源数据集合
  4. funNLP
  5. brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
  6. SophonPlus/ChineseNlpCorpus: 搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。

6.2 中文多模态

  1. MUGE(Multimodal Understanding and Generation Evaluation)

6.3 英文

  1. SemEval
  2. BIG-bench
    1. 官方GitHub项目:google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models
    2. 论文:Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
  3. Multi-task Language Understanding on MMLU

6.4 多语言

  1. GlobalBench: A Benchmark for Global Progress in Natural Language Processing

7. 文本分类

7.1 多语言

  1. Taxi1500 Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages

还没整理完,先罗列在这里

  1. 收藏丨20个中文语料数据集,含数学考试、公务员考题、医患对话等_中文qa数据集_OpenDataLab的博客-CSDN博客

自然语言处理数据集集锦(持续更新ing...)相关推荐

  1. UI控件问题和XCode编译警告和错误解决方法集锦 (持续更新ing)

    UI控件问题集锦 第一 图片无法在UIImageview上显示: 原因如下: 1.没有设置宽高(或者宽高为0) 2.位置不对 3.hidden=YES 4.没有添加到控制器的view上面 第二 一个U ...

  2. 常用数据集整理(持续更新ing)

    常用数据集整理(持续更新ing)     在做实验过程中经常用到的数据集整理一下,按照学习过程中遇到的数据集的先后顺序进行整理,希望能对科研有所帮助.本博文将随着学习过程持续性更新,有其他常用数据集的 ...

  3. 资源搜索引擎集合1(持续更新ing...)

    诸神缄默不语-个人CSDN博文目录 不是所有网址我都用过.如有失效请联系我. 最近更新时间:2023.7.25 最早更新时间:2023.7.25 文章目录 1. 影视资源 2. 电子书 3. 文献 4 ...

  4. 重拾CCNA,学习笔记持续更新ing......(4)

    重拾CCNA,学习笔记持续更新ing......(4) 路由器作用功能的经典解说(笑)(非原创) 假设你的名字叫小不点,你住在一个大院子里,你的邻居有很多小伙伴,在门口传达室还有个看大门的李大爷,李大 ...

  5. js中text方法是啥意识_一盏茶的时间,快速捕获JS中常用的方法(细心整理,持续更新ing)...

    不知不觉上班一周辽-趁着大好周末,小编挣扎着从床上爬起来,决定对前端日常编程中常用到的一些方法做一个系统的整合. 有些人或许会觉得忘了百度就完事儿,no no no!这事儿小编真的亲践过好多次,百度一 ...

  6. 程序员的职业选择,你应该知道的,持续更新ing

    程序员的职业选择,你应该知道的,持续更新ing 一下内容只是个人认知的表达,仅供参考,互相交流,不喜勿喷 程序员的职业选择,你应该知道的,持续更新ing 我认识很多猎头,有些曾经是经验丰富的HR,以下 ...

  7. PyCharm使用期间出现报错集合 持续更新ing

    PyCharm使用期间出现报错集合 持续更新ing 啥时候用PyCharm发现了奇奇怪怪的错误就整理上来 这几天帮同学安装torch的时候出现了一些奇奇怪怪的问题 1.torch始终安装失败 描述一下 ...

  8. 开源小程序CMS网站,JeeWx-App-CMS 持续更新ing~

    JeeWx-App-CMS开源小程序CMS网站,持续更新ing~  JeeWx-App-CMS 是jeewx开发的小程序网站开源项目,基于小程序wepy语言,具备cms网站的基本功能,能够打造简单易用 ...

  9. 2023届秋招提前批信息汇总(持续更新ing)

    实时更新的文档:2023届秋招提前批信息汇总(持续更新ing) (qq.com) 公司 投递链接 面试网站 工作地点 截止时间 互联网及私企(软件) 网易游戏 网易游戏(互娱)校园招聘官网 https ...

最新文章

  1. 福大计算机国二,福大学子喜获中国大学生计算机设计大赛二三等奖
  2. 消息队列怎么保证消息有没有重复消费(幂等性)?
  3. java使用正则表达为数字添加千位符的简单方法
  4. MMCME2_ADV介绍 高级混合模式时钟管理器(7 Series FPGA)
  5. 每天一个linux命令(28):tar命令
  6. Yuan先生的博客网址
  7. 四种Sandcastle方法生成c#.net帮助类帮助文档
  8. ❤️六W字《计算机基础知识》(三)(建议收藏)❤️
  9. 耳机降噪技术-ANC、ENC、DSP、CVC
  10. 百度秋招笔试题 原生js按键九宫格
  11. 设计多层PCB板需要注意哪些事项?
  12. Duplicate的一点总结
  13. 记一次搜狐畅游后台开发笔试
  14. AUTOSAR架构软件结构简介
  15. android 备份管理器,最佳Android备份提取器和备份解决方案
  16. 深圳南山区的篮球场大全
  17. 导致堆栈溢出的原因什么?
  18. 蒲公英企服平台对话奈学教育CEO孙玄——旨在让每一个人都有逆袭的机会。
  19. IPv6 link-local和site-local address
  20. 2012年02月12日

热门文章

  1. 何为儒家的四书五经?
  2. UVCCamera gradle配置
  3. wget命令使用及参数详解
  4. 【附源码】计算机毕业设计JAVA影片租赁系统
  5. 这篇MSTP是真的爱了!
  6. 如何更好的建立后备人才梯队
  7. js打印html页面中的指定内容?
  8. java togglebutton_双状态按钮控件ToggleButton的使用
  9. JAVA Collections类
  10. python中.format()方法用法详解