用于情感分析的数据集

1. Multidomain sentiment analysis dataset: 来自亚马孙的稍微老点的数据集,主要是是对产品评价的情况分析

2. IMDB reviews: 比较老一点的小数据集,包含了25000个电影的评价,主要用于情感二分类问题

3. Stanford Sentiment Treebank: Stanford的标注的情感分析数据

4. Sentiment140: 比较流行的数据集,包含了移除了表情符号的tweet情感分析用文本

5. Twitter US Airline Sentiment: 推特上美国航空的2015年2月份以来情感分析数据,分为正面、负面和中立三类。

文本数据集

1. 20 Newsgroups: 从20个不同的新闻组织收集的20000片文章

2. Reuters News dataset: 从1987年以来的Rueters新闻机构收集的文本

3. Penn Treebank: 从1989年以来的华尔街时报的文章,可以用来预测下个单词

4. UCI’s Spambase: 比较大的垃圾邮件的数据集,可以用于过来垃圾邮件

5. Yelp Reviews: Yelp发布的开放式数据集,包含差不多5百万的用户评价

6. WordNet: 同义词集,每一组同义词表达一个不同的概念

自然语言处理的通用数据集

1. Enron Dataset: Enron的资深管理收集的邮件数据

2. Amazon Reviews: 包含亚马逊18年的3.5千万评价,里面有产品信息、用户信息、评分和评价

3. Google Books Ngrams: Google book上收集的单词

4. Blogger Corpus: 从blogger.com上收集的包含681288条博客,每条博客包含至少包含200个常用的单词

5. Wikipedia Links data: Wikipedia的数据,包含了将近1.9千万的单词,4百万篇文章,可以根据单词、词组等进行搜索

6. Gutenberg eBooks List: Gutenberg项目标注的电子书列表

7. Hansards text chunks of Canadian Parliament: 1300000条加拿大第三十六届会议记录的文本

8. Jeopardy: 从Quiz上收集的200000个和安全相关的问题

9. SMS Spam Collection in English: 5574条英文垃圾短信的数据集

参考地址:LiveToolkit

自然语言处理数据集-20个相关推荐

  1. 中文自然语言处理数据集:ChineseNLPCorpus(附链接)

    来源:AINLP 本文约1300字,建议阅读5分钟. 本文为你推荐中文自然语言处理数据集. 推荐一个Github项目:ChineseNLPCorpus,该项目收集了一批中文自然语言处理数据集的相关链接 ...

  2. 自然语言处理数据集集锦(持续更新ing...)

    诸神缄默不语-个人CSDN博文目录 最近更新时间:2023.6.27 最早更新时间:2023.4.25 文本摘要主题的数据集见我之前写的另一篇博文:文本摘要数据集的整理.总结及介绍(持续更新ing-) ...

  3. Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)

    Dataset:数据集集合(NLP方向数据集)--常见的自然语言处理数据集大集合(建议收藏,持续更新) 目录 NLP数据集特点 常见的NLP数据集 1.生物数据集以及自然语言处理数据集 常见的使用案例 ...

  4. ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测、评估

    ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测.评估 目录 输出结果 设计思路 核心代码 ...

  5. 97. BERT微调、自然语言推理数据集以及代码实现

    1. 微调BERT 2. 句子分类 3. 命名实体识别 4. 问题回答 5. 总结 即使下游任务各有不同,使用BERT微调时只需要增加输出层 但根据任务的不同,输入的表示,和使用的BERT特征也会不一 ...

  6. 资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!

    奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开 ...

  7. 自然语言处理数据集收集

    数据集名称 数据集简介(包含用途.用法.字段含义等) 数据集文件名称或下载链接 类别(公共或自研) 领域(非必填) Stanford Question Answering Dataset (SQuAD ...

  8. 自然语言处理数据集免费资源开放(附学习资料)

    作者:Jason Brownlee 翻译:梁傅淇 本文长度为1500字,建议阅读3分钟 本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接,对于有志于练习自然语言处理的新手而言,是极有帮助的 ...

  9. 数据集-20个免费的数据源/网站

    20个免费的数据源/网站 注意:大部分网站需要科学上网,才能访问. 1. datasetsearch https://datasetsearch.research.google.com 它可以让你搜索 ...

  10. 自然语言处理:数据集预处理词向量嵌入

    1 原始数据提取问答数据集并保存 原始数据剪切即把如下格式的问答语句转换成正常的问答语料.从原始数据中提取完整的对话,并处理成问答格式,最终将问题和答案数据分开保存. 原始数据 E M 呵呵 M 是王 ...

最新文章

  1. Python包管理工具pip安装
  2. Office365 用户同步排错思路
  3. oracle rac 中的ocr,11g rac中 ocr和 votingdisk疑问
  4. yum yum doesn‘t match version of Python 终极解决方案
  5. MySQL 存储过程 if语句
  6. linux下安装apache与php;Apache+PHP+MySQL配置攻略
  7. sublime test3 安装及配置
  8. 解决 Error:No suitable device found: no device found for connection System eth0
  9. [图:知识竞赛题库PPT制作] 为上海棒约翰餐饮管理有限公司定制的的知识竞赛题目及展示界面-PPT格式-双屏展示。
  10. Firefox浏览器无法安装firebug和firepath插件问题解决
  11. 黑马python在线培训
  12. C语言运行机制(过程)简述
  13. matlab模糊控制侧方位泊车
  14. 13.0、veu-路由嵌套
  15. 从函数式编程到Promise
  16. 业内首家全线上碎股自助交易 富途证券:股数有多少,需求无大小
  17. 顽童时代-----钟丽思
  18. SonTek -Argonaut-SL500流量计适配调试说明
  19. 云程发轫,万里可期 | 云扩科技再次入选Gartner《2022年中国ICT技术成熟度曲线报告》
  20. python 算法-累计乘法

热门文章

  1. 语音输入是计算机在哪个领域的应用,语音识别技术是什么_语音识别技术应用领域介绍...
  2. 第三章 分布式扩展(一)
  3. 利用黎曼几何分析EEG信号(四):集论初步与拓扑空间初步
  4. whose UTF8 encoding is longer than the max length 32766
  5. C语言中的while(y--)什么意思,while(x)什么意思
  6. python权重是什么意思_Python带权重随机数的简单实现
  7. antv g2字体阴影_antv g2 notes
  8. CDO玩“跨界”,数据驱动有戏了
  9. java 列表伸缩,微服务实例自动弹性伸缩实践
  10. 《人性的弱点》观后感