数据集是机器学习无法忽视的话题,我们根据数据集的类型,收集一些常用的数据集,方便大家快速找到自己需要的数据集。

DBpedia

Dbpedia – a large-scale, multilingual knowledge base extracted from wikipedia

DBpedia 是一个大型的、多语言的、来自Wikipedia 的数据集。DBpedia会每个月发布一个新版本,每一次发布都会新增或删除一些类别(classes)和属性(properities) 。最常用的版本包含 560000 条训练样本和 70000 条测试样本,包含14种标签。

Ohsumed

http://davis.wpi.edu/xmdv/datasets/ohsumed.html

这个数据集是 MEDLINE 数据集的子集。Ohsumed包含 7400 篇文章。每一篇文章是一个医学文摘(medical abstract),至少有一个或多个标签,这些标签来自23种心血管疾病类别。

EUR-Lex

Efficient pairwise multilabel classification for large-scale problems in the legal domain

该数据集的最常用版本收集了不同领域的欧盟法律,并包含 19314 个文档和 3956 个类别。

WOS

Hdltex: Hierarchical deep learning for text classification

Web of Science(WOS) 数据集收集了 Web of Science 上发表的文章。Web of Science 是世界上最受信任的、独立于发行商的全球引文数据库。

WOS已发布三个版本:WOS-46985,WOS-11967 和 WOS-5736。其中 WOS-46985 是完整的数据集。WOS-11967 和 WOS-5736 是 WOS-46985 的两个子集。

PubMed

Pubmed and beyond: a survey of web tools for searching biomedical literature

PubMed 是由美国国家医学图书馆开发的搜索引擎,用于搜索医学和生物科学论文,其中包含文献收藏。每个文档都用 MeSH标签集 来标注类别。

摘要中的每个句子都使用以下类别之一:背景,目标,方法,结果或结论;以说明该句子在摘要中的作用。

其他常见数据集

PubMed 200k RCT

Pubmed 200k rct: a dataset for sequential sentence classification in medical abstracts

Irony

Humans require context to infer ironic intent (so computers probably do, too)

参考文献

Deep Learning Based Text Classification: A Comprehensive Review

java分类Kdd99数据集_【数据】主题分类数据集相关推荐

  1. 中文新闻分类 数据集_最新开源LiDAR数据集LSOOD:四种常见的室外物体分类

    原标题:最新开源LiDAR数据集LSOOD:四种常见的室外物体分类 标题:最新开源LiDAR数据集LSOOD:四种常见的室外物体分类 作者:Y Tian 来源: LSOOD数据集 LSOOD数据集(L ...

  2. python回归算法预测数据_数据回归分类预测的基本算法及python实现

    数据回归分类预测的基本算法及python实现 关于数据的回归和分类以及分析预测.讨论分析几种比较基础的算法,也可以算作是比较简单的机器学习算法. 一.KNN算法 邻近算法,可以用来做回归分析也可以用来 ...

  3. 【NLP】文本分类TorchText实战-AG_NEWS 新闻主题分类任务(PyTorch版)

    AG_NEWS 新闻主题分类任务(PyTorch版) 前言 1. 使用 N 元组加载数据 2. 安装 Torch-GPU&TorchText 3. 访问原始数据集迭代器 4. 准备数据处理管道 ...

  4. celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标

    为什么要聊到数据集这个话题..因为数据集的noise对训练效果的影响很大!很长一段时间MegaFace的效果都上不去,就是因为数据集噪声的原因.而且自己在训练人脸的时候,如果不对数据集的噪声和属性有一 ...

  5. python从date目录导入数据集_使用python划分数据集

    无论是训练机器学习或是深度学习,第一步当然是先划分数据集啦,今天小白整理了一些划分数据集的方法,希望大佬们多多指教啊,嘻嘻~ 首先看一下数据集的样子,flower_data文件夹下有四个文件夹,每个文 ...

  6. coco 数据集_如何用 coco 数据集训练 Detectron2 模型?

    随着最新的 Pythorc1.3 版本的发布,下一代完全重写了它以前的目标检测框架,新的目标检测框架被称为 Detectron2.本教程将通过使用自定义 coco 数据集训练实例分割模型,帮助你开始使 ...

  7. java性别分类汇总,excel表格数据男女分类汇总-在Excel中,对数据清单进行“按性别分类汇总出男女......

    在Excel中,对数据清单进行"按性别分类汇总出男女... 在Excel中,对数据清单进行性别分类汇总出男女生的英语平均分"可使用AVERAGEIF函数实现. 操骤如下: 1.打开 ...

  8. Java Review - 并发编程_锁的分类

    文章目录 乐观锁与悲观锁 公平锁与非公平锁 独占锁与共享锁 可重入锁 自旋锁 乐观锁与悲观锁 乐观锁和悲观锁是在数据库中引入的名词,但是在并发包锁里面也引入了类似的思想. 悲观锁指对数据被外界修改持保 ...

  9. 如何准备机器学习数据集_数据准备技术及其在机器学习中的重要性

    如何准备机器学习数据集 什么是数据? (What is Data?) Data refers to examples of cases from the domain that characteriz ...

  10. 线性回归csv数据集_数据科学的基石:统计学、机器学习、计算机科学(三)——线性回归...

    数据科学家们常说,所有的模型都是错的,但是,其中一些是有用的.如果一个"有用"的模型能够过滤掉数据中哪些不重要的细枝末节,抓住其主要的内在关系,从而帮助我们更好地理解数据.很多情况 ...

最新文章

  1. CSS3支持IE6, 7, and 8的边框属性
  2. 学计算机哪家强?清华竟是2018全球第1!(附排名)
  3. 架构师之路 — API 经济 — RESTful API
  4. android 定位的几种方式介绍
  5. python的QT5:如何用QT5实现菜单
  6. 华师大数据科学考研_2020年30所微电子院校考研信息详细汇总
  7. Amazon上最畅销的「操作系统书」有哪些?
  8. P4146 序列终结者 平衡树 + lazy维护
  9. 经典面试题(8):关于逻辑运算符,下面代码运行的结果是什么?
  10. [Nowcoder] 大整数相乘(拼多多笔试题)
  11. 基于matlab的绘图设计,matlab课程设计---利用MATLAB仿真软件进行绘图
  12. pip 安装 rdkit
  13. err=etherbase address must be explicitly specified
  14. Spring boot Redis客户端 乱码
  15. 20年研发管理经验谈(二)
  16. ansible:jinja2对特殊符号的处理
  17. 程序员如何快速了解和掌握一门新技术
  18. 阿里云漏洞敏捷管理自动化报告
  19. 微信公众号多域名回调系统1.0发布
  20. GAN生成对抗网络基础知识

热门文章

  1. 《赋得古原草送别》诗改文
  2. RTI DDS windows环境下的下载和安装
  3. vue项目在ie浏览器下运行显示空白页面
  4. 2、孟子·公孙丑上 孟子·公孙丑下
  5. Unity内置Shader解读9——Reflective/Bumped Diffuse
  6. android网易云播放时图片,Android 网易云音乐图片高斯模糊
  7. 蓝色理想的flex教材不能在flex Development做不能使用,我整理一下供初学者参考
  8. 双显示器LOL加载游戏提示error无法初始化图形设备解决方法
  9. 三七互娱秋招web前端笔试题编程题(使用原生JS实现一个英雄类Hero, 可以按照以下方式调用正确输出)
  10. 学生表mysql查询语句