1. OHSUMED数据集介绍

本实验中采用OHSUMED测试数据集合(其也被用于第9 届国际文本检索竞赛TREC9 的文档过滤子竞赛)。OHSUMED 数据集合由William Hersh和他的同事们一起建立,其文档来源于医药信息数据库MEDLINE10,它包含了从1987 年到1991 年五年间270 个医药类杂志的标题和/或摘要,包含了348566个文档。一个OHSUMED 文档由8 个域组成,含义如下:

z .I 文章的OHSUMED 序列号,从1 到348566

z .U MEDLINE 标识

z .S 文章来源

z .M MeSH 索引词

z .T 文章标题

z .P 文章类型

z .W 文章摘要

z .A 文章作者

OHSUMED 的作者还为文档集合构造了106 个查询,这些查询来源于医生在给病人看病的过程中所提交的查询字符串,每一个查询由两部分组成:病人情况的简单描述和所需信息的描述。一个OHSUMED 查询由如下3 不同域组成:

z .I 文章的OHSUMED 序列号,从1 到106

z .B 患者信息

z .W 信息需求

基于以上的文档集合和查询集合,OHSUMED 一共标注了16140 个查询-文

档对,每一个查询-文档对都被标注成相关(definitely relevant)、部分相关(partially relevant)或者不相关(not relevant),最终的标注结果中一共包含了2557个相关、2932 个部分相关以及12498 个不相关的查询-文档对(一个文档可能被标记成多个级别,在本节的实验中,取其级别最高的标号作为其最终标号)。

Here are the files, their uncompressed size, and a description of their content:

1)  ohsumed.87 (60,303,307) — Contains the MEDLINE documents for the year 1987.  The format for each of the MEDLINE document files follows the conventions of the SMART system, with each field defined as below (NLM designator in parentheses):
    .I    sequential identifier
    .U    MEDLINE identifier (UI)
    .M    Human-assigned MeSH terms (MH)
    .T    Title (TI)
    .P    Publication type (PT)
    .W    Abstract (AB)
    .A    Author (AU)
    .S    Source (SO)
(Note:  Some references have their abstracts truncated at 250 words, while some have no abstracts at all.)

2)  ohsumed.88 (78,585,929) — Contains the MEDLINE documents for the year 1988, formatted as above.

3)  ohsumed.89 (84,719,077) — Contains the MEDLINE documents for the year 1989, formatted as above.

4)  ohsumed.90 (86,754,890) — Contains the MEDLINE documents for the year 1990, formatted as above.

5)  ohsumed.91 (89,761,122) — Contains the MEDLINE documents for the year 1991, formatted as above.

6)  queries (11,591) — Contains the 106 queries in test set, with patient and topic information, in the format:
    .I    Sequential identifier
    .B    Patient information
    .W    Information request

7)  drel.ui (26,919) — Contains the query-document pairs rated as definitely relevant, with documents listed by MEDLINE UI, in the format:

8)  drel.i (21,709) — Contains the query-document pairs rated as definitely relevant, with documents listed by sequential number (from the .I field),  in the format:

9)  pdrel.ui (57,831) — Contains the query-doc pairs rated as definitely or possibly relevant, with documents listed by MEDLINE UI,  in the format:

10)  pdrel.i (46,664) — Contains the query-doc pairs rated as definitely or possibly relevant, with documents listed by sequential number (from the .I field),  in the format:

11)  judged (368,366) — Contains a list of all retrieved documents by any of the five original searchers or SMART, sorted first by query number and then document number, along with their relevance judgments.  The relevance judgments are either d (definitely relevant), p (possibly relevant), or n (not relevant).  The relevance1 judgment is the original relevance judgment done on the documents retrieved by the original searchers.  The relevance 2 judgment is the second relevance judgment done to assess interobserver reliability of the relevance1 judgments.  The relevance3 judgment is the relevance judgment done on documents retrieved by SMART but not the original searchers, or another relevance judgment on an originally retrieved document to assess interobserver reliability.
   
    [][]

12)  ui (3,137,094) — Contains the MEDLINE UI’s for all 348,566 documents in test database, listed one per line.

13)  readme — This file.
http://ir.ohsu.edu/ohsumed/ohsumed.html

OHSUMED数据集介绍相关推荐

  1. K-近邻算法之案例:鸢尾花种类预测--数据集介绍

    K-近邻算法之案例:鸢尾花种类预测--数据集介绍 本实验介绍了使用Python进行机器学习的一些基本概念. 在本案例中,将使用K-Nearest Neighbor(KNN)算法对鸢尾花的种类进行分类, ...

  2. 深度学习常用数据集介绍

    数据集大全 数据集大全 介绍 目前接触到的数据集 1. [MNIST](http://yann.lecun.com/exdb/mnist/) 2. [CIFAR-10 / CIFAR-100](htt ...

  3. 【知识星球】数据集板块重磅发布,海量数据集介绍与下载

    有三AI知识星球的"数据集板块"正式上线,提供数据集介绍,论文下载,数据集下载3大功能,那些因为网速问题,因为需要签license的蛋疼问题,从此不再成为问题! 有三AI知识星球- ...

  4. GCN(一)数据集介绍

    1.数据集介绍 1.1 数据集概述 Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集.在数据集中,论文分为以下七类之一: 基于案例 遗传算法 神经网络 概率方法 强化学习 规则学 ...

  5. camvid数据集介绍_深度学习图像数据集介绍(MSCOCO)

    深度学习图像数据集介绍(MSCOCO) MSCOCO数据集是微软开发维护的大型图像数据集,次数聚集的任务包括识别(recognition),分割(segementation),及检测(detectio ...

  6. Imdb影评的数据集介绍与下载

    1. Imdb影评的数据集介绍 这是用于二分类情感分类的数据集,其包含的数据比以前的基准数据集要多得多. 我们提供了25,000电影评论用于训练,而25,000条电影评论用于测试. 也有其他未标记的数 ...

  7. 多目标跟踪数据集 :mot16、mot17数据集介绍

    文章目录 MOT16 数据集 MOT17数据集介绍 多目标跟踪数据集 MOT16 .MOT1数据集介绍: MOT16 数据集 数据集百度网分享: 点击此处 提取码: miao 文件格式: 解压MOT1 ...

  8. 语义分割之VOC2012、Cityscapes数据集介绍

    PASCAL-VOC2012 PASCAL-VOC2012数据集介绍官网: 参考 数据集下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCt ...

  9. 【神经网络与深度学习】CIFAR10数据集介绍,并使用卷积神经网络训练图像分类模型——[附完整训练代码]

    [神经网络与深度学习]CIFAR-10数据集介绍,并使用卷积神经网络训练模型--[附完整代码] 一.CIFAR-10数据集介绍 1.1 CIFAR-10数据集的内容 1.2 CIFAR-10数据集的结 ...

最新文章

  1. 测试函数: Ackely,Rastrigin,Griewangk,SumSquartes,Sphere,Quartic,Schwefel' Problem 12等
  2. Mysql 乱码的解决
  3. ionic 获取input的值
  4. mongodb清洗数据
  5. 第3章 Python 数字图像处理(DIP) - 灰度变换与空间滤波13 - 平滑低通滤波器 -盒式滤波器核
  6. mysql 开发规范_专业级的MySQL开发设计规范及SQL编写规范
  7. python 笔试题 英方_4000字转型数据分析师笔试面试经验分享
  8. [Unity] ACT 战斗系统学习 3:ScriptableObject
  9. Spring Boot 全局异常捕获
  10. java部署容器_Linux容器——Docker(二)之 JavaWeb部署
  11. 最新版本科、硕士、博士的区别
  12. Aspose.Cells生成Excel图表
  13. 2号团队-团队任务5:项目总结会
  14. 心酸的两天(1):Nacos 启动后输入默认密码后:“用户名或密码错误”
  15. B/S结构和C/S结构详细介绍
  16. 游戏开发中常用的算法
  17. MACD指标为什么不灵了?试试QMACD
  18. GPU深度学习训练时出现train_loss一直不变且val_loss不变的问题
  19. html调用外部js报错onClick is not defined at HTMLButtonElement.onclick
  20. 向量空间中的基底和基变换以及坐标变换

热门文章

  1. [云炬创业基础笔记]第五章创业机会评估测试10
  2. 2019 深度学习框架大盘点!看 PyTorch、TensorFlow 如何强势上榜?
  3. 海南师范大学计算机设计大赛证书,我校品牌VI设计作品在中国大学生计算机设计大赛海南省赛中获得一等奖...
  4. win10删除开机密码_新版WIN10 如何取消开机密码的操作
  5. 理想边界尺寸怎么算_钻石型淋浴房三边尺寸怎么算?安装步骤有哪些?
  6. Unet项目解析(5): 数据封装、数据加载、数据显示
  7. 类对象和类指针深入分析与对比
  8. NorthWest University - Medical Engineering
  9. 在asp.net 中应用POST传递和接收XML文件以及参数.
  10. IE、FF的基本注意事项