引用:http://www.it610.com/article/281233.htm

可选用的数据集主要包括Cora、Citeseer、DBLP三类。

DBLP数据集用XML描述,字段信息包括:author、title、pages、year、booktitle、url、crossref、publisher、ee、cdrom、isbn、cite_label等。其中作者名属性信息的格式是统一的,处理比较方便。目前,DBLP对作者重名问题的处理已经有不错的效果。例如:输入一作者名“wei wang”,可以得到16个不同的作者及其工作单位,并能链接得到每个作者的发表论文情况、个人主页和合作者列表等信息。(不存在问题了吗?)此外,引文信息中除了基本信息:作者名、文章名、会议名之外,加入新的信息:author keywords,对应于论文中的keywords。但是,并非所有的论文都包含有author keywords信息,也并非所有作者都有个人主页,在个人主页链接识别上还存在问题。

Cora数据集分为6大类,36个小类。主要的文件目录包括:(1)papers:以<id> <filename> <citation string>的形式描述论文信息,其中citation string是该论文的任意一篇参考引文或者基于作者名和文章名提取出的关键字。(2)citations:大约有715000条引文信息,用<referring_id> <cited_id>形式描述论文之间的引用关系。(3)citations.withauthors:包含论文的引文信息和作者信息,描述格式为:<this_paper_id><filename><id_of_first_cited_paper><id_of_second_cited_paper>…<Author#1>(of this paper)<Author#2>…(4)classifications:记录论文的分类信息,但分类标签并不是很准确,其描述格式为:<filename> <classification>。如:http:##www.ri.cmu.edu#afs#cs#user#alex#docs#idvl#dl97.ps    /Information_Retrieval/Retrieval/。

在CiteSeer数据集中,论文分为六类:Agents、AI(人工智能)、DB(数据库)、IR(信息检索)、ML(机器语言)和HCI,共包含3312篇论文,记录了论文之间引用或被引用信息。去除停用词和在文档中出现频率小于10次的词,整理得到3703个唯一词。CiteSeer数据集包含两个文件:.content文件和.cites文件,其中.content文件描述论文信息的格式为:<paper_id> <word_attributes>+<class_label>;.cites文件描述了论文之间的引用信息,格式为:<ID of cited paper> <ID of citing paper>。例如,一行内容为:paper1 paper2,那么引用关系为paper2引用paper1,即:paper2->paper1。 
但是,Citeseer数据集中的分类太笼统。

数据集Cora、Citeseer、DBLP相关推荐

  1. torch_geometric 笔记: 数据集Cora 简易 GNN

    1 获取数据集 该数据集用于semi-supervised的节点分类任务 from torch_geometric.datasets import Planetoiddataset = Planeto ...

  2. 图网络常用数据集总结——Cora, CiteSeer, PubMed, PPI, BlogCatalog, Yelp

    Cora数据集(引文网络)由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集.该数据集共2708个样本点,每个样本点都是一篇科学论文,所有样本点被分为8个类别,类别分别是: 1)基于案例:2)遗 ...

  3. GCN数据集Cora、Citeseer、Pubmed文件分析

    转载自 简介 本文分享一下图卷积网络GCN里用到的一些数据集的格式 Cora.Citeseer.Pubmed(都是一张图:都是引文网:节点数表示论文数,特征表示过滤后的节点数-特征数,标签是论文类别数 ...

  4. 图网络究竟在研究什么?从15篇研究综述看图神经网络GNN的最新研究进展

    近年来,由于图结构的强大表现力,用机器学习方法分析图的研究越来越受到重视.图神经网络(GNN)是一类基于深度学习的处理图域信息的方法. 到目前,相关研究的已经非常多了,不过我们回过头来看思考和回顾一下 ...

  5. Yoshua Bengio等图神经网络的新基准Benchmarking Graph Neural Networks(代码已开源)

    最近GNN备受关注,相信大家也都能感受到.但是,一旦我们开始阅读相关论文,开展相关的实验时,会发现一些问题. 我们一般会从节点分类数据集cora, citeseer, pubmed,图分类数据集PRO ...

  6. PyTorch Geometric Introduction by Example 中文

    这篇文章是我翻译PyTorch Geometric官方文档中的一篇教程,水平有限,要是有什么错误,希望能多加担待.欢迎大家指出我的错误与不足指出. 通过例子介绍 我们通过一些独立的例子简短地介绍下Py ...

  7. 图数据集Planetoid御三家:Cora,CiteSeer,PubMed详解

    诸神缄默不语-个人CSDN博文目录 文章目录 1. 数据集基本情况介绍 1.1 Cora数据集 1.2 SiteSeer数据集 1.3 PubMed 2. PyG数据集的Planetoid调用接口 3 ...

  8. GraphSAGE模型实验记录【Cora、Citeseer、Pubmed】

    1.准备工作 数据集 数据集 #图 #节点 #边 #特征 #标签(y) Cora 1 2708 5429 1433 7 Citeseer 1 3327 4732 3703 6 Pubmed 1 197 ...

  9. GraphSAGE模型实验记录(简洁版)【Cora、Citeseer、Pubmed】

    1.准备工作 数据集 数据集 图 节点 边 特征 标签(y) Cora 1 2708 5429 1433 7 Citeseer 1 3327 4732 3703 6 Pubmed 1 19717 44 ...

最新文章

  1. 死鱼——--摘自《项目百态:深入理解软件项目行为模式 》
  2. linux c 通过 /proc 获取 pid 进程 列表
  3. php.ini文件中的include_path设置
  4. C++中的继承(派生)的一些误区
  5. 阿里无线11.11:手机淘宝移动端接入网关基础架构演进之路
  6. lightblue使用教程_使用LightBlue Bean和IFTTT自动化LIFX灯
  7. ts/js 函数传参带函数写法
  8. 慧都与数据库厂商Devart进一步提升合作层次
  9. 注册表被禁用 (备用)
  10. 我建议你自己写一个疫情数据监控
  11. DDD 领域事件设计(基于Guava EventBus二次封装)
  12. IAM统一身份认证服务
  13. jenkins+Warnings Next Generation Plugin构建代码自动化检测
  14. video.js 实现视频只能后退,不能快进
  15. 用户选择好用的投票小程序最有用的投票小程序微信推送里投票制作教程
  16. 关于项目 no jacob-1.18-x64 in java.library.path问题解决方案
  17. Web重构之道 大漠
  18. 关于计算机安全文章,想找一份关于计算机安全的文章
  19. 英雄之刃显示服务器断开怎么办,英魂之刃手游新手常见问题
  20. 股票自选股程序编辑简介

热门文章

  1. 制作一个简单HTML传统端午节日网页(HTML+CSS)7页 带报告
  2. 港股量化交易接口有哪些?
  3. 千方科技与关联方约37亿完成对宇视科技100%收购
  4. 苹果APP安装包ipa如何安装在手机上
  5. B. Balanced Remainders
  6. 省计算机一级选择题,2015年6月福建省计算机一级选择题
  7. 2019年ICON设计趋势总回顾
  8. 混凝土结构耐久性(RCM,氯离子浓度,碳化深度)结构(梁、柱、办、墙、结点)数据库
  9. ubuntu20.04安装
  10. [数据分析方法论]剖析大数据分析方法论的几种理论模型