诸神缄默不语-个人CSDN博文目录

文章目录

  • 1. 数据集基本情况介绍
    • 1.1 Cora数据集
    • 1.2 SiteSeer数据集
    • 1.3 PubMed
  • 2. PyG数据集的Planetoid调用接口
  • 3. Planetoid官方数据处理方式
  • 4. 原始数据处理介绍
  • 5. CogDL的数据集调用接口
  • 6. 本文撰写过程中所使用的参考资料

Cora,CiteSeer,PubMed应该是GNN学习过程中没有人能逃得过的三大关口,在数据集上的意义可能相当于GCN,GraphSAGE,GAT之于空域GNN的意义。
本文旨在介绍御三家数据集,包括其基本信息和使用方式。
您可以根据您所需数据使用情况来观看本文。譬如若您只想在PyG建模时调用该数据集,可以仅观看第一节;如果您想了解如何将原始数据处理成类似御三家数据集的格式,可以仅观看第三节。
Enjoy!

本文将首先介绍数据集的基本情况,接下来以集成度从高到底的顺序进行撰写数据集的调取和使用方式:
第2节,从PyG的数据集调用接口开始介绍数据集的使用方式,并在这一节介绍三个数据集的基本信息(毕竟集成度高,数据很好用)。
第3节,介绍Planetoid数据(PyG数据来源)的使用和处理方式。
第4节,介绍从原始数据来源下载并处理数据的方式,包括如何将这种类似的原始数据处理成类Planetoid数据的方式。
第5节,最后介绍另一个集成度较高、但是流行度较低的CogDL中的数据集接口及使用方式。

1. 数据集基本情况介绍

Cora,CiteSeer,PubMed是三个文献引用网络数据集。
都是一张无向图,节点代表文件(论文文献),边代表引用关系。
标签在节点上,多分类任务。
节点特征是word vector,每一元素都是0-1二元变量,描述每个单词在paper中是否存在。统计时经过了stemming1和去除停用词,并去掉了小于10篇文档中出现过的单词。

1.1 Cora数据集

2708个节点,5429条边。标签共7个类别。数据集的特征维度是1433维。

Cora数据集的节点是机器学习论文,论文主题(标签)分为以下七类之一:
Case_Based基于案例
Genetic_Algorithms遗传算法
Neural_Networks神经网络
Probabilistic_Methods概率方法
Reinforcement_Learning强化学习
Rule_Learning规则学习
Theory理论

论文的选择方式是,在最终语料库中,每篇论文引用或被至少一篇其他论文引用(即没有孤立点存在)。

1.2 SiteSeer数据集

3312个节点,4723条边。标签共7个类别。数据集的特征维度是3703维。

论文主题(标签)分为以下七类之一:
Agents
AI
DB
IR
ML
HCI

论文的选择方式是,在最终语料库中,每篇论文引用或被至少一篇其他论文引用(即没有孤立点存在)。

1.3 PubMed

略。

2. PyG数据集的Planetoid调用接口

torch_geometric.datasets.Planetoid官方文档

略。

PyG所使用的御三家数据来源就是这篇论文:Revisiting Semi-Supervised Learning with Graph Embeddings. Zhilin Yang, William W. Cohen, Ruslan Salakhutdinov. ICML 2016.。对此的详细介绍见本文第二节。

3. Planetoid官方数据处理方式

kimiyoung/planetoid: Semi-supervised learning with graph embeddings

略。

4. 原始数据处理介绍

数据集来源:Datasets | LINQS

Cora数据集下载地址:https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz
CiteSeer数据集下载地址:https://linqs-data.soe.ucsc.edu/public/lbc/citeseer.tgz
PubMed数据集下载地址:https://linqs-data.soe.ucsc.edu/public/Pubmed-Diabetes.tgz

Linux可以通过wget下载文件,并用tar解压。
tgz压缩包中都含有README文件,介绍数据情况。

Cora压缩包里的README文件里面说数据集来源是这个网站:www.research.whizbang.com/data,我打不开这个网站就很离谱……

略。

5. CogDL的数据集调用接口

CogDL官网(中文版):CogDL工具包
THUDM/cogdl: CogDL: An Extensive Toolkit for Deep Learning on Graphs

cogdl/gat.py at master · THUDM/cogdl

略。

6. 本文撰写过程中所使用的参考资料

  1. GCN使用的数据集Cora、Citeseer、Pubmed、Tox21格式_知行合一,止于至善-CSDN博客_citeseer数据集
    对御三家数据集,主要介绍了Planetoid中数据格式的处理方法。
  2. 图数据集之cora数据集介绍- 用pyton处理 - 可用于GCN任务_kakazai.cn-CSDN博客_cora数据集
    对原始数据的处理方法。
  3. Cora数据集介绍+python读取_小执着的博客-CSDN博客_cora数据集
  4. 稀疏矩阵:
    1. scipy的sparse官方文档
    2. SciPy稀疏矩阵模块简介 - 知乎
    3. 稀疏矩阵的存储方法(DOK、LIL、COO、CSR, CRS)_houzhizhen的专栏-CSDN博客
  5. GCN代码中加载数据部分:gcn/utils.py at master · tkipf/gcn
  6. 在linux中如何解压.tgz_漂洋过海的油条的博客-CSDN博客_tgz解压

  1. 词干提取(stemming)和词形还原(lemmatization)比较_kaierlong的博客-CSDN博客
    就stemming大概来说就是把一个词的各种形式归为同一。 ↩︎

图数据集Planetoid御三家:Cora,CiteSeer,PubMed详解相关推荐

  1. 华为、H3C、锐捷三家交换机配置命令详解

    一.华为交换机基础配置命令 1.创建vlan: <Quidway> //用户视图,也就是在Quidway模式下运行命令. <Quidway>system-view //进入配置 ...

  2. 【总结】华为、H3C、锐捷三家交换机配置命令详解

    一直以来,对于华为.H3C.锐捷交换机的命令配置,不断的有朋友留言,三家交换机的配置命令容易弄混,经常在实际项目配置中出错,因此,本期我们将来介绍这三家交换机的基础配置命令,大家可以分别来看下他们的命 ...

  3. h3c交换机划分vlan配置_华为、H3C、锐捷三家交换机配置命令详解

    一.华为交换机基础配置命令 1.创建vlan: //用户视图,也就是在Quidway模式下运行命令.system-view      //进入配置视图  [Quidway] vlan 10      ...

  4. 小火狐进化_神奇宝贝第一到第八代中,小智不拥有的御三家是哪几只?

    修改 针对大家指出的错误做出修改 1小刚的水跃鱼进化成沼跃鱼 没有进化成巨沼怪.如评论大神所言.我之前的印象停留在dp小刚的父母被火箭队忽悠去旅游拯救尼比道馆的那集欢迎小刚的宝可梦有巨沼怪 是和替小刚 ...

  5. QT快速入门、三点求圆心实现详解

    在编程中,会经常用到数学计算,所以C++将常用的数学计算,例如求正余弦等,封装成函数(正是我们在3.2 数学计算中学习到的),我们只需要写入简单的语句就可以执行所需要的功能,这正是函数的意义.在这一章 ...

  6. 圆形界面 开启相机_「基础篇三」手机摄影拍照界面详解

    ​[基础篇三]手机摄影拍照界面详解 手机拍照对我们来说已习以为常,每天我们都会用手机相机功能或多或少的拍出几张照片.故手机拍照界面对我们来说也不陌生,但手机拍照界面上的那些按钮,那些功能你都用过吗?你 ...

  7. Android基础入门教程——8.3.1 三个绘图工具类详解

    Android基础入门教程--8.3.1 三个绘图工具类详解 标签(空格分隔): Android基础入门教程 本节引言: 上两小节我们学习了Drawable以及Bitmap,都是加载好图片的,而本节我 ...

  8. 三位加法器实现原理详解

    三位加法器实现原理详解 近日在读集智俱乐部里面的大牛们写的一本<科学的极致:漫谈人工智能>.看到了简单的数学计算计算机是如何实现的.一切的一切都起于逻辑门,本是本科已经学过的东西,现在早已 ...

  9. View绘制体系(三)——AttributeSet与TypedArray详解

    View绘制体系(三)--AttributeSet与TypedArray详解 前言 上篇博客中讲了LayoutInflater.inflate机制,其中提到了AttributeSet和XmlPullP ...

最新文章

  1. 2017.4.18 静态代码分析工具sonarqube+sonar-runner的安装配置及使用
  2. 训练指南第二章-基础问题
  3. 机器学习理论入门:第一章 监督学习与非监督学习介绍
  4. 在SunOS5.8/solaris7上使用Xerces-C解析器
  5. python中的进程
  6. antd vue 树更新数据后不展开_很全面的vue面试题总结
  7. python 矩阵乘法 跳过nan_python – Numpy:当一些向量元素等于零时,矩阵向量乘法不会跳过计算吗?...
  8. VS2017——50G超豪华IDE套餐酸爽体验!
  9. mysql复杂查询示例_找到时间和内存复杂性之间的平衡-一个示例
  10. 通过UserAgent判断智能设备(Android,IOS)
  11. PHP中关于时间,时间戳 时区的设置问题
  12. iOS开发之导航栏(navigationController)透明化
  13. SQL Server 2014,表变量上的非聚集索引
  14. 电子设计竞赛应该如何准备?
  15. 零时科技创始人邓永凯先生受邀出席中国创交会之科创湾区创新论坛
  16. CSP内容安全策略基础版
  17. java中modifier_Java Modifier工具类
  18. Android逆向writeup,[原创]腾讯apk逆向系列WriteUp
  19. 可视化设计-设备篇(LED屏幕)
  20. Android客户端与PC服务器如何实现Socket通信

热门文章

  1. 生猪养殖生产计划问题
  2. 遗传基因科普(2):人体DNA有多长?
  3. 使用jdcloud-wui筋斗云前端框架如何快速定位到源码
  4. 如何建立二叉搜索树 http://jingyan.baidu.com/article/c910274bfb701ecd361d2deb.html
  5. ae教程 (六)人物滤镜 (四)绚丽清晰色彩
  6. TC Games电脑玩手机游戏助手针对1加型手机最流畅的设置方法教程
  7. win10第一次安装数据库失败解决方案
  8. 笔记本电脑硬盘坏道故障处理
  9. Moq步步惊心之第一步
  10. 低成本激光线3D扫描