阅读笔记-图benchmark

  • 1、ogbn-proteins: Protein-Protein Association Network
  • 2、ogbl-ddi: Drug-Drug Interaction Network
  • 3、ogbl-biokg: Biomedical Knowledge Graph
  • 3、ogbg-ppa: Protein-Protein Association Network
  • 4、GDB
  • 5、QM7/QM7b
  • 6、QM8
  • 7、QM9
  • ESOL
  • FreeSolv
  • Lipophilicity
  • PCBA
  • MUV

新分子设计的模型:(1)分子生成,(2)分子评分方法,(3)针对评分函数优化或搜索更好分子的方法

1、ogbn-proteins: Protein-Protein Association Network

ogbn-proteins:无向,带权重,多种边类型的图结构。节点代表着蛋白质分子,边表示蛋白质之间不同类型的有生物学意义的联系,例如物理相互作用、共表达或同源性。所有的边都有8维特征,每个维度代表一个关联类型的强度,取值范围在0到1之间(值越大,关联越强)。蛋白质来源于8种物种。其任务是在一个多标签二元分类系统中预测蛋白质功能的存在,该系统中总共有112种标签需要预测。这一表现是根据这112项任务中ROC-AUC的平均分来衡量的。

2、ogbl-ddi: Drug-Drug Interaction Network

ogbl-ddi:是无权重无向的同质图,代表药物-药物相互作用网络。每个节点都代表着一个专业的药物。边表示药物之间的相互作用。这个作用可以解释为一种现象,当这两种药物同时使用时所产生的联合效应与这两种药物单独使用时所产生的的预期效应有很大的不同。
任务是在已知的药物-药物相互作用信息的基础上预测药物-药物的相互作用。评估指标与ogbl-collab相似,该模型将真实药物相互作用的排名高于非相互作用药物对。

3、ogbl-biokg: Biomedical Knowledge Graph

ogbl-biokg:ogbl-biokg数据集是一个知识图谱(KG),它是使用来自大量生物医学数据存储库的数据创建的。它包含五种实体:疾病(10687个节点),蛋白质(17499个节点),药物(10533个节点),副作用(9969个节点),蛋白质功能(45085个节点)。有51种类型的有向关系将两种类型的实体联系起来,包括39种药物相互作用,8种蛋白质相互作用,以及药物,药物副作用,药物,功能,功能关系 。 所有关系均建模为有向边,其中连接相同实体类型(例如蛋白质-蛋白质,药物-药物,功能-功能)的关系始终是对称的,即,边是双向的。
这个数据集与生物医学和基础医学研究相关。在生物医学方面,该数据集使我们能够更好地了解人类生物学,并产生预测,从而指导下游的生物医学研究。在基本的ML方面,数据集显示了在处理噪声、不完整的KG时可能存在矛盾的挑战。这是因为ogbl biokg数据集涉及从分子尺度(例如,细胞内的蛋白质-蛋白质相互作用)到整个人群的异质相互作用(例如,某个国家的患者所经历的有害副作用的报告)。此外,KG中的三元组来自具有各种置信水平的来源,包括实验性的读数、人工编制的注释和自动提取的元数据。

任务是根据给定的训练三元组来预测新的三元组。

3、ogbg-ppa: Protein-Protein Association Network

ogbg-ppa: ogbg-ppa数据集是从1581个不同物种的蛋白质-蛋白质关联网络中提取的一组无方向的蛋白质关联邻域,这些蛋白质关联网络覆盖了37个广泛的分类类群(如哺乳动物、细菌科、古生菌),并横跨生命之树。为了构建邻域,我们从每种物种中随机选择了100种蛋白质,并以每个选定的蛋白质为中心构建了2跳蛋白关联邻域.然后,我们从每个邻域中移除中心节点,并对邻域进行下采样,以确保最终的蛋白关联图足够小(小于300个节点)。每个蛋白质关联图中的节点表示蛋白质,边表示蛋白质之间有生物学意义的关联。边缘与7维特征相关联,其中每个元素取0到1之间的值,表示特定类型蛋白质的强度蛋白质关联,如基因共现、基因融合事件和共表达。
给定一个蛋白质关联邻域图,该任务是一个37向多分类方法,以预测该图源自哪个分类学组。 成功解决该问题的能力对于理解跨物种的蛋白质复合物的进化,随着时间的推移重新建立蛋白质相互作用,发现基因之间的功能性关联(甚至对于其他方面未被研究的生物)也具有意义,并且将使我们对关键的生物信息学有深刻的认识 诸如生物网络对齐之类的任务

4、GDB

GDB
GDB-11:遵循简单的化学稳定性和合成可行性规则,列举了最多11个C,N,O和F原子的有机小分子。
GDB-13:遵循简单的化学稳定性和合成可行性规则,列举了最多13个C,N,O,S和Cl原子的有机小分子。 GDB-13具有977468314种结构,是迄今为止最大的可公开获得的小型有机分子数据库。
GDB-17:药物分子由几十个通过共价键连接的原子组成。 这些分子总共可能有多少个,它们的结构是什么? 这个问题在药物化学中引起了人们的紧迫兴趣,以帮助解决药物效价,选择性和毒性的问题,并通过指出新的分子系列来降低损耗率。 为了更好地定义未知的化学空间,我们列举了1664亿个碳原子,碳原子,氮原子,氧原子,硫原子和卤素原子的17个原子组成的分子,形成了化学宇宙数据库GDB-17,涵盖的范围涵盖了许多药物和典型的铅 化合物。 GDB-17包含数百万种已知药物的异构体,包括与母体药物具有高度形状相似性的类似物。 与PubChem中的已知分子相比,GDB-17分子在非芳族杂环,季中心和立体异构体中含量更高,在形状空间的第三维中密集分布,并代表了更多的支架类型

5、QM7/QM7b

QM7/QM7b数据集是GDB-13数据库的子集:使用二元密度泛函理论(PBE0 / tier2基集)确定每个分子的最稳定构象和电子特性(原子化能,HOMO / LUMO特征值等)的3D直角坐标。在稳定的构象坐标下,以QM7 / QM7b为基准的学习方法负责预测这些电子特性。

QM7b该数据集是用于多任务学习的QM7数据集的扩展,其中必须在不同的理论水平(ZINDO,SCS,PBE0,GW)下预测13个其他属性(例如极化率,HOMO和LUMO特征值,激发能)。 还包括其他含氯原子的分子,总计7211个分子。

6、QM8

QM8数据集来自最近对电子光谱的量子力学计算和小分子激发态能量建模的研究,是GDB-17的子集。在2.2万个样本上,用三种不同的方法计算了四种激发态性质。

7、QM9

QM9是一个全面的数据集,为GDB-17数据库的一个子集提供几何、能量、电子和热动力学特性。该数据库包含431.4万个稳定有机分子每个分子最多含有9个重原子。所有分子均使用密度泛函理论(基于B3LYP / 6-31G(2df,p)的DFT)建模。 在我们的基准测试中,将几何属性(原子坐标)集成到特征中,然后将其应用于预测其他属性。

上述介绍的数据集(QM7, QM7b, QM8, QM9)是作为量子机器工作的一部分进行策划的,该工作已经处理了大量数据集,以衡量机器学习方法在量子化学方面的有效性

ESOL

ESOL是一个由1128种化合物的水溶性数据组成的小型数据集,该数据集已用于训练直接从化学结构(如SMILES字符串中编码)估算溶解度的模型。请注意,这些结构不包含3D坐标,因为溶解度 是分子的属性,而不是特定构象的属性

FreeSolv

自由溶剂化数据库(FreeSolv)提供了实验和计算的小分子在水中的水化自由能。计算值是由分子动力学模拟的化学自由能计算得出的。我们将实验值包含在基准测试集合中,并使用计算值进行比较。

Lipophilicity

亲脂性是影响膜通透性和溶解性的药物分子的重要特征。 该数据集来自ChEMBL数据库,提供了4200种化合物的辛醇/水分配系数(pH 7.4时的logD)的实验结果。

PCBA

PubChem BioAssay (PCBA)是一个由高通量筛选产生的小分子生物活性数据库。使用PCBA的一个子集,包含128种生物测定法,测量了超过40万种化合物,用于基准的机器学习方法

MUV

MUV数据集包含约9万个化合物的17个具有挑战性的任务,是专门为验证虚拟筛选技术而设计的。

阅读笔记-分子图benchmark相关推荐

  1. [论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记

    Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记 Towards Real-World ...

  2. CenterNet:Objects as Points论文阅读笔记

    CenterNet论文阅读笔记 (一)Title (二)Summary (三)Research Objective (四)Problem Statement (五)Method 5.1 Loss Fu ...

  3. 论文浅尝 | 融合多层次领域知识的分子图对比学习

    笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习 论文地址:https://arxiv.org/pdf/2106.04509.pdf 动机 目前基于图的对比学习有以下几个问题: 不同领域的图 ...

  4. 论文阅读笔记:Multi-view adaptive graph convolutions for graph classification

    论文阅读笔记:Multi-view adaptive graph convolutions for graph classification 文章目录 论文阅读笔记:Multi-view adapti ...

  5. LIO-SAM论文与代码阅读笔记(一)论文阅读

    文章目录 0.前言 1.内容介绍 2.研究背景 2.1.不同的地图维护方式 2.2.LIO的紧耦合和松耦合 3.方法 3.1.因子图 3.2.激光里程计因子 3.3.GPS因子 4.实验 4.1.旋转 ...

  6. A_Machine_Vision_Apparatus_and_Method_for_Can-End_Inspection-论文阅读笔记

    A_Machine_Vision_Apparatus_and_Method_for_Can-End_Inspection 一种用于罐端检测的机器视觉装置和方法 //2022.6.27日上午10:17开 ...

  7. A Critical Review of Recurrent Neural Networks for Sequence Learning-论文(综述)阅读笔记

    A Critical Review of Recurrent Neural Networks for Sequence Learning 阅读笔记 //2022.3.31 下午15:00开始 论文地址 ...

  8. 基于神经网络的知识图谱问答方法 阅读笔记+翻译

    2019-arXiv-Introduction to Neural Network based Approaches for Question Answering over Knowledge Gra ...

  9. 【Graphormer阅读笔记、实验与刷榜】《Do Transformers Really Perform Bad for Graph Representation?》

    Graphormer阅读笔记 -- Huixuan Chi (AML@ByteDance) paper:https://arxiv.org/abs/2106.05234 code:https://gi ...

最新文章

  1. 重磅!CSDN 发布「AI开源贡献奖Top5」「AI新锐公司奖Top10」「AI优秀案例奖Top30」三大榜单...
  2. 使用Windbg解析dump文件
  3. 曈曈妈妈设计的2010年台历模板
  4. Android RecyclerView 间距全适配
  5. python 神经网络中隐藏层的作用是什么?
  6. (LeetCode 141/142)Linked List Cycle
  7. 00018计算机应用2018年4月,全国2019年4月自考00018《计算机应用基础》试题及答案...
  8. msmq发送速度的测试
  9. javascript中基本类型和引用类型的区别分析
  10. 页面无法访问 css文件加载问题
  11. vue draggable 火狐拖拽搜索bug解决
  12. Jim Marino与Meeraj Kunnumpurath专访:关于SCA和Fabric3
  13. linux嵌入式开发从入门到精通
  14. 最全的Windows进程详解!
  15. C# 实现Windows Media Encoder音视频捕捉
  16. html输入日期算出星座,如何通过日期计算星座
  17. 74hc164驱动数码管c语言程序,74hc164应用电路图_74hc164驱动源程序
  18. Matlab篇----常用的回归分析Matlab命令(regress篇)
  19. 华为、苹果、高通,谁在领跑?全面解读清华AI芯片报告
  20. 直播系统开发应有的引流功能

热门文章

  1. 白马美的的“红利间歇期”
  2. 京东金融Vue组件化项目实战(完整)
  3. JEECG-BOOT环境搭建:2.1.1版
  4. 物流机器人基本认识(1)
  5. SpringMVC - 三层架构和 MVC
  6. 【天光学术】文艺美学论文:在新媒介下的文艺美学应用研究(节选)
  7. Linux中ps -u和ps u的区别
  8. redis实现用户签到,统计活跃用户,用户在线状态,用户留存率
  9. 权限管理——RBAC模型总结
  10. Igh EtherCAT Master 补丁推荐