阅读笔记-图benchmark

  • 1、ogbn-proteins: Protein-Protein Association Network
  • 2、ogbl-ddi: Drug-Drug Interaction Network
  • 3、ogbl-biokg: Biomedical Knowledge Graph
  • 3、ogbg-ppa: Protein-Protein Association Network
  • 4、GDB
  • 5、QM7/QM7b
  • 6、QM8
  • 7、QM9
  • ESOL
  • FreeSolv
  • Lipophilicity
  • PCBA
  • MUV

新分子设计的模型:(1)分子生成,(2)分子评分方法,(3)针对评分函数优化或搜索更好分子的方法

1、ogbn-proteins: Protein-Protein Association Network

ogbn-proteins:无向,带权重,多种边类型的图结构。节点代表着蛋白质分子,边表示蛋白质之间不同类型的有生物学意义的联系,例如物理相互作用、共表达或同源性。所有的边都有8维特征,每个维度代表一个关联类型的强度,取值范围在0到1之间(值越大,关联越强)。蛋白质来源于8种物种。其任务是在一个多标签二元分类系统中预测蛋白质功能的存在,该系统中总共有112种标签需要预测。这一表现是根据这112项任务中ROC-AUC的平均分来衡量的。

2、ogbl-ddi: Drug-Drug Interaction Network

ogbl-ddi:是无权重无向的同质图,代表药物-药物相互作用网络。每个节点都代表着一个专业的药物。边表示药物之间的相互作用。这个作用可以解释为一种现象,当这两种药物同时使用时所产生的联合效应与这两种药物单独使用时所产生的的预期效应有很大的不同。
任务是在已知的药物-药物相互作用信息的基础上预测药物-药物的相互作用。评估指标与ogbl-collab相似,该模型将真实药物相互作用的排名高于非相互作用药物对。

3、ogbl-biokg: Biomedical Knowledge Graph

ogbl-biokg:ogbl-biokg数据集是一个知识图谱(KG),它是使用来自大量生物医学数据存储库的数据创建的。它包含五种实体:疾病(10687个节点),蛋白质(17499个节点),药物(10533个节点),副作用(9969个节点),蛋白质功能(45085个节点)。有51种类型的有向关系将两种类型的实体联系起来,包括39种药物相互作用,8种蛋白质相互作用,以及药物,药物副作用,药物,功能,功能关系 。 所有关系均建模为有向边,其中连接相同实体类型(例如蛋白质-蛋白质,药物-药物,功能-功能)的关系始终是对称的,即,边是双向的。
这个数据集与生物医学和基础医学研究相关。在生物医学方面,该数据集使我们能够更好地了解人类生物学,并产生预测,从而指导下游的生物医学研究。在基本的ML方面,数据集显示了在处理噪声、不完整的KG时可能存在矛盾的挑战。这是因为ogbl biokg数据集涉及从分子尺度(例如,细胞内的蛋白质-蛋白质相互作用)到整个人群的异质相互作用(例如,某个国家的患者所经历的有害副作用的报告)。此外,KG中的三元组来自具有各种置信水平的来源,包括实验性的读数、人工编制的注释和自动提取的元数据。

任务是根据给定的训练三元组来预测新的三元组。

3、ogbg-ppa: Protein-Protein Association Network

ogbg-ppa: ogbg-ppa数据集是从1581个不同物种的蛋白质-蛋白质关联网络中提取的一组无方向的蛋白质关联邻域,这些蛋白质关联网络覆盖了37个广泛的分类类群(如哺乳动物、细菌科、古生菌),并横跨生命之树。为了构建邻域,我们从每种物种中随机选择了100种蛋白质,并以每个选定的蛋白质为中心构建了2跳蛋白关联邻域.然后,我们从每个邻域中移除中心节点,并对邻域进行下采样,以确保最终的蛋白关联图足够小(小于300个节点)。每个蛋白质关联图中的节点表示蛋白质,边表示蛋白质之间有生物学意义的关联。边缘与7维特征相关联,其中每个元素取0到1之间的值,表示特定类型蛋白质的强度蛋白质关联,如基因共现、基因融合事件和共表达。
给定一个蛋白质关联邻域图,该任务是一个37向多分类方法,以预测该图源自哪个分类学组。 成功解决该问题的能力对于理解跨物种的蛋白质复合物的进化,随着时间的推移重新建立蛋白质相互作用,发现基因之间的功能性关联(甚至对于其他方面未被研究的生物)也具有意义,并且将使我们对关键的生物信息学有深刻的认识 诸如生物网络对齐之类的任务

4、GDB

GDB
GDB-11:遵循简单的化学稳定性和合成可行性规则,列举了最多11个C,N,O和F原子的有机小分子。
GDB-13:遵循简单的化学稳定性和合成可行性规则,列举了最多13个C,N,O,S和Cl原子的有机小分子。 GDB-13具有977468314种结构,是迄今为止最大的可公开获得的小型有机分子数据库。
GDB-17:药物分子由几十个通过共价键连接的原子组成。 这些分子总共可能有多少个,它们的结构是什么? 这个问题在药物化学中引起了人们的紧迫兴趣,以帮助解决药物效价,选择性和毒性的问题,并通过指出新的分子系列来降低损耗率。 为了更好地定义未知的化学空间,我们列举了1664亿个碳原子,碳原子,氮原子,氧原子,硫原子和卤素原子的17个原子组成的分子,形成了化学宇宙数据库GDB-17,涵盖的范围涵盖了许多药物和典型的铅 化合物。 GDB-17包含数百万种已知药物的异构体,包括与母体药物具有高度形状相似性的类似物。 与PubChem中的已知分子相比,GDB-17分子在非芳族杂环,季中心和立体异构体中含量更高,在形状空间的第三维中密集分布,并代表了更多的支架类型

5、QM7/QM7b

QM7/QM7b数据集是GDB-13数据库的子集:使用二元密度泛函理论(PBE0 / tier2基集)确定每个分子的最稳定构象和电子特性(原子化能,HOMO / LUMO特征值等)的3D直角坐标。在稳定的构象坐标下,以QM7 / QM7b为基准的学习方法负责预测这些电子特性。

QM7b该数据集是用于多任务学习的QM7数据集的扩展,其中必须在不同的理论水平(ZINDO,SCS,PBE0,GW)下预测13个其他属性(例如极化率,HOMO和LUMO特征值,激发能)。 还包括其他含氯原子的分子,总计7211个分子。

6、QM8

QM8数据集来自最近对电子光谱的量子力学计算和小分子激发态能量建模的研究,是GDB-17的子集。在2.2万个样本上,用三种不同的方法计算了四种激发态性质。

7、QM9

QM9是一个全面的数据集,为GDB-17数据库的一个子集提供几何、能量、电子和热动力学特性。该数据库包含431.4万个稳定有机分子每个分子最多含有9个重原子。所有分子均使用密度泛函理论(基于B3LYP / 6-31G(2df,p)的DFT)建模。 在我们的基准测试中,将几何属性(原子坐标)集成到特征中,然后将其应用于预测其他属性。

上述介绍的数据集(QM7, QM7b, QM8, QM9)是作为量子机器工作的一部分进行策划的,该工作已经处理了大量数据集,以衡量机器学习方法在量子化学方面的有效性

ESOL

ESOL是一个由1128种化合物的水溶性数据组成的小型数据集,该数据集已用于训练直接从化学结构(如SMILES字符串中编码)估算溶解度的模型。请注意,这些结构不包含3D坐标,因为溶解度 是分子的属性,而不是特定构象的属性

FreeSolv

自由溶剂化数据库(FreeSolv)提供了实验和计算的小分子在水中的水化自由能。计算值是由分子动力学模拟的化学自由能计算得出的。我们将实验值包含在基准测试集合中,并使用计算值进行比较。

Lipophilicity

亲脂性是影响膜通透性和溶解性的药物分子的重要特征。 该数据集来自ChEMBL数据库,提供了4200种化合物的辛醇/水分配系数(pH 7.4时的logD)的实验结果。

PCBA

PubChem BioAssay (PCBA)是一个由高通量筛选产生的小分子生物活性数据库。使用PCBA的一个子集,包含128种生物测定法,测量了超过40万种化合物,用于基准的机器学习方法

MUV

MUV数据集包含约9万个化合物的17个具有挑战性的任务,是专门为验证虚拟筛选技术而设计的。

图benchmark相关推荐

  1. 阅读笔记-分子图benchmark

    阅读笔记-图benchmark 1.ogbn-proteins: Protein-Protein Association Network 2.ogbl-ddi: Drug-Drug Interacti ...

  2. thttpd安装与调试

    http://www.acme.com/software/thttpd/ thttpd是一个非常小巧的轻量级web server,它非常非常简单,仅仅提供了HTTP/1.1和简单的CGI支持,在其官方 ...

  3. 三个轻量级WebServer--lighttpd,thttpd,shttpd介绍

    国内绝大部分的web server不是IIS就是Apache,而论市场占有率,我认为Apache是大赢家了,至少是占据了半壁江山. 但除了IIS/Apache外,其实我们有很多选择,对于高负载/大并发 ...

  4. 试验篇--thttpd安装与调试

    http://www.acme.com/software/thttpd/ thttpd是一个非常小巧的轻量级web server,它非常非常简单,仅仅提供了HTTP/1.1和简单的CGI支持,在其官方 ...

  5. java轻量级Http Server

    lighttpd 官方主页:www.lighttpd.net Lighttpd是一个德国人领导的开源软件,其根本的目的是提供一个专门针对高性能网站,安全.快速.兼容性好并且灵活的web server环 ...

  6. lighttpd,thttpd,shttpd - 轻量级WebServer介绍

    lighttpd,thttpd,shttpd - 轻量级WebServer介绍 lighttpd,thttpd,shttpd - 轻量级WebServer介绍 Filed under: lighttp ...

  7. NeurIPS 2022 | ​NAS-Bench-Graph: 图神经网络架构搜索Benchmark

    ©作者 | 梁峰绮 单位 | 北京邮电大学 来源 | 北邮 GAMMA Lab 本文旨在简要介绍近期发表在 NeurIPS 2022 Datasets and Benchmarks Track 上的一 ...

  8. 计算机鹅点云,CVPR 2020 | 用于点云中3D对象检测的图神经网络

    论文原文:Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud 论文地址:https://www.amine ...

  9. 全球计算机视觉顶会CVPR 2020论文出炉:腾讯优图17篇论文入选

    全球计算机视觉顶级会议CVPR2020  (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议 ...

  10. 重磅:腾讯正式开源图计算框架Plato,十亿级节点图计算进入分钟级时代

    整理 | 唐小引 来源 | CSDN(ID:CSDNnews) 腾讯开源进化 8 年,进入爆发期. 继刚刚连续开源 TubeMQ.Tencent Kona JDK.TBase.TKEStack 四款重 ...

最新文章

  1. Science:一种新型玻璃,有望让手机告别碎屏!
  2. VS2015 打包添加系统必备组件
  3. JQuery中的特殊选择器--this
  4. 雷军 1994 年写的代码,经典老古董。
  5. 2015年,Web 进入移动时代
  6. 四、华为鸿蒙HarmonyOS应用开发之Java开发下Page Ability生命周期
  7. ICCV 2019 | 旷视提出MetaPruning:基于元学习和AutoML的模型压缩新方法
  8. android 申请拍照权限,React Native模块之Permissions权限申请的实例相机
  9. 有关 !DOCTYPE HTML
  10. Java读取、创建Excel;验签,加密
  11. 学习Java好书及视频推荐
  12. 计算机英语二国家线,历年考研英语国家线一览表
  13. 洛谷 3097 USACO13DEC 最优挤奶 Optimal Milking
  14. 【总结思考】如何提高项目的稳定性和开发效率
  15. android美食app设计图,基于位置的Android美食地图应用的设计与实现
  16. 导入依赖失败,报错信息Failed to resolve: com.*.*:*:0.0.0<a href=““>Show in Project Structure dialog
  17. Win10便签设置日历的一周第一天为周日的方法
  18. HTML自学笔记-1(进入篇)
  19. 跨时钟域传输和Verilog代码
  20. 哪个牌子的护眼灯最好?

热门文章

  1. 河北省计算机科学专业高校排名,河北省计算机类专业大学排名
  2. 新唐 Nuvoton M031 入门 点亮板载LED
  3. 一个轻量的Linux运维监控脚本
  4. 红帽 linux 安装,linux (红帽)如何安装?
  5. Compass实战 站内搜索
  6. 系统分析和设计方法之输出设计和原型化
  7. matlab单字音频合成,基于MATLAB的音频解析与合成
  8. NLP【07】transformer原理、实现及如何与词向量做对接进行文本分类(附代码详解)
  9. 浏览器设置代理服务器插件SwitchyOmega配置
  10. HDU-4747 Mex