原文标题:A general optimization protocol for molecular property prediction using a deep learning network

代码:GitHub - titanda/Learn-it-all at ready_classification_feature

一、问题提出

虽然个别优化方法都成功地提高了模型的性能,但当这些方法和实践的具体组合应用时,可能会获得更好的改进。

比如:集成模型、数据增强、超参数优化、迁移学习

二、论文讨论

1、ConvS2S model

将输入分子编码,并利用解码器的注意机制。该模型完全基于CNN。该模型只有上面第一个分支,提取SMILES特征。

Dynamic batch size

默认batch-size设置4000 token。对于t时刻的权重wt,学习率η, batch-size b,M个实例(通过transforms Ti对同一个输入产生),权重更新为:

将枚举比率变成10倍、100倍,batch-size token分别为8000和16 000,因此可将更新规则改为:

R是SMILES枚举比率,R是批大小增强比率,k(t)在这里是从增强数据集中采样的。每一步的批大小使用较大的rlog R·B。

Bayesian optimization

使用Hyperopt Python库。具体来说,对10个随机种子进行20次贝叶斯优化,以确定最佳超参数,并根据验证集的性能选择超参数。

目标函数【expected improvement (EI)】为:

y *是发现的最佳值:y * = min {f(xi),1≤i≤n}, pM是H的后验模型,使用树结构Parzen估计器,Parzen estimator model p(x|y):

l(x)是使用与最小损失函数值相关的超参数值集形成的密度,g(x)是由剩余超参数值形成的密度:

最佳embedding_dim、convolution size、编码器层数和解码器层数:

Hybrid representation

如模型图1,在第二个分支添加其他的特征,来融合不同表示的信息。修改了CNN模型的readout阶段,将全连接网络f应用于学习到的分子特征向量h与计算出的分子特征hf: y = f (concatenate (h, hf))的拼接。

分析了MACC指纹与RDKit计算的200个分子特征的混合表示。通过分位数信息变换特征【sklearn.preprocessing.quantile_transform函数】,以确保不同特征的大小不同不会导致某些范围大的特征支配较小范围的特征,并将所有特征放在同一个分布中。

Experimental procedure

组合测试:

三、实验

使用PyTorch1.8.1、Nesterov优化器进行early stopping,并置学习率收缩因子为0.1,学习率为0.25,最小学习率为10−5。经过10次训练,经t检验以95%置信区间报告。

1、dataset

MoleculeNet

采用过采样方法,在每次数据集拆分时增加少数数据量,使少数数据量与多数数据量相等。为了保持少数类的分布,对化合物进行了同样的过采样。

The best SMILES enumeration ratios are different in regression and classification datasets

Dynamic batch size has to be carefully configured

Bayesian optimization must be performed on the same enumerated dataset

The effects of hybrid representation are dataset dependent

Enumeration cannot be replaced by an optimization technique

消融实验:

Molecular features benefit the model in certain situations

The model employing the best optimization methods achieved the best performance compared to related work

Briefings in bioinformatics2022 | 基于神经网络的分子性质预测通用优化策略相关推荐

  1. NeurIPS 2020 | MVGNN+:基于多视图图神经网络的分子性质预测

    原文标题:Multi-View Graph Neural Networks for Molecular Property Prediction 论文地址:https://ml4molecules.gi ...

  2. 将图和双向transformers融合的分子性质预测新工具 简称AGBT - 论文阅读

    说来也是惭愧,这是我研一上了半年读的第一篇论文,其中包含做好组会演讲的PPT和翻译文档.以下为翻译文档仅供参考. AGBT Algebraic graph-assisted bidirectional ...

  3. Drug Discov. Today | 简要综述GNNs用于分子性质预测

    分子性质预测是药物发现领域的一项基本任务.对其进行准确预测的计算方法可以大大加快以更快.更便宜的方式找到更好的候选药物的整体过程.传统的预测分子性质的计算方法主要依靠提取指纹或人为设计的特征,然后与机 ...

  4. 干货!小样本分子性质预测新方法——性质感知的关系网络

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 分子性质预测能够识别具有目标性质的候选分子,在药物发现中发挥着重要作用.由于新药发现研究中已知药理性质的分子(有标签样本)少,分子性质预 ...

  5. AGBT:将代数图和双向transformer用于分子性质预测 | 彩色加权代数图 | transformer的encoder | AG-FP | BT-FP

    最近读了一篇2021.6.10发表在Nature Communications上的文章"Algebraic graph-assisted bidirectional transformers ...

  6. MG-BERT:利用无监督原子表征学习进行分子性质预测

    MG-BERT:利用无监督原子表征学习进行分子性质预测 MG-BERT: leveraging unsupervised atomic representation learning for mole ...

  7. MGSSLMotif-based Graph Self-Supervised Learning for Molecular Property Prediction|分子性质预测|GNN|自监督|预训练

    近期刚刚在NeurlPS-21上发表了一篇文章,用于分子性质预测的图预训练策略. 本文亮点在于①提出一套分子破裂的方法:②提出构建官能团树的方法:②同时在节点级和官能团级进行预训练,自动分配不同的权重 ...

  8. NeurIPS-21 | MGSSL: 基于官能团的分子属性预测图网络自监督预训练

    本文介绍一篇来自中国科学技术大学刘淇教授课题组和腾讯量子实验室联合发表的一篇文章.该文章提出了基于官能团的分子属性预测图网络自监督预训练方法MGSSL.MGSSL结合化学领域知识,在大量无标签分子数据 ...

  9. 交通流预测python代码_Python 3 amp; Keras 实现基于神经网络的交通流预测

    交通流量预测在智能交通(ITS)系统中占有重要地位,是实现交通诱导的前提.准确实时的短时交通流预测有助于更好的分析路网交通状况,对路网交通规划和交通优化控制有非常重要的作用.随着交通数据采集技术的不断 ...

最新文章

  1. 360数科发布2020全年财报:全年收入上涨47.1%,科技为运营效率提供第一动力
  2. micropython比c_选择C/C++还是选择MicroPython来开发?(第0章-第三节)
  3. 春节书单:优秀的产品经理们都在读什么?
  4. android快速点击两次,如何通过在Android中快速单击两次按钮来防...
  5. Java编码约定被认为是有害的
  6. nginx配置多个conf文件
  7. 《响应式Web图形设计》一7.4 减小文件尺寸
  8. 斐波那契数列的性质整理
  9. 数据结构可视化工具(在线,动态生成,用过都说好!)
  10. list集合去除重复对象
  11. union all关联两个不相关的表,按时间排序
  12. linux服务器怎么连接
  13. Keil5(C51,MDK)注册详细教程(2032年版本)
  14. 中文文本拼写检查错误纠正方案整理
  15. Concis组件库封装——Avatar头像
  16. IT运维服务体系建设思路
  17. 双系统、多系统快速切换
  18. 有哪些既实用又好看的蓝牙耳机?高颜值实用蓝牙耳机排行
  19. linux ftp 虚拟目录,Linux搭建FTP之vsftpd 虚拟用户配置步骤
  20. Windows文本框星号密码查看器

热门文章

  1. 1196 找到特殊的四位数
  2. 数据传输 -- 字符串报文
  3. Java 中代码优化的 30 个小技巧(下)
  4. Mysql 中source命令详解
  5. 服务器 远程桌面限制IP 与 (虚拟专用网络) 结合的安全策略
  6. python爬去百度文库资料_Python在线百度文库爬虫(免下载券)
  7. IM互通新方案-GTalk to VoIP回拨服务
  8. 攻防世界--Confusion2
  9. 一点小感受:界面和程序的分离
  10. 苹果电脑ntfs如何打开硬盘?mac能读取的硬盘格式