log P(油水分配系数)是确定化合物是否适合用作药物的最重要属性之一。当前,用于计算机预测log P的大多数可用回归模型都在实验测得的log P值(PHYSPROP数据库)。但是,该数据库中的大多数化合物并不高度代表药物样化学空间。不幸的是,当前缺乏可用于训练更好的预测工具的公开可用的实验log P数据集。

此测试使用论文中发布的实验log P数据:“Large, chemically diverse dataset of log P measurements for benchmarking studies” [1]。

到目前为止,用于log P预测的许多可用工具都基于物理描述符,例如原子类型计数或极性表面积或拓扑描述符。这里将计算分子的不同物理描述符以及结构指纹,并使用三种不同的回归模型(神经网络,随机森林和支持向量机)对它们的性能进行基准测试。


导入库和utility模块

import numpy as np
import matplotlib.pyplot as plt
import pandas as pdfrom rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem import Descriptorsfrom utility import FeatureGeneratorfrom sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sk

RDKit | 基于不同描述符和指纹的机器学习模型预测logP相关推荐

  1. RDKit | 基于随机森林(RF)的机器学习模型预测hERG阻断剂活性

    从分子相似性评估到使用机器学习技术的定量构效关系分析各种建模方法已应用于不同大小和组成的数据集(阻断剂和非阻滞剂的数量).本研究中使用从公共生物活性数据开发用于预测hERG阻断剂的稳健分类器.随机森林 ...

  2. RDKit | 通过Lipinski规则了解如何在RDKit中处理描述符

    以Lipinski的为主题,学习RDKit如何处理表征分子特性的" 描述符 ". 描述符         描述符是确定分子性质的指标.当然,水的性质是水的溶解度和大小的性质,生物活 ...

  3. 嵌入式Linux系统编程学习之九基于文件描述符的文件操作

    文章目录 前言 一.文件描述符 二.打开.创建和关闭文件 三.读写文件 四.改变文件大小 五.文件定位 六.原子操作 七.进一步理解文件描述符 八.文件描述符的复制 九.文件的锁定 十.获取文件信息 ...

  4. ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本

    ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本 目录 基于波士顿房价数据集利用LiR和LightGBM算法进行模 ...

  5. RDKit | 计算化合物描述符

    描述符 Descriptor:通过量化部分结构特征和物理化学性质来表达化合物的化学特征. 导入库 import rdkit import pandas as pd from rdkit import ...

  6. rdkit 分子性质描述符(Descriptors)

    文章目录 一.引入所需库 二.性质描述符计算 三.原子对性质的贡献可视化 分子性质也被称为描述符. RDKit中内置了大量的分子描述符的计算方法, 这些方法主要位于 rdkit.Chem.Descri ...

  7. Linux系统编程——基于文件描述符的文件操作(1)

    概要: 打开.创建和关闭文件 读写文件 文件定位 获取文件信息 打开.创建和关闭文件 函数原型: #include <sys/types.h> //头文件 #include <sys ...

  8. RDKit | 基于随机森林的化合物活性二分类模型

    基于随机森林算法的化合物二分类机器学习模型 代码示例 #导入依赖包 import pandas as pd import numpy as np from rdkit import Chem, Dat ...

  9. DGL RDKit|基于GCN与基于3D描述符的分子溶解度预测模型对比

    GCN GCN : 图卷积神经网络(Graph Convolutional Networks) 图卷积的原理 处理图形或网络的数据形式存在许多重要的实际问题,如社交网络.知识图形.蛋白质相互作用网络和 ...

最新文章

  1. C++ CORE DUMP gdb 调试
  2. 笑傲江湖,独孤求败-NetScaler MAS应用交付神功详解
  3. IIS+ASP+MySQL8.0+数据库连接解决方案(2019.7)
  4. 边缘提取和场景分割 学派?
  5. chrome开发者工具--使用 Network 面板测量您的网站网络性能。
  6. 高度不定垂直居中_CSS垂直居中的七个方法
  7. 不同坐标系下角速度_CNC | 数控机床坐标系探究
  8. python结果按行输出_Python实现读取字符串按列分配后按行输出示例
  9. 每周个人进度总结06
  10. 自学移动端(APP)自动化测试
  11. 图论入门及基础概念(图篇)
  12. 蔡勒公式与Python
  13. 专转本-矩阵的初等变换与线性方程组
  14. sbus storm32bgc_STorM32 BGC三轴增稳云台固件更新
  15. js中的JSON对象转换,过滤特殊字符数据
  16. java吃水果小游戏中水果,蔬菜等的重画
  17. Android绕过微信包名限制对接微信登录和支付
  18. 2022年外贸公司邮箱签名怎么设置?
  19. Python基础之告警定义与告警抑制
  20. Android手机屏幕变化监听

热门文章

  1. 锐捷2126G部分基础配置(升级系统固件、telnet、vlan)
  2. 阿里又要发布一个逆天的开源框架了!
  3. 图解计算机中数据的表示形式
  4. 一文带你玩转设计模式之「责任链」
  5. 华为笔记本写代码真香!包邮送一台!
  6. 图解Java的substring()方法底层干了啥?
  7. 关于容器的三件事,你知道吗?
  8. 飞书在线文档 美誉度国内最佳!一起来围观~
  9. 关于中台的思考与尝试
  10. Leangoo敏捷项目管理软件 6.3.2卡片关联支持链接