预测更准确，使用机器学习改进化学品的毒性评估

编辑 | 绿萝

从命运和毒性的角度来看，人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数，人们对其环境归宿或毒性知之甚少。

通过实验填补这些数据空白是不可能的，因此计算机方法和预测至关重要。然而，许多现有模型受到假设和小训练集的限制。

近日，来自阿姆斯特丹大学、昆士兰大学和挪威水研究所的研究团队，开发了一个基于随机森林的直接分类模型，该模型将分子描述符与毒性联系起来。

该模型是通过实验定义的 907 种有机化学品的急性鱼类毒性 96 小时 LC50 值数据集开发、验证和测试的。该分类模型解释了数据中约 90% 的训练集方差和约 80% 的测试集方差。与基于定量构效关系 (QSAR) 建模的传统「计算机模拟」评估相比，该策略使错误分类的频率降低了 5 倍。与 QSAR 方法相比，提出的直接分类模型具有更好的性能，使该方法成为评估化学品危害和风险的可行工具。

该研究以「From Molecular Descriptors to Intrinsic Fish Toxicity of Chemicals: An Alternative Approach to Chemical Prioritization」为题，于 12 月 8 日发布在《Environmental Science & Technology》上。

论文链接：https://doi.org/10.1021/acs.est.2c07353

据研究人员称，无论是在新化学品的安全设计开发中，还是在现有化学品的评估中，机器学习的使用都可以极大地改善分子的危险评估。后者的重要性体现在以下事实：欧洲和美国的化学机构列出了多年来开发的大约 800,000 种化学品，但对这些化学品的环境归宿或毒性知之甚少。

由于化学归宿和毒性的实验评估需要大量时间、精力和资源，因此建模方法已被用于预测危险指标。特别是经常应用 QSAR 建模，将分子特征（原子排列和 3D 结构）与物理化学性质和生物活性联系起来。

根据建模结果（或可用的测量数据），专家将分子分类为全球化学品统一分类和标签系统 (GHS) 中定义的类别。对于特定类别的分子，将进行更多的研究，更积极的监测，最终立法。

然而，这个过程有固有的缺点，其中大部分可以追溯到 QSAR 模型的局限性。它们通常基于非常同质的训练集，并假设线性构效关系以进行外推。因此，现有的 QSAR 模型无法很好地代表许多化学品，使用这些模型可能会导致大量的预测误差和化学品的错误分类。

跳过 QSAR 预测

在这里，Saer Samanipour 博士及其合著者提出了一种完全跳过 QSAR 预测步骤的替代评估策略。

图 1：从原始数据到最终生成模型的研究总体工作流程。（来源：论文）

研究人员合作开发了一种基于机器学习的策略，用于根据分子描述符对化学品的急性水生毒性进行直接分类。

该模型是通过 907 项实验获得的鱼类急性毒性数据（96h LC50 值）开发和测试的。新模型跳过了对每种化学品的毒性值 (96h LC50) 的明确预测，而是直接将每种化学品分类为多个预定义的毒性类别。

例如，这些类别可以由特定法规或标准化系统定义，如急性水生危害的 GHS 类别一文中所示。该模型解释了训练集中使用的数据中大约 90% 的方差，以及测试集数据中大约 80% 的方差。

更准确的预测

与基于 QSAR 回归模型的策略相比，这种直接分类策略导致错误分类减少了五倍。随后，研究人员扩展了他们的策略以预测大量 32,000 种化学品（NORMAN 数据集）的毒性类别。

图 2：NORMAN 数据集的适用性域 (AD) 评估，基于 (a) 训练集（即完整的分子描述符空间），(b) QSAR 回归模型，和 (c ) 直接分类模型。蓝色圆圈代表 AD 之外的化学物质，橙色圆圈代表模型适用范围内的化学物质，绿色圆圈代表训练集适用范围内的化学物质。（来源：论文）

他们证明，他们的直接分类方法可以产生更高准确度的预测，因为来自不同来源和不同化学家族的实验数据集可以分组以生成更大的训练集。它可以适应各种国际法规和分类或标签系统规定的不同预定义类别。

将来，直接分类方法还可以扩展到其他危害类别（例如慢性毒性）以及环境归宿（例如流动性或持久性），并显示出改进化学危害和风险评估的硅内工具的巨大潜力。

参考内容：https://phys.org/news/2022-12-machine-toxicity-chemicals.html

人工智能 × [ 生物神经科学数学物理材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

预测更准确，使用机器学习改进化学品的毒性评估相关推荐

在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法
胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性.不同的预后和不同的组织学亚区,即瘤周水肿/瘤周浸润侵犯组织,坏死组织,增生活跃的组织,非强化的组织.这种内在的异质性也表现在它们的影像学表型上, ...
第四范式入围Forrester Wave™：预测分析与机器学习中国市场评测报告位列领导者行列...
近日,国际知名市场研究公司Forrester发布了<Forrester WaveTM:Predictive Analytics And Machine Learning In China, Q4 ...
ADMET性质预测服务：药物分子吸收评估服务与药物分子毒性评估服务
ADMET性质预测服务:药物分子吸收评估服务与药物分子毒性评估服务小编分享药物分子的吸收与评估服务与药物分子毒性评估服务,一起来看: 药物分子的吸收吸收:药物自用药部位进入血液循环的过程称为吸收( ...
KaggleM5 Forecasting：传统预测方法与机器学习预测方法对比
本文的出发点在于比较传统预测方法和机器学习预测方法. 本文使用的数据集来自 kaggle:M5 Forecasting - Accuracy. 该数据集包含有 California.Texas.Wis ...
机器学习预测股市_机器学习在股市中的表现如何
机器学习预测股市 When it comes to using machine learning in the stock market, there are multiple approaches ...
python分类预测降低准确率_【火炉炼AI】机器学习011-分类模型的评估：准确率，精确率，召回率，F1值...
[火炉炼AI]机器学习011-分类模型的评估:准确率,精确率,召回率,F1值 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19 ...
鸢尾花分类预测实验（机器学习）
鸢尾花数据集的分类预测实验是机器学习最经典的案例之一,通过模型的训练,对于大量的鸢尾花数据集的学习,可以识别出新的鸢尾花是什么类型,继而完成预测和分类鸢尾花的分类和预测大概分为如下几个步骤 (1)准 ...
经济数据预测 | Python实现机器学习(MLP、XGBoost)金融市场预测
经济数据预测 | Python实现机器学习(MLP.XGBoost)金融市场预测目录经济数据预测 | Python实现机器学习(MLP.XGBoost)金融市场预测基本介绍程序设计 MLP X ...
svc预测概率_机器学习朴素贝叶斯 SVC对新闻文本进行分类
朴素贝叶斯分类器模型(Naive Bayles) Model basic introduction: 朴素贝叶斯分类器是通过数学家贝叶斯的贝叶斯理论构造的,下面先简单介绍贝叶斯的几个公式: 先验概率: ...

预测更准确，使用机器学习改进化学品的毒性评估

预测更准确，使用机器学习改进化学品的毒性评估相关推荐

最新文章

热门文章