编辑 | 绿萝

从命运和毒性的角度来看,人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数,人们对其环境归宿或毒性知之甚少。

通过实验填补这些数据空白是不可能的,因此计算机方法和预测至关重要。然而,许多现有模型受到假设和小训练集的限制。

近日,来自阿姆斯特丹大学、昆士兰大学和挪威水研究所的研究团队,开发了一个基于随机森林的直接分类模型,该模型将分子描述符与毒性联系起来。

该模型是通过实验定义的 907 种有机化学品的急性鱼类毒性 96 小时 LC50 值数据集开发、验证和测试的。该分类模型解释了数据中约 90% 的训练集方差和约 80% 的测试集方差。与基于定量构效关系 (QSAR) 建模的传统「计算机模拟」评估相比,该策略使错误分类的频率降低了 5 倍。与 QSAR 方法相比,提出的直接分类模型具有更好的性能,使该方法成为评估化学品危害和风险的可行工具。

该研究以「From Molecular Descriptors to Intrinsic Fish Toxicity of Chemicals: An Alternative Approach to Chemical Prioritization」为题,于 12 月 8 日发布在《Environmental Science & Technology》上。

论文链接:https://doi.org/10.1021/acs.est.2c07353

据研究人员称,无论是在新化学品的安全设计开发中,还是在现有化学品的评估中,机器学习的使用都可以极大地改善分子的危险评估。后者的重要性体现在以下事实:欧洲和美国的化学机构列出了多年来开发的大约 800,000 种化学品,但对这些化学品的环境归宿或毒性知之甚少。

由于化学归宿和毒性的实验评估需要大量时间、精力和资源,因此建模方法已被用于预测危险指标。特别是经常应用 QSAR 建模,将分子特征(原子排列和 3D 结构)与物理化学性质和生物活性联系起来。

根据建模结果(或可用的测量数据),专家将分子分类为全球化学品统一分类和标签系统 (GHS) 中定义的类别。对于特定类别的分子,将进行更多的研究,更积极的监测,最终立法。

然而,这个过程有固有的缺点,其中大部分可以追溯到 QSAR 模型的局限性。它们通常基于非常同质的训练集,并假设线性构效关系以进行外推。因此,现有的 QSAR 模型无法很好地代表许多化学品,使用这些模型可能会导致大量的预测误差和化学品的错误分类。

跳过 QSAR 预测

在这里,Saer Samanipour 博士及其合著者提出了一种完全跳过 QSAR 预测步骤的替代评估策略。

图 1:从原始数据到最终生成模型的研究总体工作流程。(来源:论文)

研究人员合作开发了一种基于机器学习的策略,用于根据分子描述符对化学品的急性水生毒性进行直接分类。

该模型是通过 907 项实验获得的鱼类急性毒性数据(96h LC50 值)开发和测试的。新模型跳过了对每种化学品的毒性值 (96h LC50) 的明确预测,而是直接将每种化学品分类为多个预定义的毒性类别。

例如,这些类别可以由特定法规或标准化系统定义,如急性水生危害的 GHS 类别一文中所示。该模型解释了训练集中使用的数据中大约 90% 的方差,以及测试集数据中大约 80% 的方差。

更准确的预测

与基于 QSAR 回归模型的策略相比,这种直接分类策略导致错误分类减少了五倍。随后,研究人员扩展了他们的策略以预测大量 32,000 种化学品(NORMAN 数据集)的毒性类别。

图 2:NORMAN 数据集的适用性域 (AD) 评估,基于 (a) 训练集(即完整的分子描述符空间),(b) QSAR 回归模型,和 (c ) 直接分类模型。蓝色圆圈代表 AD 之外的化学物质,橙色圆圈代表模型适用范围内的化学物质,绿色圆圈代表训练集适用范围内的化学物质。(来源:论文)

他们证明,他们的直接分类方法可以产生更高准确度的预测,因为来自不同来源和不同化学家族的实验数据集可以分组以生成更大的训练集。它可以适应各种国际法规和分类或标签系统规定的不同预定义类别。

将来,直接分类方法还可以扩展到其他危害类别(例如慢性毒性)以及环境归宿(例如流动性或持久性),并显示出改进化学危害和风险评估的硅内工具的巨大潜力。

参考内容:https://phys.org/news/2022-12-machine-toxicity-chemicals.html

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

预测更准确,使用机器学习改进化学品的毒性评估相关推荐

  1. 在BRATS挑战赛中用于脑肿瘤分割、预后评估和总体生存预测的最佳机器学习算法

    胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性.不同的预后和不同的组织学亚区,即瘤周水肿/瘤周浸润侵犯组织,坏死组织,增生活跃的组织,非强化的组织.这种内在的异质性也表现在它们的影像学表型上, ...

  2. 第四范式入围Forrester Wave™:预测分析与机器学习中国市场评测报告 位列领导者行列...

    近日,国际知名市场研究公司Forrester发布了<Forrester WaveTM:Predictive Analytics And Machine Learning In China, Q4 ...

  3. ADMET性质预测服务:药物分子吸收评估服务与药物分子毒性评估服务

    ADMET性质预测服务:药物分子吸收评估服务与药物分子毒性评估服务 小编分享药物分子的吸收与评估服务与药物分子毒性评估服务,一起来看: 药物分子的吸收 吸收:药物自用药部位进入血液循环的过程称为吸收( ...

  4. KaggleM5 Forecasting:传统预测方法与机器学习预测方法对比

    本文的出发点在于比较传统预测方法和机器学习预测方法. 本文使用的数据集来自 kaggle:M5 Forecasting - Accuracy. 该数据集包含有 California.Texas.Wis ...

  5. 机器学习预测股市_机器学习在股市中的表现如何

    机器学习预测股市 When it comes to using machine learning in the stock market, there are multiple approaches ...

  6. python分类预测降低准确率_【火炉炼AI】机器学习011-分类模型的评估:准确率,精确率,召回率,F1值...

    [火炉炼AI]机器学习011-分类模型的评估:准确率,精确率,召回率,F1值 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19 ...

  7. 鸢尾花分类预测实验(机器学习)

    鸢尾花数据集的分类预测实验是机器学习最经典的案例之一,通过模型的训练,对于大量的鸢尾花数据集的学习,可以识别出新的鸢尾花是什么类型,继而完成预测和分类 鸢尾花的分类和预测大概分为如下几个步骤 (1)准 ...

  8. 经济数据预测 | Python实现机器学习(MLP、XGBoost)金融市场预测

    经济数据预测 | Python实现机器学习(MLP.XGBoost)金融市场预测 目录 经济数据预测 | Python实现机器学习(MLP.XGBoost)金融市场预测 基本介绍 程序设计 MLP X ...

  9. svc预测概率_机器学习朴素贝叶斯 SVC对新闻文本进行分类

    朴素贝叶斯分类器模型(Naive Bayles) Model basic introduction: 朴素贝叶斯分类器是通过数学家贝叶斯的贝叶斯理论构造的,下面先简单介绍贝叶斯的几个公式: 先验概率: ...

最新文章

  1. linux 雷电接口,Intel完全开放雷电技术:底层融合USB 4
  2. js 查找树节点 数组去重
  3. springboot 利用configureMessageConverters add FastJsonHttpMessageConverter 实现返回JSON值 null to ...
  4. hadoop集群配置问题及思考
  5. Windows 8 各版本功能区别一览表
  6. 前端必备,Adobe Premiere Pro 常用快捷键
  7. coreos 安装mysql_CoreOS 在 PC 上快速安装方法指南
  8. 现代软件工程 - 期末评比及作业要求
  9. 推荐一款 ES 集群可视化工具:Cerebro,简单、实用!
  10. MySQL中json数据操作(转载)
  11. 物流管理系统(数据库+后台+springMVC+Mybatis+layui)(一)
  12. HDU1286 找新朋友
  13. Windows Mobile 触摸屏(Touch Panel)截获
  14. 互联网人:最熟悉的陌生人
  15. Origin Pro 8.5绘图导出图片空白边距问题
  16. 电厂运维的cis数据_浅析电力企业信息系统运维综合监管平台设计-
  17. 松柏先生:从《功守道》看电商品牌最后的机会!
  18. DOOM3 源码分析笔记(1)
  19. 英国内政部(Home Office)间谍机构(spy powers)假装它是Ofcom咨询中的一名私人公民1514378402983...
  20. 学了Python不想去给别人打工,那就做做这些事儿吧!

热门文章

  1. MAC X or Ios平台上的学习工具
  2. 4. Categorical Encoding with CatBoost Encoder
  3. 这篇文章说到了程序化交易的本质!
  4. 微信小程序版本自动更新
  5. 获取android的实时网速
  6. A8 CPRS结构
  7. 360的发展历史--从3721到36
  8. VQA(图像问答)数据集结构及大致内容
  9. 多系统集成:vue大型项目之分模块运行/打包
  10. DNS添加KMS SRV记录激动激活