人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点。同时,我们知道,药物研发过程是极为浩大,严谨的科学研究,例如目前正处于临床验证阶段的瑞德西韦,虽然已经经历了多年的研究,但仍需从临床上确定其对新冠病毒是否有疗效。

著名的医学期刊JAMA的一篇调查论文显示,研发一款癌症药物的成本在6.48亿美元左右[1]。其中,大量成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,而机器学习技术的出现极大地辅助了计算机辅助药物设计的进步。因此,化学信息学或药物研发领域开始使用各种机器学习技术,包括SVM [3]、随机森林 [4]和深度学习 [5][6] ,以及图神经网络[7]等。不过,相关技术仍有提升空间,人工智能、化学和生物医学领域也在探索新的技术发现方法。

2020年2月,北京智源人工智能研究院、专注于AI驱动药物研发的科技企业晶泰科技 、数据评测平台biendata,共同发布了“智源小分子化合物性质预测挑战赛”,并同步开放了评测竞赛,总奖金10万元。本次比赛要求选手根据从小分子结构中提取的3177个维度特征,预测对于药物发现和开发有重要价值的六个化学性质。希望能发挥计算之所长,通过运用公开数据库或者文献数据与成果,助力加速药物发现,为尽早开发出治疗疾病的有效药物贡献一份力量。

智源小分子化合物性质预测挑战赛-赛址:

https://biendata.com/competition/molecule/

比赛背景

药物研发一直是一项要花费大量时间、人力和财力的工作。其中,大量成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,但是需要消耗较多的计算资源。如何利用已有数据建立优质的机器学习模型,逼近真实结果,将为虚拟药物设计找到准确度和成本的平衡点。化学信息学和机器学习在药物研发中的应用已经有一定的历史,在最近以深度学习为前沿的AI潮流下,行业正在探索更广泛的人工智能技术在药物发现中的应用。

比赛任务

根据分子结构信息预测分子可能的化学性质,将在化学研究和制药领域产生重要应用。目前,大部分潜在药物都是小分子,如果能根据结构提前预测小分子的性质,将减少药物的研发成本。

本次比赛的任务是根据从小分子结构中提取的3177个维度特征,预测小分子的以下六个化学性质:

’Dipole Moment’,

’HOMO energy’,

’LUMO energy’,

’zero-point vibrational energy’,

’atomization energy at zero kelvin’,

‘atomization energy at room temperature’。

这六个性质的准确预测对于药物的发现和开发将提供重要价值。

数据描述

本次数据集来自GDB-17标准数据集,这是由1660亿个有机分子组成的小分子化学空间,由波恩大学提供[8]。该化学空间里面的所有分子包含的重原子(即C、S、O、N等原子)个数小于17个。此后,Raghunathan Ramakrishnan等人通过理论化学方法测算了其中133,885 个小分子的性质[9]。为了便于没有化学领域知识的选手参与比赛,本次比赛的联合主办方晶泰科技从小分子结构中提取出3177个相关的分子描述符和分子指纹,作为数据的输入特征。

训练集

训练集数据集为csv文件,数据包括80331个分子的信息。其中第一列为分子ID,第2列至3178列为分子的3177个分子描述符和分子指纹,作为数据的输入特征。第3179列至3184列是待预测的分子性质。

验证集

验证集和训练集格式类似,但是没有最后6列分子性质,需要选手预测。

测试集

测试集和验证集格式相同。测试集将于比赛结束前发布,选手需要在48小时内提交测试集的预测结果。测试集分数将最终决定比赛成绩。

样例提交文件

样例提交包括1列分子ID和6列待预测的分子性质。

参考文献

[1] Prasad, Vinay, and Sham Mailankody. “Research and developmentspending to bring a single cancer drug to market and revenues after approval.”JAMA internal medicine 177.11 (2017): 1569-1575.

[2] Lavecchia, Antonio. “Machine-learning approaches in drugdiscovery: methods and applications.” Drug discovery today 20.3 (2015):318-331.

[3] Burbidge, Robert, et al. “Drug design by machine learning:support vector machines for pharmaceutical data analysis.” Computers &chemistry 26.1 (2001): 5-14.

[4] Ballester PJ, Mitchell JBO. A machine learning approach topredicting protein-ligand binding affinity with applications to moleculardocking. Bioinformatics 2010, 26:1169–1175.

[5] Mitchell, John BO. “Machine learning methods inchemoinformatics.” Wiley Interdisciplinary Reviews: Computational MolecularScience 4.5 (2014): 468-481.

[6] Ekins, Sean. “The next era: deep learning in pharmaceuticalresearch.” Pharmaceutical research 33.11 (2016): 2594-2603.

[7] Liu, Ke, et al. “Chemi-Net: amolecular graph convolutional network for accurate drug property prediction.”International journal of molecular sciences 20.14 (2019): 3389.

[8] Ruddigkeit, L., van Deursen, R., Blum, L. C. &Reymond, J.-L. Enumeration of 166 billion organic small molecules in thechemical universe database GDB-17. J. Chem. Inf. Model. 52, 2864–2875 (2012).

[9] Ramakrishnan, Raghunathan, et al. “Quantum chemistrystructures and properties of 134 kilo molecules.” Scientific data 1 (2014):140022.


智源人工智能系列竞赛

2019 年 9 月,智源人工智能算法大赛正式启动。本次赛事由北京智源人工智能研究院主办,爱数智慧、清华大学、北京大学、中科院计算所、旷视、知乎、晶泰科技等协办,总奖金超过 100 万元,旨在以全球领先的科研数据集与算法竞赛为平台,选拔培育人工智能创新人才。

北京智源人工智能研究院院长、北京大学教授黄铁军介绍:智源的中心任务是在北京建成全球最优的人工智能创新生态,核心是选拔培育人工智能顶尖人才和发展潜力大的青年学术英才。研究院副院长刘江也表示:“我们希望不拘一格来支持人工智能真正的标志性突破,即使是本科生,如果真的是好苗子,我们也一定支持。”而人工智能大赛就是发现有潜力的年轻学者的重要途径。

本次智源人工智能算法大赛有两个重要的目的,一是通过发布数据集和数据竞赛的方式,推动基础研究的进展。特别是可以让计算机领域的学者参与到其它学科的基础科学研究中。二是可以通过比赛筛选、锻炼相关领域的人才。

晶泰科技

晶泰科技(XtalPi)是一家以计算驱动创新的药物研发科技公司,基于前沿计算物理、量子化学、人工智能与云计算技术,为全球创新药企提供智能化药物研发服务。我们希望通过提高药物研发关键环节的效率与成功率、降低研发成本,为患者带来更多优质的药物。晶泰科技创立于麻省理工学院(MIT)校园,核心团队由来自学术界、IT互联网界及医药产业界的优秀人才组成。晶泰科技已经成功为来自美国、欧洲、中国、日本的40余家先锋药企提供了药物研发服务。

目前正在角逐的比赛:

  • 智源 — 小分子化合物性质预测挑战赛

  • https://www.biendata.com/competition/molecule/

  • 智源杯天文数据算法挑战赛

  • https://www.biendata.com/competition/astrodata2019/

  • 智源 — INSPEC 工业大数据质量预测赛

  • https://www.biendata.com/competition/bosch/

  • 智源 — MagicSpeechNet 家庭场景中文语音数据集挑战赛

  • https://www.biendata.com/competition/magicdata/

  • 智源 — 高能对撞粒子分类挑战赛

  • https://www.biendata.com/competition/jet/

↓点击阅读原文前往报名

10万元奖金助力AI加速药物研发!小分子预测大赛来啦相关推荐

  1. 智源抗疫 - 药物研发小分子性质预测赛

    人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点.同时,我们知道,药物研发过程是极为浩大.严谨的科学研究,例如目前正处于临床验证阶段的瑞 ...

  2. 华森制药与鹰谷信息达成合作,用数据加速药物研发

    文章内容来自华森制药与鹰谷信息达成合作,用数据加速药物研发 近日,重庆华森制药股份有限公司(以下简称"华森制药")与上海鹰谷信息科技有限公司(以下简称"鹰谷信息" ...

  3. FDA转向AI加快药物研发和审批速度

    人工智能(AI)和机器学习行业正以惊人的速度增长,医疗保健专业人员越来越多地转向使用AI来改变患者的体验和护理质量.在制药行业,人们有兴趣实施AI驱动的解决方案以发现新药并加快将其推向市场的速度.美国 ...

  4. GTC CHINA 2019 | 黄仁勋发表主题演讲,多项创新技术与合作全面助力 AI 加速落地

    近日,NVIDIA 创始人兼首席执行官黄仁勋在中国苏州举办的 GTC China 大会上发表主题演讲,宣布多项创新技术与合作,并阐述了 NVIDIA 如何助力 AI 加速进入大规模应用. GTC Ch ...

  5. 抗肿瘤靶向药物丨小分子化合物 or 单克隆抗体?- MedChemExpress

    癌症是人类最常见的死亡原因之一.癌症的主要特征是细胞不受控制和侵入性生长,这些细胞可能在转移的过程中通过血液和淋巴管扩散到身体的其他部位.靶向治疗是一种旨在干扰肿瘤生长或进展中起关键作用的特定靶蛋白的 ...

  6. 智源神经元识别挑战赛发布:收获不只是10万元奖金

    U-RISC:Ultra-high Resolution EM Images Segmentation Challenge 2019 年 10 月,北京智源人工智能研究院联合北京大学,共同发布了超高清 ...

  7. 10万元奖金“智源工业检测赛”激战正酣!高分Baseline合辑带你入门智能制造

    百年德企博世放出真实独家生产场景脱敏数据,邀你为工业 4.0 制造练就 AI 大脑. 目前,由北京智源人工智能研究院联合博世和 biendata 共同发布的"INSPEC 工业大数据质量预测 ...

  8. 10万元奖金语音识别赛进行中!CTC 模型 Baseline 助你轻松上分

    随着互联网.智能硬件的普及,智能音箱和语音助手已经深入人们的日常生活,家居场景下的语音识别技术已成为企业和研究机构竞相追逐的关键技术. 目前,由北京智源人工智能研究院.爱数智慧.biendata 共同 ...

  9. 玻色量子CEO文凯出席首届CCF量子计算大会,分享量子计算加速药物研发新突破

    ​2022年8月20-21日,首届CCF量子计算大会(The 1st CCF Quantum Computation Conference,CQCC 2022)在郑州召开.CCF量子计算专业组主任.中 ...

最新文章

  1. Linux下查看在线用户及用户进程
  2. 【转】从Mac/OS和iOS开放源码浅谈UNIX家谱
  3. MVC3学习 一 ViewBag和Html.Raw
  4. C++ —— C++三大分支结构(顺序、选择、循环)
  5. 数字图像处理实验6图像编码
  6. 和平精英显示服务器人数太多,和平精英到底有多差 导致玩家纷纷国际服
  7. lpc2000 filash utility 程序烧写工具_重点必看 | 取证小程序开发之第四届美亚杯硬盘信息快速解题...
  8. windows部署iBase4J
  9. matlab如何求空间一点到直线距离,空间点到直线距离怎么求
  10. 如何使用计算机检测网络正常使用,如何测试网速? 本地测网速的几种方法分享...
  11. 三线压力传感器原理_压力传感器 压力传感器原理
  12. 单声道120W大功率D类功放芯片CS8683-TPA3116对比测试
  13. Python ------ return返回值等
  14. JZOJ.5236【NOIP2017模拟8.7】利普希茨
  15. Mac 上的 iOS App 可用性(IOS APP availability on Mac)
  16. 如何绘制电气绝缘图(GB9706.1-2007和GB9706.1-2020差异)
  17. 逗号运算符java_简单的java计算器 实现了重复标点及运算符连点限制
  18. iPhone的指纹识别与面部识别(FaceID)
  19. su oracle和su - oracle的区别
  20. Allegro教学:关于dangling connection的解释

热门文章

  1. win10和win7游戏测试软件,是时候和Win7说再见了!Win10游戏性能最多领先50%
  2. 计算机无法转换输入发,电脑输入法切换不了怎么办
  3. 游戏代码大全_Switch新游推荐之世界游戏大全51,茶余饭后的消遣
  4. pycahrm配置path_Pycharm常用配置
  5. mysql 资深dba_MySQL数据库专家分享资深DBA经验
  6. 请编写fun()函数,函数的功能是删去一维数组中相同的数据在一起出现的数,相同的数只保留一个
  7. mybatis以及预编译如何防止SQL注入
  8. 【Linux】函数与参数
  9. 01月26日【Python3 基础知识】
  10. 创建3层的服务模板 (1)--- 概述