AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分。通过对AI生态专家、创业者、行业KOL的访谈,反映其对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。

2020年,CSDN将对1000+人物进行访谈,形成系列,从而勾勒出AI生态最具影响力人物图谱及AI产业全景图。本文为 「AI技术生态论」系列访谈第13期。

百万人学AI你也有份!参与文章评论,评论区留言入选,可获得价值299元的「2020 AI开发者万人大会」在线直播门票一张。

作者 | Just

出品 | AI科技大本营(ID:rgznai100)

要在AI医疗领域创业,扎实的AI技术和对医疗行业背景的了解缺一不可,这也是许多创业者想要在此掘金却望而止步或中道崩溃的原因。但是,也总有一些开拓者能不断探索前路,望石智慧创始人兼CEO周杰龙就是其中之一。

早在硕士研究生时期,周杰龙的研究方向就是人工智能。2011年,他加入百度,曾任百度主任架构师,负责百度搜索机器学习排序、反垃圾和移动云语音搜索、拍照搜索等项目。两年后,他带领团队把深度学习引入到百度搜索引擎,用机器学习方法替代了人工规则,他称这是全球首次成功将深度学习应用于大规模搜索系统。

百度工作4年后,他把目光聚焦在医疗行业,并最终确定在深耕新药研发赛道创业。

作为一名从互联网跨界到医药研发的创业者,他越来越发现做药物研发与搜索引擎的逻辑共性,一个非常基础的环节就是不断验证候选化合物与靶点的匹配过程,这类似于用户在搜素引擎中不断得到相匹配的搜索列表。“这些蛋白其实都是原子构成的,在成药的分子里常用的有机化学元素也就10种,你可以把它看成是10个字母,一个分子式是由10个字母所构成的一个句子,靶点是大分子,相当于很长的篇章,所以它像是句子跟篇章之间匹配的关系。”

经过近一年的调研后,2018年,望石智慧正式成立,周杰龙带领团队正式利用AI技术新工具专注早期新药研发。

应用深度学习,在10^60化学空间中搜索有效分子

一般而言,新药研发要先确定靶点,然后去做化合物的发现以进行药物候选,候选药物审批过关后去申报IND,临床试验后才能最终申报上市。总之,这是一个产业链很长的行业。而在药物发现过程中,AI在每一环节都可以发挥作用。

要发现一种新药,相当于要从10的60次方化学空间里去寻找一个有效化合物分子,这是一个庞大空间的搜索过程。

早期,化学家通过已有的医药研发知识,比如在了解靶点架构的基础上展开医药设计,但有时需要的靶点结构并没有被测定,只能找到少数合适的分子化合物。不过,AI的出现可以从已有的庞大药物数据中挖掘更多靶点结构,从而给人类专家在早期药物设计上提供更多思路。

“这就好比要装修一个房子,人类设计师凭个人经验可能只能想出几种构图,但AI学习了大量的建筑和装修设计数据后能推荐出数十种甚至上百种构图,这样就能辅助人类设计师发现新颖的房屋设计图。”周杰龙对AI科技大本营(ID:rgznai100)解释。

当前,深度学习已经在CV、NLP等领域展现出强大的能力,同样地,也可在药物研发的早期环节药物设计阶段发挥强力作用。

药物设计一般会经历多个环节,包括候选分子库生成、分子活性预测、分子性质预测、分子结构优化等。基于GAN和ANN的候选分子库生成技术已得到普遍应用,并展现出良好的性能。机器学习一直是分子活性预测的重要工具,在深度学习发展以前,各种传统的机器学习方法(包括SVM,RF等)已得到普遍应用,并成为非常有竞争力的预测手段。近年来,深度学习技术和计算能力的发展,带来更大的应用空间,研究人员开始逐步采用3D CNN和GCN等网络技术,展现出更优的性能和潜力,为药物设计提供更有效的手段。

对于早期新药发现的AI技术链条,不同的环节有不同的技术路线。周杰龙介绍,通过机器学习,尤其深度学习来做化合物发现,会借鉴搜索推荐技术来预测其一系列性质。而逆合成反应可能又会用翻译模型进行逆合成反应路线设计和分析。最后,信号通路是蛋白与蛋白、基因和蛋白之间的相互作用网络,概率图模型则可以应用到信号通路研究进行建模和推断。

基于上述AI技术,望石智慧目前构建了面向小分子新药发现的智能化药物分子设计及知识图谱两大平台。

两大新药研发的“杀手锏”,覆盖药物早期发现

智能化药物分子设计平台是借助分子进行药物设计,针对药物设计前期的苗头、先导以及候选药物环节,望石智慧用产品的不同子模块去解决对应的问题。

“一个分子可以认为是由骨架和药效团构成,类似于树干和树枝的关系。在药物设计中,骨架跃迁好比对药物分子进行树干部位的修改,而骨架衍生则是对分子的树枝进行变化。”周杰龙解释说,通过骨架跃迁,药物化学专家可以找到破专利的新分子,然后通过骨架衍生找到先导化合物,之后通过分子优化模块,去改善先导化合物的某个性质,在此基础上设计出质量更好的新分子。

在技术上,这三个子模块也有不同的目标和实现方法。

骨架跃迁中一个重要的目标是,找到从整体和药效团角度来看都与输入的参考分子比较相似的分子。因此这里可以借用很多深度学习算法模型,例如语言模型中的翻译模型,将两个相似分子分别看成两种不同的语言,但它们都有核心相同的内容。这样就可以借助模型生成大量相似的分子,供后续筛选、排序使用。后续的筛选和排序算法也涉及到很多深度学习或机器学习方法,是一个很复杂的系统。

骨架衍生是为了从一个不错的骨架生成更有活性的分子,模型能够根据骨架学习到该骨架背后的靶点信息,从而更好地生成可能的侧链。

而分子优化是为了获得在某个性质上更优质的分子,在有一个比较准确的评价方法基础上,可以通过强化学习等方法对整个分子生成过程中进行策略的调整,同时也限制分子生成的相似度,这样来保证生成的分子具有更优质的性质。

目前智能化药物分子设计平台已在学术界和工业界推广使用。

另一方面,望石智慧的药物知识图谱平台成为药物研发中的另一关键利器。

药物知识图谱平台将为药物研发算法模型提供源源不断的高质量数据,同时,由于基于知识与情报的AI医药研发领域是以专利为核心,所以药物知识图谱平台还可以提供靶点、适应症、药物以及基因相互作用和属性信息,帮助药企在立项、调研等工作中提供有价值的参考信息。

深度学习技术在知识图谱中的发挥依赖于大规模高质量数据。公开的专利和发表的文献是药物数据的重要来源,CV和NLP技术是数据的自动化解析和知识图谱构建的手段。

周杰龙表示,对于早期的小分子新药发现,这两大平台已基本涵盖了应有的功能,这也是望石与药企展开项目合作的基础。但由于医药研发周期比较长,望石智慧会在新药发现的不同阶段提供相应价值进行变现。

“不同于基于文本的搜索推荐,上线小流量验证都在线上完成,迭代非常快,但做新药发现无论是推荐一条合成路线还是分子设计,需要花几个月时间才能够把分子合成结果进行反馈。”他说。

当然,目前的AI平台设计也需要不断做技术迭代,包括解决多靶点的问题,与DNA编码化合物库技术、高通量技术以及其他技术的结合。更重要的是,借助平台与合作方进行深度落地实验。一方面他们需要用历史数据进行回顾,确保算法性能,另一方面也需要专家把控,来确定化合物的效用,如此才能验证平台的能力。

目前望石智慧有多个合作项目,其中一个项目是寻找新冠病毒的特效药。今年2月初,通过其两大平台,他们利用新冠病毒RNA的聚合酶抑制剂和核酸,对几十篇新专利进行信息挖掘,运用知识图谱技术进行结构化梳理,找到1400多个化合物并将相应化合物信息与医药机构进行公开分享。

同时他们对新冠病毒RdRp靶点利用计算做了同源建模,利用分子动力学对该复合物进行模拟,然后基于望石智慧分子设计平台,将分子和靶点RdRp进行对接。目前,他们正在与中国医学科学院协和药物所合作一项新冠项目。

结语

2017年,AI+医学影像在资本的助推下成为创业风口,伴随2020年新冠疫情的发生,AI医药研发也旋即升温。

周杰龙认为,公众对这一行业的认知更加迫切,也更明晰,他相信未来十年是中国新药研发的“黄金十年”,而AI会起到非常重要的作用。

他预测,未来2-3年是证明AI技术辅助医药研发的一个非常关键的时期。“ 一个候选药物从早期研发到进入临床要几年时间,如果有多个AI设计的药物进入临床,应该就足以说明这件事情的价值非常大,临床试验成功当然更好。”

望石智慧正在朝这一目标前行。3月中旬,他们宣布融到了由美元基金长岭资本和线性资本联合投资的近千万美元A轮融资,计划下一阶段在核心产品研发,加强与药企CRO上下游之间的合作,以及在引入更多AI和药物研发优秀人才等方面进行投入。

“AI技术生态论”近期系列文章:

第12期:循环智能杨植麟:“人机耦合”将是对话语义应用的新趋势

第11期:堪称奇迹!8天诞生一个产品,这家创业公司做到了

第10期:红外光抗疫、成功预测新基建,投资280家企业的光学博士到底是谁?

欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

推荐阅读

  • GitHub标星2000+,如何用30天啃完TensorFlow2.0?

  • 8比特数值也能训练模型?商汤提训练加速新算法丨CVPR 2020

  • 400 多行代码!超详细中文聊天机器人开发指南 | 原力计划

  • 微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!

  • 机器学习项目模板:ML项目的6个基本步骤

  • BM、微软、苹果、谷歌、三星……这些区块链中的科技巨头原来已经做了这么多事!

  • 你点的每个“在看”,我都认真当成了AI

前百度主任架构师创业,两年融资千万美元,他说AI新药研发将迎来黄金十年...相关推荐

  1. 前百度主任架构师创业,两年融资千万美元,他说 AI 新药研发将迎来黄金十年...

    「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...

  2. ArchSummit讲师专访:百度主任架构师廖若雪谈搜索新时代

    编者按:由InfoQ中文站主办的首届International ArchSummit架构师峰会即将召开.我们也对一些专题的讲师进行了采访,谈谈他们要讲的议题. \ 廖若雪,百度主任架构师,现在主要负责 ...

  3. 大数据现状和未来展望--百度大数据主任架构师马如悦访谈

    导读:6 月 1 ~ 2 日,GIAC 全球互联网架构大会将于深圳举行.GIAC 是一个面向架构师.技术负责人及高端技术从业人员的技术架构大会.今年的 GIAC 已经有腾讯.阿里巴巴.百度.今日头条. ...

  4. 大数据现状和未来展望——百度大数据主任架构师马如悦访谈

    在大会前夕,高可用架构采访了本届 GIAC大数据分论坛 出品人马如悦,就目大家广泛关注的大数据方面的问题进行了访谈. 马如悦,百度大数据主任架构师,当前是百度大数据技术总负责人,百度云数据分析产品技术 ...

  5. 作者:蒋凡(1979-),男,百度外卖研发中心技术委员会主席、主任架构师,中国计算机学会专业会员。...

    蒋凡(1979-),男,百度外卖研发中心技术委员会主席.主任架构师,中国计算机学会专业会员,主要研究方向为物流调度.推荐系统.数据挖掘.

  6. 作者:蒋凡(1979-),男,百度外卖研发中心技术委员会主席、主任架构师,中国计算机协会专业会员。...

    蒋凡(1979-),男,百度外卖研发中心技术委员会主席.主任架构师,中国计算机协会专业会员,主要研究方向为物流调度.推荐系统.数据挖掘.

  7. 【科创人上海行】扶墙老师王福强:架构师创业要突破思维局限,技术人创业的三种模式,健康第一...

    与上千位科技创业者共同关注科创人的成长心路. 那些曾经在圈内小有名气.被称为"老师"的技术前辈们,他们如何跨越人生转型的鸿沟?经历了多少曲折?如今过得如何? 左耳朵耗子.高春辉.王 ...

  8. aws云平台架构师 收入_收入15万美元的云架构师可能被低薪

    aws云平台架构师 收入 根据该消息来源, "云架构师的年收入在14万至15万美元之间". 我支付的费用越来越少,具体取决于建筑师的住所. 但是,具有良好的经验和行之有效的成功经验 ...

  9. ​芯片大神,英特尔、AMD、特斯拉前首席芯片架构师 Jim Keller 加盟 AI 初创公司...

    作者 | EETOP  责编 | 张文 出品 | CSDN(ID:CSDNnews) 2020 年 6 月 11 日,英特尔宣布负责硅工程部门(Silicon Engineering Group)的高 ...

最新文章

  1. Ashby diagram
  2. 工作270:el-dialog的open回调
  3. vue 根据swagger 生成接口_采用vue编写的功能强大的swagger-ui页面
  4. Python 3.8.3 发布
  5. python中访问lmdb
  6. L298Nnbsp;驱动模块的应用
  7. .net cms系统
  8. 山东理工大学ACM平台题答案 1235 计算球体积
  9. 制造业英文简写中文对照之二(轉自ITPUB)
  10. 使用JS获取当前地理位置方法汇总
  11. matlab拟合图形边界,matlab - MATLAB 3D曲线拟合,带有附加边界 - SO中文参考 - www.soinside.com...
  12. for_each(pbegin, pend, work);#include<algorithm>
  13. 欠债还钱,天经地义(二)
  14. RHEL5配置Samba服务器实现文件共享
  15. MC.9,库存分析,LIS之乱谈一气
  16. 步进电机驱动器驱动不了电机的一种情况及解决方案
  17. Word粘贴快捷键不能用
  18. 鸿蒙与苹果性能,任正非谈鸿蒙:两三年,鸿蒙系统可与苹果系统相媲美,能否现实?...
  19. python正则表达式如何匹配“+”,“*”
  20. 在命令行cmd中运行带相对路径的py脚本时, 找不到路径的解决方案

热门文章

  1. 发改委:加速布局车联网与自动驾驶
  2. 润乾报表永久授权说明
  3. Ubuntu Vim YouCompleteMe 安装
  4. Verilog与SystemVerilog编程陷阱:怎样避免101个常犯的编码错误
  5. Journey源码分析四:url路由
  6. C primer plus 练习题 第三章
  7. Selenium 2 WebDriver 多线程 并发
  8. Java中对clone对象的认知
  9. Matlab使用笔记
  10. Python3 调试技巧 —— 死循环