图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用
转载公众号 | DataFunSummit
分享嘉宾:黄柯鑫 斯坦福大学 博士生
编辑整理:元玉蒲 西北大学
出品平台:DataFunTalk
导读:大家好,我叫黄柯鑫。我现在是斯坦福大学的计算机科学博士第一年级,研究方向是机器学习在生物医疗的实际应用场景方面的挑战。本次分享题目为分子网络中的图机器学习,主要介绍图机器学习在生物系统图上的应用。
人体的很多功能是由复杂的小的生物实体进行反应,比如说话、吃东西的背后有各种细胞在工作。比如:在吃东西的时候,食物会引起一系列的信号到细胞,激发一系列的反应,翻译为蛋白质,不同的蛋白质合作形成功能,如果某些基因不工作会引起疾病。生物医疗领域是一个非常复杂的图,生物实体有蛋白质、RNA、药物、疾病等,实体之间的链接代表关系,设计药品解决有问题的蛋白质。
生物医学是一个多尺度的网络,现在有很多知识图可以回答一些生物问题。如果想知道这能不能解决病,即要预测药和疾病会不会有反应。如果预测是高质量的,就可以解决在传统的生物领域要花费很长时间的问题,达到加速解决过程的目的。
今天我会从下面的5个方面讲图机器学习在生物系统中的方向和实际应用。
01
将GNN应用于分子网络时的特殊考虑
第一个我会讲GNN应用到生物系统上需要注意的地方。GNN开始训练的时候,利用homophily principle的性质,即相邻节点的性质相似。
把邻居节点传给中心目标节点,在信号处理角度就是促进节点的embedding保持一致。这个性质适合于social网络,但并不适合于molecular网络。
Direct similarity指的是social网络,节点之间的边代表similarity,但生物网络不是这样的。
举个例子,药A和目标连接(会反应),但是药A和目标不是同一类型,所以药A和目标的embedding不同。假如药A和药B同时和目标反应,药A和药B不会反应但具有相似的embedding,标准GNN具有这样的特征。
所以我们提出了SkipGNN,将药A和药B连接在一起,同时将药A、药B与目标的边断开。在新的图上做GNN,会促进连接的节点相似,间接达到了促进Skip similarity。
实验结果发现,SkipGNN的效果相比DTI、DDI、PPI、GDI得到提高。
我们还找到了一些基于SkipGNN的药,但无法用在其他方法。
在传统的GNN中,基因和药是混在一起的。但是我们想要分离基因和药,SkipGNN是可以达到这样的效果。
第一部分,我想强调的一点是,在从传统GNN到生物图,不能直接应用,因为生物系统图和其他网络相比有很多不同的性质。在这其中也有很多机会发现生物图的性质去设计新的图机器学习的方法。
02
生成可操作的假设
之前我们注重的是如何做预测,但更加重要的是,如果生物科学家不懂机器学习,是不会相信AI模型产生的东西,所以要产生更多的信息。生物学家需要的是一个假设,因为蛋白质和基因有关系,所以蛋白质和药可以有反应,这才是生物学家更加感兴趣的东西。
我们研究的一个问题就是Drug-Drug Interaction(DDI),DDI是两种药物共同起效时造成药效的改变。在美国,每年大概有20万次住院就诊。
为什么DDI会是一个问题?FDA批准3568种药,其中有超过100种相互作用的类型,2种药物的DDI有3568×3568×100=1273062400种,更不要说多种药物的DDI。不可能在体外实验中验证,更不用说严格的临床试验了!我们可以输入药物的信息到机器学习模型中,就可以计算出各种DDI类型。
我们不仅仅想做预测,还想产生推理路径和可操作的假设。在系统生物图上聚焦到2种药物,这2种药物有很多连接节点,就可以找到节点的关系,就可以分析药物的反应。
这是非常好的图示,2个感兴趣的节点Melatonin和Thiamine输入到生物网络里,提取到子图。预测边对于prediction是否重要,若重要则予以保留,用保留的边做最后的预测,经过不断训练得到的边就是推理路径。
SumGNN的实验结果也非常不错。
比如我们感兴趣的是Paroxetine和Hydroflumethiazide的2种节点,绝大部分边已经被去掉。当同时吃上面2种药的时候,Orthostatic hypotension和Aplastic anaemia这2种疾病的发病率会提高。
03
在更深层次使用GNN——领域科学家的视角
第3部分我们更加往领域科学家使用的角度去思考,不仅仅有解释、预测、可操作的假设,更重要的是接口是什么?
GNN在生物方面的目标是生成模型的预测和解释,让领域科学家更好地理解AI的解释结果。
我们最近的工作是和一些专门做HCI(Human-Computer Interaction)的学者合作研究,根据不同的Graph XAI展示给用户。我们提出了3种方法:
Neighbor Nodes:分别提取疾病和药物中重要的基因,逐渐细分并构造树结构。
Subgraph:构造节点之间的知识图,通过去掉或保留边,找到节点之间的连接关系。
Paths:模拟领域科学家思考药物和疾病之间的关系,提取节点之间的路径,可以发现第3种方法更好。如何展示给领域科学家是非常重要的。
04
少数据转化生物医学图
第4部分我想讲一个具体的应用,在少数据量的前提下用图的方法做转化生物医学。
我们最感兴趣的是人类的问题,但是我们在实验的时候不可能直接用于人类,而是使用小白鼠、猴子。如何从其他动物转换到人类身上就是一个重要的问题,因为动物模型和人类模型是存在差异的。
生物是一个少数据的问题,实验也是非常昂贵的,所以Few-shot learning是非常重要的事情。GNN可以获取20%~30%的节点,传统的GNN是无法学习的。
综合刚提到的2个挑战,如何根据少数的标签生成从未见过的图是一个问题。
Meta Learning就可以很好地解决这个问题,我们把它抽象成3个问题:
第1个问题:有1个图和不同的label set,如何从已知的label得到未知的label是一个问题。
第2个问题:有相同的label和不同的图,如何根据某几种物种的图生成人类的图是一个问题。
第3个问题:是前2个问题的结合体,有不同的图和不同的label。
我们提出了一个方法叫G-Meta,用一个简单的思路有效地解决上面的3个问题。已知有不同的图,对于每个节点提取子图,利用子图之间的相似性进行GNN学习。
前人的一些方法只能解决一部分的settings,但是我们的G-Meta方法可以解决全部的settings。G-Meta可以适用于非常大的图,因为我们提取子图并且只需要考虑子图这部分。
05
治疗发现中的图机会
最后我想讲一下在治疗发现方面我们团队的解决方法。
现在小分子药非常多,效果也比较好。但是小分子药的数量逐年在下降,有新的抗体药物能解决一些小分子药无法解决的问题,比如抗体药、中药、疫苗、基因编辑、CAR-X、数字治疗等。
这里具体举一些图的例子,比如:分子图、蛋白质图、细胞关系网、知识图等,非常多的图被使用得很少。
找到有意义的治疗发现的数据集有助于使用上面的图。
我们最近的工作是治疗学数据共享(TDC)来解决这个问题,TDC有基于22个学习任务的66个learning-ready数据集、开发工具、库、排行榜和社区资源的生态系统,包括数据方法、系统模型评估策略、有意义的数据分割、数据处理器和分子生成预测。
TDC覆盖了治疗学机器学习的生活圈。
我们提供了22个tasks从而解决了制定有效的治疗学机器学习任务。
66个ML-ready数据集包含15919332个数据点,可以直接使用处理好的数据。
训练机器学习模型,我们提供了一些数据方法,如:数据分割、分子生成预测、数据处理等。
评估模型性能。
与最先进的相比。
只需要3行代码,就可以下载到数据。
这是一个数据方法的例子,比如想从SMILES转换到DGL的图,用3行代码就可以实现转换。
这是TDC的简介和连接。
今天的分享就到这里,谢谢大家。
分享嘉宾:
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用相关推荐
- 【CS224图机器学习】task1 图机器学习导论
前言:本期学习是由datawhale(公众号)组织,由子豪兄讲解的202302期CS224图机器学习的学习笔记.本次学习主要针对图机器学习导论做学习总结. 1.什么是图机器学习? 通过图这种数据结构, ...
- 图机器学习——5.9 图神经网络:图的增广
由于在实际的训练中,原始的图结构往往不是训练的最优图结构.下面我们考虑如何对图进行增强(graph augmentation),这个类似于数据扩增,提升训练效率,模型的泛化能力及测试集的准确率. 这种 ...
- 2022图机器学习必读的11大研究趋势和方向: 微分方程/子图表示/图谱理论/非对称/动态性/鲁棒性/通用性/强化学习/图量子等...
来源:智源社区 本文约6900字,建议阅读10+分钟 本文为你总结了图机器学习过去一年中的研究亮点,并对该方向在 2022 年的发展趋势进行了展望. [ 导读 ]几何机器学习和基于图的机器学习是当前最 ...
- 2021斯坦福图机器学习课程CS224W开课了,Jure Leskovec主讲
作者|小舟.魔王 来源|机器之心 2021 年第一个月刚刚过半,有些学校的新学期就已经开始了. 图是一种强大的数据结构,可以用于建模许多真实世界的场景,图能够对样本之间的关系信息进行建模.但是真实图的 ...
- 图机器学习【从理论到实战】
图机器学习 1.图机器学习导论 1.1图神经网络与普通神经网络的异同 2.图的基本表示和特征工程 2.1 图的基本表示 2.1.1 图的本体设计 2.1.2 图的种类 2.1.3节点连接数(度) 2. ...
- 2021 几何图机器学习大盘点 | 几何深度学习先驱 Michael Bronstein长文解读
导读:几何机器学习和基于图的机器学习是当前最热门的研究课题之一.在过去的一年中,该领域的研究发展迅猛.在本文中,几何深度学习先驱 Michael Bronstein 和 Petar Veličkovi ...
- 北京大学崔斌教授组招收图机器学习、AutoML等方向科研实习生
来源:AI求职 北京大学 崔斌老师现为北京大学计算机系教授.博士生导师,担任计算机系副主任.网络与信息系统研究所长.课题组长期在 SIGMOD.VLDB.ICML.AAAI.KDD 等一流会议发表论文 ...
- 会议交流 | DataFunSummit 2022:图机器学习在线峰会
深度学习模型是当今人工智能研究的核心.众所周知,对欧几里得数据(例如图像)和序列数据(例如文本)具有颠覆性学习能力的深度学习技术不能直接适用于图结构数据.这种差距推动了图深度学习研究的浪潮,在学术界不 ...
- 手撕图机器学习,图神经网络
手撕图机器学习,图神经网络 写在前面 & 配套链接(访者必读) 图的基本表示 图的基本参数 图的类别 节点连接数(Node degree) 图的矩阵表示(邻接矩阵) 连接列表和邻接列表 其他图 ...
最新文章
- trunk中继链路,以太网通道
- Hibernate事务处理
- 微信公众号自动回复 node
- C# 中的 lock的陷阱
- SDWebImage实现分析
- 开发整理笔记Markdown基本使用
- XCode各种告警处理
- phpstudy下载及简单使用教程
- Nginx+uwsgi+Django项目部署后,url长度限制修改
- 百度程序员开发避坑指南(前端篇)
- android获取全部ram和rom,手机中的RAM和ROM,你懂得多少?
- Mac 上的系统监控工具,可以实时监控系统的 CPU 使用率、内存使用率、硬盘使用、网速、电池等信息
- 2019级软件工程应用与实践-人工智能快递柜(代码分析9)
- linux gif录制工具,Linux下的GIF录制
- dellr320故障_用于对 PowerEdge 服务器进行高级故障处理的诊断工具
- 韩剧你是我的命运分集大结局
- AMD皓龙系列服务器CPU,霄龙PK皓龙!AMD CPU 10年历史对比:一步登天
- 2345 php笔试题,2345浏览器笔试题
- 纯css打造超能陆战队--大白
- 2022春秋杯 勇者山峰 Misc-Tiger WP
热门文章
- A star算法优化二
- Android ANR视角InputDispatcher
- 进程间的通信——无名管道
- ViceDinoSpecCtrl.cpp
- imx6 配置串口波特率_RS232串口多机通信
- [已解决]fdfs-client-py==1.2.6安装失败
- 数据结构之图:用图解决案例,Python代码实现——24
- 二十六、PHP框架Laravel学习笔记——模型的一对多关联
- python网络爬虫系列(三)——cookie的原理、保存与加载
- LeetCode 1944. 队列中可以看到的人数(单调栈)