步入2021,大热的GNN会在哪些应用领域大展拳脚呢?
作者|Sergei Ivanov
来源|机器之心
由于 GNN 在图节点之间强大的建模功能,使得与图分析相关的研究领域取得了突破。本文我们将介绍关于 GNN 热门应用研究。
近年来,由于图结构的强大表现力,用机器学习方法分析图的研究越来越受到重视。图神经网络(GNN)是一类基于深度学习的处理图域信息的方法。由于其较好的性能和可解释性,现已被广泛应用到各个领域。
在本文中,机器学习研究科学家 Sergei Ivanov 盘点一下 2021 年需要了解的 GNN 应用热点,涵盖了推荐系统、组合优化、计算机视觉、物理 / 化学以及药物发现等领域。
推荐系统
图结构数据是来自用户与电子商务平台上产品交互的上下文中,因此,许多公司采用 GNN 进行产品推荐。一个标准的案例是对用户于商品的交互关系进行建模,然后以某种形式的负采样损失学习节点嵌入,并使用 KNN 索引实时检索给定用户的相似商品。首批使用这种 pipeline 的公司是 Uber Eats,该公司通过 GraphSage 网络推荐食品和餐馆。
此外,对于食品推荐,由于推荐的地理限制,生成的图相对较小,但一些公司在数十亿个边缘的规模上成功使用了 GNN。中国零售业巨头阿里巴巴在拥有数十亿用户和产品的网络上使用图嵌入技术和 GNN。构建这样的图可能是工程上的噩梦,但是对于最近的 Aligraph pipeline 而言,仅需五分钟即可构建具有 4 亿节点的图。Aligraph 支持高效的分布式图形存储、优化采样操作符以及大量内部 GNN。它目前部署在阿里巴巴的多个产品中,用于推荐和个性化搜索。
阿里巴巴、 亚马逊和许多其他电商公司使用 GNN 来增强推荐系统的能力。
类似地,Pinterest 提出了 PinSage 模型,该模型使用个性化 PageRank 有效地对邻域进行采样,并通过在每个邻域中聚合来有效地更新节点嵌入。他们的后续 PinnerSage 进一步扩展了该架构,用以处理多种嵌入问题,以满足不同的用户需求。这些只是该领域的几个值得注意的例子(你也可以查看 Amazon 关于知识图谱和 GNN 的研究或 Fabula AI 使用 GNN 进行虚假新闻检测的研究,但很明显,如果来自用户互动的信息足够强大的话,GNN 会在推荐系统问题上得到不错的结果)。
组合优化
组合优化(combinatorial optimization, CO)问题的求解是金融、物流、能源、生命科学和硬件设计中的关键。这些问题大多是用图表示的。因此,上个世纪的大量研究都集中在更有效地解决 CO 问题的算法上;然而,机器学习驱动的现代计算革命为解决此类问题的方法提供了一种引人瞩目的新方式。
谷歌大脑团队使用 GNN 优化了新硬件(如 Google 的 TPU)芯片块的功耗、面积和性能。计算机芯片可以理解为由内存和逻辑部件组成的图,每个图均由其部件的坐标和类型表示。确定每个组件的位置,同时遵守密度和布线拥塞的限制,这是一个费力的过程,但仍然是电气工程师的工作重点。谷歌大脑团队利用 GNN 模型与策略和收益强化学习(RL)功能相结合,生成优化的电路芯片布局,甚至优于手工设计的硬件布局。
与国际象棋和围棋相比,芯片布局的复杂性。
另一种方法采用不同的途径,将 ML 模型集成到现有求解器中。例如,Gasse 等人在论文《Exact Combinatorial Optimization with Graph Convolutional Neural Networks》中提出了一种用于学习分支定界变量选择策略的图网:混合整数线性规划(MILP)求解器中的关键步骤。通过这种方式,学习到的表示试图最小化求解器的运行时间,并显示出在推理时间和决策质量之间的良好平衡。
在 DeepMind 和谷歌的最新研究《Solving Mixed Integer Programs Using Neural Networks》中,图网被用于 MILP 求解器中的两个关键子任务:联合变量分配和限制目标值。他们提出的神经网络方法是包括 Google 生产包装和计划系统在内的庞大数据集上现有求解器速度的 2 至 10 倍。有关此主题的更多内容,请参考《Reinforcement Learning for Combinatorial Optimization: A Survey》等综述论文。
计算机视觉
由于世界上的一切对象是密切联系的,包含这些对象的图像也可以从 GNN 中受益。感知图像的其中一种方法是通过场景图(论文《Scene Graph Generation by Iterative Message Passing》),即出现在图像中的对象以及它们之间关系的集合。场景图已在图像检索、理解和推理、字幕生成、视觉问答以及图像生成中得到了应用,该方法可以极大地提高模型的性能。
在 Facebook 的论文《Specifying Object Attributes and Relations in Interactive Scene Generation》中,研究者可以将 CV 数据集 COCO 中的对象放置在画布中,并指定对象的位置和大小以创建场景图。然后他们使用 GNN 对图像进行编码以确定每个对象的嵌入,进而将其与 CNN 一起使用以生成对象的 mask、边框和外观。最终,用户可以方便地在图形中添加新节点(指定该节点的相对位置和大小)以使 GNN/CNN 使用这些对象生成图像。
使用场景图生成图像。
CV 中图像的另一个来源是两个相关图像的匹配,这是一个经典问题,过去采用手工描述符实现。3D 图形公司 Magic Leap 发布了一种名为 SuperGlue 的 GNN 体系架构,该架构可在实时视频中执行图形匹配,用于 3D 重建、位置识别、本地化和映射(SLAM)等任务。SuperGlue 包含一个基于注意力的 GNN,它学习图像关键点的表征,进而馈入匹配的最优传输层。该模型在现代 GPU 上实时执行匹配,并且可以轻松集成到现代 SLAM 系统中。有关图形与计算机视觉相交的更多内容,请查看综述文章《Computing Graph Neural Networks: A Survey from Algorithms to Accelerators 》。
物理 / 化学
生命科学得益于将粒子或分子之间的交互表示为一个图,然后用 GNN 预测这类系统的性质。在 Facebook 和 CMU 的开放催化器项目(Open Catalyst Project)项目中,最终目的是找到储存太阳能或风能等可再生能源的新方法。其中一个可能的解决办法是通过化学反应将这种能量转化为其他燃料,例如氢。然而,这需要发现能够以高速率驱动化学反应的新催化剂,并且诸如 DFT 的已知方法成本高昂。开放催化剂项目开源了一个最大的催化剂数据集以及 DFT 弛豫和 GNN 基准方法。目的是希望找到新的高效且低成本的催化剂分子。
吸附物(小连接分子)和催化剂表面的初始和松弛状态示例。
DeepMind 的研究者还应用 GNN 来模拟水或沙等复杂粒子系统的动力学过程。通过在每一步预测每个粒子的相对运动,就有可能合理地重建整个系统的动力学,并进一步了解控制运动的基本规律。例如,这种方法被用来理解玻璃化转化,这是固态理论中最有趣的尚未解决的问题之一。使用 GNN 不仅可以模拟过渡过程中的动力学,还可以更好地理解粒子如何根据距离和时间相互影响。
此外,位于美国的物理实验室费米国立加速器实验室(Fermilab)致力于将 GNN 迁移到 CERN 的大型强子对撞机(LHC)的结果分析上。其目标是处理数百万张图像,并选择那些可能与发现新粒子有关的图像。他们的任务是在 FPGA 上实现 GNN,并将其与数据采集处理器集成,这样就可以在世界各地远程运行 GNN。要了解 GNN 在粒子物理中的更多应用,请查看 Jonathan Shlomi 等人论文《Graph Neural Networks in Particle Physics》。
药物发现
制药公司每年都会投入数十亿美元的研发资金用来寻找药物开发的新模式。在生物学中,图可以表示为不同规模的交互。在分子水平上,图的边缘可以是分子中原子之间的键或蛋白质中氨基酸残基之间的相互作用。而在更大的范围内,图可以表示更复杂的结构(如蛋白质、mRNA 或代谢物)之间的相互作用。根据特定的抽象层次,这些图可用于目标识别、分子性质预测、高通量筛选、新型药物设计、蛋白质工程和药物再利用等领域。
基于 GNN 的药物发现时间表。Gaudelet et al., 2020
或许,使用 GNN 进行药物发现最有希望的是 2020 年 MIT 研究者以及合作者发表在《细胞》(Cell)上的文章《A Deep Learning Approach to Antibiotic Discovery》。在这项研究中,他们提出了一种被称为 Chemprop 的深度 GNN 模型,用来预测分子是否具有抗生素特性:对大肠杆菌的生长抑制作用。在仅使用 FDA 批准的药物库中的大约 2500 个分子对其进行训练后,Chemprop 被应用于更大的数据集,包括包含 Halicin 分子的 Drug Repurposed Hub。
值得注意的是,以前仅对 Halicin 分子进行过研究,因为其结构与已知抗生素相差很大。然而,实验室进行的体内体外临床试验都证明了 Halicin 是广谱抗生素。针对强大 NN 模型的广泛基准测试表明了在 Halicin 发现中使用 GNN 学习特征的重要性。除了这项研究的实用性之外,Chemprop 架构也值得更多的关注。与其它 GNN 模型不同,Chemprop 有 5 层和 1600 个隐藏维,在此类任务上参数远远多于典型的 GNN。当然,这只是少数即将在 AI 中发现的新医学之一。有关此主题的更多结果,请查看最近的一篇综述文章《Utilising Graph Machine Learning within Drug Discovery and Development》和博客文章《What 2021 holds for Graph ML?》。
原文链接:
https://medium.com/criteo-engineering/top-applications-of-graph-neural-networks-2021-c06ec82bfc18
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
步入2021,大热的GNN会在哪些应用领域大展拳脚呢?相关推荐
- 百度发布2021高考十大热搜专业!最火爆的专业竟然是 ....
近日,百度联合中国教育在线发布<2021年高考搜索大数据报告>,报告汇总了2021年以来搜索热度增长最快的十大热搜专业. 进入5G时代浪潮,社会也即将迎来巨变,哪些专业受到了大家的关注?下 ...
- 元宇宙大热后将陷低潮, 虚实互联网更准确, 2030前后才可能全面热启
作者:DCCI*未来智库.未来实验室专家胡延平 来源:今日头条 3个判断.3个野心.技术要件6个瓶颈:虚实互联网这个概念元宇宙信徒听起来有些扎心但真实恰当...... 扎克伯格称Facebook要从社 ...
- 大热荒野敲开资本大门后,精致露营就留得住年轻人吗?
(图片来源于网络,具体出处见水印,侵删) 文 | 易不二 来源 | 螳螂观察(ID:TanglangFin) 精致生活已经卷到户外了. 在今年最火热的露营话题里,低调奢华.岁月静好的精致露营风几乎&q ...
- 2021 大前端技术回顾及未来展望
作者:腾讯 IMWeb 前端团队 2021 年大前端领域没有出现革命性的明星项目,但在各个细分的技术领域都有一定的拓展与深耕,有很多新技术或者新特性有望在 2022 年迎来爆发.在互联网 " ...
- 2010年全球移动行业回顾:iPad大热 中国崛起
导语:美国媒体今天撰文回顾了2010年全球移动行业的发展状况,同时还对2011年的前景进行了展望. 以下为文章全文: 这一年,电脑真的实现了移动化. 事实上,自2007年以来,苹果iPhone用户就已 ...
- 盘点系列:一度大热的TWS耳机今年表现如何?
根据Canalys最新市场研究数据显示,全球智能个人耳机市场在2022年Q3已连续第二个季度出现下滑,出货量同比下降4%至1.136亿台. 而TWS是唯一出现增长的子类别! Q3真无线耳机TWS销量达 ...
- 2022年新消费趋势洞察(护肤篇):时下大热的美妆成分全面复盘
在今年过去的三个季度,美妆市场经历了一段相对平稳的发展阶段.今年京东美妆市场累计销量(1月至9月)约2亿件,销售额约310亿元,同比分别增长22%和10%. 从2021年1月至2022年9月近两年的趋 ...
- 元宇宙大热,是风口还是虎口
说起当下科技界和投资界的热门词汇,元宇宙应当榜上有名.尽管元宇宙概念最早出现在1992年美国作家尼尔·斯蒂芬森的科幻小说<雪崩>中,但2021年元宇宙却突然火爆各界,因此,2021年也被称 ...
- 《2021大数据产业年度创新服务产品》榜重磅发布丨金猿奖
年度金猿榜单/奖项 本届"数据猿年度金猿策划活动--2021大数据产业创新服务产品榜单/奖项"由金猿&数据猿&上海大数据联盟共同推出. 数据智能产业创新服务媒体 - ...
最新文章
- vuecli 编译后部署_基于vue-cli 打包时抽离项目相关配置文件详解
- THE发布世界大学声誉排名,清华位居全球前10
- PHP5 mysqli 教程
- python查找文件内容_python 查找文件内容
- mysql5.0锁定用户_MySQL系列(五)---总结MySQL中的锁
- 关于ESXI能虚拟出多少个虚拟机和CPU的关系
- Linux Shell常用技巧(五)
- UVALive 7143 Room Assignment(组合数学+DP)(2014 Asia Shanghai Regional Contest)
- DELL XPS 9350 无线网卡DW1820A WIN7驱动异常解决
- Android学习笔记(1)
- url中传递对象参数_在URL参数中传递复杂对象
- 统计学-自然语言处理
- 学习OpenStack之 (4): Linux 磁盘、分区、挂载、逻辑卷管理 (Logical Volume Manager)
- Flutter异步编程async与await的基本使用
- 【传输文件】文件传输协议FTP、SFTP和SCP
- 能够让机器狗学会灭火, ModelArts3.0让AI离我们又近一步
- K8S 搭建 nacos 1.4.1 集群(MySQL 8.0)
- python之叠加两个图片
- 如何在 Mac 上更改 Safari 背景?
- 看,程序员是如何白嫖百度文库的!
热门文章
- oracle备库重启后失去连接,关于dataguard备库宕机后重启后的问题
- json带斜杠java,带斜杠的json解析
- edge浏览器如何把网页放到桌面_最强桌面浏览器
- js锚点定位_overflow属性详解,利用CSS实现锚点定位
- vue路由中设置linkActiveClass
- Vue+axios(interceptors) 实现http拦截 + router路由拦截 (双拦截)+ 请求自带loading效果...
- 团队开发项目-NABCD模型
- 基于IPV6数据包分析(GNS3)
- 树莓派远程连接的三种方式总结
- tomcat 6.0 部署报错信息