图谱实战 | 华农夏静波：深层语义知识图谱在药物重定位中的应用

转载公众号 | DataFunSummit

分享嘉宾：夏静波华中农业大学副教授

编辑整理：王金华电科32所

出品平台：DataFunTalk

导读：自新冠病毒肺炎疫情发生以来，由于传统药物研发周期长，药物重定位（老药新用）成为新冠肺炎药物研发的主要策略。药物重定位是对已经上市或上市失败的药物重新确定治疗适应症。从研发路线上分，药物重定位有对常见药物的新作用进行系统性筛选，也有通过收集一线临床医生的临床经验为线索，更有对过去失败的药物分子进行重新定位研发的策略。

在药物重定位的技术路线中，通过对现有医药文献的分析挖掘从而得到可能适应症的线索，成了开展药物重定位研究的一个基础工作。夏静波老师在本报告的分享中，致力于从医药文献中发现药物和疾病之间的潜在影响关系，从而对现有药物给出新适应症的指引和建议。

夏静波老师此次本次分享题目为“Thematic role语义识别和医药知识精细挖掘”。主要内容为：

医药文献中深层语义的挖掘构建
医药文献中深层语义挖掘的研究范式
深层语义知识图谱在药物重定位中的应用
多模态数据融合
展望与进一步的研究

医药文献中深层语义建模

1. 药物重定位领域概述

药物重定位研究领域中，所采取的数据来源，大多数都是基于医院临床、诊疗上的文本和图像的数据，而本报告主要致力于通过医药文献的数据源来获取一些新的线索。当然，本研究工作的服务对象，也是从试验、医院，到消费者的场景。

本报告聚焦在药物重定位知识图谱的构建，该图谱是生物医药中一个细分领域的知识图谱。首先强调一下生物医药文本挖掘与一般行业知识图谱的区别，生物医药文本挖掘对知识的要求，是更加细粒度的、更加深层的语义，而一般行业知识图谱对知识的要求可能是粗粒度的、浅层的语义。

为什么要重定位？因为新药的研发速度非常慢，一般一个新药的成功研发到上市需要 10 到 15 年；然后是单药物的开发成本非常高，一般是 5 到 9 亿美元；再是审批通过的概率很低，在5000 个申报的测试化合物中仅有 1 个被 FDA 批准开展后续工作，而 100 个申报药物中仅有一个可能被批准上市。

2. 药物重定位典型的例子

以多巴胺为例，它本来只是用于治疗心血管和肾脏疾病，而近年发现可用于治疗多个癌症，它有一个泛癌的治疗效应，其中多巴胺受体家族包含 5 个在信号传导和配体亲和力方面存在差异的标志物蛋白，其异常表达与这些癌症的临床结果相关。

雷帕霉素原用于免疫系统疾病，近年发现其针对胰腺癌能发挥疗效，其中，该药物的靶标蛋白mTOR 是关键标志物。

因此，我们得到启发，是不是能从医药文献中，找到一些能启发药物新用途、新功能的知识？这个知识，可能是深层次的知识，一般很难从药理学、成药学找到背景。

药物重定位的一个典型过程：在很多文章里，都会出现药物、靶向基因，那么，我们可以判别药物的行为，一个基因突变后，蛋白的功能会发生变化；然后药物还可能抑制基因来发生这种变化，如果发现了，是相互抑制的关系，那么，就发现了这个药物的新用处。

因此，为了发现这么一个场景的语义，最重要的工作就是从医药文献中发现生物医药事件。比如，这一个文献：

如果人工来阅读，可以发现一些线索，如标红这些部分：

标红的部分，描述了突变事实、分子的机理、细胞的机理，人类专家可以直接阅读获知，那么机器如何来识别这些线索呢？需要NLP方法来挖掘，这是一个相对比较长线的学习任务。

3. 药物重定位语料的构建

我们课题组开发了一个数据集，从2017年到2019年的数据集的版本，我们的语料库名字为“Active Gene Annotation Corpus (AGAC, V1.0)”。

我们在数据集中，定义了这些实体类型：基因突变、分子活性、细胞活性，分子之间的通路。

我们研究的最终目标——也就是我们所揭示的深层语义，是“在某种外界条件影响下, 基因XXX发生了某种突变, 导致失去或者获得功能, 这与某种疾病的发病原理有关。”

在收集医药文献原始数据后，语料库构建中最核心的工作，就是语料语义角色标注，语义角色标注也叫做语义分析，是用来识别句子中谓语的结构，比如“who did what to whom, where and when”，在给定谓语的情况下标记语义角色。也就是，希望说明“谁、对什么做了什么事情，产生了什么影响。”

在生物医药领域同行，都更加关注两类实体：

致事（Cause）：动作发生的客观原因。
主事（Theme）：性质、状态或变化性事件的主体。

下图，是我们在做语义角色标注过程中具体的一个例子：

在该图中，标注了突变、基因、规则、分子、蛋白质等实体类型，同时在这些实体类型之间构建了导致、类型等关系类型。

医药文献中深层语义挖掘的研究范式

1. 研究范式概述

在生物医药领域的文本分析研究中，主要有如下研究范式：

语言学来搭建 AGAC 语料库用以刻画 LOF/GOF 的语义；
基于文本挖掘来做 NLP 手段用以大规模的语义预测；
基于生物医药背景来做多来源数据的知识关联；
数学模型来做多来源数据下的数据推理和融合。

2. 医药文献中深层语义的挖掘与构建

下图是我们基于上述概念类型所标注的生物医药领域的文本语料。

下图是我们基于语义角色标注构建的知识图谱，我们这里的知识图谱已经是高度结构化、凝练的小规模图谱。

如上面已构建的图谱所示，一个经过标准化后的实体——RS10719突变，能抑制miR-27b小RNA的生物事件，能够促进Luciferase酶的表达，而且它能促进DROSHA基因的表达，从而能促进膀胱癌的发生。这种都是短线条的关系，如果把所有维度的事件、实体、关系都挖掘出来了，那么，我们就能更加容易地还原事件的真相。

回到我们的场景——药物重定位。对于药物功能的发现，对于这么一个小规模、知识逻辑很清晰的图谱，从这里寻找一些重要的基因、RNA的标志物，再去寻找相关药物为靶向的标志物，再把药物引到该通路里来，观察治疗效果，这是很有启发的。

这是我们构建图谱的一个可视化展现：

我们构建图谱的特征是数据量不大，但是来自大量的文献，文献里都隐藏着证据、知识，其可信度很高，每一个知识点都有证据支撑。

深层语义知识图谱在药物重定位中的应用

基于标注构建的知识图谱，怎么应用到药物重定位中？得到该深层语义的图谱后，可以做分析、关联、演算。

1. 如何寻找药物和基因之间的关联？

我们能把医药数据库的文献条目，放到一个二维矩阵里去（下图上半部分）。一般情况下，在这里，基因和疾病之间只有一种关系。

同时，通过上述构建的深层次图谱，我们能从文本里，能发现疾病的多维、深层关系，在这里，基因和疾病有多种关系。这里可以把这些数据放到多维矩阵中，这就是Tensor（张量）。

然后，就是利用模型，进行矩阵和张量的联合分解，包含A矩阵、V矩阵，这里A矩阵既能从医药数据库的文献条目获得，也能从构建的深层次图谱获得，通过融合计算，得到最终嵌入的A矩阵。最终，通过嵌入计算得到了基因和疾病之间的关联关系。

2. 质量评价

我们把我们工作跟同行也做了一个比较，比较下来，我们的工作还是有成效的。

多模态数据融合

1. 多模态数据融合的意义

前面通过文本挖掘所获得的精细化语义，描述的是基因上发生的突变，非常具体的突变类型，现在简称它们为“类型突变”。

但生物领域里研究更多的，数据量也更为庞大的，是关联突变。它并非描述谁在影响谁的因果，而是两者之间是否具有关联性。下图右侧是一个曼哈顿图，纵坐标是P1值的负log，横坐标是基于染色体排序得到的卷积，这是生命主角数据的研究做法，它主要发现哪些突变和基因有什么关系。

而下图的左侧，是我们从文本里挖掘出来的深层次的、有知识佐证的关联语义知识，也就是类型突变知识。这与右下图用曼哈顿图描述的关联突变在模态上，是完全不一样的。

如果能从两边数据中找到恰当的数据融合的落脚点，那么我们就可能得到更多疾病与疾病、疾病与药物之间的关系。有了这个知识的融合工作，对药物重定位的启发，就更加有效。

这两类知识如何做统一融合？

2. 突变数据协同的图模型和变分推断求解

正如前面所述，我们这里有两套数据，一套是传统生命科学领域的关联数据P，它是0-1之间的数值，描述疾病和基因之间的关联关系度的值。另一套是生成语义关系的编码，描述基因和疾病之间的知识。

同时，我们设计了一个图模型，从生成关系的角度，寻找 γ 和 f 有什么关系，γ 和 p 有什么关系，这两个关系在这里就是一个开关，如果打开了 γ 是在 f 中获得更好的支持，如果 γ 和 p 打开了，说明 γ 在p中获得更好的支持。如果两个都关闭了，那么，说明 γ 在 p、f 获得的支持都不充分。

他们之间是有很好的互补性，左边的f有很好的权威性、正确性，但覆盖度不够；右边的p有很好的广泛性，但他们之间的关联度不够。

所以通过LDA，贝叶斯网络，一点点推导出更大的图，这就完成了知识图谱数据融合的过程，如下图：

3. 融合多模态数的应用

通过上述融合，我们得到了如下的融合知识图谱：

这个融合的知识图谱在发现老年痴呆推测中，获得了很好的效果，大多数结果都得到知识库的佐证。

展望与进一步的研究

下图是我们设想的一个理想的研究远景：这里说明了什么样的知识图谱对药物重定位研究是有用的。

我们认为，这里的图谱的特征是：

关系链条不一定很长，基因和药物之间的影响关系要很明确，如谁抑制谁、谁激活谁。
每一条证据最好是可以循证、溯源的。

参考资料：

◆ Kaiyin Zhou, Sheng Zhang, Yuxing Wang, Kevin Bretonnel Cohen, Jin-Dong Kim, Qi Luo, Xinzhi Yao, Xingyu Zhou, Jingbo Xia*. High-quality Gene/Disease Embedding in A Multi-relational Heterogeneous Graph After A Joint Matrix/tensor Decomposition. Journal of Biomedical Informatics. 2022, 126:103973.

◆Sizhuo Ouyang, Yuxing Wang, Kaiyin Zhou, Jingbo Xia*. LitCovid-AGAC: Cellular and Molecular Level Annotation Data Set Based on Covid-19. Genomics and Informatics, 2021; 19(3): e23.

◆ Kaiyin Zhou#, Yuxing Wang#, Kevin Bretonnel Cohen, Jin-Dong Kim, Xiaohang Ma, Zhixue Shen, Xiangyu Meng, Jingbo Xia*. Bridging Heterogeneous Mutation Data to Enhance Disease-Gene Discovery. Briefing in Bioinformatics, 2021, bbab079.

今天的分享就到这里，谢谢大家。

分享嘉宾：

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

图谱实战 | 华农夏静波：深层语义知识图谱在药物重定位中的应用相关推荐

知识图谱应用实战案例100篇（二）-以知识图谱的方式打开预训练语言模型
前言关于"知识"的话题有两条不同的技术思路. 一条思路认为需要构建知识图谱,利用符号化的表示手段描述知识,才能完成复杂的语言理解和推理问题. 另外一条思路认为可以利用语言预训练模 ...
探索“老药新用”最短路径：亚马逊AI Lab开源大规模药物重定位知识图谱DRKG
本文经授权转载自机器之心(almosthuman2014),未经授权禁止二次转载与摘编. 本文长度为3200字,建议阅读9分钟本文带你了解亚马逊AI实验室的开源机器学习工具. [ 摘要 ]最近,来自 ...
【知识图谱】人工智能技术最重要基础设施之一，知识图谱你该学习的东西
互联网时代,人类在与自然和社会的交互中生产了异常庞大的数据,这些数据中包含了大量描述自然界和人类社会客观规律有用信息.如何将这些信息有效组织起来,进行结构化的存储,就是知识图谱的内容. 作者& ...
知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念，与传统语义网络的区别
知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别知识图谱的概念,与传统语义网络的区别狭义概念作为语义网络的内涵与传统语义网络的区别优点缺点与 ...
送书福利 | 浙江大学陈华钧教授新作，全面梳理知识图谱技术体系
陈华钧著电子工业出版社-博文视点 2021-05-01 ISBN: 9787121406997 定价: 108.00 元新书推荐 ????今日福利 |关于本书| 知识图谱的发展历史源远流长,从经 ...
肖仰华 | 大规模、高质量的金融知识图谱，如何自动化构建？
本文转载自公众号:恒生技术之眼. ◆本文根据2019恒生技术开放日肖仰华教授演讲整理 ◆肖仰华:复旦大学教授.博士生导师,复旦大学知识工场实验室创始人. 知识图谱(Knowledge Graph, K ...
从零构建知识图谱(技术、方法与案例)-第二章：知识图谱技术体系
当前,人工智能技术的发展速度之快已经超出了所有人的想象,以至于总会有人不断将现有人工智能的表现与人类相比较.然而,在经过不同层面的对比之后,不难得出一个结论:尽管目前人工智能技术在一些特定任务上有比较 ...
知识图谱系列（二）：构建一个医疗知识图谱
之前我们简单介绍了怎么构建一个知识图谱,这次就来看看一个完整的构筑流程,以QASystemOnMedicalKG作为参考,主要想展示一下从最初收集非结构化的数据.到一步步处理并通过知识图谱展示的简单流 ...
C.3 知识图谱项目实战(一)：瑞金医院MMC人工智能辅助构建知识图谱--初赛实体识别
NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等专栏详细介绍:[NLP专栏简介:数据增强.智能标注.意图识别算法|多 ...

图谱实战 | 华农夏静波：深层语义知识图谱在药物重定位中的应用

图谱实战 | 华农夏静波：深层语义知识图谱在药物重定位中的应用相关推荐

最新文章

热门文章