转载公众号 | DataFunSummit


分享嘉宾:夏静波 华中农业大学 副教授

编辑整理:王金华 电科32所

出品平台:DataFunTalk

导读:自新冠病毒肺炎疫情发生以来,由于传统药物研发周期长,药物重定位(老药新用)成为新冠肺炎药物研发的主要策略。药物重定位是对已经上市或上市失败的药物重新确定治疗适应症。从研发路线上分,药物重定位有对常见药物的新作用进行系统性筛选,也有通过收集一线临床医生的临床经验为线索,更有对过去失败的药物分子进行重新定位研发的策略。

在药物重定位的技术路线中,通过对现有医药文献的分析挖掘从而得到可能适应症的线索,成了开展药物重定位研究的一个基础工作。夏静波老师在本报告的分享中,致力于从医药文献中发现药物和疾病之间的潜在影响关系,从而对现有药物给出新适应症的指引和建议。

夏静波老师此次本次分享题目为“Thematic role语义识别和医药知识精细挖掘”。主要内容为:

  • 医药文献中深层语义的挖掘构建

  • 医药文献中深层语义挖掘的研究范式

  • 深层语义知识图谱在药物重定位中的应用

  • 多模态数据融合

  • 展望与进一步的研究

01

医药文献中深层语义建模

1. 药物重定位领域概述

药物重定位研究领域中,所采取的数据来源,大多数都是基于医院临床、诊疗上的文本和图像的数据,而本报告主要致力于通过医药文献的数据源来获取一些新的线索。当然,本研究工作的服务对象,也是从试验、医院,到消费者的场景。

本报告聚焦在药物重定位知识图谱的构建,该图谱是生物医药中一个细分领域的知识图谱。首先强调一下生物医药文本挖掘与一般行业知识图谱的区别,生物医药文本挖掘对知识的要求,是更加细粒度的、更加深层的语义,而一般行业知识图谱对知识的要求可能是粗粒度的、浅层的语义。

为什么要重定位?因为新药的研发速度非常慢,一般一个新药的成功研发到上市需要 10 到 15 年;然后是单药物的开发成本非常高,一般是 5 到 9 亿美元;再是审批通过的概率很低,在5000 个申报的测试化合物中仅有 1 个被 FDA 批准开展后续工作,而 100 个申报药物中仅有一个可能被批准上市。

2. 药物重定位典型的例子

以多巴胺为例,它本来只是用于治疗心血管和肾脏疾病,而近年发现可用于治疗多个癌症,它有一个泛癌的治疗效应,其中多巴胺受体家族包含 5 个在信号传导和配体亲和力方面存在差异的标志物蛋白,其异常表达与这些癌症的临床结果相关。

雷帕霉素原用于免疫系统疾病,近年发现其针对胰腺癌能发挥疗效,其中,该药物的靶标蛋白mTOR 是关键标志物。

因此,我们得到启发,是不是能从医药文献中,找到一些能启发药物新用途、新功能的知识?这个知识,可能是深层次的知识,一般很难从药理学、成药学找到背景。

药物重定位的一个典型过程:在很多文章里,都会出现药物、靶向基因,那么,我们可以判别药物的行为,一个基因突变后,蛋白的功能会发生变化;然后药物还可能抑制基因来发生这种变化,如果发现了,是相互抑制的关系,那么,就发现了这个药物的新用处。

因此,为了发现这么一个场景的语义,最重要的工作就是从医药文献中发现生物医药事件。比如,这一个文献:

如果人工来阅读,可以发现一些线索,如标红这些部分:

标红的部分,描述了突变事实、分子的机理、细胞的机理,人类专家可以直接阅读获知,那么机器如何来识别这些线索呢?需要NLP方法来挖掘,这是一个相对比较长线的学习任务。

3. 药物重定位语料的构建 

我们课题组开发了一个数据集,从2017年到2019年的数据集的版本,我们的语料库名字为“Active Gene Annotation Corpus (AGAC, V1.0)”。

我们在数据集中,定义了这些实体类型:基因突变、分子活性、细胞活性,分子之间的通路。

我们研究的最终目标——也就是我们所揭示的深层语义,是“在某种外界条件影响下, 基因XXX发生了某种突变, 导致失去或者获得功能, 这与某种疾病的发病原理有关。”

在收集医药文献原始数据后,语料库构建中最核心的工作,就是语料语义角色标注,语义角色标注也叫做语义分析,是用来识别句子中谓语的结构,比如“who did what to whom, where and when”,在给定谓语的情况下标记语义角色。也就是,希望说明“谁、对什么做了什么事情,产生了什么影响。”

在生物医药领域同行,都更加关注两类实体:

  • 致事(Cause):动作发生的客观原因。

  • 主事(Theme):性质、状态或变化性事件的主体。

下图,是我们在做语义角色标注过程中具体的一个例子:

在该图中,标注了突变、基因、规则、分子、蛋白质等实体类型,同时在这些实体类型之间构建了导致、类型等关系类型。

02

医药文献中深层语义挖掘的研究范式 

1. 研究范式概述

在生物医药领域的文本分析研究中,主要有如下研究范式:

  • 语言学来搭建 AGAC 语料库用以刻画 LOF/GOF 的语义;

  • 基于文本挖掘来做 NLP 手段用以大规模的语义预测;

  • 基于生物医药背景来做多来源数据的知识关联;

  • 数学模型来做多来源数据下的数据推理和融合。

2. 医药文献中深层语义的挖掘与构建 

下图是我们基于上述概念类型所标注的生物医药领域的文本语料。

下图是我们基于语义角色标注构建的知识图谱,我们这里的知识图谱已经是高度结构化、凝练的小规模图谱。

如上面已构建的图谱所示,一个经过标准化后的实体——RS10719突变,能抑制miR-27b小RNA的生物事件,能够促进Luciferase酶的表达,而且它能促进DROSHA基因的表达,从而能促进膀胱癌的发生。这种都是短线条的关系,如果把所有维度的事件、实体、关系都挖掘出来了,那么,我们就能更加容易地还原事件的真相。

回到我们的场景——药物重定位。对于药物功能的发现,对于这么一个小规模、知识逻辑很清晰的图谱,从这里寻找一些重要的基因、RNA的标志物,再去寻找相关药物为靶向的标志物,再把药物引到该通路里来,观察治疗效果,这是很有启发的。

这是我们构建图谱的一个可视化展现:

我们构建图谱的特征是数据量不大,但是来自大量的文献,文献里都隐藏着证据、知识,其可信度很高,每一个知识点都有证据支撑。

03

深层语义知识图谱在药物重定位中的应用 

基于标注构建的知识图谱,怎么应用到药物重定位中?得到该深层语义的图谱后,可以做分析、关联、演算。

1. 如何寻找药物和基因之间的关联? 

我们能把医药数据库的文献条目,放到一个二维矩阵里去(下图上半部分)。一般情况下,在这里,基因和疾病之间只有一种关系。

同时,通过上述构建的深层次图谱,我们能从文本里,能发现疾病的多维、深层关系,在这里,基因和疾病有多种关系。这里可以把这些数据放到多维矩阵中,这就是Tensor(张量)。

然后,就是利用模型,进行矩阵和张量的联合分解,包含A矩阵、V矩阵,这里A矩阵既能从医药数据库的文献条目获得,也能从构建的深层次图谱获得,通过融合计算,得到最终嵌入的A矩阵。最终,通过嵌入计算得到了基因和疾病之间的关联关系。

2. 质量评价 

我们把我们工作跟同行也做了一个比较,比较下来,我们的工作还是有成效的。

04

多模态数据融合 

1. 多模态数据融合的意义 

前面通过文本挖掘所获得的精细化语义,描述的是基因上发生的突变,非常具体的突变类型,现在简称它们为“类型突变”。

但生物领域里研究更多的,数据量也更为庞大的,是关联突变。它并非描述谁在影响谁的因果,而是两者之间是否具有关联性。下图右侧是一个曼哈顿图,纵坐标是P1值的负log,横坐标是基于染色体排序得到的卷积,这是生命主角数据的研究做法,它主要发现哪些突变和基因有什么关系。

而下图的左侧,是我们从文本里挖掘出来的深层次的、有知识佐证的关联语义知识,也就是类型突变知识。这与右下图用曼哈顿图描述的关联突变在模态上,是完全不一样的。

如果能从两边数据中找到恰当的数据融合的落脚点,那么我们就可能得到更多疾病与疾病、疾病与药物之间的关系。有了这个知识的融合工作,对药物重定位的启发,就更加有效。

这两类知识如何做统一融合? 

2. 突变数据协同的图模型和变分推断求解 

正如前面所述,我们这里有两套数据,一套是传统生命科学领域的关联数据P,它是0-1之间的数值,描述疾病和基因之间的关联关系度的值。另一套是生成语义关系的编码,描述基因和疾病之间的知识。

同时,我们设计了一个图模型,从生成关系的角度,寻找 γ 和 f 有什么关系,γ 和 p 有什么关系,这两个关系在这里就是一个开关,如果打开了 γ 是在 f 中获得更好的支持,如果 γ 和 p 打开了,说明 γ 在p中获得更好的支持。如果两个都关闭了,那么,说明 γ 在 p、f 获得的支持都不充分。

他们之间是有很好的互补性,左边的f有很好的权威性、正确性,但覆盖度不够;右边的p有很好的广泛性,但他们之间的关联度不够。

所以通过LDA,贝叶斯网络,一点点推导出更大的图,这就完成了知识图谱数据融合的过程,如下图:

3. 融合多模态数的应用 

通过上述融合,我们得到了如下的融合知识图谱:

这个融合的知识图谱在发现老年痴呆推测中,获得了很好的效果,大多数结果都得到知识库的佐证。

05

展望与进一步的研究 

下图是我们设想的一个理想的研究远景:这里说明了什么样的知识图谱对药物重定位研究是有用的。

我们认为,这里的图谱的特征是:

  • 关系链条不一定很长,基因和药物之间的影响关系要很明确,如谁抑制谁、谁激活谁。

  • 每一条证据最好是可以循证、溯源的。

参考资料:

◆ Kaiyin Zhou, Sheng Zhang, Yuxing Wang, Kevin Bretonnel Cohen, Jin-Dong Kim, Qi Luo, Xinzhi Yao, Xingyu Zhou, Jingbo Xia*. High-quality Gene/Disease Embedding in A Multi-relational Heterogeneous Graph After A Joint Matrix/tensor Decomposition. Journal of Biomedical Informatics. 2022, 126:103973.

◆Sizhuo Ouyang, Yuxing Wang, Kaiyin Zhou, Jingbo Xia*. LitCovid-AGAC: Cellular and Molecular Level Annotation Data Set Based on Covid-19. Genomics and Informatics, 2021; 19(3): e23.

◆ Kaiyin Zhou#, Yuxing Wang#, Kevin Bretonnel Cohen, Jin-Dong Kim, Xiaohang Ma, Zhixue Shen, Xiangyu Meng, Jingbo Xia*. Bridging Heterogeneous Mutation Data to Enhance Disease-Gene Discovery. Briefing in Bioinformatics, 2021, bbab079.

今天的分享就到这里,谢谢大家。


分享嘉宾:


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

图谱实战 | 华农夏静波:深层语义知识图谱在药物重定位中的应用相关推荐

  1. 知识图谱应用实战案例100篇(二)-以知识图谱的方式打开预训练语言模型

    前言 关于"知识"的话题有两条不同的技术思路. 一条思路认为需要构建知识图谱,利用符号化的表示手段描述知识,才能完成复杂的语言理解和推理问题. 另外一条思路认为可以利用语言预训练模 ...

  2. 探索“老药新用”最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG

    本文经授权转载自机器之心(almosthuman2014),未经授权禁止二次转载与摘编. 本文长度为3200字,建议阅读9分钟 本文带你了解亚马逊AI实验室的开源机器学习工具. [ 摘要 ]最近,来自 ...

  3. 【知识图谱】人工智能技术最重要基础设施之一,知识图谱你该学习的东西

    互联网时代,人类在与自然和社会的交互中生产了异常庞大的数据,这些数据中包含了大量描述自然界和人类社会客观规律有用信息.如何将这些信息有效组织起来,进行结构化的存储,就是知识图谱的内容. 作者& ...

  4. 知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别

    知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别 知识图谱的概念,与传统语义网络的区别 狭义概念 作为语义网络的内涵 与传统语义网络的区别 优点 缺点 与 ...

  5. 送书福利 | 浙江大学陈华钧教授新作,全面梳理知识图谱技术体系

    陈华钧 著 电子工业出版社-博文视点 2021-05-01 ISBN: 9787121406997 定价: 108.00 元 新书推荐 ????今日福利 |关于本书| 知识图谱的发展历史源远流长,从经 ...

  6. 肖仰华 | 大规模、高质量的金融知识图谱,如何自动化构建?

    本文转载自公众号:恒生技术之眼. ◆本文根据2019恒生技术开放日肖仰华教授演讲整理 ◆肖仰华:复旦大学教授.博士生导师,复旦大学知识工场实验室创始人. 知识图谱(Knowledge Graph, K ...

  7. 从零构建知识图谱(技术、方法与案例)-第二章:知识图谱技术体系

    当前,人工智能技术的发展速度之快已经超出了所有人的想象,以至于总会有人不断将现有人工智能的表现与人类相比较.然而,在经过不同层面的对比之后,不难得出一个结论:尽管目前人工智能技术在一些特定任务上有比较 ...

  8. 知识图谱系列(二):构建一个医疗知识图谱

    之前我们简单介绍了怎么构建一个知识图谱,这次就来看看一个完整的构筑流程,以QASystemOnMedicalKG作为参考,主要想展示一下从最初收集非结构化的数据.到一步步处理并通过知识图谱展示的简单流 ...

  9. C.3 知识图谱项目实战(一):瑞金医院MMC人工智能辅助构建知识图谱--初赛实体识别

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏详细介绍:[NLP专栏简介:数据增强.智能标注.意图识别算法|多 ...

最新文章

  1. Spring Boot+Gradle+ MyBatisPlus3.x搭建企业级的后台分离框架
  2. CentOS iso镜像文件做本地源
  3. java类获取声明,获取用于MethodInvocation的实际类而不是声明类 - java
  4. 提高Linux效率的30个命令行常用快捷键
  5. boost::histogram模块实现导向轴的测试程序
  6. 在StackBlitz上进行rxjs编程练习
  7. 《深入理解OSGi:Equinox原理、应用与最佳实践》一2.2 Bundle
  8. 不懂这11个隐藏技巧,别说你会用微信
  9. [Java基础]生产者和消费者模式概述与案例分析
  10. 可能是全网最通俗易懂的微服务架构改造解读
  11. javaweb项目图
  12. 论文笔记-深度估计(1)Depth Map Prediction from a Single Image using a Multi-Scale Deep Network
  13. 视频播放神器——PotPlayer基本设置
  14. 用python画星空的代码_用python画星空源代码是什么?_后端开发
  15. win7查找计算机图片,如何在 win7电脑上查看 HEIC 照片的内容?
  16. HTML基本网页结构
  17. 阿里:不清除35岁以上的P8员工!
  18. 2017腾讯LIVE开发者大会精彩回顾!
  19. Abracadabra
  20. win10下修改jar中的文件

热门文章

  1. 前端通过序列帧实现动画
  2. 基于粒子群算法优化的Elman神经网络数据预测-附代码
  3. matlab卷积相关
  4. 【虹科案例】嵌入式系统的实时高速记录器——虹科高速数字化仪应用
  5. 华为ensp,DHCP中继配置
  6. Qt pro的一些小用法(qmake)
  7. 使用iText动态生成pdf,并用pdf.js在线预览
  8. Libiconv移植到Hi3536
  9. DOSBox + Windows 3.1安装与使用
  10. 社区发现系列03-Louvain算法分辨率