ACL-BioNLP 2020 | 耶鲁大学实践成果：生物医药知识图谱嵌入模型基准测试

今天给大家介绍的是耶鲁大学医学信息学中心主任Brandt教授实验室和爱丁堡大学的博士生联合发表在ACL-BioNLP 2020发表的文章“Benchmark and Best Practices for Biomedical Knowledge Graph Embeddings”。作者将五个KGE模型应用到SNOMED-CT知识图谱中，提供了与现有方法的比较基准并深入讨论目前的最佳实践应用，并说明了利用知识图谱的多关系特性来学习生物医学知识表示的重要性。

介绍

大量的生物医学领域知识存储在知识库和本体中。例如，SNOMED Clinical Terms(SNOMED-CT)，世界上使用最广泛的医疗保健文献和报告的临床术语，包含数十万个医学术语及其关系并拥有多层次组织结构。我们可以将SNOMED-CT看作一个知识图谱，此外，它提供了一个词库，该词库在一个通用的本体论框架下结合了数百万种生物医学概念和关系。

自然语言处理中临床和生物医学领域的主要障碍之一是如何更有效地表示和整合领域知识。尽管自然语言处理领域的最新进展极大地改善了文本表示，但迄今为止，在术语或知识图谱中学习生物医学概念的类似密集概念嵌入的尝试限制了其可用性以及无法广泛使用。此外，当前仍未出现用于训练和比较这种嵌入的最佳实践或基准。

作者探索了知识图谱嵌入模型作为现有方法的替代方法并做出以下贡献：

在SNOMED-CT上训练了五个最新的KGE模型，并展示了它们相对于先前方法的优势，从而证明了利用知识图谱的多关系性质进行生物医学知识表示的重要性；
建立了一套基准任务，以实现各种方法之间的公平比较；
通过提供与现实世界相关的新数据集的基准来服务于整个KGE社区；
将嵌入，代码和其他资料开源，并概述了未来工作的几种方向，以促进该领域的进步。

实验设置

由于在通用的可扩展平台下实现，作者将实验限制在五个模型中：TransE, ComplEx, DistMult, SimplE和RotatE。

2.1数据

考虑到UMLS的复杂性，作者详细介绍了生成最终数据集的预处理步骤。将得到的三元组列表构成了最终的知识图谱数据集。另外作者还排除了不必要的特定语义类型。表1显示了最终数据集的描述性统计信息。

表1 最终SNOMED数据集的统计信息

2.2实现

考虑到SNOMED-CT的巨大规模以及可扩展性和一致的实施对于运行实验的重要性，作者将GraphVite用于KGE模型。虽然目前的工作仅限于这些模型，但未来的工作应该考虑其他最先进的模型，例如TuckER和MuRP，尤其是因为MuRP被证明对具有层次结构的图特别有效。

所有实验都在3个GTX-1080ti GPU上运行，最后的运行在单个GPU上花费了大约6个小时。可以根据每种模型的验证集调整超参数。

2.3评估和基准

2.3.1KGE链接预测

KGE文献中的标准评估任务是链接预测。但是，NE方法也将链接预测用作标准评估任务。当两者都预测是否连接了两个节点时，NE链接预测会基于该图是完整的假设，在一组平衡的正负边缘上执行二进制分类。相反，知识图谱通常被假定为不完整，这使得KGE的链接预测成为基于排名的任务，在该任务中，模型的评分函数被用于对候选样本进行排名，而不依赖于基本事实否定。在本文中，链接预测是指后一种基于排名的KGE方法。

典型的链接预测指标包括MR，MRR和Hits@k。MR被认为对异常值敏感，并且不可靠。Guu等人提出使用平均分位数（MQ）作为MR和MRR的更强大的替代方案。作者使用MQ100作为MQ的更具挑战性的版本，它在排名前100的位置引入了一个临界值，适用于大量可能的实体。

2.3.2嵌入评估

作者通过采用所有模型中涵盖的概念的交集来生成用于实体分类的数据集，包括39k个具有32个唯一语义类型和4个语义组的概念。并且以9:1的比率将数据分成训练集和测试集，训练一个dropout比率为0.1且没有进一步的超参数调整的简单线性层。用于分类的单一线性层评估每个模型的实体嵌入空间中语义信息的线性可分性。

可视化

作者首先讨论通过LargeVis获得的嵌入可视化效果，这是一种有效的大规模降维技术，可用作GraphVite中的应用。图1显示了RotatE，ComplEx，Snomed2Vec和Cui2Vec的概念嵌入，其颜色对应于广泛的语义组。

有趣的是，针对5个KGE模型的嵌入可视化分为两种类型：RotatE和TransE产生分离良好的簇，而ComplEx，DistMult和SimplE围绕原点产生球状簇。作者将两种模型类型之间的特征差异归因于其评分函数的性质：RotatE和TransE具有加法成分，而ComplEx，DistMult和SimplE具有乘法成分。

图1按语义组的概念嵌入可视化

通过在“Procedures”语义组下为5种选定的语义类型着色并将其余的部分灰显，显示了更细粒度的语义结构。图2中将具有2,000多个实体的语义类型抽样到1,200个以提高可见性。

图2 Procedures语义组下选定语义类型的可视化

结论

4.1链接预测

由于没有以前的结果可比较，作者将TransE和RotatE在两个标准KGE基准数据集上的性能作为参考：FB15k-237(14,541个实体，237个关系和310,116个三元组)和WN18RR(40,943个实体，11个关系和93,003个三元组)。鉴于SNOMED-CT比两个数据集更大，并且可以说是一个更复杂的知识图谱，因此链接预测结果表明KGE模型学习了SNOMED-CT的合理表示。表2显示了SNOMED-CT上5个KGE模型的链接预测任务的结果，其中表的上部针对SNOMED-CT上的5个KGE模型，下部针对两个标准KGE数据集上的TransE和RotatE。

表2 链接预测结果

4.2 嵌入评估和关系预测

根据语义簇的可视化效果(图1和2)，KGE和NE方法的性能明显优于语料库-基于方法(Cui2Vec)。值得注意的是，对于更广泛的语义组分类(4类)，TransE和RotatE达到了近乎完美的准确性。ComplEx，DistMult和SimplE的性能稍差一些，Snomed2Vec略低于它们，而Cui2Vec则落后很多。表3显示了实体语义类型(STY)和语义组(SG)分类的测试集准确性。

表3 语义类型和组的分类结果

为了与相关工作进行比较，作者还研究了由Beam等人提出的基于统计能力和余弦相似性自举的基准任务，以评估医学概念的嵌入。相比之下，KGE方法显式地建立关系模型，并且可以更好地推断知识图谱嵌入的关系结构。表3的最后3列报告了5个KGE模型的关系预测指标。尤其是RotatE和SimplE表现良好，达到了约0.8 Hits @ 1和大约0.85 MRR。

作者根据源语义组和目标语义组的基数和同质性将关系类型分为6个组，从而进行错误分析，以进一步了解问题。表4显示了RotatE和ComplEx的6组关系类型的每一个的关系预测指标，最后两行与因果关系类型相关。

表4 按关系类型分类的RotatE和ComplEx的关系预测结果

每个模型下的最后两行显示了前面提到的因果关系的每个关系结果：cause_of和causative_agent_of。与ComplEx相比，RotatE再次显示出明显更好的结果，这与其理论上优越的表示能力一致。

展望

未来可以从几种途径直接入手，作者致力于GraphVite中实现的SNOMED-CT数据集和KGE模型，但也可以扩展到其他生物医学术语（如基因本体论和RxNorm），并应用更近期的KGE模型（如TuckER和MuRP）；还可以纳入其他信息来源，如实体和关系的文本描述。最后，可以在生物医学NLP的下游应用中研究生物医学知识图谱嵌入的有用性，例如信息提取，概念归一化和实体链接等。总体而言，用于学习和合并特定领域知识表示的方法仍处于早期阶段，需要进一步讨论。

参考资料

Chang D, Balazevic I, Allen C, et al. Benchmark and Best Practices for Biomedical Knowledge Graph Embeddings[J]. arXiv preprint arXiv:2006.13774, 2020.

ACL-BioNLP 2020 | 耶鲁大学实践成果：生物医药知识图谱嵌入模型基准测试相关推荐

ACL 2020 | 用于链接预测的开放知识图谱嵌入
©PaperWeekly 原创 · 作者|舒意恒学校|南京大学硕士生研究方向|知识图谱当前大量的知识图谱都是通过文本直接构建的.由于当前的知识图谱构建方法的局限性,其中难免包含对同一实体或关系的 ...
从ACL 2020和ICLR 2020看知识图谱嵌入的近期研究进展
©PaperWeekly 原创 · 作者|舒意恒学校|南京大学硕士生研究方向|知识图谱本文介绍三篇发表于 ACL 2020 或 ICLR 2020 关于知识图谱嵌入的近期研究进展. 1. ACL ...
中国科学技术大学研究生现代生物医药概论复习参考
1.复习资料汇总,见资源: 2.往年题示例:以下内容仅供参考,为2021年春季学期题目,展示一部分,其余内容见资源: 现代生物医药概论一.选择题(选择一个最佳答案)(共50分) 1.开展随机.双盲. ...
斯坦福大学博士后王鸿伟: 知识图谱辅助的个性化推荐系统
导读互联网产业蓬勃发展的今天,个性化推荐系统是所有面向用户的互联网平台的关键技术.知识图谱作为一种新的知识载体,为推荐系统提供了额外的辅助信息来源,并有助于提升推荐结果的多样性和可解释性.本次分享 ...
NLP实践｜CCKS2020金融知识图谱自动化构建技术方法总结
每天给你送来NLP技术干货! 编辑:AI算法小喵写在前面文本是参加2020CCKS评测基于本体的金融知识图谱自动化构建技术之后的一篇总结博客,笔者查阅了大量文献,并做了大量采用深度学习模型的实 ...
TransD：通过动态映射矩阵嵌入（知识图谱嵌入）ACL 2015
论文链接:http://pdfs.semanticscholar.org/a4ad/33855655986d9edcea300db7849d4b8498a0.pdf 代码链接:https://gith ...
【实践】电商知识图谱构建及搜索推荐场景下的应用.pdf（附下载链接）
猜你喜欢 0.[免费下载]2022年8月热门报告盘点1.快手推荐系统通用策略DSL应用及实践2.从零开始搭建创业公司后台技术栈3.全民K歌推荐系统算法.架构及后台实现4.微博推荐算法实践与机器学习平台 ...
知识图谱学习与实践（1）——知识图谱的演化过程
1 引言知识图谱是一个包含很多技术内容的知识体系,总的来说,是处理关联的知识,核心是数据,但强调了数据之间的关联关系.简单来看,可以认为是数据库或知识库,和语义网有着千丝万缕的联系.知识图谱是由谷歌 ...
软件工程应用与实践（2）——知识图谱树形结构获取
2021SC@SDUSC 目录一.知识图谱的结构二.前端代码 2.1 对axios请求的封装 2.2 树形控件代码及其分析三.后端代码 3.1 树形结构对应的实体类 3.2 填充知识树的过程 3 ...

ACL-BioNLP 2020 | 耶鲁大学实践成果：生物医药知识图谱嵌入模型基准测试

ACL-BioNLP 2020 | 耶鲁大学实践成果：生物医药知识图谱嵌入模型基准测试相关推荐

最新文章

热门文章