1. 题目

CODER: Knowledge infused cross-lingual medical term embedding for term normalization
Zheng Yuan团队
CODER: contrastive learning on knowledge graphs for cross-lingual medical term reprensentation.
跨语言医学术语表示的知识图对比学习

2. 贡献

  1. 提出了KG的对比训练模型;
  2. 对现有医疗嵌入进行评估。zero-shot术语标准化、医学概念相似性度量和概念关系分类任务中实现了最先进的结果( state-of-the-art);
  3. CODER是第一个跨语言的医学术语表示,支持英语、捷克语、法语、德语、意大利语,日语、葡萄牙语、俄语、西班牙语、荷兰语和汉语。

3. 方法

定义基于嵌入的术语规范化任务以及如何嵌入术语;然后引入KG对比学习进行项归一化。

  1. 提出了对kg的两术语和关系三元组的对偶对比学习。
  2. 术语关系项相似度是术语关系(ℎ,r)和术语(t)之间的相似度。

3.1 基于嵌入术语正则化

即是把术语向量化,然后计算cos距离,选择最大的那个标准术语作为最后的结果;

3.2 术语表达

初始化PLM: PubMedBERT [17] ,mBERT [12];

术语表示,方法1:采用[CLS]的向量来表示;

方法2:采用平均pooling来表示:

3.3 同义词的对比学习框架

正样本主要是来自图谱:term-term对;term-relation-term对;

label定义:

术语相似性定义:

相关技术

a. 医学嵌入

  1. 词嵌入[9,30,38];
  2. 概念嵌入[3,6,10,11,52,56];
  3. 上下文嵌入[2,4,17,20,21,26,42,56]。

Word和概念嵌入在评估相似性方面具有良好的基础性能,但面临OOV问题,不能处理临床文本中普遍存在的拼写错误。
基于PLM的上下文嵌入可以通过使用子单词token来缓解OOV问题,但如果不进行微调,它们在评估相似性方面的性能就会弱于单词和概念嵌入。

SapBERT(基于UMLS训练) [32],
mBERT(跨语言)[12]:将不同语言的文本编码到一个统一的空间中.

词嵌入:word2vec model[36],使用医学语料[9, 30, 38];

概念嵌入:从emr或生物医学论文中识别出的医学概念序列被认为是句子,用word2vec[6,10,11,52]训练并进行嵌入;

​ Cui2vec [3]:将 CUI-CUI之间的逐点互信息PMI(Pointwise Mutual Information)矩阵分解,得到嵌入; PMI可以衡量两变量之间的相关性。

​ Zhang et al. [56] :提出概念上下文嵌入和UMLS关系语料库的训练。

医学上下文嵌入(医学语料):BERT [2, 4, 17, 20, 26, 42];

​ Jin et al. [21]:BioELMo;SapBERT[32]:关于UMLS同义词的自对齐预训练

b. 医学术语标准化

  1. 分类方法;
    生成术语的隐藏表示,并使用softmax层将术语分类为概念。
    编码模型(CNN, RNN, or PLM); attention机制使用来获取重要的字或字符;
    这个方法只能用类别,不能用到语义信息。
  2. 排名方法;
    排序方法通过训练术语和候选目标术语之间正负样本对,来预测他们相似度而进行排序。例如 DNorm [25]是能过TF-IDF vectors来计算相似性;Li et al. [28] 使用CNN编码,NSEEN [14]使用 siamese LSTM;BNE [45]编码术语,概念,上下文;Pattisapuet al. [41] 通过graph embeddings; BIOSYN [49]使用TF-IDF 与 BioBERT [26];【这些都是英文的】
    Niu et al. [39]构建中文医学概念标准库;另外还有基于翻译的方法在进行 [1, 43, 47]。

c. 对比学习

**[16]:**对于NLP,DeCLUTR[16]从同一文档中收集positive的句子对。
CERT [15]: 创建句子对;
SapBERT [32]:使用UMLS的同义词对作为正样本;

损失函数也对比学习一块很关键的内容:
Triplet loss [19] 最小化正负样本对的关系距离;
InfoNCE[40]认为一小量批次的其它样本作为负样本对;

Multi-Similarity loss (MS-loss) [53]:多维相似损失;

参考

【1】githut:https://github.com/GanjinZero/CODER
【2】Zheng Yuan, Zhengyun Zhao, Haixia Sun, Jiao Li, Fei Wang, and Sheng Yu. 2021. CODER: Knowledge infused cross-lingual medical term embedding for term normalization. In Proceedings of ACM Conference (Conference’17).
ACM, New York, NY, USA, 11 pages.https://arxiv.org/pdf/2011.02947.pdf
【3】Fangyu Liu, Ehsan Shareghi, Zaiqiao Meng, Marco Basaldella, and Nigel Collier. 2020. Self-alignment Pre-training for Biomedical Entity Representations. arXiv
preprint arXiv:2010.11784 (2020).

[论文阅读笔记69]医学术语标准化-CODER相关推荐

  1. 论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统

    论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文简介 论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文名称:<LemurFaceID: a fac ...

  2. 论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018

    论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...

  3. 论文阅读笔记(三)——从老虎到熊猫:动物头部检测

    论文阅读笔记(三)--从老虎到熊猫:动物头部检测 论文简介 论文中文翻译:<从老虎到熊猫:动物头部检测> 论文名称:<From Tiger to Panda: Animal Head ...

  4. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  5. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  6. 论文阅读笔记:《EIGENGAME: PCA AS A NASH EQUILIBRIUM》(特征博弈:主成分分析就是纳什均衡)

    论文阅读笔记:<EIGENGAME: PCA AS A NASH EQUILIBRIUM>(特征博弈:主成分分析就是纳什均衡) 声明 摘要 1 简介 2 PCA as an Eigen-G ...

  7. (论文阅读笔记)OLE:正交低秩嵌入,即插即用的几何损失

    论文阅读笔记:OLE: Orthogonal Low-rank Embedding, A Plug and Play Geometric Loss for Deep Learning 摘要 简介 2 ...

  8. 论文阅读笔记:看完也许能进一步了解Batch Normalization

    提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 BN之前的一些减少Covariate Shift的方法 BN算法描述 Batch No ...

  9. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

最新文章

  1. 第四周实践项目6 循环双链表应用
  2. HDU 5821 Ball
  3. linux 1080ti显卡黑屏,Ubuntu 17.04+GTX1080Ti 安装辛酸之路
  4. python综合学习一之多线程
  5. anki vector robot入门语音指令大全
  6. 零基础入门 Kubernetes,你需要知道这些
  7. 技术者利用wordpress+阿里云服务器+LAMP新搭建的博客网站:www.youngxy.top
  8. os是android5.0,Funtouch OS 2.1曝光 完美改Android5.0
  9. 2019年9月全国程序员工资统计,看看你拖后腿了吗?
  10. hdu1533解题报告
  11. 一位程序员从业余项目被收购中所学到的
  12. 金蝶应收应付模块流程_金蝶K3操作流程图详解(65页).doc
  13. Java基础编程练习题
  14. 思维方式-《成功与运气》书中的精髓:成功到底是靠天赋、努力,还是运气?
  15. 如何压缩视频可以不影响画质
  16. 生活中的定律——劣币驱逐良币
  17. 024《孤独是生命的礼物》读后感
  18. 编写python程序实现分段函数_python分段函数如何编写?_后端开发
  19. 致远项目管理SPM系统之项目立项审批
  20. 50个最佳机器学习公共数据集

热门文章

  1. VMware虚拟机禁止防火墙启动
  2. linux卸载字体库,在Ubuntu中删除不必要的字体并安装MS核心字体 | MOS86
  3. Linux查看CPU、内存、硬盘、操作系统相关详细信息
  4. 中国科学院计算机所张浩,航天科技集团调研组到计算所交流
  5. 目标检测系列文章之SPP-net【2015】
  6. 服务器上如何查看日志记录
  7. 【Linux】修改文件或文件夹权限的命令
  8. knn可视化、稠密dsift原理、手势识别
  9. 模拟POST、Get 请求的工具----APIpost(中文版POSTMAN)
  10. 【第一个项目开发】创建domain包中的类