题目

2021 - A multi-perspective combined recall and rank framework for Chinese procedure terminology normalization
解决中文术语标准化; 华东理工大学
https://github.com/sxthunder/CMTN
https://arxiv.org/pdf/2101.09101.pdf

摘要

提出一个关于召回和排名的组合框架.
由多任务候选生成器(MTCG),关键字关注力排名器(KAR),融合模块(FB)组成。

EMR的问题

  1. 多含义(Multi implication)

  2. 短文本(Short text): 平均只有9~12个字

  3. 关键词灵感(Keywords sensitive);

  4. 高效

    解决方法:”direct rank” and ”rank follows recall”.

    Direct rank

    string match(字符串匹配), dictionary look up, multi-class classifification, point-wise learning to rank

    字符串匹配,字典查找解决不了同义词问题;对于多分类的输出空间与知识库中的术语的数量相同;point-wise把术标准化看成是一个二分类问题, 输入为医学术语,输出为两个文本的相似度,当词典的词量大时,效果是一个问题。

    Rank follows recall

    基于这个问题,出现了“rank follows recall”:两阶段框架: 首先采用启发式规则或统计方法生成候选术语,然后采用模型对候选进行排序。

    这里的recall只是把Rank的候选集规模作了缩小,所以这里面的相似排名是没有用的,这个排名在rank步进行。

    对于多含义问题,这个论文解决了:《2020 - A knowledge-driven generative model for multi-implication chinese medical procedure entity normalization》,使用序列生成模型来解决,效率也是比较低的。

    本文提出:”combined recall and rank”框架。

    首先通过Pairwise recall模型来召回文本和语义相似的术语; (提出在线有效的负采样策略,提高了召开的效率)

    然后根据上下文和关键字信息对这些候选人进行排名;(设计了分任务去处理多含义的情况)

    最后,相似性来自召回和秩步骤合并,生成归一化结果。

    提出的框架

    Multi-task candidate generator

    1.Multi-task model

    MTCG处理召回(deep metric learning)与歧义数两个任务;

    procedure文本与其相应的术语视为相似的文本对;---- 文本相似问题

    歧义数看作为一个回归问题; ----- 回归问题

    数据统计分布情况:

    标准的术语被看成是正样本,其它术语看成为负样本,学习训练的损失函数:

    1. Negative sampling

    负抽样策略算法:

    Tf-idf: 计算mentions与terminologies的tf-idf值,选择top-kn个负样本(非常标准化的mentios);

    Tree coding: 参考例如ICD9的数据库来进行抽样;

    Keywords replacing: 代替关键字。

    Online negative sampling

    Keywords Attentive Ranker

    Keywords attentive ranker(KAR): 关键词注意力排名,主要基于procedure部位与procedure类型进行对候选元素进行排序。它的训练数据是能过MTCG来生成的,对于每个mention选择top10的术语作为候选排序对象,排序采用point-wise方法进行。

    在开始的地方增加了[PS],[PT];[PS]表示procedure的部位, [PT]表示procedure的类型; [CLS]表示为表示整个句子的语义信息。

    最终定义为:

    s = {[CLS], [P S], [P T], mention, [SEP], candidate, [SEP]}

    bert多头表示为:

    Mask矩阵表示为词之间的关注矩阵。

    Fusion Block

    这个模型是应用于推理阶段的,进行对MCTG与KAR进行融合。

    首先,对每个mention m, 经MTCG模型进行召回候选集C,C是标准术语集;

    然后,计算d(m, c_i)表示mention与c_i的距离;

    最后,进行排序;

    对于歧义数大于3的情况,使用一个域值去处理:

    实验

    数据集:CHIP 2019 @ OpenKG

    与其它模型对比结果

    统计的方法:Tf-idf,edit-distance

    【1】基于n-gram为特征去训练一个二元分类查找相似特征; – Zhang

    【2】”recall and rank”,使用tf-idf进行候选召回,使用ESIM作为实验指标计算

    可是两都都处理不了多含义问题; – Liang

    【3】在通过生成方法进行召回,基于bert来进行排序,多含义数在第一步计算出来; –Transformer

    消融分析

    MTCG是一个非常关键的模块,删掉它会下降25%的指标;

    KAR解决歧义问题;

    不同负采样的策略影响

    在训练过程中,对于test集的不同的负采样策略与epoch相关性:

    召回的有效性和效率

    Implication number prediction – 歧义数据预测研究

    总结

    论文所研究的内容还是比较多的,就是在查找相关表格引用时,有些标得不准确。

    论文解决了一个mention对应于多个标准术语的问题,在实验结果上也表现出很不错的效果。

    相关工作

    Medical terminology normalization

    Text matching

    参考

    [1] Jiaying Zhang, Qi Wang, Zhixing Zhang, Yangming Zhou, Qi Ye, Huanhuan Zhang, Jiahui Qiu, and Ping He. An effffective standardization method for the lab indicators in regional medical health platform using n-grams and stacking. In 2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), pages 1602–1609. IEEE, 2018.

    [2] Ming Liang, ZhiXing Zhang, JiaYing Zhang, Tong Ruan, Qi Ye, and Ping He. Lab indicators standardization method for the regional healthcare platform: a case study on heart failure. BMC Medical Informatics and Decision Making, 20(14):1–11, 2020.

    [3] Jinghui Yan, Yining Wang, Lu Xiang, Yu Zhou, and Chengqing Zong. A knowledge-driven generative model for multi-implication chinese medical procedure entity normalization. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1490–

    1499, 2020.

    happyprince , https://blog.csdn.net/ld326/article/details/117717799

[论文阅读笔记40]recall与rank相结合的多视角中文过程术语标准化相关推荐

  1. 论文阅读笔记:《EIGENGAME: PCA AS A NASH EQUILIBRIUM》(特征博弈:主成分分析就是纳什均衡)

    论文阅读笔记:<EIGENGAME: PCA AS A NASH EQUILIBRIUM>(特征博弈:主成分分析就是纳什均衡) 声明 摘要 1 简介 2 PCA as an Eigen-G ...

  2. 论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统

    论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文简介 论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文名称:<LemurFaceID: a fac ...

  3. 论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018

    论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...

  4. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  5. 论文阅读笔记:Multi-view adaptive graph convolutions for graph classification

    论文阅读笔记:Multi-view adaptive graph convolutions for graph classification 文章目录 论文阅读笔记:Multi-view adapti ...

  6. [论文阅读笔记36]CASREL代码运行记录

    <[论文阅读笔记33]CASREL:基于标注与bert的实体与关系抽取>https://blog.csdn.net/ld326/article/details/116465089 总的来说 ...

  7. 论文阅读笔记(二)——牛的人脸识别,能做到吗?

    论文阅读笔记(二)--牛的人脸识别,能做到吗? 论文简介 论文中文翻译:<牛的人脸识别,能做到吗?> 论文名称:<Face Recognition of Cattle: Can it ...

  8. 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术

    语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...

  9. 论文阅读笔记(三)——从老虎到熊猫:动物头部检测

    论文阅读笔记(三)--从老虎到熊猫:动物头部检测 论文简介 论文中文翻译:<从老虎到熊猫:动物头部检测> 论文名称:<From Tiger to Panda: Animal Head ...

最新文章

  1. Core Animation简介
  2. 漫游飞行_手机“飞行模式”为何没被淘汰?内行人坦言:其实是你不会用!
  3. redis——数据库
  4. 2019 Java 开发者跳槽指南.pdf (吐血整理)
  5. Android入门篇二:使用意图在Activity之间传递数据
  6. Ubuntu安装指定版本clang-format
  7. Java基础类冒泡排序_Java基础 -- 冒泡排序算法(带详细注释)
  8. EMNLPICLR 多模态学习前沿分享
  9. 新网漫时代下的国漫“哥伦布”征程
  10. 动态网络社区检测概述
  11. 能量信号、功率信号及能量谱、功率谱
  12. APICloud AVM框架 开发CRM客户管理系统
  13. JS逆向-易班登录password参数(RSA加密)
  14. 易语言单窗口单ip软件源码_易语言助手下载-易语言助手 v3.2.0701 官方版
  15. Java绘制笛卡尔心形线
  16. 定义一个复数类Complex,使得下面的代码能够工作:
  17. Android中wifi认证的实现
  18. c#控制台模拟dos_超好用的C#控制台应用模板
  19. (适配方案总结)客户薅公司两台ipad,我还要给做适配?
  20. tf.convert_to_tensor

热门文章

  1. 如何准备才能提高面试的通过率拿到offer?
  2. Easy Excel 使用总结
  3. 【SQLite】C++链接SQLite数据库
  4. 边缘计算初探:什么是边缘计算,它能做什么?
  5. 云服务器可以用来做什么?
  6. u盘在计算机硬盘量,电脑硬盘指示灯一直亮怎么办
  7. 阿里云域名ICP备案操作流程
  8. biopython 【1】简单介绍【常用板块、安装】
  9. 花仙里云课堂知识付费v1.2.25知识付费 教育 直播
  10. hdu 2048 错排公式 神、上帝以及老天爷