[论文阅读笔记40]recall与rank相结合的多视角中文过程术语标准化

题目

2021 - A multi-perspective combined recall and rank framework for Chinese procedure terminology normalization
解决中文术语标准化；华东理工大学
https://github.com/sxthunder/CMTN
https://arxiv.org/pdf/2101.09101.pdf

摘要

提出一个关于召回和排名的组合框架.
由多任务候选生成器(MTCG)，关键字关注力排名器(KAR)，融合模块(FB)组成。

EMR的问题

多含义(Multi implication)
短文本（Short text）：平均只有9~12个字
关键词灵感（Keywords sensitive）；
高效

解决方法：”direct rank” and ”rank follows recall”.

Direct rank

string match（字符串匹配）, dictionary look up， multi-class classifification， point-wise learning to rank

字符串匹配，字典查找解决不了同义词问题；对于多分类的输出空间与知识库中的术语的数量相同；point-wise把术标准化看成是一个二分类问题，输入为医学术语，输出为两个文本的相似度，当词典的词量大时，效果是一个问题。

Rank follows recall

基于这个问题，出现了“rank follows recall”：两阶段框架: 首先采用启发式规则或统计方法生成候选术语，然后采用模型对候选进行排序。

这里的recall只是把Rank的候选集规模作了缩小，所以这里面的相似排名是没有用的，这个排名在rank步进行。

对于多含义问题，这个论文解决了：《2020 - A knowledge-driven generative model for multi-implication chinese medical procedure entity normalization》，使用序列生成模型来解决，效率也是比较低的。

本文提出：”combined recall and rank”框架。

首先通过Pairwise recall模型来召回文本和语义相似的术语；（提出在线有效的负采样策略，提高了召开的效率）

然后根据上下文和关键字信息对这些候选人进行排名；（设计了分任务去处理多含义的情况）

最后，相似性来自召回和秩步骤合并，生成归一化结果。

提出的框架

Multi-task candidate generator

1.Multi-task model

MTCG处理召回（deep metric learning）与歧义数两个任务；

procedure文本与其相应的术语视为相似的文本对；---- 文本相似问题

歧义数看作为一个回归问题； ----- 回归问题

数据统计分布情况：

标准的术语被看成是正样本，其它术语看成为负样本，学习训练的损失函数：
1. Negative sampling
负抽样策略算法:

Tf-idf: 计算mentions与terminologies的tf-idf值，选择top-kn个负样本(非常标准化的mentios)；

Tree coding: 参考例如ICD9的数据库来进行抽样；

Keywords replacing: 代替关键字。

Online negative sampling

Keywords Attentive Ranker

Keywords attentive ranker(KAR)：关键词注意力排名，主要基于procedure部位与procedure类型进行对候选元素进行排序。它的训练数据是能过MTCG来生成的，对于每个mention选择top10的术语作为候选排序对象，排序采用point-wise方法进行。

在开始的地方增加了[PS],[PT]；[PS]表示procedure的部位, [PT]表示procedure的类型; [CLS]表示为表示整个句子的语义信息。

最终定义为：

s = {[CLS], [P S], [P T], mention, [SEP], candidate, [SEP]}

bert多头表示为：

Mask矩阵表示为词之间的关注矩阵。

Fusion Block

这个模型是应用于推理阶段的，进行对MCTG与KAR进行融合。

首先，对每个mention m, 经MTCG模型进行召回候选集C，C是标准术语集;

然后，计算d(m, c_i)表示mention与c_i的距离；

最后，进行排序；

对于歧义数大于3的情况，使用一个域值去处理：

实验

数据集：CHIP 2019 @ OpenKG

与其它模型对比结果

统计的方法：Tf-idf，edit-distance

【1】基于n-gram为特征去训练一个二元分类查找相似特征； – Zhang

【2】”recall and rank”，使用tf-idf进行候选召回，使用ESIM作为实验指标计算

可是两都都处理不了多含义问题； – Liang

【3】在通过生成方法进行召回，基于bert来进行排序，多含义数在第一步计算出来； –Transformer

消融分析

MTCG是一个非常关键的模块，删掉它会下降25%的指标；

KAR解决歧义问题；

不同负采样的策略影响

在训练过程中，对于test集的不同的负采样策略与epoch相关性：

召回的有效性和效率

Implication number prediction – 歧义数据预测研究

总结

论文所研究的内容还是比较多的，就是在查找相关表格引用时，有些标得不准确。

论文解决了一个mention对应于多个标准术语的问题，在实验结果上也表现出很不错的效果。

相关工作

Medical terminology normalization

Text matching

参考

[1] Jiaying Zhang, Qi Wang, Zhixing Zhang, Yangming Zhou, Qi Ye, Huanhuan Zhang, Jiahui Qiu, and Ping He. An effffective standardization method for the lab indicators in regional medical health platform using n-grams and stacking. In 2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), pages 1602–1609. IEEE, 2018.

[2] Ming Liang, ZhiXing Zhang, JiaYing Zhang, Tong Ruan, Qi Ye, and Ping He. Lab indicators standardization method for the regional healthcare platform: a case study on heart failure. BMC Medical Informatics and Decision Making, 20(14):1–11, 2020.

[3] Jinghui Yan, Yining Wang, Lu Xiang, Yu Zhou, and Chengqing Zong. A knowledge-driven generative model for multi-implication chinese medical procedure entity normalization. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1490–

1499, 2020.

happyprince , https://blog.csdn.net/ld326/article/details/117717799

[论文阅读笔记40]recall与rank相结合的多视角中文过程术语标准化相关推荐

论文阅读笔记：《EIGENGAME: PCA AS A NASH EQUILIBRIUM》（特征博弈：主成分分析就是纳什均衡）
论文阅读笔记:<EIGENGAME: PCA AS A NASH EQUILIBRIUM>(特征博弈:主成分分析就是纳什均衡) 声明摘要 1 简介 2 PCA as an Eigen-G ...
论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统
论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统论文简介论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统论文名称:<LemurFaceID: a fac ...
论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018
论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...
论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey
本论文相关内容论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...
论文阅读笔记：Multi-view adaptive graph convolutions for graph classification
论文阅读笔记:Multi-view adaptive graph convolutions for graph classification 文章目录论文阅读笔记:Multi-view adapti ...
[论文阅读笔记36]CASREL代码运行记录
<[论文阅读笔记33]CASREL:基于标注与bert的实体与关系抽取>https://blog.csdn.net/ld326/article/details/116465089 总的来说 ...
论文阅读笔记（二）——牛的人脸识别，能做到吗？
论文阅读笔记(二)--牛的人脸识别,能做到吗? 论文简介论文中文翻译:<牛的人脸识别,能做到吗?> 论文名称:<Face Recognition of Cattle: Can it ...
语音情感识别领域-论文阅读笔记1：融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...
论文阅读笔记（三）——从老虎到熊猫:动物头部检测
论文阅读笔记(三)--从老虎到熊猫:动物头部检测论文简介论文中文翻译:<从老虎到熊猫:动物头部检测> 论文名称:<From Tiger to Panda: Animal Head ...

[论文阅读笔记40]recall与rank相结合的多视角中文过程术语标准化

题目

摘要

EMR的问题

提出的框架

Multi-task candidate generator

Keywords Attentive Ranker

Fusion Block

实验

与其它模型对比结果

消融分析

不同负采样的策略影响

召回的有效性和效率

Implication number prediction – 歧义数据预测研究

总结

相关工作

参考

[论文阅读笔记40]recall与rank相结合的多视角中文过程术语标准化相关推荐

最新文章

热门文章