英文题目:BERT-based Ranking for Biomedical Entity Normalization
中文题目:基于bert的生物医学实体标准化排序
论文地址:https://arxiv.org/pdf/1908.03548
领域:自然语言处理,生物医学,实体标准化
发表时间:2019
作者:Zongcheng Ji, 德克萨斯大学
被引量:6
阅读时间:22.06.20

读后感

中规中矩的方法,评测了各个预训练模型的差异。

介绍

BERT是常用的自然语言处理深度学习模型, BoiBERT和ClinicalBERT是针对医疗领域预训练的模型,文中提出的架构用于将上述模型通过微调解决医疗实体规范化问题.

实体规范化Entity linking,主要面临以下挑战:

  • 歧义问题:同一实体可能与多个概念相连
  • 变体问题:同一概念可能与不同的实体相连
  • 缺失问题:实体不与知识库中的任务概念相连
    (这里指的概念是规范化后的文本)

在医疗领域主要任务是对实体的规范化和编码,变体问题是医疗领域的主要问题。

方法

已知文档的句子中的有实体m,以及包含很多概念的知识知识库KB,任务是将实体m连接到KB中的概念c,如果找不到,则认为不可达 unlinkable。

图-1展示了文中方法的结构,包含四个模块:预处理、创建候选项、候选项排序、预测不可达。

预处理

对于m和c都进行如下操作:

  • 拼写纠错
  • 缩写转换
  • 处理数字符号
  • 其它预处理:使用CLAMP28工具包,处理标点,大小写等。

生成候选概念

利用传统的 BM25 模型。首先,提取所有概念c和训练集中的m用于训练模型,对于m,选择模型推荐的前10个近似项c作为候选概念。

候选概念排序

使用预训练的 BERT/BioBERT/ClinicalBERT 模型,将排序任务转换成句子对的分类任务。对于每个m与对应的c,构建 [CLS] m [SEP] c 输入模型,精调模型参数。当m中包含概念c时,其类别为1,否则为0。

预测不可达

m中的实体可能找不到对应概念c,因此,需要预测不可达的情况。如果 BM25 不能返回候选项,则认为不可达。另外,设定一个阈值,如果相似度得分小于阈值,则认为不可达。

实验结果

论文阅读_ICD编码_BERT相关推荐

  1. 多目标跟踪:CVPR2019论文阅读

    多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...

  2. 快速人体姿态估计:CVPR2019论文阅读

    快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...

  3. 深度学习点云语义分割:CVPR2019论文阅读

    深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...

  4. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

  5. [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测(经典)

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  6. [论文阅读] (06) 万字详解什么是生成对抗网络GAN?经典论文及案例普及

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  7. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](6)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](6) GNN playground Some empirical GNN ...

  8. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](4)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](4) The challenges of using graphs in ...

  9. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](2)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](2) Graphs and where to find them 图以及在 ...

  10. character-level OCR之Character Region Awareness for Text Detection(CRAFT) 论文阅读

    Character Region Awareness for Text Detection 论文阅读 论文地址(arXiv) ,pytorch版本代码地址 最近在看一些OCR的问题,CRAFT是在场景 ...

最新文章

  1. AndroidStudio基础视频教程-整理
  2. 让网站具有生命与活力不仅仅是说说而已
  3. JavaScript slice() 方法
  4. Hulu:如何实现大型比赛直播系统自动扩容
  5. java什么是网络接口_java接口和类的区别是什么?它们都有哪些作用呢?
  6. PHP将Excel另存为html页面
  7. ApacheCN JavaWeb 译文集 20211017 更新
  8. TensorFlow总结(2020版)
  9. ktor HTTP API 练习
  10. 游戏开发之C++Vector动态数组及其迭代器的实现--简单版(C++基础)
  11. 店铺进销存管理系统源码
  12. 三级联动插件distpicker
  13. 如何检测笔记本电脑的主板,cpu,硬盘的温度
  14. PyTorch-05神经网络与全连接(Logistic Regression、交叉熵、交叉熵来优化一个多分类的问题、全连接层(MLP网络层)、激活函数与GPU加速、测试、Visdom可视化)
  15. 模态综合医疗时间序列数据:REAL-VALUED (MEDICAL) TIME SERIES GENERATION WITH RECURRENT CONDITIONAL GANS
  16. Session的理解
  17. Redis缓存的使用
  18. F - Color the ball
  19. Java - 说一下表达式语言(EL)的隐式对象及其作用。
  20. 2038计算机系统,2038年问题

热门文章

  1. 华为数通HCIE很好考吗?
  2. RainMeter学习1
  3. Android apk签名详解——AS签名、获取签名信息、系统签名、命令行签名
  4. 笔记本安装 ubuntu 触摸板失灵
  5. 23种设计模式之适配器模式(Adapter模式)
  6. 电子计算机中专考试试题,职业中专考试试题
  7. 2022世界机器人大会开幕,有屋智能主动终止IPO,《2022人工智能发展白皮书》发布,2022可穿戴设备出货量将达3.44亿台
  8. 2022显卡、CPU天梯图
  9. 阅读YYKit之YYImage实现gif展示
  10. mysql函数返回结果集_MySQL自定义函数