【NLP】调研|医疗领域预训练语言模型设计方法

本文基于调研的 14 篇医疗预训练语言模型的论文，总结了目前设计医疗领域预训练语言模型的方法，这些方法主要可以分为三类：1）基于医疗领域数据进行继续预训练；2）基于医疗领域数据从头进行预训练；3）基于医疗领域设计的自监督任务进行预训练。

1 继续预训练

BioBERT通过BERT初始化权重，基于生物医学领域语料库进行继续预训练；BlueBERT 通过 BERT 初始化权重，基于 PubMed 摘要和 MIMIC-III 临床笔记进行继续预训练；ClinicalBERT 通过 BERT 初始化权重，基于临床笔记语料进行继续预训练；SciBERT 采用了两类预训练方法，一类是基于 BERT 在领域语料继续预训练，一类是基于领域语料自建词表从头预训练，其中的语料库包括 18%来自计算机科学领域的论文全文和 82%来自广泛的生物医学领域的论文全文。

2 从头预训练

PUBMEDBERT 基于领域语料从头进行预训练；BioELECTRA 基于领域语料从头进行预训练，一方面引入了替换 token 预测预训练任务，该任务训练模型以区分真实输入 token 和合成生成的 token，在输入文本中选择随机词，并用小型生成器网络生成的 token 替换，然后，鉴别器网络预测输入 token 是原始的还是替换的，另一方面去除了下一句预测任务；DiLBERT 从 ICD-11、PubMed 和 Wikipedia 构建词表并从头预训练模型。

3 域自监督预训练

MC-BERT 模型将实体和语言领域知识注入表示学习中进行继续预训练，其中掩码策略采用 whole entity masking 和 whole span masking，并使用 NSP 任务。whole entity masking 是掩码医学实体，这些医学实体是利用中文生物医学知识图谱和生物医学命名实体识别来获得的。whole span masking 是掩码医学短语，这些医学短语是通过 Autophrase 和阿里巴巴认知概念图谱获得的；SMedBERT 将知识图谱中的医疗实体和实体关系中的结构化语义信息同时引入到预训练模型中。一方面利用 Mention-neighbor Hybrid Attention 获取 linked-entity 的相邻实体信息，分别引入 type-level 和 node-level 学习相邻实体对于 linked-entity 的重要程度，同时将结构化语义知识注入编码层。另一方面利用 Mention-neighbor Context Modeling 引入链接实体所在上下文的信息，同时对相邻实体也做 mask 处理。最后使用 SOP 和 MLM 构成总的损失；diseaseBERT 将 BERT 与疾病知识相结合，利用维基百科的结构作为一种弱监督信号，将医学术语及其类别作为标签进行预训练；EMBET 是一种实体级知识增强的预训练语言模型，它通过三个自监督的任务捕获医学术语之间的细粒度语义关系，包括 i）上下文实体一致性预测（在给定的特定上下文中，实体是否在意义上等价），ii）实体分割（将实体分割为细粒度语义部分）和 iii）双向实体掩蔽（预测长实体的原子或形容词术语），在这个任务中，屏蔽其中一个组件，并根据另一个组件进行预测，反之亦然；BERT-MK 将知识图谱中的任意子图作为训练示例，子图中的关系和实体被视为等价的节点以进行嵌入的联合训练，通过类似于训练语言模型的方式将每个节点的更全面的上下文信息合并到所学习的知识表示中。在模型预训练的过程中，首先，在 UMLS 三元组和 PubMed 语料库上训练医学 ERNIE（MedERNIE）模型，继承了 ERNIE-Tsinghua 中使用的相同模型超参数，此外，通过上述 KRL 方法学习的实体嵌入被集成到语言模型中来训练 BERT-MK 模型；UmlsBERT 通过一种新的知识增强策略，在预训练过程中集成了领域知识。更具体地说，使用统一医学语言系统（UMLS）元叙词表对 UmlsBERT 进行扩充，方式包括：（i）连接在 UMLS 中具有相同基本“概念”的单词（ii）利用 UMLS 中的语义类型知识创建具有临床意义的输入嵌入；SAPBERT 是一种生物医学实体表征的自对齐预训练方案。通过利用现有的 BERT 模型，学习将生物医学名称与 UMLS 知识图谱中的同义词对齐，并通过在线样本挖掘在一个小批量中找到难的正/负对或三元组，以便进行有效的训练。

参考资料

[1]Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

[2]Peng Y, Yan S, Lu Z. Transfer learning in biomedical natural language processing: an evaluation of BERT and ELMo on ten benchmarking datasets[J]. arXiv preprint arXiv:1906.05474, 2019.

[3]Huang K, Altosaar J, Ranganath R. Clinicalbert: Modeling clinical notes and predicting hospital readmission[J]. arXiv preprint arXiv:1904.05342, 2019.

[4]Beltagy I, Lo K, Cohan A. SciBERT: A pretrained language model for scientific text[J]. arXiv preprint arXiv:1903.10676, 2019.

[5]Gu Y, Tinn R, Cheng H, et al. Domain-specific language model pretraining for biomedical natural language processing[J]. ACM Transactions on Computing for Healthcare (HEALTH), 2021, 3(1): 1-23.

[6]raj Kanakarajan K, Kundumani B, Sankarasubbu M. BioELECTRA: pretrained biomedical text encoder using discriminators[C]//Proceedings of the 20th Workshop on Biomedical Language Processing. 2021: 143-154.

[7]Zhang N, Jia Q, Yin K, et al. Conceptualized representation learning for chinese biomedical text mining[J]. arXiv preprint arXiv:2008.10813, 2020.

[8]Zhang T, Cai Z, Wang C, et al. SMedBERT: A knowledge-enhanced pre-trained language model with structured semantics for medical text mining[J]. arXiv preprint arXiv:2108.08983, 2021.

[9]He Y, Zhu Z, Zhang Y, et al. Infusing disease knowledge into BERT for health question answering, medical inference and disease name recognition[J]. arXiv preprint arXiv:2010.03746, 2020.

[10]Cai Z, Zhang T, Wang C, et al. EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data. Springer, Cham, 2021: 242-257.

[11]Roitero K, Portelli B, Popescu M H, et al. DiLBERT: Cheap Embeddings for Disease Related Medical NLP[J]. IEEE Access, 2021, 9: 159714-159723.

[12]He B, Zhou D, Xiao J, et al. Integrating graph contextualized knowledge into pre-trained language models[J]. arXiv preprint arXiv:1912.00147, 2019.

[13]Michalopoulos G, Wang Y, Kaka H, et al. Umlsbert: Clinical domain knowledge augmentation of contextual embeddings using the unified medical language system metathesaurus[J]. arXiv preprint arXiv:2010.10391, 2020.

[14]Liu F, Shareghi E, Meng Z, et al. Self-alignment pretraining for biomedical entity representations[J]. arXiv preprint arXiv:2010.11784, 2020.

END

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码：

【NLP】调研|医疗领域预训练语言模型设计方法相关推荐

NLP之PTM：自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略
NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...
手把手！基于领域预训练和对比学习SimCSE的语义检索（附源码）
之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...
超越谷歌BERT！依图推出预训练语言理解模型ConvBERT，入选NeurIPS 2020
机器之心发布机器之心编辑部在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...
pytorch微调bert_小版BERT也能出奇迹：最火的预训练语言库探索小巧之路
选自Medium 作者:Victor Sanh 机器之心编译参与:魔王过去一段时间,大模型层出不穷.在大家纷纷感叹「大力出奇迹」的时候,作为调用预训练语言模型最流行的库,HuggingFace 尝 ...
bert预训练模型解读_超越谷歌BERT！依图预训练语言理解模型入选NeurIPS
机器之心发布机器之心编辑部在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...
R语言作加权最小二乘_超越谷歌BERT！依图预训练语言理解模型入选NeurIPS
机器之心发布机器之心编辑部在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...
小版BERT也能出奇迹：最火的预训练语言库探索小巧之路
转载:https://tech.ifeng.com/c/7pqoBttuWS0 选自Medium 作者:Victor Sanh 机器之心编译参与:魔王过去一段时间,大模型层出不穷.在大家纷纷感叹「 ...
无需「域外」文本，微软：NLP就应该针对性预训练
在生物医学这样的专业领域训练NLP模型,除了特定数据集,「域外」文本也被认为是有用的.但最近,微软的研究人员「大呼」:我不这么觉得! 什么是预训练? 这是一个拷问人工智能「门外汉」的灵魂问题. 生而为 ...
NLP 中的语言模型预训练微调
1 引言语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布.具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性.在实践中,如果 ...

【NLP】调研|医疗领域预训练语言模型设计方法

【NLP】调研|医疗领域预训练语言模型设计方法相关推荐

最新文章

热门文章