本文基于调研的 14 篇医疗预训练语言模型的论文,总结了目前设计医疗领 域预训练语言模型的方法,这些方法主要可以分为三类:1)基于医疗领域数据 进行继续预训练;2)基于医疗领域数据从头进行预训练;3)基于医疗领域设计 的自监督任务进行预训练。

1   继续预训练

BioBERT通过BERT初始化权重,基于生物医学领域语料库进行继续预训练;BlueBERT 通过 BERT 初始化权重,基于 PubMed 摘要和 MIMIC-III 临床笔记进 行继续预训练;ClinicalBERT 通过 BERT 初始化权重,基于临床笔记语料进行继 续预训练;SciBERT 采用了两类预训练方法,一类是基于 BERT 在领域语料继续 预训练,一类是基于领域语料自建词表从头预训练,其中的语料库包括 18%来自 计算机科学领域的论文全文和 82%来自广泛的生物医学领域的论文全文。

2   从头预训练

PUBMEDBERT 基于领域语料从头进行预训练;BioELECTRA 基于领域语料 从头进行预训练,一方面引入了替换 token 预测预训练任务,该任务训练模型以 区分真实输入 token 和合成生成的 token,在输入文本中选择随机词,并用小型 生成器网络生成的 token 替换,然后,鉴别器网络预测输入 token 是原始的还是 替换的,另一方面去除了下一句预测任务;DiLBERT 从 ICD-11、PubMed 和 Wikipedia 构建词表并从头预训练模型。

3   域自监督预训练

MC-BERT 模型将实体和语言领域知识注入表示学习中进行继续预训练,其 中掩码策略采用 whole entity masking 和 whole span masking,并使用 NSP 任务。whole entity masking 是掩码医学实体,这些医学实体是利用中文生物医学知识图 谱和生物医学命名实体识别来获得的。whole span masking 是掩码医学短语,这 些医学短语是通过 Autophrase 和阿里巴巴认知概念图谱获得的;SMedBERT 将 知识图谱中的医疗实体和实体关系中的结构化语义信息同时引入到预训练模型 中。一方面利用 Mention-neighbor Hybrid Attention 获取 linked-entity 的相邻实体 信息,分别引入 type-level 和 node-level 学习相邻实体对于 linked-entity 的重要程 度,同时将结构化语义知识注入编码层。另一方面利用 Mention-neighbor Context Modeling 引入链接实体所在上下文的信息,同时对相邻实体也做 mask 处理。最 后使用 SOP 和 MLM 构成总的损失;diseaseBERT 将 BERT 与疾病知识相结合, 利用维基百科的结构作为一种弱监督信号,将医学术语及其类别作为标签进行预 训练;EMBET 是一种实体级知识增强的预训练语言模型,它通过三个自监督的 任务捕获医学术语之间的细粒度语义关系,包括 i)上下文实体一致性预测(在 给定的特定上下文中,实体是否在意义上等价),ii)实体分割(将实体分割为 细粒度语义部分)和 iii)双向实体掩蔽(预测长实体的原子或形容词术语),在 这个任务中,屏蔽其中一个组件,并根据另一个组件进行预测,反之亦然;BERT-MK 将知识图谱中的任意子图作为训练示例,子图中的关系和实体被视为 等价的节点以进行嵌入的联合训练,通过类似于训练语言模型的方式将每个节点 的更全面的上下文信息合并到所学习的知识表示中。在模型预训练的过程中,首 先,在 UMLS 三元组和 PubMed 语料库上训练医学 ERNIE(MedERNIE)模型, 继承了 ERNIE-Tsinghua 中使用的相同模型超参数,此外,通过上述 KRL 方法学 习的实体嵌入被集成到语言模型中来训练 BERT-MK 模型;UmlsBERT 通过一种 新的知识增强策略,在预训练过程中集成了领域知识。更具体地说,使用统一医 学语言系统(UMLS)元叙词表对 UmlsBERT 进行扩充,方式包括:(i)连接 在 UMLS 中具有相同基本“概念”的单词(ii)利用 UMLS 中的语义类型知识 创建具有临床意义的输入嵌入;SAPBERT 是一种生物医学实体表征的自对齐预 训练方案。通过利用现有的 BERT 模型,学习将生物医学名称与 UMLS 知识图谱中 的同义词对齐,并通过在线样本挖掘在一个小批量中找到难的正/负对或三元组, 以便进行有效的训练。

参考资料

[1]Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

[2]Peng Y, Yan S, Lu Z. Transfer learning in biomedical natural language processing: an evaluation of BERT and ELMo on ten benchmarking datasets[J]. arXiv preprint arXiv:1906.05474, 2019.

[3]Huang K, Altosaar J, Ranganath R. Clinicalbert: Modeling clinical notes and predicting hospital readmission[J]. arXiv preprint arXiv:1904.05342, 2019.

[4]Beltagy I, Lo K, Cohan A. SciBERT: A pretrained language model for scientific text[J]. arXiv preprint arXiv:1903.10676, 2019.

[5]Gu Y, Tinn R, Cheng H, et al. Domain-specific language model pretraining for biomedical natural language processing[J]. ACM Transactions on Computing for Healthcare (HEALTH), 2021, 3(1): 1-23.

[6]raj Kanakarajan K, Kundumani B, Sankarasubbu M. BioELECTRA: pretrained biomedical text encoder using discriminators[C]//Proceedings of the 20th Workshop on Biomedical Language Processing. 2021: 143-154.

[7]Zhang N, Jia Q, Yin K, et al. Conceptualized representation learning for chinese biomedical text mining[J]. arXiv preprint arXiv:2008.10813, 2020.

[8]Zhang T, Cai Z, Wang C, et al. SMedBERT: A knowledge-enhanced pre-trained language model with structured semantics for medical text mining[J]. arXiv preprint arXiv:2108.08983, 2021.

[9]He Y, Zhu Z, Zhang Y, et al. Infusing disease knowledge into BERT for health question answering, medical inference and disease name recognition[J]. arXiv preprint arXiv:2010.03746, 2020.

[10]Cai Z, Zhang T, Wang C, et al. EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data. Springer, Cham, 2021: 242-257.

[11]Roitero K, Portelli B, Popescu M H, et al. DiLBERT: Cheap Embeddings for Disease Related Medical NLP[J]. IEEE Access, 2021, 9: 159714-159723.

[12]He B, Zhou D, Xiao J, et al. Integrating graph contextualized knowledge into pre-trained language models[J]. arXiv preprint arXiv:1912.00147, 2019.

[13]Michalopoulos G, Wang Y, Kaka H, et al. Umlsbert: Clinical domain knowledge augmentation of contextual embeddings using the unified medical language system metathesaurus[J]. arXiv preprint arXiv:2010.10391, 2020.

[14]Liu F, Shareghi E, Meng Z, et al. Self-alignment pretraining for biomedical entity representations[J]. arXiv preprint arXiv:2010.11784, 2020.

END

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码:

【NLP】调研|医疗领域预训练语言模型设计方法相关推荐

  1. NLP之PTM:自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略

    NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...

  2. 手把手!基于领域预训练和对比学习SimCSE的语义检索(附源码)

    之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...

  3. 超越谷歌BERT!依图推出预训练语言理解模型ConvBERT,入选NeurIPS 2020

    机器之心发布 机器之心编辑部 在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...

  4. pytorch微调bert_小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    选自Medium 作者:Victor Sanh 机器之心编译 参与:魔王 过去一段时间,大模型层出不穷.在大家纷纷感叹「大力出奇迹」的时候,作为调用预训练语言模型最流行的库,HuggingFace 尝 ...

  5. bert预训练模型解读_超越谷歌BERT!依图预训练语言理解模型入选NeurIPS

    机器之心发布 机器之心编辑部 在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...

  6. R语言作加权最小二乘_超越谷歌BERT!依图预训练语言理解模型入选NeurIPS

    机器之心发布 机器之心编辑部 在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...

  7. 小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    转载:https://tech.ifeng.com/c/7pqoBttuWS0 选自Medium 作者:Victor Sanh 机器之心编译 参与:魔王 过去一段时间,大模型层出不穷.在大家纷纷感叹「 ...

  8. 无需「域外」文本,微软:NLP就应该针对性预训练

    在生物医学这样的专业领域训练NLP模型,除了特定数据集,「域外」文本也被认为是有用的.但最近,微软的研究人员「大呼」:我不这么觉得! 什么是预训练? 这是一个拷问人工智能「门外汉」的灵魂问题. 生而为 ...

  9. NLP 中的语言模型预训练微调

    1 引言 语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布.具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性.在实践中,如果 ...

最新文章

  1. OPNET中的zigbee
  2. Error:java: 无效的标记 -version 编译错误的解决办法
  3. 电子计算机技能竞赛数据,2015年浙江省中等职业学校计算机应用技术专业学生职业技能大赛“计算机检测维修与数据恢复”赛项规程.doc...
  4. (机器学习/计算机视觉/深度学习)代码
  5. php 501解决办法,PHP 使用错误处理解析
  6. (王道408考研操作系统)第四章文件管理-第一节3:文件目录
  7. 如何使用 TStringGrid 呈现大量的颜色信息 - 回复 冷公子 的问题
  8. PCL——快速邻域搜索
  9. 报告:2015年数据中心SDN市场将增长70%
  10. Java或Web中解决所有路径问题
  11. Firefox 的about:config
  12. Java生成唯一GUID UUID
  13. 使用Word(Office 365)版本中的简历助手
  14. We will rock you (我们将震憾你)
  15. Recovering BST
  16. 暑假来了,画一个日月地球的轨道模型给孩子们,秒懂四季更迭、日蚀月蚀
  17. HTTP1.1协议中文版-RFC2616
  18. 爱奇艺攻防演练平台的探索实践(文末有直播福利)
  19. 【数字化】推动5大层面变革——BCG和MIT帮你设计卓越数字化组织
  20. 【ML30】Basic K-means clustering algorithm

热门文章

  1. 利用STM32CubeMX软件生成USB_HOST_CDC驱动ME909s-821ap(4G通信模块)
  2. C# EPPlus读写Excel
  3. 蓝桥杯单片机第十届省赛程序题
  4. win10远程桌面计算机用户名,win10系统远程桌面保存密码的方法
  5. Dubbo 面试题及答案
  6. 2020 Dubbo面试题大全
  7. exfat格式磁盘的陷阱-丢失的磁盘空间-空间占用过多
  8. ULAM /区块链未来将颠覆的9个行业
  9. LockChain—打造区块链行业的东方财富网
  10. 二手车市场价格预测----项目第一天