医疗领域的Bert模型

chineseEHRBert

论文

类型

中文电子病历的预训练模型

数据量

100G+

数据类型

医院的非公开数据

结果

比对结果没有出

预备是与原始BERT进行比对

不能跑

BioBert

类型

生物医学文本挖掘的预训练语言表示模型

数据集

英文生物医学相关数据集

形式

已经成为可以直接调用的工具

K-Bert

论文

AAAI 2020

研究者

北大+腾讯

类型

在特定领域的任务(包括金融、法律和医学)中,K-BERT的表现明显优于BERT,这表明K-BERT是解决需要专家参与的知识驱动问题的最佳选择。

数据集

医疗、金融等方面的中文数据集(开源)

解决的问题

如何将现有的知识库和预训练模型结合是一个重要的课题,在这方面主要有两个挑战

Heterogeneous Embedding Space :不同的知识库中的实体和关系的嵌入通过不同的方法获得,这使得他们的向量空间不一致

Knowledge Noise:太多的知识嵌入会使得句子偏离原本的含义

scibert

论文

2019

数据集

英文

Chinese clinical named entity recognition with variant neural structures based on BERT methods

作者:Xiangyang Li
, Huan Zhang
, Xiao-Hua Zhoud

期刊:Journal of Biomedical Informatics
(计算机和医学交叉学科,医学信息学,自然语言处理,机器学习和数据挖掘在医学的应用 等领域的权威期刊。
与计算机期刊相比,审稿速度较快。)

年份:2020

摘要

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w8HnAwEP-1595592181703)(https://note.youdao.com/yws/api/personal/file/6AD526F7DB214730A5EB6F4287E3FD89?method=download&shareKey=80c9723d48683dec05256291f6f1c025)]

用bert模型跑在没有标注的中文垂直语料上,LSTM和CRF去抽取文本特征和解码预测的标签。建立一个将字典功能合并到模型中的策略,去提升模型的效果。

数据集

CCKS-2018

CCKS-2017

创新点

Our contribution
can be summarized as follows:

(1) a large pre-trained BERT language
model on Chinese clinical text is derived, which can be used for CNER
and other Chinese clinical NLP tasks

(2) we compare the performance
by adding different layers (eg. LSTM, CRF) on the BERT model for the
CNER task

(3) we propose a new way of adding dictionary features on
the CNER model and apply the radical features to the model.

常用的方法

CNER任务通常被认为是一个序列标注问题,因此隐马尔可夫模型(HMM)、最大熵马尔科夫模型(MEMM)和条件随机场(CRF)等经典机器学习方法被广泛应用于任务中。

具有CRF的双向LSTM(BILSTM-CRF)更好

文中搜索效率的影响因素

单词嵌入:word2vec,Glove,ELMO,Bert。其中bert更优秀。

字典功能:wang【33】基于字典创建n-gram特征,并将字典特征与单词嵌入连接起来作为BiLSTM的输入

chen【3】等人利用字典对句子进行分段,并将分段嵌入和字符嵌入输入到BiLSTM-CRF模型中

其他特征:词根特征、笔画特征、拼音特征,这些都是汉语特有的特征有助于提高汉语听力任务。

此模型中包括了根特征、字典特征。

作者思路

不同层次的预训练BERT模型的性能:线性层、CRF层、BiLSTM-CRF层。选择了最后的作为基础模型架构。

将字典特性和基本特性利用到模型中。

作者配置

1080Ti GPU

流程

1h37min .tfrecord

8h22min pre-train Bert

得到一个 .ckpt

we used the transformation
script https://github.com/huggingface/transformers to transform the
TensorFlow model into the PyTorch model ended with .bin

词典信息的后处理方法,在术语词典(如药物词典、外科词典)的基础上,我们可以通过双向最大匹配(BDMM)算法找到文本中对应的实体,即使用BDMM算法对文本进行分段,并对字典中出现的实体进行标签。通过BDMM算法对线性层的输出进行修改,在第i个元素上增加一个常数,使得令牌可以被标记为dii个标签。

结果

2017年CCKS-CNER datasets,有4种医疗记录(电子病历)包括:一般项目,病史特点(病历),诊疗经过(诊断和治疗),出院情况(出院小结),其中有5个类型的临床实体识别:身体部位(解剖)症状和体征(症状)、疾病和诊断(疾病)、检查和检验(考试)和治疗(治疗)。
训练集:1198条临床记录,测试集:398条临床记录。

2018年CCKS-CNER dataset,训练集:600,测试集:400.

评价标准:整体精度(P),召回率(R),F1得分

医疗领域Bert模型比较相关推荐

  1. 基于垂直领域语料,使用MaskLM任务预训练Bert模型

    项目介绍 使用Mask LM预训练任务来预训练Bert模型. 基于pytorch框架,训练关于垂直领域语料的预训练语言模型,目的是提升下游任务的表现. 代码及示例数据:https://github.c ...

  2. 干货 | 谷歌BERT模型fine-tune终极实践教程

    作者 | 奇点机智 从11月初开始,Google Research就陆续开源了BERT的各个版本.Google此次开源的BERT是通过TensorFlow高级API-- tf.estimator进行封 ...

  3. bert模型可以做文本主题识别吗_BERT如何融合主题模型-ACL2020

    首发公众号:[NLP从入门到放弃] 今天分享一个论文ACL2020-tBERT,论文主要融合主题模型和BERT去做语义相似度判定,在特定领域使用这个模型,效果更明显. 掌握以下几点: [CLS]向量拼 ...

  4. 从GLM、ChatGLM-6B、MOSS到垂类医疗/金融/法律模型、可商用模型

    前言 随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出,绝大部分公司的技术 产品 服务,以及绝大部分人的工作都将被革新一遍 ...

  5. 谷歌BERT模型fine-tune终极实践教程

    从11月初开始,Google Research就陆续开源了BERT的各个版本.Google此次开源的BERT是通过TensorFlow高级API-- tf.estimator进行封装(wrapper) ...

  6. 利用特定领域模型训练Bert模型

    目录 前言 一.预训练模型思路? 二.数据处理 1.MLM任务 2.SOP任务 3.模型搭建 总结 前言 最近刚完成医疗电子病历模型的预训练,经过测试效果还不错,相比于原生Bert在序列标注任务和文本 ...

  7. 【NLP】调研|医疗领域预训练语言模型设计方法

    本文基于调研的 14 篇医疗预训练语言模型的论文,总结了目前设计医疗领 域预训练语言模型的方法,这些方法主要可以分为三类:1)基于医疗领域数据 进行继续预训练:2)基于医疗领域数据从头进行预训练:3) ...

  8. NLP突破性成果 BERT 模型详细解读 bert参数微调

    https://zhuanlan.zhihu.com/p/46997268 NLP突破性成果 BERT 模型详细解读 章鱼小丸子 不懂算法的产品经理不是好的程序员 ​关注她 82 人赞了该文章 Goo ...

  9. BERT模型的OneFlow实现

    BERT模型的OneFlow实现 模型概述 BERT(Bidirectional Encoder Representations from Transformers)是NLP领域的一种预训练模型.本案 ...

最新文章

  1. 求最大元最小元极大元极小元_极大元、最大元.ppt
  2. 两个单体内置对象_Global和Math
  3. redis cluster集群模式总结
  4. Unity3d疑难问题解决
  5. Linux hostname指令
  6. 如何用纯 CSS 创作一个文本淡入淡出的 loader 动画
  7. PS教程第二十课:有了选区就有了界限
  8. package.json 封装 vue模块_Vue管理系统前端~相关工具引入及封装
  9. 非肿瘤体细胞突变可能是临床基因检测新赛道
  10. VVIC搜款网平台API接口
  11. c++ 模糊搜索 正则表达式_c++中正则表达式(regex)
  12. ARC下循环引用的问题
  13. php 复制文件夹并压缩到最小_php获取所有文件并压缩
  14. 世界各国当日数据探索性分析
  15. 【肌电信号】脉搏信号分析(去噪+特征提取)matlab源码含GUI
  16. 用源码论述Eclipse学习体会
  17. html+css 图片右上角加删除叉,图片删除
  18. 数据湖之Hudi基础:核心原理
  19. 12306买票难的一些思考
  20. python中关于列表和元祖的基础知识

热门文章

  1. java 支付结果主动通知商户_微信支付结果通知,回调的策略
  2. Python爬虫—爬取某网站上面所有的世界港口信息数据
  3. CAD教程:CAD快速查找替换实例教程
  4. 【免费的短信推送API】【MobTech】【Android】手机短信验证码推送
  5. go 汇编入门 如何学习Golang?万字详文教你Go语言入门
  6. Laravel事件广播项目中使用laravel-echo-server
  7. python运算符中用来计算集合并集的是_python考试复习题库
  8. 大厂竞业协议是“巨坑”?科大讯飞前员工、团队创始人跳槽腾讯被判赔 1200 万
  9. 理解Linux文件系统之 inode
  10. express+node+mysql简单博客系统(一):登录接口