bert中文预训练模型_[中文医疗预训练模型] MC-BERT
Conceptualized Representation Learning for Chinese Biomedical Text Mining
作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua
作者单位:Alibaba Group
项目地址:https://github.com/alibaba-research/ChineseBLUE
预训练模型:mc_bert_base.tar.gz
- 背景
总结:生物医学领域的中文预训练以及评测基准数据集。
拟解决的问题:如何检索生物医学领域知识;如何在模型预训练中利用生物医学领域的知识。
2. 方法
(1)Whole Entity Masking
解决的问题:遮盖类似于”腹痛“的医疗实体,将这种医疗知识显式地注入模型中。
步骤:
1)使用实体命名识别预测医疗实体;
2)使用中文医疗知识图谱后处理实体。
(2)Whole Span Masking
解决的问题:医疗实体还不足够,医疗文本中存在类似”肚子有一点痛“,”腹部一阵一阵痛“,它们也与”腹痛“具有类似的含义。
步骤:
1)使用Autophrase提取短语;
2)从Alibaba Cognitive Concept Graph检索通用的医疗短语;
3)训练了一个二分类器,用于分类出Autophrase提取出的医学短语。
(3)整体流程总结
1)生成医疗实体,使用医疗知识图谱提纯医疗实体;
2)使用Autophrase生成短语;
3)使用规则以及fastText增强和提纯短语;
4)以15%的几率进行Whole Entity/Span Masking;
5)用BERT-base的模型参数进行初始化,然后进行预训练。
3. 实验
(1)预训练数据
预训练数据来自于中文医疗问答、中文医疗百科和中文电子病历。
(2)下游任务
下游任务数据来自于新发布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。
(3)实验结果
与Baseline相比,在所有任务上都有着不同程度的提升:
消融实验,移除whole entity/span masking都会影响模型的效果:
bert中文预训练模型_[中文医疗预训练模型] MC-BERT相关推荐
- bert 中文 代码 谷歌_如何用最强模型BERT做NLP迁移学习?
作者 | 台湾大学网红教授李宏毅的三名爱徒 来源 | 井森堡,不定期更新机器学习技术文并附上质量佳且可读性高的代码. 编辑 | Jane 谷歌此前发布的NLP模型BERT,在知乎.Reddit上都引起 ...
- 中文表示什么_中文分词是个伪问题
六年以前,第一个中文分词系统的发明人郝玺龙先生对我讲,中文分词是个伪问题.当时NLP刚入门的我完全听不懂. 最近试用了一下BERT,做了个简单的文本分类.以前做这类任务的方法都是先分词,然后把词向量化 ...
- python中文文本分析_中文文本处理
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...
- 不同手机型号图文预览_微信编辑器预览一般以多大的手机尺寸为准?
在此前,使用微信编辑器编辑好文章后,大家需要将图文在手机上进行预览,确认没有问题后才会在公众号或者自媒体平台上进行发布,这样来回切换平台浏览自然比较麻烦,有需求就有供给,市面上不少编辑器就有提供模拟手 ...
- java中文分词工具_中文分词工具(LAC) 试用笔记
一.背景 笔者2年前写过一篇<PHP使用elasticsearch搜索安装及分词方法>的文章,记录了使用ES的分词的实现步骤,最近又需要用到分词,在网上发现一个百度的中文分词项目,中文词法 ...
- python中文文本预处理_中文文本预处理及表示
文本分类 一.建立语料库 文本数据的获取方法一般有两种: 使用别人做好的语料库 爬虫去获取自己的预料数据 二.文本预处理 1.除去数据中非文本部分 一般可以使用正则表达式去进行删除 2.处理中文编码问 ...
- 自定义预览_为什么NVR预览画面数量少于已经添加的通道数
01视图配置用在哪里? 监控应用中,不少朋友有老王的这种需求,例如酒店.宾馆.超市.店铺.企业等监控场景,前台.保安.收银台等需要查看监控.用户希望所有摄像机都能正常存储,但只开放预览部分监控画面,如 ...
- python 中文姓名库_中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。...
中文人名语料库(Chinese-Names-Corpus) 业余项目"萌名NameMoe(一个基于语料库技术的取名工具)"的副产品. 不定期更新.只删词,不加词. 可用于中文分词. ...
- tga缩略图预览_带有缩略图预览的弹性图像幻灯片
tga缩略图预览 View demo 查看演示Download Source 下载源 Today we want to show you how to create a simple elastic ...
最新文章
- UA MATH571A 回归分析 概念与R code总结
- docker redis mysql_docker创建redis mysql 等服务
- 拆解Mate 30 Pro,内部双重散热、铜管一体紫色防滚架,太酷了!
- 让对话框不显示边框_微信消息“无边框”模式搭配这款壁纸,简直绝了
- php类的继承和,详细对比php中类继承和接口继承
- 【医疗影像处理】使用前景像素的均值和方差(mean,std)对图像进行归一化(背景像素为0)【numpy-code】
- [codeup 1126]看电视
- MT4API外汇跟单软件使用分享
- 555定时器与频率测量
- 两台虚拟机互相ping通(互相通讯)
- 初识html及工具的使用
- IDEA在一个窗口创建多个项目
- 未来十年计算机体系结构的历史和趋势
- 转:【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification
- 【python--程序】printf格式化输出函数
- Linux设备驱动之usb设备驱动详解
- 期末大作业之Matlab美图秀秀【GUI界面】
- socket listen函数
- 知识图谱在计算机安全的应用,基于知识图谱的计算机领域胜任力研究与应用
- ZYNQ 7000 USB HS启动流程和工作方式