Conceptualized Representation Learning for Chinese Biomedical Text Mining

作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua

作者单位:Alibaba Group

项目地址:https://github.com/alibaba-research/ChineseBLUE

预训练模型:mc_bert_base.tar.gz

  1. 背景

总结:生物医学领域的中文预训练以及评测基准数据集。

拟解决的问题:如何检索生物医学领域知识;如何在模型预训练中利用生物医学领域的知识。

2. 方法

(1)Whole Entity Masking

解决的问题:遮盖类似于”腹痛“的医疗实体,将这种医疗知识显式地注入模型中。

步骤:

1)使用实体命名识别预测医疗实体;

2)使用中文医疗知识图谱后处理实体。

(2)Whole Span Masking

解决的问题:医疗实体还不足够,医疗文本中存在类似”肚子有一点痛“,”腹部一阵一阵痛“,它们也与”腹痛“具有类似的含义。

步骤:

1)使用Autophrase提取短语;

2)从Alibaba Cognitive Concept Graph检索通用的医疗短语;

3)训练了一个二分类器,用于分类出Autophrase提取出的医学短语。

(3)整体流程总结

1)生成医疗实体,使用医疗知识图谱提纯医疗实体;

2)使用Autophrase生成短语;

3)使用规则以及fastText增强和提纯短语;

4)以15%的几率进行Whole Entity/Span Masking;

5)用BERT-base的模型参数进行初始化,然后进行预训练。

3. 实验

(1)预训练数据

预训练数据来自于中文医疗问答、中文医疗百科和中文电子病历。

(2)下游任务

下游任务数据来自于新发布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。

(3)实验结果

与Baseline相比,在所有任务上都有着不同程度的提升:

消融实验,移除whole entity/span masking都会影响模型的效果:

bert中文预训练模型_[中文医疗预训练模型] MC-BERT相关推荐

  1. bert 中文 代码 谷歌_如何用最强模型BERT做NLP迁移学习?

    作者 | 台湾大学网红教授李宏毅的三名爱徒 来源 | 井森堡,不定期更新机器学习技术文并附上质量佳且可读性高的代码. 编辑 | Jane 谷歌此前发布的NLP模型BERT,在知乎.Reddit上都引起 ...

  2. 中文表示什么_中文分词是个伪问题

    六年以前,第一个中文分词系统的发明人郝玺龙先生对我讲,中文分词是个伪问题.当时NLP刚入门的我完全听不懂. 最近试用了一下BERT,做了个简单的文本分类.以前做这类任务的方法都是先分词,然后把词向量化 ...

  3. python中文文本分析_中文文本处理

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...

  4. 不同手机型号图文预览_微信编辑器预览一般以多大的手机尺寸为准?

    在此前,使用微信编辑器编辑好文章后,大家需要将图文在手机上进行预览,确认没有问题后才会在公众号或者自媒体平台上进行发布,这样来回切换平台浏览自然比较麻烦,有需求就有供给,市面上不少编辑器就有提供模拟手 ...

  5. java中文分词工具_中文分词工具(LAC) 试用笔记

    一.背景 笔者2年前写过一篇<PHP使用elasticsearch搜索安装及分词方法>的文章,记录了使用ES的分词的实现步骤,最近又需要用到分词,在网上发现一个百度的中文分词项目,中文词法 ...

  6. python中文文本预处理_中文文本预处理及表示

    文本分类 一.建立语料库 文本数据的获取方法一般有两种: 使用别人做好的语料库 爬虫去获取自己的预料数据 二.文本预处理 1.除去数据中非文本部分 一般可以使用正则表达式去进行删除 2.处理中文编码问 ...

  7. 自定义预览_为什么NVR预览画面数量少于已经添加的通道数

    01视图配置用在哪里? 监控应用中,不少朋友有老王的这种需求,例如酒店.宾馆.超市.店铺.企业等监控场景,前台.保安.收银台等需要查看监控.用户希望所有摄像机都能正常存储,但只开放预览部分监控画面,如 ...

  8. python 中文姓名库_中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。...

    中文人名语料库(Chinese-Names-Corpus) 业余项目"萌名NameMoe(一个基于语料库技术的取名工具)"的副产品. 不定期更新.只删词,不加词. 可用于中文分词. ...

  9. tga缩略图预览_带有缩略图预览的弹性图像幻灯片

    tga缩略图预览 View demo 查看演示Download Source 下载源 Today we want to show you how to create a simple elastic ...

最新文章

  1. UA MATH571A 回归分析 概念与R code总结
  2. docker redis mysql_docker创建redis mysql 等服务
  3. 拆解Mate 30 Pro,内部双重散热、铜管一体紫色防滚架,太酷了!
  4. 让对话框不显示边框_微信消息“无边框”模式搭配这款壁纸,简直绝了
  5. php类的继承和,详细对比php中类继承和接口继承
  6. 【医疗影像处理】使用前景像素的均值和方差(mean,std)对图像进行归一化(背景像素为0)【numpy-code】
  7. [codeup 1126]看电视
  8. MT4API外汇跟单软件使用分享
  9. 555定时器与频率测量
  10. 两台虚拟机互相ping通(互相通讯)
  11. 初识html及工具的使用
  12. IDEA在一个窗口创建多个项目
  13. 未来十年计算机体系结构的历史和趋势
  14. 转:【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification
  15. 【python--程序】printf格式化输出函数
  16. Linux设备驱动之usb设备驱动详解
  17. 期末大作业之Matlab美图秀秀【GUI界面】
  18. socket listen函数
  19. 知识图谱在计算机安全的应用,基于知识图谱的计算机领域胜任力研究与应用
  20. ZYNQ 7000 USB HS启动流程和工作方式

热门文章

  1. Matplotlib实例教程(十一)堆栈图
  2. urlPatterns映射的规则
  3. numpy.divide详解
  4. github关联域名,创建个人网站教程终结篇
  5. tomcat架构分析(connector BIO 实现)【转】
  6. python3根据地址批量获取百度地图经纬度
  7. java或者jsp中修复会话标识未更新漏洞
  8. 机器学习算法加强——XGBoost实践
  9. 【风控术语】数字金融欺诈行为名词表
  10. 【采用】知识图谱简介及风控应用场景