本发明专利技术提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域。针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明专利技术通过构建整理医学词典,提出了一种半自动语料库标注方法,节省了人工标注的复杂度。其次目前基于特征的电子病历实体识别方法大部分都是针对普通文本或者一般的电子病历文本,没有考虑到中文电子病历的特有特征。本发明专利技术提取的特征除了一般文本具有的基本特征外,还提取了中文电子病历特有的章节信息特征,通过对收集到的词典进行单字和词切分后统计字频和词频得到核心词特征加入扩展特征中,并且通过对词向量进行聚类把词与词之间的联系也加入了扩展特征,有效的提高了中文电子病历的实体识别准确率。

【技术实现步骤摘要】

一种基于中文电子病历的实体识别方法

本专利技术涉及自然语言处理领域,尤其涉及电子病历的命名实体识别。

技术介绍

最早的电子病历信息抽取通常采用词典与规则相结合的方法。而随着电子病历标注语料的构建,基于机器方法的电子病历信息抽取研究逐渐开展起来。美国国家集成生物与临床信息学研究中心I2B2在2010年引入了英文电子病历的信息抽取任务,该评测包含3个子任务,分别是医疗问题、检查、治疗等实体的识别、实体修饰识别以及实体关系抽取,并提供了349份人工标注的电子病历和827份未标注电子病历。为英文电子病历命名实体识别及关系识别打下了坚实的基础。对于电子病历命名实体研究,DingchengLi等人分别采用了条件随机域(CRF)和支持向量机(SVM)两种方法,并结合SNOMED-CT词典进行电子病历命名实体识别,其中CRF模型达到了较好的效果。MinJiang等人引入一体化医学语言系统(UMLS)及三个自然语言处理系统(MedLEE,DST,KnowledgeMap)的结果作为特征,系统的评估了采用不同特征及机器学习算法的识别效果,并提出了一个集成规则与机器学习算法的实体抽取系统。SiddharthaJonnalagadd等人则是在基本特征的基础上,增加分布式语义特征,采用CRF模型对电子病历中的医疗问题、检查、治疗进行识别。中文电子病历命名实体研究仍处于起步阶段,叶枫等人基于CRF算法,对中文电子病历中的疾病、临床症状、手术操作3类命名实体进行智能识别,构建了覆盖25个疾病大类的250份病历。该研究是对中文电子病历命名实体识别研究的首次尝试,但该研究对实体类型定义不能够覆盖所有的医疗实体,语料规模也较小。LeiJianbo等人共选取了包含病程记录和出院小结在内的800份病历文本,以此构建了命名实体标注语料,他们共定义了四种医疗实体:医疗问题、检查、药物、手术,对比了CRF、SVM、ME、SSVM四种算法的效果,其中SSVM模型的表现最好,病程记录训练出的模型的F值可以达到93.53%,而出院小结的F值则为90.01%。XuYan等人构建了包含336份出院小结在内的标注语料,主要针对医疗问题、检查、治疗和药物四类实体,并提出了基于对分解的分词及命名实体识别联合模型。

技术实现思路

现有研究主要针对英文电子病历,在中文电子病历实体识别中,由于缺少公开中文电子病历标注语料库以及词典资源,使得其研究缓慢,同时一般的基于特征的实体识别方法都是对词进行直接分析,而没有深入分析到词向量,也忽略了实体间的一定相似度可以用聚类方法求得这一特点。电子病历实体识别是智能医疗推进的一项重要任务,将临床信息中的医疗信息提出来有助于医疗知识图谱的构建以及医疗自动问答的推进。目前的电子病历实体识别主要是针对英文电子病历的,中文研究由于缺少公开中文电子病历标注语料库以及词典资源,一般基于特征的方法中没有充分考虑到中文电子病历的特有特点。针对这些问题,本专利技术在进行一定规模的中文电子病历语料库标注后,给出了一种结合词向量和聚类从多方面进行特征扩展的中文电子病历实体识别方法。为了实现上述目的,本专利技术给出的技术方案为:本专利技术提供一种基于中文电子病历的实体识别方法,所述方法包括:半自动中文电子病历语料库标注;对使用jieba和nlpir两个分词器对中文电子病历进行分词,词、词性以及上下文信息构成实体识别的基本特征;提取电子病历的章节名字为章节信息特征;构建核心词词典,提取分词之后每个词的核心词特征;利用Word2Vector计算每个词的词向量,用k-means进行聚类,将每个词的聚类结果表示为词聚类特征;章节特征、核心词特征和词聚类特征组成了实体识别的扩展特征;将上述基本特征和扩展特征组成的特征向量输入已训练好的条件随机场分类器,抽取中文电子病历的实体。以上本专利技术给出一种针对中文电子病历的基于特征工程的综合性的实体识别方法,利用条件随机场CRF进行识别,将特征分为了基本特征和扩展特征,其中扩展特征针对中文电子病历的特有特点展开,包括电子病历文本差别于其它文本的特点和中文电子病历差别于英文电子病历的特点,同时通过词向量进行聚类,将聚类结果作为一个新特征加入很好的考虑了同一实体间的相似性特点。可选的,本专利技术给出了针对中文电子病历的标注,并收集了医学词典利用反向最大匹配算法(现有技术)进行自动标注,然后邀请医院的两名全科医生进行人工核对、查漏补缺,最后得到一定规模的中文电子病历标注语料库。特征选择特征选取对于机器学习方法及其重要,本专利技术所选用的特征分为两大类:基本特征和扩展特征。其中扩展特征针对中文电子病历的特点从两方面进行选择:电子病历文本区别于一般文本的特征和中文电子病历文本区别于英文电子病历文本的特性。1.语言符号特征:在这里表示词特征。由于中文不能像英文用空格进行分词,因此还需要选择分词器。本专利技术选用了jieba中文分词和哈工大的nlpir分词器两个分词工具,因为它们不是专门面向医学领域,将本文收集的医学词典加入了其用户字典。2.词性特征:即分词后的词性。词性特征在中文中对于识别实体的边界有很大作用,如在电子病历中“得”、“患”等动词指出了疾病实体的边界,“服用”等动词指出了治疗实体的边界等。本专利技术研究的词性标注工作将由分词工具jieba和nlpir完成。3.章节信息特征:电子病历章节标题名称。这是电子病历区别于其它文本的一个特征,也体现了电子病历的半结构化文本特点。在电子病历中不同章节对应的实体是有一定规律的。在病程记录中,“病例特点”章节中涵盖了疾病、症状、检查和治疗四个实体,而“初步诊断”章节中只存在疾病实体,“诊疗计划”章节中只存在治疗实体;在出院小结中,“入院诊断”和“出院诊断”章节只存在疾病实体,“入院情况”和“出院情况”主要有疾病、症状、检查实体等。因此,电子病历的章节标题对于实体类别的识别具有较大帮助。4.核心词特征:对标注的中文电子病历的实体以及收集到的医学词典进行统计分析可以分析出中文电子病历中出现的实体具有一定的特点。疾病名通常由修饰部分、身体部位、基本疾病名组成;症状名通常由身体部位、修饰部分、核心词组成;检查名通常由“细胞”、“查”、“病理”、“常规”等核心词组成;治疗名中手术名通常由“化疗”、“术”、“处理”、“护理”等核心词组成,药物名通常由“胶囊”、“丸”、“颗粒”、“片”等核心词组成。本专利技术以此构建了四个核心词词典用于指示核心词特征。5.词向量的聚类特征:一般命名实体识别通常将词本身作为最基本的特征用于模型的构建,而词本身并不能反映词与词之间的关系,因此可以将词表示作为特征加入模型。引入词表示方法主要有两种,一种是直接将词向量作为特征加入,另一种是通过词向量建立词与词之间的联系。词与词之间的联系可以通过聚类得到,每个词对象对应一个类别。本专利技术研究采用开源工具Word2Vector计算词向量,并通过k-means算法进行聚类。有益效果针对中文电子病历实体识别方法缺少公开标注语料库、一般基于特征的方法没有充分考虑到中文电子病历文本的特有特征等问题,实现了结合词向量和聚类并且从多方面进行特征扩展的中文电子病历实体识别方法,有助于深入挖掘电子病历文本中的医疗信息,从而构建医疗知识库、医疗知识图谱以及推进医疗自动问答。附图本文档来自技高网...

【技术保护点】

1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k‑means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。

【技术特征摘要】

1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k-means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。2.根据权利要求1所述的方法,其特征在于,步骤1中利用半自动标注方法对中文电子病历进行标注,方法步骤具体包括:步骤1.1、收集医学词典,将其整理为疾病词库、症状词库、检查词库、治疗词库;步骤1.2、使用高精度的反向自动匹配算法对中文电子病历进行自动标注;步骤1.3、医院若干名(实施例两名)全科医生进行人工核对、查漏...

【专利技术属性】

技术研发人员:闫凤麒,张贝贝,陆明名,

申请(专利权)人:上海熙业信息科技有限公司,

类型:发明

国别省市:上海,31

python爬取电子病历_一种基于中文电子病历的实体识别方法技术相关推荐

  1. 电容屏物体识别_一种基于触摸屏触摸点的物体识别方法与流程

    本发明涉及触摸屏触摸点物体识别技术领域,具体为一种基于触摸屏触摸点的物体识别方法. 背景技术: 多触点触摸屏支持多个触点同时输入,通过触摸屏的点的特征,进行物体识别是一个成熟的技术,以下简称物体识别为 ...

  2. python小波分析法检测火焰_一种基于小波分析的网络流量异常检测方法

    一种基于小波分析的网络流量异常检测方法 杜臻 ; 马立鹏 ; 孙国梓 [期刊名称] <计算机科学> [年 ( 卷 ), 期] 2019(046)008 [摘要] 对大量网络流量数据进行高质 ...

  3. 基于linux火焰识别算法,一种基于深度学习模型的火焰识别方法与流程

    本发明属于通信领域,具体涉及一种基于深度学习模型的火焰识别方法. 背景技术: 随着我国工业化与城镇水平的不断提高,现代设施大型公共建筑朝着空间大.进深广功能复杂的多元化方向发展,这对于防烟火朝着空间大 ...

  4. python爬取电影评分_用Python爬取猫眼上的top100评分电影

    代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...

  5. python爬取资料怎么样_手把手教你Python爬取新房数据

    原标题:手把手教你Python爬取新房数据 项目背景 新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备. ...

  6. python爬取bilibili数据_如何使用Python爬取bilibili视频(详细教程)

    Python爬取bilibili视频 摘要 为了解决PC端的bilibili无法下载视频的问题,使用python语言可以实现一个能够爬取bilibili某个视频资源(不包括会员视频)的程序.采用整个视 ...

  7. python爬取客流数据_爬取首都机场客流量数据,从GIS的角度尝试分析建设大兴机场的必要性...

    Hello, 大家好!我是James. 上一节我们整理好了北京的行政区和街道办矢量数据,估计跃跃欲试的小伙伴太热情,爬取的网站被玩坏了几天,学习可以,但是不要过多尝试了哈 然后在文章的最后,我们惊奇的 ...

  8. python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...

    原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...

  9. python爬取百度文库_利用Python语言轻松爬取数据

    利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...

最新文章

  1. No.6 PHP的基本配置与优化
  2. System Center 2012 R2 CM系列之安装Configuration Manager
  3. Linux 和 Windows 平台不同的 UCS-2 编码
  4. 中国移动IM-飞信-0802上线新版本 试用手记
  5. python下电影_Python3.6实现根据电影名称(支持电视剧名称),获取下载链接的方法...
  6. docker mysql开机自启动_Docker 学会让容器开机自启服务
  7. Coolite 基本用法(3)
  8. ajax代码原理,关于Ajax的原理以及代码封装详解
  9. 4米乘以12米CAD图_这篇文章解决了我多年CAD制图比例问题!
  10. ubuntu下QQ无法登录解决。
  11. 主流流媒体服务器软件,十款免费的流媒体服务器软件介绍
  12. #pragma once用法
  13. 双硬盘双win10互不干扰_笔者详解win10系统双硬盘经常提示“盘符交错”的技巧...
  14. V831——车牌识别
  15. Zigbee入门指导(二)mdash;mdash;运行Zigbee例程
  16. 在Ubuntu 18下安装SIMULIA Abaqus 2020
  17. jmeter(二十一)jmeter常用插件介绍
  18. STM32和ESP32- 主讲esp
  19. UCOSIII+机智云协议的移植笔记
  20. Android各类权限意思祥解

热门文章

  1. Uboot Beaglebone Black Usb驱动分析
  2. 东南亚Lazadashopee五金工具类目市场怎么样?某店家电钻单个产品销售过千万
  3. 特定功能基因定量检测
  4. 自制Ping(2) Structures
  5. 使screen支持滚动
  6. 超硬核的java开源物联网智能家居系统
  7. ET工业大脑学习感悟
  8. 每次面试总感觉很心累,为什么?
  9. 智慧用电安全系统服务器GS-20,浙江智慧用电综合服务云系统
  10. 设备管理类毕业论文文献有哪些?