摘要

提出一种基于CRF的时间关系提取算法。以经过医学问题和时间信息语义标注的病历为训练内容,时间关系结果标注采用以医学问题为中心的模式。以63份实际病历作为实验文本。

引言

时间关系非常重要,如,哥伦比亚大学Zhou等开发的TimeText系统。中文面向医学临床文本,服务于医疗信息化的研究仍处空白。

1 条件随机场

CRF 避免了隐马尔可夫模型(hidden Markov model,HMM)的独立性假设,解决了最大熵模型(MaximumEntropy,ME)所带来的标记偏见问题,不像ME 在每一节点都要进行归一化,而是对所有特征进行全局归一化,可以求得全局的最优值,因此在自然语言处理领域的众多序列化标注任务中得到广泛应用。
1. Zhao Hai,Huang Changning,Li Mu. An improved Chinese word segmentation system with conditional random field[A]. In: Dale R,eds. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing [C ]. Sydney: 2006 Association for Computational Linguistics,2006. 162 - 165.
2. Peng Fuchun,McCallum A. Information extraction from research papers using conditional random fields[J]. Information Processing & Management,2006,42(4): 963 - 979.

2 中文病历文本中的时间关系提取

定义医学问题时间属性标签。
处理流程:首先利用各种医学语言处理技术实现对于病历文本中医学问题和时间信息的自动语义标注,然后以医学问题为中心的模式对其进行手工时间关系标注,形成CRF训练预料,最后根据训练预料中时间与问题之间的规律,设计CRF学习模板,使用学习模板通过训练获得CRF模型,基于生成的CRF模型可以实现对时间关系的自动提取。

2.1 语义标注

对于医学问题的予以标注依赖于简历的一个具有语义注释的医学术语库(包含医学问题和描述问题变化的词语),采用反向最大匹配法来实现。采用正则表达式匹配~

2.2 语料准备

采用crf++。
手工按照表1所示类型为训练数据标注正确的时间关系,最终形成的训练语料第一列数据是原始文本分解后的token,第二列是相应的予以标注,第三列是用于crf++学习的时间关系标注正确结果。总共63个病历文本,319个病历语句。

2.3 模板准备

基于对样本标注模式的窗口跨度等的统计,一维原子模板选取距当前标记距离为4的上下文标记,多维复合模板为原子模板的组合。高维特征能把握更多的长距离依赖关系,但也需要更大的训练开销,并带来更严重的数据稀疏问题,本文最高维设定为4维。

3 实验以及结果的讨论

有一定的应用潜力,准确率在80%以上。
某个特定模板是否引起过拟合现象不仅在于训练预料的特点,亦和模板文件中个模板之间的关系相关。

《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记相关推荐

  1. trainer setup_Detectron2源码阅读笔记-(一)Configamp;Trainer

    一.代码结构概览 1.核心部分 configs:储存各种网络的yaml配置文件 datasets:存放数据集的地方 detectron2:运行代码的核心组件 tools:提供了运行代码的入口以及一切可 ...

  2. VoxelNet阅读笔记

    作者:Tom Hardy Date:2020-02-11 来源:VoxelNet阅读笔记

  3. Transformers包tokenizer.encode()方法源码阅读笔记

    Transformers包tokenizer.encode()方法源码阅读笔记_天才小呵呵的博客-CSDN博客_tokenizer.encode

  4. 源码阅读笔记 BiLSTM+CRF做NER任务 流程图

    源码阅读笔记 BiLSTM+CRF做NER任务(二) 源码地址:https://github.com/ZhixiuYe/NER-pytorch 本篇正式进入源码的阅读,按照流程顺序,一一解剖. 一.流 ...

  5. Mina源码阅读笔记(一)-整体解读

    2019独角兽企业重金招聘Python工程师标准>>> 今天的这一节,将从整体上对mina的源代码进行把握,网上已经有好多关于mina源码的阅读笔记,但好多都是列举了一下每个接口或者 ...

  6. “CoreCLR is now Open Source”阅读笔记

    英文原文:CoreCLR is now Open Source 阅读笔记如下: CoreCLR是.NET Core的执行引擎,功能包括GC(Garbage Collection), JIT(将CIL代 ...

  7. QCon 2015 阅读笔记 - 团队建设

    QCon 2015阅读笔记 QCon 2015 阅读笔记 - 移动开发最佳实践 QCon 2015 阅读笔记 - 团队建设 中西对话:团队管理的五项理论和实战 - 谢欣.董飞(今日头条,LinkedI ...

  8. 05《软件需求模式》阅读笔记

    剩下的两个阅读笔记写第二部分.各类需求模式,共八个领域和它的需求模式,这一次写前四个. 基础需求模式,它是所有种类的系统都可能需要的一些东西.系统间接口需求模式使用系统间接口需求模式定义被定义的系统和 ...

  9. [置顶] Linux协议栈代码阅读笔记(一)

    Linux协议栈代码阅读笔记(一) (基于linux-2.6.21.7) (一)用户态通过诸如下面的C库函数访问协议栈服务 int socket(int domain, int type, int p ...

  10. 大型网站技术架构:核心原理与案例分析阅读笔记二

    大型网站技术架构:核心原理与案例分析阅读笔记二 网站架构设计时可能会存在误区,其实不必一味追随大公司的解决方案,也不必为了技术而技术,要根据本公司的实际情况,制定适合本公司发展的网站架构设计,否则会变 ...

最新文章

  1. Java 防抖动函数的实现
  2. 计算机在中学物理的应用分析报告,BGPLUS官方合作 | 加州大学伯克利分校 | 物理:计算机算法及物理在工程中应用...
  3. python上的数据库sqlite3——插入多行数据
  4. 感觉很好的IT自学参考教程收集
  5. Divide and conquer:Dropping tests(POJ 2976)
  6. 【Spring】Spring 父子容器
  7. 为什么华为5G手机要设置一个5G开关?
  8. sqlserver命令行修改用户登录密码
  9. 边框回归:BoundingBox-Regression(BBR)(转)
  10. 体验Joomla2.5,从joomla1.5说起【转】
  11. C# PDF操作之-PDF转WORD
  12. IDEA 2021首个大版本发布,Java开发者感动哭了(附新亮点演示)
  13. 这么选家用投影仪,再也不交智商税
  14. 西储大学轴承数据小波变换
  15. 解决手机连上电脑热点上不了网的问题
  16. C源码:通过IP地址查找主机名 findip.c
  17. 微信小程序使用百度地图api
  18. 中国农产品流通市场运营状况与发展前景预测报告2022-2027年
  19. java.sql.SQLSyntaxErrorException Unknown column····
  20. matlab打包训练好的神经网络(BP神经网络)

热门文章

  1. 是学生就COPY一下,现在没用,将来一定要用
  2. 山东省青岛市黄海学院计算机考试,2020年计算机考试通知
  3. C++ SeqList 顺序表 类模板的实现与测试
  4. UI(一) - NGUI和UGUI比较
  5. Android 10.0 开启和关闭护眼模式
  6. 刨根问底U3D---从Profile中窥探Unity的内存管理
  7. 数据分析总是做不好?你可能需要这个思维框架
  8. gdb调试分析多线程死锁
  9. 大学计算机基础试题第六章,大学计算机基础第六章.doc
  10. Soul App发布Z世代行为年度报告:近2成的年轻人爱逛菜市场