文献阅读:神经网络提取生物医学文本中的关系

  • 题目
  • 1 背景
  • 2 相关工作
  • 3 方法
    • 3.1 生物医学关系提取
    • 3.2 Dependency graphs and SDPs
    • 3.3 句子嵌入表示
    • 3.4 CNN和RNN的结合
  • 4 结果和讨论
    • 4.1 数据集
    • 4.2 实验设置
    • 4.3 PPI extraction的实验结果
    • 4.4 PPI extraction的实验结果比较(与其他文献的方法)
    • 4.5 DDI extraction的实验结果
    • 4.6 DDI extraction的实验结果比较(与其他文献的方法)
    • 4.6 实验结果分析和未来的工作

题目

A hybrid model based on neural networks for biomedical relation extraction

1 背景

生物医学文献中包含的知识正以指数倍的速度增长,如果以人工的方式将这些关系提取出来,则要耗费大量的时间和精力。传统的方法包括pattern-based methods基于模式的方法、feature-based methods基于特征的方法和kernel-based methods基于核函数的方法。目前自动地将生物医学关系提取出来的方法结合了自然语言处理、机器学习和深度学习的多种模型。
CNN能够捕捉句子中的局部特征,RNN能够捕捉长期依赖的特征,但这两种方法都无法从句子本身学到足够多的信息,在关系抽取任务中,依赖图和语法树是很有价值和有用的。从依赖图或句法树中获取重要的词汇和句法信息将有助于生物医学关系的分类,特别是长句和复杂句的分类。
为了提高生物医学关系提取的性能,文章不仅使用了句子序列,而且整合了最短依赖路径(SDP)。SDP由dependency graph生成,包含了两个生物医学实体最重要的语义信息。CNN和RNN分别从句子序列和SDP中提取句法和语法特征,提取到的特征经过多层感知机进行整合,最后通过一层softmax层输出关系分类。

2 相关工作

现状(略掉)

3 方法

3.1 生物医学关系提取

怎么确定实体对??

简单来说,分为两步
(1)二分类:确定一个实体对有无语义上的关系;
(2)多分类:确定由关系的实体对的具体关系。

3.2 Dependency graphs and SDPs


上图是一个例子,SDP能够将这个有多个分句的句子中的和“flavonoids” 、“cholesterol”有关的词以及关系都提取出来,之后神经网络可以对dependency word sequence和dependency relation sequence进行学习。

3.3 句子嵌入表示

{w1,w2,...,wnw_1,w_2,...,w_nw1,w2,...,wn},{d1,d2,...,dmd_1,d_2,...,d_md1,d2,...,dm}以及{r1,r2,...,rlr_1,r_2,...,r_lr1,r2,...,rl}分别代表the raw
sentence sequence,dependency word sequence和dependency relation
sequence。
Wword,Wdep,WdisW_{word},W_{dep},W_{dis}Wword,Wdep,Wdis分别表示word embedding matrix,dependency
relation embedding matrix和position embedding matrix。
the raw sentence sequence和dependency word sequence可以用Wword,WdisW_{word},W_{dis}Wword,Wdis表示,dependency relation sequence可以用WdepW_{dep}Wdep表示。

3.4 CNN和RNN的结合

CNN用来学习dependency word sequence和dependency relation sequence的特征,因为这两个序列较短(最长的也不超过20个word),RNN用来学习the raw sentence sequence的特征,因为原生的句子一般非常长长长。整个结构如下图所示。

4 结果和讨论

4.1 数据集

PPI extraction task(protein-protein interactions):五个公开的PPI语料库AIMed, BioInfer , IEPA ,HPRD50 和 LLL,该任务为二分类(判断语义关系是否存在)
DDI extraction tasks(drug-drug interactions):DDIExtraction 2013,多分类,四个类型(Advice, Mechanism, Effect, and Int)

使用Stanford parser来生成句子的dependency syntactic information,而SDP基于dependency syntactic information得到。用Dijkstra算法得到dependency graph中两个实体的SDP。

4.2 实验设置

超参数设置如下图所示

4.3 PPI extraction的实验结果

4.4 PPI extraction的实验结果比较(与其他文献的方法)

4.5 DDI extraction的实验结果

4.6 DDI extraction的实验结果比较(与其他文献的方法)

4.6 实验结果分析和未来的工作

1、混合模型让RNN和CNN进行互补,从而实现了最好的实验结果。
2、false result的原因:一个是句子语义太复杂,分句较多;另一个是句子存在否定表达以及结构复杂。
3、有监督的方法非常依赖于训练集,而得到大量有标签的训练集很困难,所以可以考虑加入无监督的方法(考虑生物医学文献和领域知识)

文献阅读:神经网络提取生物医学文本中的关系相关推荐

  1. linux命令中提取某一列,怎么用Linux命令提取表格文本中的某列

    如何用Linux命令提取表格文本中的某列 文本文件x.txt内容如下: kaa a:\dkdkdk 123 dfdfdf b:\xxxxxxxxx 3234 j你好x c:\fdfdfv 打开 我现在 ...

  2. python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词...

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词思想 先对文本进行 ...

  3. PHP提取富文本中的纯文字

    有时候富文本的内容需要放到列表页进行展示,这个时候就不能直接把content展示出来了,需要进行数据处理(只取文字部分)来展示 /*** 提取富文本中的纯文字* addtime 2020年8月10日 ...

  4. 文献阅读-ICRA2020-从单眼内窥镜图像中对手术机器人器械的柄姿势估计

    文章序号.所属单元及链接:1630-Computer Vision for Medical Robots 一作所属单位:University of Tokyo 读后体会:以我浅薄的学术认知来看这篇论文 ...

  5. MATLAB从入门到精通-如何用matlab来提取txt文本中的实验数据

    前言 关于MATLAB系列的精品专栏大家可参见 MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) 喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! 从实验仪器拷贝下 ...

  6. Python数据清洗:提取爬虫文本中的电话号码

    步骤索引 效果展示 注意事项 代码 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知 ...

  7. 《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记

    摘要 提出一种基于CRF的时间关系提取算法.以经过医学问题和时间信息语义标注的病历为训练内容,时间关系结果标注采用以医学问题为中心的模式.以63份实际病历作为实验文本. 引言 时间关系非常重要,如,哥 ...

  8. python 提取txt某一段内容_(转)提取TXT文本中指定内容——python

    项目介绍: 在PYTHON的计算机二级考试中有这么一个题,要求我们从一个文本中按照特定的格式提取指定内容. 文件名称为"论语-网络版.txt",其内容采用如下格式组织: [原文] ...

  9. 文献阅读15-OntoILPER:A logic-based relational learning approach关系抽取,NER+RE

    文章目录 abstract 1.Introduction 2.2. Supervised Machine Learning Approaches to Relation Extraction 2.1. ...

最新文章

  1. mysql mgr应用场景_悄悄告诉你 MySQL MGR 牛在哪?
  2. Django 模型查询2.3
  3. c语言1066字符分类统计,C语言字符串操作总结大全(超详细)
  4. java 示例_功能Java示例 第5部分–将I / O移到外部
  5. C#通过属性名字符串获取、设置对象属性值
  6. JavaScript实现向OL列表内动态添加LI元素的方法
  7. navicat无法连接mysql
  8. 分享一个凭实力赚钱例子,值得借鉴学习
  9. 第十八章——基于策略的管理(1)——评估数据库属性
  10. 解决算法问题的思路总结
  11. java当前时间查询,Java实现查询记录的时间相对于当前时间
  12. php的四种常见运行方式
  13. M语言中的操作符说明:数字以及时间相关的操作符
  14. 人民币升值与A股之我见
  15. Elasticsearch之中文分词器插件es-ik的自定义热更新词库
  16. csm和uefi_[整理]BIOS设置UEFI和安全引导
  17. Code、 RO-data=、 RW-data、ZI-data、
  18. 什么是核函数?如何理解?
  19. 做了 8 个月的技术经理,我信了……
  20. 从权力的游戏谈用户画像

热门文章

  1. 《俞军产品方法论》:一个产品学派的诞生
  2. JS基础知识---正则表达式
  3. Minecraft Story Mode Season 2 for mac(我的世界故事模式第二季)激活版
  4. linux驱动开发 - 12_platform 平台驱动模型
  5. Universal Language Model Fine-tuning for Text Classification
  6. PCL创建圆柱面点云
  7. SpringBoot+FreeMarker+ECharts导出图表文件(pdf/world/zip)
  8. Task02:数据库的基本使用(Redis)
  9. work steal and overpartition
  10. 锤子手机使用android启动器,领略拟物风的魅力 -- 锤子桌面 #Android