基于深度学习的信息抽取技术
DeepIE: Deep Learning for Information Extraction
DeepIE: 基于深度学习的信息抽取技术(预计2020年8月31日前全部更新完毕)
TOP
- 知乎专栏文章:nlp中的实体关系抽取方法总结
- 知乎专栏文章:如何有效提升中文NER性能?词汇增强方法总结
- 知乎专栏文章:如何解决Transformer在NER任务中效果不佳的问题?
Papers
- ACL2020信息抽取相关论文汇总
- IJCAI2020信息抽取相关论文汇总
- 2019各顶会中的关系抽取论文汇总
- 事件抽取论文汇总
- 历年来NER论文汇总
Codes
1. 实体抽取
- 各主流方法在主要中文NER数据集上的表现情况 具体说明
lexicon | Ontonotes | MSRA | Resume | ||
---|---|---|---|---|---|
biLSTM | ---- | 71.81 | 91.87 | 94.41 | 56.75 |
Lattice LSTM | 词表1 | 73.88 | 93.18 | 94.46 | 58.79 |
WC-LSTM | 词表1 | 74.43 | 93.36 | 94.96 | 49.86 |
LR-CNN | 词表1 | 74.45 | 93.71 | 95.11 | 59.92 |
CGN | 词表2 | 74.79 | 93.47 | 94.12 | 63.09 |
LGN | 词表1 | 74.85 | 93.63 | 95.41 | 60.15 |
Simple-Lexicon | 词表1 | 75.54 | 93.50 | 95.59 | 61.24 |
FLAT | 词表1 | 76.45 | 94.12 | 95.45 | 60.32 |
FLAT | 词表2 | 75.70 | 94.35 | 94.93 | 63.42 |
BERT | ---- | 80.14 | 94.95 | 95.53 | 68.20 |
BERT+FLAT | 词表1 | 81.82 | 96.09 | 95.86 | 68.55 |
- MSRA-NER
方法 | f | p | r |
---|---|---|---|
char+ lstm-crf | 86.18% | 88.43% | 83.10% |
char-bigram + lstm-crf | 91.80% | 92.60% | 90.34% |
char-bigram + adTransformer-crf | 92.98% | 93.25% | 92.72% |
char-bigram + lexion-augment + lstm-crf | 93.33% | 94.26% | 92.43% |
char-bigram-BERT + lstm-crf | 94.71% | 95.14% | 94.27% |
char-bigram-BERT + lexion-augment + lstm-crf | 95.26% | 95.90% | 94.63% |
- CCKS2019-医疗实体抽取
方法 | f | p | r |
---|---|---|---|
char-bigram + lstm-crf | 81.76% | 82.91% | 80.6 |
+ domain transfer(from ccks2018 to 2019) | 82.54% | 83.43% | 81.81% |
char-bigram + adTransformer-crf | 82.83% | 82.19% | 83.49% |
char-bigram + lexion-augment + lstm-crf | 82.76% | 82.79% | 82.72% |
BERT-finetune+crf | 83.49% | 84.11% | 82.89% |
roBERTa-finetune+crf | 83.66% | 83.67% | 83.66% |
char-bigram-BERT + lstm-crf | 83.37% | 83.51% | 83.22% |
char-bigram-BERT + lexion-augment + lstm-crf | 84.15% | 84.29% | 84.01% |
- CCKS2020-医疗实体抽取:
(注:测试集与ccks2019一致,去除ccks2020训练集中已经在2019测试集中的样本,下列指标未做规则处理和模型融合)
方法 | f | p | r |
---|---|---|---|
char-bigram + lstm-crf | 82.68% | 83.14% | 82.22% |
char-bigram + lexion-augment + lstm-crf | 83.12% | 83.10% | 83.14% |
char-bigram-BERT + lstm-crf | 83.12% | 83.04% | 83.21% |
char-bigram-BERT-RoBerta_wwm + lstm-crf | 83.66% | 83.76% | 83.56% |
char-bigram-BERT-XLNet + lstm-crf | 84.12% | 83.88% | 84.36% |
char-bigram-BERT + lexion-augment + lstm-crf | 84.50% | 84.32% | 84.67% |
- CCKS2020-面向试验鉴定的命名实体识别任务:TODO
2. 实体关系联合抽取
具体使用说明
- 2019语言与智能技术竞赛:关系抽取任务
方法 | f(dev) | p(dev) | r(dev) |
---|---|---|---|
multi head selection | 76.36 | 79.24 | 73.69 |
ETL-BIES | 77.07% | 77.13% | 77.06% |
ETL-Span | 78.94% | 80.11% | 77.8% |
ETL-Span + word2vec | 79.99% | 80.62% | 79.38% |
ETL-Span + word2vec + adversarial training | 80.38% | 79.95% | 80.82% |
ETL-Span + BERT | 81.88% | 82.35% | 81.42% |
- 2020语言与智能技术竞赛:关系抽取任务
方法 | f(dev) | p(dev) | r(dev) |
---|---|---|---|
ETL-Span + BERT | 74.58 | 74.44 | 74.71 |
3. 属性抽取
- 领域数据集:瑞金医院糖尿病信息抽取数据
# 药物-属性
['药品-用药频率','药品-持续时间','药品-用药剂量','药品-用药方法','药品-不良反应']
# 疾病-属性
['疾病-检查方法','疾病-临床表现','疾病-非药治疗','疾病-药品名称','疾病-部位']
主体 | 方法 | f | p | r |
---|---|---|---|---|
疾病 | lstm+ multi-label pointer network | 76.55 | 74.36 | 78.86 |
疾病 | bert + multi-label pointer network | 77.59 | 77.45 | 77.74 |
药物 | lstm+ multi-label pointer network | 81.12 | 79.15 | 83.19 |
4. 实体链接/标准化
5.事件抽取
CCKS2020-医疗事件抽取
CCKS2020:面向金融领域的篇章级事件主体抽取
CCKS2020:面向金融领域的篇章级事件要素抽取
6.信息抽取中的低资源解决方案
TODO-list
信息抽取领域的数据资源汇总:
- 医疗
- 金融
- 电商
- 法律
信息抽取相关竞赛汇总:
- 百度-2020语言与智能技术竞赛:关系抽取任务
- 百度-2020语言与智能技术竞赛:事件抽取任务
- 百度-2019语言与智能技术竞赛:信息抽取
- CCKS 2019 医疗命名实体识别
- CHIP 2019 临床术语标准化任务
- CCKS 2019 人物关系抽取
- CCKS 2019 公众公司公告信息抽取
- CCKS 2019 面向金融领域的事件主体抽取
摘要抽取
前沿技术在信息抽取中的应用
Reference
基于深度学习的信息抽取技术相关推荐
- 基于深度学习的信息隐藏技术的研究总结(一)
信息隐藏技术的相关知识总结 你好! 本人关于信息隐藏方面的研究很久了,主要是利用深度学习方面的技术来实现.由于电脑等原因,一些东西就找不到了,所以想通过写博客的方式进行记录,一方面是对学过的东西.技术 ...
- 基于深度学习的病毒检测技术无需沙箱环境,直接将样本文件转换为二维图片,进而应用改造后的卷积神经网络 Inception V4 进行训练和检测...
话题 3: 基于深度学习的二进制恶意样本检测 分享主题:全球正在经历一场由科技驱动的数字化转型,传统技术已经不能适应病毒数量飞速增长的发展态势.而基于沙箱的检测方案无法满足 APT 攻击的检测需求,也 ...
- 基于深度学习的目标检测技术演进:从目标检测到人脸检测
本篇博客主要转载两篇写得好的分别介绍基于深度学习的目标检测和人脸检测的文章,最近在调研基于深度学习的人脸检测相关的文章,在网上查相关资料时,有幸看到.文末附带基于深度学习的目标检测和人脸检测相关经典文 ...
- 基于深度学习的语义理解技术在机器翻译中的应用
作者:禅与计算机程序设计艺术 <基于深度学习的语义理解技术在机器翻译中的应用>技术博客文章 引言 1.1. 背景介绍 随着全球化的推进,跨语言交流需求日益增长,机器翻译技术应运而生.翻译技 ...
- 基于深度学习的目标检测技术的演进:从R-CNN到Faster R-CNN
导语 什么是Objection Detection?就是在给定的图片中精确的找到物体所在位置,并且标注出物体的类别.目标检测要解决的问题就是物体在哪里?是什么?这样的问题.然而,这个问题并不是那么容易 ...
- 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN
object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别.object detection要解决的问题就是物体在哪里,是什么这整个流程的问题.然而,这个问题 ...
- 如何基于深度学习实现商品识别技术|图普科技
目前实时客流检测.商品识别.货架识别等人工智能技术可以帮助越来越多的零售门店实现智慧零售数字化转型.随着人工智能技术的发展,图普科技在深度学习在实现商品识别的应用上越发成熟,从技术层面来说,具体包含以 ...
- 施努卡:基于深度学习的裂缝检测技术
不同于传统的裂缝检测方法,基于深度学习的检测方法不需要人工干预,能自主学习有代表性的特征,直接对输入图像的裂缝进行检测. 随着深度学习方法在许多应用场景中取得了很好的检测结果.国内众多研究人员也开始把 ...
- 基于深度学习神经网络等机器学习技术实现一个医学辅助诊断的专家系统原型
3.运行环境搭建 操作系统:Ubantu (1)安装python模块 sudo apt-get install python-pip (2)安装numpy sudo apt-get install p ...
最新文章
- css控制显示行数,多出部分显示省略号
- 如何让SVN提交时候强制添加注释
- VTK:图像迭代器用法实战
- leetcode 112. Path Sum, 113. Path Sum II | 112,113. 路径总和 I, II(Java)
- 数据库原理与应用(SQL Server)笔记 第四章 嵌套查询和其他查询子句
- python3(一)数字Number
- lua正则替换_lua 字符串 正则表达式 转义 特殊字符
- opencv 读取CV_16U图像 c++
- 追踪 Kubernetes 中的网络流量
- spring的事务回滚机制,事务原理
- python数据结构之元组(tuple)——超详细
- ascii码表的使用
- 全志h3芯片刷机包_英菲克i5四核全志H3芯片机顶盒刷机rom升级固件包下载
- Android通过webservice连接SQLServer 详细教程(数据库+服务器+客户端)
- 汽车产业与技术链分析
- adb连接手机工具_adb命令——连接手机
- 点击右键计算机属性弹出任务管理器,win10查看内存条型号的步骤
- oracle minus 条件,Oracle minus用法详解及应用实例
- 如何使用几何画板工具箱
- 当前的网卡配置及虚拟网卡设置及默认网卡配置
热门文章
- 解剖几个有点难度的C笔试题
- LOCAL_MODULE_TAGS 选项说明(android编译选项选择)
- Python3——简单的UDP实例
- Linux C高级编程——目录操作
- c语言中字符 12是多少,c语言中字符串的讲解(DOC可编).doc
- axios请求拦截器、响应拦截器、vue-router路由导航守卫的使用(案例)
- python web开发 网络编程 TCP/IP UDP协议
- LeetCode 1808. 好因子的最大数目(整数拆分,乘积最大)
- 大数据技术 思维导图
- LeetCode MySQL 1321. 餐馆营业额变化增长(over窗口函数)