作为学习文档级关系抽取的短暂总结与记录。主要是相关数据集问题,如果能帮助到其他人,我也是很开心的。

文档级关系抽取论文

网上有很多文档级关系抽取的综述,他们会告诉你有哪些经典文献需要阅读,我就不再搬运了,可能网上综述有些滞后,可以通过paperwithcode看当前的leaderboard来阅读大当前效果好的文献。

文档级关系抽取数据集

当前最常用的就是DocRED,还有两个常用的医学数据集CDR和GDA。

DocRED

  • 数据集下载

    • GitHub地址: https://link.zhihu.com/?target=https%3A//github.com/thunlp/DocRED
    • Google :
    • 和鲸社区: https://www.heywhale.com/mw/dataset/63647c0fd28b18529a2326fb/file
    • 清华云:https://cloud.tsinghua.edu.cn/d/5d8628d7f0b6453a8d7c/ 和 https://cloud.tsinghua.edu.cn/d/99e1c0805eb64736af95/
  • 最终文件结果如图所示:
  • 文件介绍(只介绍有用的,其他的我不了解)
    • rel2id.json:关系“P1376”的序号是79,就是标签,类别是79,其他一样,应该是比较好理解

    • rel_info.json:关系信息,关系标签对应现实世界中的具体关系

    • train_annotated.json:标注的训练集,
      ```python

               {"vertexSet":[{"pos": [0, 4], "type": "ORG", "sent_id": 0, "name": "Zest Airways, Inc."},....]# 所有的实体,name:实体是啥 type:实体类型 sen_id:该实体所在的句子的序号 pos:该实体的头实体和尾实体的位置"labels": [{"r": "P159", "h": 0, "t": 2, "evidence": [0]},....]# 标签,也就是有哪些三元组,r表示三元组的关系,# h是是头实体所在的位置,0就表示头实体是"vertexSet"列表中的第一个实体,# t表示尾实体,2表示尾实体是"vertexSet"列表中的第二个实体# evidence:证据句子,就是支持抽取这个三元组的证据,这个例子里面就是第0个句子支持抽取出本三元组"title":["AirAsia Zest"]# 本篇文章的标题"sents":[["Zest", "Airways", ",", "Inc.", "operated"],["It", "operated", "scheduled"]...]# 文章的所有句子(分词之后的),列表的第一个元素就是句子0}```
      
    • train_instant.json:远程监督数据集,除了没有证据句子之外,其他的和train_annotated.json一样

    • dev.json:验证集,内容格式和标注训练集一样

    • test.json:测试集,测试集没有labels,那么如何获得模型在测试集上的结果呢,需要将模型在测试集上的预测结果上传CodaLab,获得测试集的结果,

      • 1.注册,登录就不多说了
      • 2.Participate->Submit/View Results,提交就可以,提交必须是ZIP文件,文件名为result.zip,里面的json为result.json.

CDR和GDA数据集

这两个数据集非常难搞,花了我好长时间,因为我在网上没有找到处理好的,只有源文件,需要自己处理
如果你只想下载数据集,我在百度网盘上传了一份,
CDR:https://pan.baidu.com/s/1tomnS0ciGCt3mibKx9qZfw
提取码:love
GDA:https://pan.baidu.com/s/1hDsO8PYVnaBqfNftHrT9Ng
提取码:love
如果你想自己处理,可以按照下面的步骤来做(Linux系统,windows下不会,哈哈),来自于https://github.com/fenchri/edge-oriented-graph为基础,但在过程中有点问题,你可以按照他的来处理,望顺利,如果不行,按照下面的步骤

  • 1.下载https://github.com/fenchri/edge-oriented-graph中的data_process文件,或者在网盘中下载链接:https://pan.baidu.com/s/1VmxWq2Vqa3bDDiQ42Zbygw提取码:love

  • 2.进入data_process文件,在此文件夹目录下进行操作

  • 3.下载CDR和GDA数据集

    • 第一种方法:

       $ mkdir data && cd data$ wget https://biocreative.bioinformatics.udel.edu/media/store/files/2016/CDR_Data.zip && unzip CDR_Data.zip && mv CDR_Data CDR$ wget https://bitbucket.org/alexwuhkucs/gda-extraction/get/fd4a7409365e.zip && unzip fd4a7409365e.zip && mv alexwuhkucs-gda-extraction-fd4a7409365e GDA$ cd ..    ```
      
    • 第二种方法:可以直接在链接上下载压缩包,CDR:https://biocreative.bioinformatics.udel.edu/media/store/files/2016/CDR_Data.zip
      GDA:https://bitbucket.org/alexwuhkucs/gda-extraction/get/fd4a7409365e.zip
      下载完解压,分别改名CDR、GDA
    • 3:也可以在这里获得:CDR:https://pan.baidu.com/s/1W0P5H5Lct5zeGM5r4Lua1A
      提取码:love
      GDA:https://pan.baidu.com/s/1EhkyG4wK1Oy9fvKpNhrDbg
      提取码:love
  • 4.下载数据生成工具和数据分割工具

    • 前提是有ruby,如果没有,可以下载安装 sudo apt-get install ruby-full,如果失败,先 sudo apt-get upgrade,如失败,百度吧

    • 下载GENIA Tagger

      $ cd data_processing
      $ mkdir common && cd common
      $ wget http://www.nactem.ac.uk/y-matsu/geniass/geniass-1.00.tar.gz && tar xvzf geniass-1.00.tar.gz
      $ cd geniass/ && make && cd ..
      

      如果无法下载出现404/500啥的错误,可以在这下载geniass-1.00.tar.gz,提取码love

    • 下载Sentence Splitter

      $ git clone https://github.com/bornabesic/genia-tagger-py.git
      $ cd genia-tagger-py
      

      1.如果不能clone,在这下载genia-tagger-py,提取码love
      2.修改下载的文件中的makefile文件的第三行为: http://www.nactem.ac.uk/GENIA/tagger/geniatagger-3.0.2.tar.gz,
      3.然后

      $ make
      $ cd ../../
      
  • 5.最后运行数据处理脚本就行了,cdr需要几分钟,gda需要两个小时

    $ sh process_cdr.sh
    $ sh process_gda.sh
    

暂时就这些,有问题大家可以提出来一起交流学习。

入门文档级关系抽取_数据集DocRED、CDR、GDA相关推荐

  1. 文档级关系抽取方法,EMNLP 2020 paper

    向AI转型的程序员都关注了这个号???????????? 人工智能大数据与深度学习  公众号:datayx 目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真 ...

  2. 达摩院文档级关系抽取新SOTA和零样本关系抽取新任务

    ©作者 | 邴立东.谭清宇.谢耀赓 单位 | Alibaba DAMO, NUS, SUTD 引言 关系抽取(RE)是 NLP 的核心任务之一,是构建知识库.事件抽取等下游应用的关键技术.多年来受到研 ...

  3. 论文小综 | 文档级关系抽取方法(下)

    本文作者: 陈想,浙江大学在读博士,研究方向为自然语言处理 张宁豫,浙江大学助理研究员,研究方向为自然语言处理.知识表示与推理 这篇推文是文档级关系抽取方法的第二部分,前面的部分请移步推文" ...

  4. 论文小综 | 文档级关系抽取方法(上)

    本文作者: 陈想,浙江大学在读博士,研究方向为自然语言处理 张宁豫,浙江大学助理研究员,研究方向为自然语言处理.知识表示与推理 1. 前言 关系抽取(Relation Extraction, RE)是 ...

  5. 文档级关系抽取:A Densely Connected Criss-Cross Attention Network for Document-level Relation Extraction

    提示:文档级关系抽取相关论文 A Densely Connected Criss-Cross Attention Network for Document-level Relation Extract ...

  6. 谈谈我对NLP文档级关系抽取中Ign_F1指标的理解(Ign_F1与F1的关系)

    因为Ign_F1这个参数网上所解释的内容都是一致的,并且不太好理解 于是我就特地请教了YX师兄 这里特地感谢1107实验室YX师兄 F1分数 F1为精确率和召回率的调和平均数(为下部分做准备) 对于查 ...

  7. ​达摩院文档级关系抽取新数据集和五元组抽取新任务

    ©PaperWeekly 原创 · 作者 | 邴立东.谭清宇等 单位 | Alibaba DAMO, NUS, SUTD 关系抽取(RE)是 NLP 的核心任务之一,是构建知识库.事件抽取等下游应用的 ...

  8. 文档级关系抽取:QIUXP:DORE: Document Ordered Relation Extraction based on Generative Framework

    DORE: Document Ordered Relation Extraction based on Generative Framework 文档级关系抽取是从整篇文档中抽取出三元组.更难,但也很 ...

  9. 关系抽取公开数据集下载

    https://zhuanlan.zhihu.com/p/581554247 该网址给出了很多关系抽取的公开数据集, 1.ACE实体关系数据集 ACE2005数据集包括英语,阿拉伯语和中文三部分数据, ...

最新文章

  1. Web版的Tabcontrol控件的制作过程
  2. Dockerfile基本语法
  3. mixly编程怎样音乐_华人留学生开发首个古汉语编程语言,实现易经算命、圆周率计算,Github获赞14.7k...
  4. 网管日志-06.07.12
  5. PHP读取远程文件并保存
  6. 用户画像2种数据存储的方式
  7. docker项目部署 php_docker部署php的web项目
  8. homeassistant mysql_HomeAssistant学习笔记docker安装的ha更换数据库
  9. 在java中生成二维码,并直接输出到jsp页面
  10. 清华linux网络编程视频,清华大学视频课件:基于Linux的C++(自主模式)
  11. 成长 工作 游戏 英语 阅读
  12. https配置CA证书安装教程
  13. 平面设计完全手册_什么是平面设计,做平面设计都要了解哪些基础知识点?
  14. HashSet为什么要设置PRESENT
  15. 解决在浏览器中打开java文件jnlp报错“该文件没有程序与之关联来执行该操作...”
  16. 一个30岁工控人的自白
  17. 南艺计算机作曲专业怎样,南京艺术学院作曲与作曲技术理论专业/学费/录取分数线/怎么样...
  18. 上传图片校验图片类型、大小及尺寸
  19. [NOI2022] 众数 题解
  20. cmd控制台窗体大小设置

热门文章

  1. ubuntu系统修改用户权限
  2. c语言 迭代法求方程的根,编写用牛顿迭代法求方程根的函数
  3. IntelliJ IDEA 报错:找不到包或者找不到符号
  4. 大整数乘法,Java实现
  5. Redis学习笔记 - 内存回收、对象共享、对象的空转时长
  6. 靠谱的EI会议——移动互联网、云计算与信息安全国际学术会议(MICCIS 2023)
  7. 函数cvRound,cvFloor,cvCeil用法
  8. 2022秋季C语言专题实验03一维数组
  9. MySQL慢日志监控脚本
  10. js中的continue语句