普林斯顿的陈丹琦团队在2020年搞了个 pipeline 的关系抽取模型,令人意外的是杀穿了所有的 joint 模型,我之前所做过的关系抽取也都是基于 joint 方式的,时隔一年来具体看看丹琦的旧论文吧。

代码已开源,先放资源:

论文https://arxiv.org/pdf/2010.12812.pdfhttps://arxiv.org/pdf/2010.12812.pdf代码https://github.com/princeton-nlp/PURE#Pre-trained-models-for-SciERChttps://github.com/princeton-nlp/PURE#Pre-trained-models-for-SciERCSciERC 数据http://nlp.cs.washington.edu/sciIE/data/sciERC_processed.tar.gzhttp://nlp.cs.washington.edu/sciIE/data/sciERC_processed.tar.gz数据处理:

1、数据样例:

{"clusters": [], "sentences": [["We", "propose", "a", "draft", "scheme", "of", "the", "model", "formalizing", "the", "structure", "of", "communicative", "context", "in", "dialogue", "interaction", "."], ["The", "relationships", "between", "the", "interacting", "partners", "are", "considered", "as", "system", "of", "three", "automata", "representing", "the", "partners", "of", "the", "dialogue", "and", "environment", "."]], "ner": [[[7, 7, "Generic"], [10, 13, "OtherScientificTerm"], [15, 16, "Material"]], []], "relations": [[[7, 7, 10, 13, "USED-FOR"], [15, 16, 10, 13, "FEATURE-OF"]], []], "doc_key": "E85-1041"}

其中,在 entity 部分,需要的是 sentences 和 ner。

2、数据处理

结果是一个 list,长度为 batch,batch 里面的每一个 sample 是一个 dictionary, keys 是:

['doc_key', 'sentence_ix', 'tokens', 'sent_length', 'sent_start', 'sent_end', 'sent_start_in_doc', 'spans', 'spans_label']

其中,doc_key:样本的id

sentence_ix:该 sample 在上面的样本中的位置

tokens:该 sample 的 token

sent_length:该 sample tokens 的长度

sent_start:此样本中的第 sentence_ix 句话在该 sample 的 tokens 中的起始位置(会补上上下文)

sent_end:此样本中的第 sentence_ix 句话在该 sample 的 tokens 中的结束位置(会补上上下文)

sent_start_in_doc:把该样本里面的所有句子合成一个,当前 sample 在这个大橘子里面的起始位置。

spans:这句话所包含的所有的 span

spans_label:每一个 span 对应的 label

长度计算:(max_len_juzi - max_len_spans) * max_len_spans + max_len_spans * (max_len_spans + 1) // 2

以上面的第一句话为例,max_len_juzi 是 18 ,max_len_spans 是 4 ,那么结果就是 (18 - 4) * 4 + 4 * 5 // 2 = 66

下篇待续

陈丹琦 关系抽取 2020 sota相关推荐

  1. 陈丹琦 关系抽取 2020 sota ner

    关于数据部分在这里: 陈丹琦 关系抽取 数据部分https://blog.csdn.net/holasyb/article/details/121549733?spm=1001.2014.3001.5 ...

  2. 学习陈丹琦关系抽取pipeline Pure

    关系抽取两大主流方式:joint,pipline.区别是实体识别和关系分类两个任务是否公用参数.今天学了陈丹琦博士的Pure模型.主要内容如下: 1.实体抽取和关系预测用分开用两个模型 2.实体前后拼 ...

  3. ACL 2020今日放榜,779篇论文被接收,姚班校友陈丹琦首日演讲

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI ACL 2020,今天终于放榜啦! 今年的ACL总共有3088篇投稿,大会接收了779篇论文,其中长论文571篇.短论文208篇,接受率2 ...

  4. 2020亚马逊研究奖公布:陈怡然、陈丹琦、吴佳俊等获奖,华人占比三分之一

    来源:机器之心 编辑:蛋酱.陈萍 年度总获奖人数翻番,32 位华人学者入选,2020 年亚马逊研究奖已经正式公布. 近日,2020 年度亚马逊研究奖(ARA,Amazon Research Award ...

  5. 绝了!关系抽取新SOTA

    作者 | Nine 整理 | NewBeeNLP 关系抽取目前的算法大概可以分为以下几种: pipeline approach:先抽实体,再判关系,比如陈丹琦的<A Frustratingly ...

  6. 《NEURAL READING COMPREHENSION AND BEYOND》解读(陈丹琦博士论文)

    之前在听standford的cs224n自然语言处理课程的时候,就有一段是请陈丹琦来这边讲她最近的一些工作,我记得还是在embedding上的进展.听的时候,就觉得像是一个中国小姐姐,后面在这篇爆款博 ...

  7. 清华姚班校友陈丹琦斩获2022斯隆奖!「诺奖风向标」27位华人学者入选

      视学算法报道   编辑:桃子 拉燕 [新智元导读]刚刚,有「诺奖风向标」之称的斯隆研究奖公布了最新获奖名单.今年,共有118名学者当选.值得一提的是,清华姚班毕业的华人科学家陈丹琦位列其中. 刚刚 ...

  8. 清华姚校友陈丹琦斩获2022斯隆奖!博士论文是近十年最热之一!共计27位华人入选...

    来源:新智元 有「诺奖风向标」之称的斯隆研究奖公布了最新获奖名单. 今年,共有118名学者获斯隆研究奖,华人学者占27席.他们将获得75000美元,这笔款项可在两年的时间内用于支持其研究的任何费用. ...

  9. 斯坦福大学陈丹琦等人解读机器阅读最新进展:超越局部模式匹配

    来源:AI 科技评论 不久前,斯坦福大学的计算机科学博士陈丹琦的一篇长达 156 页的毕业论文<Neural Reading Comprehension and Beyond>成为「爆款文 ...

  10. 清华姚班陈丹琦等27位华人学者获奖,斯隆奖2022年获奖名单颁布!

    整理 | 于轩 出品 | 程序人生 (ID:coder _life) 近日,素有"诺奖风向标"之称的斯隆研究奖颁布了2022年获奖名单.斯隆研究奖于1955年设立,每年颁发一次,旨 ...

最新文章

  1. g++使用C++11编译源文件
  2. python对话框机制_Chromium 新的弹窗机制以及 HTML 的 dialog 元素
  3. openresty开发系列32--openresty执行流程之1初始化阶段
  4. Spring Security——OAuth 2.0登录——Google,GitHub,Facebook和Okta
  5. 利用SMW01分析BDOC错误
  6. [Leetcode][第632题][JAVA][最小区间][堆][滑动窗口]
  7. Receiver type ‘X’ for instance message is a forward declaration
  8. 如何下载和安装SQL Server数据库实验助手(DEA v2.0)
  9. 这里90%的程序员根本就不算程序员。
  10. html标签之间去掉空白,html – 减少两个标签之间的空白差距
  11. 同时启动两个android模拟器
  12. 数组的数据查找c语言,【查找数组面试题】面试问题:c语言实现数据… - 看准网...
  13. 图像处理-Sobel边缘检测(C++实现,不依赖opencv)
  14. 虚拟机桥接模式连不上网问题(非桥接网卡原因)
  15. 联想rd650怎么装系统win7_ThinkServer - RD650 - RAID及系统安装 - 图文
  16. BZOJ1023 [SHOI2008]cactus仙人掌图
  17. android平板电脑手写笔应用,四款最佳手写笔平板推荐
  18. Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation (2020)
  19. 浅谈小学语文教学中的读
  20. 阿里云域名解析网络和服务架构设计总概览(一)

热门文章

  1. HTML5前端开发之基础篇
  2. 中望cad2012专业破解版
  3. 生成对抗神经网络基本思想
  4. mac系统 环境变量配置
  5. 硬盘保修查询网站明细清单希捷硬盘保修查询西数硬盘保修查
  6. 同一个项目中让R和Python无缝工作的五种方法
  7. java ios开发工具_5款用来开发iOS应用的Java开源工具
  8. clickhouse创建外部字典表
  9. oracle怎么查询临时表空间大小,如何查看oracle临时表空间当前使用了多少空间的大小...
  10. Android简单实现本地图片和视频选择器功能