陈丹琦 关系抽取 2020 sota
普林斯顿的陈丹琦团队在2020年搞了个 pipeline 的关系抽取模型,令人意外的是杀穿了所有的 joint 模型,我之前所做过的关系抽取也都是基于 joint 方式的,时隔一年来具体看看丹琦的旧论文吧。
代码已开源,先放资源:
论文https://arxiv.org/pdf/2010.12812.pdfhttps://arxiv.org/pdf/2010.12812.pdf代码https://github.com/princeton-nlp/PURE#Pre-trained-models-for-SciERChttps://github.com/princeton-nlp/PURE#Pre-trained-models-for-SciERCSciERC 数据http://nlp.cs.washington.edu/sciIE/data/sciERC_processed.tar.gzhttp://nlp.cs.washington.edu/sciIE/data/sciERC_processed.tar.gz数据处理:
1、数据样例:
{"clusters": [], "sentences": [["We", "propose", "a", "draft", "scheme", "of", "the", "model", "formalizing", "the", "structure", "of", "communicative", "context", "in", "dialogue", "interaction", "."], ["The", "relationships", "between", "the", "interacting", "partners", "are", "considered", "as", "system", "of", "three", "automata", "representing", "the", "partners", "of", "the", "dialogue", "and", "environment", "."]], "ner": [[[7, 7, "Generic"], [10, 13, "OtherScientificTerm"], [15, 16, "Material"]], []], "relations": [[[7, 7, 10, 13, "USED-FOR"], [15, 16, 10, 13, "FEATURE-OF"]], []], "doc_key": "E85-1041"}
其中,在 entity 部分,需要的是 sentences 和 ner。
2、数据处理
结果是一个 list,长度为 batch,batch 里面的每一个 sample 是一个 dictionary, keys 是:
['doc_key', 'sentence_ix', 'tokens', 'sent_length', 'sent_start', 'sent_end', 'sent_start_in_doc', 'spans', 'spans_label']
其中,doc_key:样本的id
sentence_ix:该 sample 在上面的样本中的位置
tokens:该 sample 的 token
sent_length:该 sample tokens 的长度
sent_start:此样本中的第 sentence_ix 句话在该 sample 的 tokens 中的起始位置(会补上上下文)
sent_end:此样本中的第 sentence_ix 句话在该 sample 的 tokens 中的结束位置(会补上上下文)
sent_start_in_doc:把该样本里面的所有句子合成一个,当前 sample 在这个大橘子里面的起始位置。
spans:这句话所包含的所有的 span
spans_label:每一个 span 对应的 label
长度计算:(max_len_juzi - max_len_spans) * max_len_spans + max_len_spans * (max_len_spans + 1) // 2
以上面的第一句话为例,max_len_juzi 是 18 ,max_len_spans 是 4 ,那么结果就是 (18 - 4) * 4 + 4 * 5 // 2 = 66
下篇待续
陈丹琦 关系抽取 2020 sota相关推荐
- 陈丹琦 关系抽取 2020 sota ner
关于数据部分在这里: 陈丹琦 关系抽取 数据部分https://blog.csdn.net/holasyb/article/details/121549733?spm=1001.2014.3001.5 ...
- 学习陈丹琦关系抽取pipeline Pure
关系抽取两大主流方式:joint,pipline.区别是实体识别和关系分类两个任务是否公用参数.今天学了陈丹琦博士的Pure模型.主要内容如下: 1.实体抽取和关系预测用分开用两个模型 2.实体前后拼 ...
- ACL 2020今日放榜,779篇论文被接收,姚班校友陈丹琦首日演讲
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI ACL 2020,今天终于放榜啦! 今年的ACL总共有3088篇投稿,大会接收了779篇论文,其中长论文571篇.短论文208篇,接受率2 ...
- 2020亚马逊研究奖公布:陈怡然、陈丹琦、吴佳俊等获奖,华人占比三分之一
来源:机器之心 编辑:蛋酱.陈萍 年度总获奖人数翻番,32 位华人学者入选,2020 年亚马逊研究奖已经正式公布. 近日,2020 年度亚马逊研究奖(ARA,Amazon Research Award ...
- 绝了!关系抽取新SOTA
作者 | Nine 整理 | NewBeeNLP 关系抽取目前的算法大概可以分为以下几种: pipeline approach:先抽实体,再判关系,比如陈丹琦的<A Frustratingly ...
- 《NEURAL READING COMPREHENSION AND BEYOND》解读(陈丹琦博士论文)
之前在听standford的cs224n自然语言处理课程的时候,就有一段是请陈丹琦来这边讲她最近的一些工作,我记得还是在embedding上的进展.听的时候,就觉得像是一个中国小姐姐,后面在这篇爆款博 ...
- 清华姚班校友陈丹琦斩获2022斯隆奖!「诺奖风向标」27位华人学者入选
视学算法报道 编辑:桃子 拉燕 [新智元导读]刚刚,有「诺奖风向标」之称的斯隆研究奖公布了最新获奖名单.今年,共有118名学者当选.值得一提的是,清华姚班毕业的华人科学家陈丹琦位列其中. 刚刚 ...
- 清华姚校友陈丹琦斩获2022斯隆奖!博士论文是近十年最热之一!共计27位华人入选...
来源:新智元 有「诺奖风向标」之称的斯隆研究奖公布了最新获奖名单. 今年,共有118名学者获斯隆研究奖,华人学者占27席.他们将获得75000美元,这笔款项可在两年的时间内用于支持其研究的任何费用. ...
- 斯坦福大学陈丹琦等人解读机器阅读最新进展:超越局部模式匹配
来源:AI 科技评论 不久前,斯坦福大学的计算机科学博士陈丹琦的一篇长达 156 页的毕业论文<Neural Reading Comprehension and Beyond>成为「爆款文 ...
- 清华姚班陈丹琦等27位华人学者获奖,斯隆奖2022年获奖名单颁布!
整理 | 于轩 出品 | 程序人生 (ID:coder _life) 近日,素有"诺奖风向标"之称的斯隆研究奖颁布了2022年获奖名单.斯隆研究奖于1955年设立,每年颁发一次,旨 ...
最新文章
- g++使用C++11编译源文件
- python对话框机制_Chromium 新的弹窗机制以及 HTML 的 dialog 元素
- openresty开发系列32--openresty执行流程之1初始化阶段
- Spring Security——OAuth 2.0登录——Google,GitHub,Facebook和Okta
- 利用SMW01分析BDOC错误
- [Leetcode][第632题][JAVA][最小区间][堆][滑动窗口]
- Receiver type ‘X’ for instance message is a forward declaration
- 如何下载和安装SQL Server数据库实验助手(DEA v2.0)
- 这里90%的程序员根本就不算程序员。
- html标签之间去掉空白,html – 减少两个标签之间的空白差距
- 同时启动两个android模拟器
- 数组的数据查找c语言,【查找数组面试题】面试问题:c语言实现数据… - 看准网...
- 图像处理-Sobel边缘检测(C++实现,不依赖opencv)
- 虚拟机桥接模式连不上网问题(非桥接网卡原因)
- 联想rd650怎么装系统win7_ThinkServer - RD650 - RAID及系统安装 - 图文
- BZOJ1023 [SHOI2008]cactus仙人掌图
- android平板电脑手写笔应用,四款最佳手写笔平板推荐
- Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation (2020)
- 浅谈小学语文教学中的读
- 阿里云域名解析网络和服务架构设计总概览(一)