陈丹琦关系抽取 2020 sota

普林斯顿的陈丹琦团队在2020年搞了个 pipeline 的关系抽取模型，令人意外的是杀穿了所有的 joint 模型，我之前所做过的关系抽取也都是基于 joint 方式的，时隔一年来具体看看丹琦的旧论文吧。

代码已开源，先放资源：

论文https://arxiv.org/pdf/2010.12812.pdfhttps://arxiv.org/pdf/2010.12812.pdf代码https://github.com/princeton-nlp/PURE#Pre-trained-models-for-SciERChttps://github.com/princeton-nlp/PURE#Pre-trained-models-for-SciERCSciERC 数据http://nlp.cs.washington.edu/sciIE/data/sciERC_processed.tar.gzhttp://nlp.cs.washington.edu/sciIE/data/sciERC_processed.tar.gz数据处理：

1、数据样例：

{"clusters": [], "sentences": [["We", "propose", "a", "draft", "scheme", "of", "the", "model", "formalizing", "the", "structure", "of", "communicative", "context", "in", "dialogue", "interaction", "."], ["The", "relationships", "between", "the", "interacting", "partners", "are", "considered", "as", "system", "of", "three", "automata", "representing", "the", "partners", "of", "the", "dialogue", "and", "environment", "."]], "ner": [[[7, 7, "Generic"], [10, 13, "OtherScientificTerm"], [15, 16, "Material"]], []], "relations": [[[7, 7, 10, 13, "USED-FOR"], [15, 16, 10, 13, "FEATURE-OF"]], []], "doc_key": "E85-1041"}

其中，在 entity 部分，需要的是 sentences 和 ner。

2、数据处理

结果是一个 list，长度为 batch，batch 里面的每一个 sample 是一个 dictionary， keys 是：

['doc_key', 'sentence_ix', 'tokens', 'sent_length', 'sent_start', 'sent_end', 'sent_start_in_doc', 'spans', 'spans_label']

其中，doc_key：样本的id

sentence_ix：该 sample 在上面的样本中的位置

tokens：该 sample 的 token

sent_length：该 sample tokens 的长度

sent_start：此样本中的第 sentence_ix 句话在该 sample 的 tokens 中的起始位置（会补上上下文）

sent_end：此样本中的第 sentence_ix 句话在该 sample 的 tokens 中的结束位置（会补上上下文）

sent_start_in_doc：把该样本里面的所有句子合成一个，当前 sample 在这个大橘子里面的起始位置。

spans：这句话所包含的所有的 span

spans_label：每一个 span 对应的 label

长度计算：(max_len_juzi - max_len_spans) * max_len_spans + max_len_spans * (max_len_spans + 1) // 2

以上面的第一句话为例，max_len_juzi 是 18 ，max_len_spans 是 4 ，那么结果就是 (18 - 4) * 4 + 4 * 5 // 2 = 66

下篇待续

陈丹琦关系抽取 2020 sota相关推荐

陈丹琦关系抽取 2020 sota ner
关于数据部分在这里: 陈丹琦关系抽取数据部分https://blog.csdn.net/holasyb/article/details/121549733?spm=1001.2014.3001.5 ...
学习陈丹琦关系抽取pipeline Pure
关系抽取两大主流方式:joint,pipline.区别是实体识别和关系分类两个任务是否公用参数.今天学了陈丹琦博士的Pure模型.主要内容如下: 1.实体抽取和关系预测用分开用两个模型 2.实体前后拼 ...
ACL 2020今日放榜，779篇论文被接收，姚班校友陈丹琦首日演讲
晓查发自凹非寺量子位报道 | 公众号 QbitAI ACL 2020,今天终于放榜啦! 今年的ACL总共有3088篇投稿,大会接收了779篇论文,其中长论文571篇.短论文208篇,接受率2 ...
2020亚马逊研究奖公布：陈怡然、陈丹琦、吴佳俊等获奖，华人占比三分之一
来源:机器之心编辑:蛋酱.陈萍年度总获奖人数翻番,32 位华人学者入选,2020 年亚马逊研究奖已经正式公布. 近日,2020 年度亚马逊研究奖(ARA,Amazon Research Award ...
绝了！关系抽取新SOTA
作者 | Nine 整理 | NewBeeNLP 关系抽取目前的算法大概可以分为以下几种: pipeline approach:先抽实体,再判关系,比如陈丹琦的<A Frustratingly ...
《NEURAL READING COMPREHENSION AND BEYOND》解读（陈丹琦博士论文）
之前在听standford的cs224n自然语言处理课程的时候,就有一段是请陈丹琦来这边讲她最近的一些工作,我记得还是在embedding上的进展.听的时候,就觉得像是一个中国小姐姐,后面在这篇爆款博 ...
清华姚班校友陈丹琦斩获2022斯隆奖！「诺奖风向标」27位华人学者入选
视学算法报道编辑:桃子拉燕 [新智元导读]刚刚,有「诺奖风向标」之称的斯隆研究奖公布了最新获奖名单.今年,共有118名学者当选.值得一提的是,清华姚班毕业的华人科学家陈丹琦位列其中. 刚刚 ...
清华姚校友陈丹琦斩获2022斯隆奖！博士论文是近十年最热之一！共计27位华人入选...
来源:新智元有「诺奖风向标」之称的斯隆研究奖公布了最新获奖名单. 今年,共有118名学者获斯隆研究奖,华人学者占27席.他们将获得75000美元,这笔款项可在两年的时间内用于支持其研究的任何费用. ...
斯坦福大学陈丹琦等人解读机器阅读最新进展：超越局部模式匹配
来源:AI 科技评论不久前,斯坦福大学的计算机科学博士陈丹琦的一篇长达 156 页的毕业论文<Neural Reading Comprehension and Beyond>成为「爆款文 ...
清华姚班陈丹琦等27位华人学者获奖，斯隆奖2022年获奖名单颁布！
整理 | 于轩出品 | 程序人生 (ID:coder _life) 近日,素有"诺奖风向标"之称的斯隆研究奖颁布了2022年获奖名单.斯隆研究奖于1955年设立,每年颁发一次,旨 ...

陈丹琦关系抽取 2020 sota

陈丹琦关系抽取 2020 sota相关推荐

最新文章

热门文章

陈丹琦 关系抽取 2020 sota

陈丹琦 关系抽取 2020 sota相关推荐

最新文章

热门文章

陈丹琦关系抽取 2020 sota

陈丹琦关系抽取 2020 sota相关推荐