nlp自己制作一个语料库

内置AI NLP365(INSIDE AI NLP365)

Project #NLP365 (+1) is where I document my NLP learning journey every single day in 2020. Feel free to check out what I have been learning over the last 262 days here. At the end of this article, you can find previous papers summary grouped by NLP areas :)

在#NLP365(+1)项目中,我记录了2020年每一天的NLP学习历程。请随时在这里查看我过去262天的学习内容。 在本文的结尾,您可以找到按NLP领域分组的以前的论文摘要:)

Today’s NLP paper is An Argument-Annotated Corpus of Scientific Publications. Below are the key takeaways of the research paper.

今天的NLP论文是科学出版物的带有注解的语料库。 以下是研究论文的主要内容。

目标与贡献 (Objective and Contribution)

Extended the Dr. Inventor corpus with argumentative components and relations annotations and conducted an annotation study. The goal here is to understand the different arguments within the scientific text and how they are link together. We performed analysis on the annotated argumentations and explore the relations between argumentation that exists within the scientific writing. The contributions are as follows:

扩展了具争议性成分和关系注释的Inventor博士语料库,并进行了注释研究。 这里的目标是了解科学文本中的不同论点以及它们如何链接在一起。 我们对带注释的论点进行了分析,并探讨了科学著作中存在的论点之间的关系。 贡献如下:

  1. Proposed a general argumentative annotation scheme for scientific text that covers different research domains
    提出了涵盖不同研究领域的科学文本通用论证注释方案
  2. Extended Dr. Inventor corpus with argumentative components and relations annotations
    扩展了Dr. Inventor语料库,其中包含有论据性的成分和关系注释
  3. Conducted analysis on the information-theoretic of the corpus
    对语料库的信息理论进行了分析

注释方案(Annotation Scheme)

There are many theoretical frameworks for argumentation and we initially use the Toulmin model for its simplicity and relevant to AI and argument mining. The Toulmin model has 6 types of argumentative components: claim, data, warrant, backing, qualifier, and rebuttal. However, after initial annotations, we realised that not all components exists. Therefore we simplify our annotations scheme to the following three argumentative components:

有许多用于论证的理论框架,我们最初使用Toulmin模型是因为它简单易懂,并且与AI和论证挖掘相关。 Toulmin模型具有6种论证成分:索赔,数据,认股权证,支持,限定词和反证。 但是,在进行初始注释之后,我们意识到并非所有组件都存在。 因此,我们将注释方案简化为以下三个论证组件:

  1. Own Claim. Argumentative statement that relates to the author’s work

    自己的索赔。 与作者作品有关的议论性陈述

  2. Background Claim. Argumentative statement that relates to works that are related to the author’s work

    背景索赔。 与作者作品相关的论证性陈述

  3. Data Component. Facts that support or against a claim. This includes references and facts with examples

    数据组件。 支持或反对主张的事实。 这包括示例的参考和事实

With those argumentative components set, we introduced the following three relations types:

设置好这些论点后,我们介绍了以下三种关系类型:

  1. Supports. This relation holds between two components if the factual accuracy of one component increases with the other

    支持。 如果一个组件的实际精度随着另一个组件的提高而增加,则在两个组件之间保持这种关系

  2. Contradicts. This relation holds between two components if the factual accuracy of one component decreases with the other

    矛盾的。 如果一个组件的实际精度随着另一个组件的降低而在两个组件之间保持这种关系

  3. Semantically Same. This relation captures claims or data component that are semantically the same. This is similar to argument coreference and / or event coreference

    语义上相同。 此关系捕获语义上相同的声明或数据组件。 这类似于参数共指和/或事件共指

注释研究(Annotation Study)

We performed an annotation study of the Dr. Inventor corpus and extended the dataset. The Dr. Inventor corpus has four layers of rhetorical annotations with sub-labels as shown below:

我们对Inventor博士语料库进行了注释研究,并扩展了数据集。 Inventor博士语料库具有四层带有子标签的修辞注释,如下所示:

  1. Discourse Role
    话语角色
  2. Citation Purpose
    引用目的
  3. Subjective Aspects
    主观方面
  4. Summarisation Relevance
    总结相关性
The 4 different annotation layers [1]
4个不同的注释层[1]

The annotation process consists of one expert and three non-experts annotators. The annotators are trained in a calibration phase where all annotators annotate one publication together. We computed the inter-annotator agreement (IAA) for each iteration and discuss any disagreements. The figure below showcase the IAA score progression across 5 iterations. There are two versions: strict and weak. Strict version required entities to be exact match in span and type and relations to be exact match in both components, direction and relation type. Weak version requires match in type and only overlap in span. The agreement (IAA) increases with iterations as expected. In addition, the agreement on relations are lower as that’s usually a lot more subjective, not to mention the agreement on relations are influenced by the agreement on components.

注释过程由一名专家和三名非专家注释者组成。 注释者在校准阶段接受培训,在此阶段,所有注释者一起注释一个出版物。 我们为每次迭代计算了注释者间协议(IAA),并讨论了任何分歧。 下图显示了5次迭代中的IAA分数进度。 有两种版本:严格和弱版本。 严格版本要求实体在范围和类型上完全匹配,并且关系在组件,方向和关系类型上都必须完全匹配。 弱版本要求类型匹配且跨度仅重叠。 协议(IAA)随预期的迭代而增加。 此外,关于关系的协议要低一些,因为这通常更加主观,更不用说关于关系的协议受组件协议的影响。

Image for post
The Inter-Annotator Agreement (IAA) [1]
注释者间协议(IAA)[1]

语料库分析 (Corpus Analysis)

论据注释分析(Argumentation annotations analysis)

Table 2 showcase the summary statistics of each argumentative components and relations in the Dr. Inventor corpus. There are approx. 2x the number of own claims than background claims which it’s as expected as the corpus consists of original research papers. In addition, data components are only half as many as claims. This could due to the fact that not all claims are supported or claims can be supported by other claims. Naturally, there are a lot of supports relations as authors tend to strengthen their claims by supporting it with data components or other claims. Table 3 showcase the length of argumentative components. Both own and background claims are of similar length whereas data components are half the length. This could be attributed to the fact that in computer science, explanation tend to be shorted and also most often, authors would just refer to tables and figures for supports.

表2展示了Inventor博士语料库中每个议论性成分和关系的摘要统计量。 有大约。 拥有自己的权利要求的数量是背景权利要求的2倍,而预期的权利要求是语料库由原始研究论文构成的。 此外,数据分量仅是声明的一半。 这可能是由于并非所有权利要求都得到支持或其他权利要求可以支持这些事实。 自然,存在很多支持关系,因为作者倾向于通过使用数据组件或其他声明来支持其主张,从而加强其主张。 表3展示了论证组成部分的长度。 自己的声明和背景声明的长度相似,而数据分量的长度只有一半。 这可能归因于以下事实:在计算机科学中,解释往往会简短,而且大多数情况下,作者只会参考表格和图表作为支持。

Statistics on Dr. Inventor Corpus [1]
Inventor Corpus博士的统计信息[1]

The argument structure of a scientific paper follows the directed acyclic graph (DAG) where argumentative components are the nodes and the edges are the relations. Table 4 below showcase graph analysis of the DAG of the argument structure of scientific paper. There are 27 standalone claims and 39 unsupported claims. The max in-degree showcasing the maximum connections there are between nodes. An average of 6 tells us that there are lots of claims with strong supporting evidence provided. We also ran PageRank algorithm to identify the most important claims and listed some examples in Table 5. Results showcase that majority of the highest ranked claim comes from the background claim, telling us that in the computer graphics papers, they tend to put more emphasis on research gaps for their motivation of work rather than on empirical results.

科学论文的论证结构遵循有向无环图(DAG),其中论证成分是节点,边是关系。 下表4展示了科学论文论证结构DAG的图形分析。 有27项独立声明和39项不受支持的声明。 最大入度表示节点之间存在的最大连接数。 平均6个告诉我们,有许多索赔要求提供了有力的支持证据。 我们还运行PageRank算法来识别最重要的声明,并在表5中列出了一些示例。结果表明,排名最高的声明大部分来自背景声明,这告诉我们在计算机图形文件中,他们倾向于更加强调研究其工作动机而不是实证结果的差距。

Left: Graph-based analysis of the argumentative structures | Right: Examples of types of claims and sentences associated with those claims [1]
左:论据结构的基于图的分析| 右:声明类型的示例以及与这些声明相关的句子[1]

与其他修辞方面的联系 (Connections to other rhetorical aspects)

How well does our new argumentative components connect with existing annotations in the Dr. Inventor corpus? In table 6 below, we showcase the normalised mutual information (NMI), which measures the amount of shared information between the five annotation layers. We showcase the NMI scores for all the annotation pairs:

我们新的论证成分与Dr. Inventor语料库中的现有注释之间的联系程度如何? 在下面的表6中,我们展示了标准化的互信息(NMI),该信息可度量五个注释层之间的共享信息量。 我们展示了所有注释对的NMI分数:

  1. Argument Components (AC)
    参数组件(AC)
  2. Discourse Roles (DR)
    话语角色(DR)
  3. Subjective Aspects (SA)
    主观方面(SA)
  4. Summarisation Relevances (SR)
    汇总相关性(SR)
  5. Citation Contexts (CC)
    引文上下文(CC)
Normalised mutual information (NMI) [1]
标准化互信息(NMI)[1]

There’s a strong NMI score between AC and DR, which makes sense as background claims are likely to be found in the discourse role background section. Another high NMI score is between AC and CC. This makes sense as citations are often referenced in background claims.

AC和DR之间的NMI得分很高,这很有意义,因为在话语角色背景部分中可能会找到背景说明。 NMI的另一个高得分是AC和CC之间。 这是有道理的,因为在背景权利要求中经常提到引用。

结论与未来工作 (Conclusion and Future Work)

We created the first argument-annotated corpus of scientific papers and provided key summary statistics of the corpus and argumentative analysis. Potential future work could involve extending the corpus with papers from other domains and further develop the models to analyse scientific writing.

我们创建了第一个带有论点注释的科学论文语料库,并提供了该语料库的主要摘要统计数据和论证分析。 未来的潜在工作可能涉及用其他领域的论文扩展语料库,并进一步开发模型以分析科学写作。

资源: (Source:)

[1] Lauscher, A., Glavaš, G. and Ponzetto, S.P., 2018, November. An argument-annotated corpus of scientific publications. In Proceedings of the 5th Workshop on Argument Mining (pp. 40–46).

[1] Lauscher,A.,Glavaš,G.和Ponzetto,SP,2018年11月。 带注释的科学出版物集。 在“第五次论证挖掘研讨会” (第40-46页)中。

Originally published at https://ryanong.co.uk on April 28, 2020.

最初于2020年4月28日https://ryanong.co.uk发布

方面提取/基于方面的情感分析 (Aspect Extraction / Aspect-based Sentiment Analysis)

  • https://towardsdatascience.com/day-102-of-nlp365-nlp-papers-summary-implicit-and-explicit-aspect-extraction-in-financial-bdf00a66db41

    https://towardsdatascience.com/day-102-of-nlp365-nlp-papers-summary-implicit-and-explicit-aspect-extraction-in-financial-bdf00a66db41

  • https://towardsdatascience.com/day-103-nlp-research-papers-utilizing-bert-for-aspect-based-sentiment-analysis-via-constructing-38ab3e1630a3

    https://towardsdatascience.com/day-103-nlp-research-papers-utilizing-bert-for-aspect-based-sentiment-analysis-via-constructing-38ab3e1630a3

  • https://towardsdatascience.com/day-104-of-nlp365-nlp-papers-summary-sentihood-targeted-aspect-based-sentiment-analysis-f24a2ec1ca32

    https://towardsdatascience.com/day-104-of-nlp365-nlp-papers-summary-sentihood-targeted-aspect-based-sentiment-analysis-f24a2ec1ca32

  • https://towardsdatascience.com/day-105-of-nlp365-nlp-papers-summary-aspect-level-sentiment-classification-with-3a3539be6ae8

    https://towardsdatascience.com/day-105-of-nlp365-nlp-papers-summary-aspect-level-sentiment-classification-with-3a3539be6ae8

  • https://towardsdatascience.com/day-106-of-nlp365-nlp-papers-summary-an-unsupervised-neural-attention-model-for-aspect-b874d007b6d0

    https://towardsdatascience.com/day-106-of-nlp365-nlp-papers-summary-an-unsupervised-neural-attention-model-for-aspect-b874d007b6d0

  • https://towardsdatascience.com/day-110-of-nlp365-nlp-papers-summary-double-embeddings-and-cnn-based-sequence-labelling-for-b8a958f3bddd

    https://towardsdatascience.com/day-110-of-nlp365-nlp-papers-summary-double-embeddings-and-cnn-based-sequence-labelling-for-b8a958f3bddd

  • https://towardsdatascience.com/day-112-of-nlp365-nlp-papers-summary-a-challenge-dataset-and-effective-models-for-aspect-based-35b7a5e245b5

    https://towardsdatascience.com/day-112-of-nlp365-nlp-papers-summary-a-challenge-dataset-and-effective-models-for-aspect-based-35b7a5e245b5

总结 (Summarisation)

  • https://towardsdatascience.com/day-107-of-nlp365-nlp-papers-summary-make-lead-bias-in-your-favor-a-simple-and-effective-4c52b1a569b8

    https://towardsdatascience.com/day-107-of-nlp365-nlp-papers-summary-make-lead-bias-in-your-favor-a-simple-and-effective-4c52b1a569b8

  • https://towardsdatascience.com/day-109-of-nlp365-nlp-papers-summary-studying-summarization-evaluation-metrics-in-the-619f5acb1b27

    https://towardsdatascience.com/day-109-of-nlp365-nlp-papers-summary-studying-summarization-evaluation-metrics-in-the-619f5acb1b27

  • https://towardsdatascience.com/day-113-of-nlp365-nlp-papers-summary-on-extractive-and-abstractive-neural-document-87168b7e90bc

    https://towardsdatascience.com/day-113-of-nlp365-nlp-papers-summary-on-extractive-and-abstractive-neural-document-87168b7e90bc

  • https://towardsdatascience.com/day-116-of-nlp365-nlp-papers-summary-data-driven-summarization-of-scientific-articles-3fba016c733b

    https://towardsdatascience.com/day-116-of-nlp365-nlp-papers-summary-data-driven-summarization-of-scientific-articles-3fba016c733b

  • https://towardsdatascience.com/day-117-of-nlp365-nlp-papers-summary-abstract-text-summarization-a-low-resource-challenge-61ae6cdf32f

    https://towardsdatascience.com/day-117-of-nlp365-nlp-papers-summary-abstract-text-summarization-a-low-resource-challenge-61ae6cdf32f

  • https://towardsdatascience.com/day-118-of-nlp365-nlp-papers-summary-extractive-summarization-of-long-documents-by-combining-aea118a5eb3f

    https://towardsdatascience.com/day-118-of-nlp365-nlp-papers-summary-extractive-summarization-of-long-documents-by-combining-aea118a5eb3f

其他 (Others)

  • https://towardsdatascience.com/day-108-of-nlp365-nlp-papers-summary-simple-bert-models-for-relation-extraction-and-semantic-98f7698184d7

    https://towardsdatascience.com/day-108-of-nlp365-nlp-papers-summary-simple-bert-models-for-relation-extraction-and-semantic-98f7698184d7

  • https://towardsdatascience.com/day-111-of-nlp365-nlp-papers-summary-the-risk-of-racial-bias-in-hate-speech-detection-bff7f5f20ce5

    https://towardsdatascience.com/day-111-of-nlp365-nlp-papers-summary-the-risk-of-racial-bias-in-hate-speech-detection-bff7f5f20ce5

  • https://towardsdatascience.com/day-115-of-nlp365-nlp-papers-summary-scibert-a-pretrained-language-model-for-scientific-text-185785598e33

    https://towardsdatascience.com/day-115-of-nlp365-nlp-papers-summary-scibert-a-pretrained-language-model-for-scientific-text-185785598e33

翻译自: https://towardsdatascience.com/day-119-nlp-papers-summary-an-argument-annotated-corpus-of-scientific-publications-d7b9e2ea1097

nlp自己制作一个语料库

http://www.taodudu.cc/news/show-7141380.html

相关文章:

  • Using chatbots to scaffold EFL students argumentative writing (论文翻译)
  • 《人类简史》笔记一——快乐该如何计算
  • GREENPLUM介绍之数据库管理(九)- 使用GPLOAD实现无落地文件的高速加载
  • 打开excel显示文件已损坏
  • excel表格文件损坏怎么修复
  • Excel显示文件已损坏解决措施
  • 近5年珠三角城市主要经济指标对比(2001--2005)
  • 手把手教你用python一键抢12306火车票(附代码)
  • 设计模式23种通熟解释和简明教程
  • 微信相框亮相CES Asia:新增设备物联并打通内容服务
  • 痞子衡嵌入式:微控制器CPU性能测试基准(EEMBC-CoreMark)
  • 微控制器CPU性能测试基准CoreMark
  • Python将形如”\xe4...的十六进制编码字符串恢复为中文
  • 微信小程序之条形码和二维码生成
  • 转载:使用delphi+intraweb进行微信开发4—微信消息加解密
  • TEA微型加密算法实战
  • mysql中用户名用什么类型_微信用户名存储的时候用什么类型好啊?
  • 使用delphi+intraweb进行微信开发4—微信消息加解密
  • 时间协议ntp服务器,NTP网络时间协议(HP_UX)
  • ntp原理了解即可-小白笔记
  • 《常见NTP客户端时间同步配置》
  • 通信协议 - ntp时间同步
  • ntp原理与设置
  • ntp server 配置参数_关于NTP时间服务器的详细介绍
  • linux ntp时间源服务器,NTP时间服务器
  • linux ntp配置文件目录,Linux中Ntp的配置
  • ntp如何确认与服务器偏差_搭建NTP服务器
  • 转载一篇关于视频水印的综述
  • CSDN博客中图片上的水印
  • ​探秘 Web 水印技术

nlp自己制作一个语料库_第119天的nlp论文总结了一个论点注释的科学出版物的语料库...相关推荐

  1. c#点击按钮调出另一个窗体_在类库或winform项目中打开另一个winform项目窗体的方法...

    本文实例讲述了在类库或winform项目中打开另一个winform项目窗体的方法.分享给大家供大家参考.具体如下: 一.问题: 假设类库或winform项目为A,另一个winform项目为B.那麽在A ...

  2. 一个域名解析到另一个域名_注册域名公司|教你如何注册一个.net域名

    近几年各后缀域名注册量都在增加,很多行业知道线上业务平台搭建的重要性,都优先制作网站布局线上,建站肯定需要域名,所以这也是带动域名注册量上涨原因之一. .COM..NET域名一直是建站注册域名首选,. ...

  3. 2个422 并联一个总线_株洲新添2个全国“一村一品”示范村,一个在炎陵

    阅 读 本 文 前,请 您 先 点 击 上 面 的 蓝 色 字 体 "恋上炎陵",再 点 击"关注",这 样 您 就 可 以 继 续 免 费 收 到 文 章 , ...

  4. 跳至下一个断点_基金经理:DeFi将推动以太坊在下一个上涨周期中涨至9000美元...

    基金经理.Blocktown Capital执行合伙人Joseph Todaro认为,去中心化金融(DeFi)将推动以太坊的价格在下一个上涨周期中达到新高. 他本周在推特上写道,"在2017 ...

  5. excel判断字符串包含另一个字符串_【前端冷知识】如何正确判断一个字符串是数值?...

    在网页中,我们从用户输入的内容中获取的值通常是字符串,但是有时候我们希望用户输入的内容一定要能转成数值: <input id="userInput"> userInpu ...

  6. 两个点击事件共用一个方法_工作必技:教你简单方法一个电脑开两个,多个微信!...

    我们都知道在电脑上,可以同时登录多个QQ账户,工作的时候轻松查看消息.但是随着微信的普及,多账号微信作为工作工具越来越普遍了.那么如何在电脑上登录多个微信账户呢? 废话不多说,简单方法悟空来教你: 1 ...

  7. 一个控制器怎么转发到另外一个控制器_楼宇自动化系统(BAS),DDC,一个最核心的控制器...

    楼宇自动化系统(BAS),一个熟悉又陌生的系统 楼宇自控系统(BAS系统)设有一个中央监控中心,系统配置一个或多个网络控制器,由多条总线或计算机网络将各种功能的控制器与中央工作站相连,完成对空调.给排 ...

  8. 路由到另外一个页面_如何在多个页面中,引入一个公共组件

    应用场景 在前端开发的过程中,时常有这样的一个需求,需要将某个组件,展示在不同的页面中.常见的有,头部菜单栏.底部版权,如下图中的菜单,就需要在不同页面中进行显示. 解决方法 假设有这样一个需求,希望 ...

  9. python如何创建一个列表_使用python中的format()创建一个列表(make a list using format() in python)...

    使用python中的format()创建一个列表(make a list using format() in python) 我是python和编码的新手. 因此,如果已经讨论过这件事,我很抱歉,我无 ...

最新文章

  1. Kinect+OpenNI学习笔记之12(简单手势所表示的数字的识别)
  2. 专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布
  3. 如果华为自主的操作系统,对消费者和华为会有什么影响?
  4. pyautogui 打包 运行 窗口_试试动态窗口管理器 dwm 吧
  5. 让自己变成一个上进的人
  6. 抓包软件:Charles
  7. 论文浅尝 - JWS2020 | FEEL: 实体抽取和链接的集成框架
  8. 滑雪(信息学奥赛一本通-T1280)
  9. LeetCode 题 - 67. 二进制求和 python实现
  10. Actor编程模型——Erlang/OTP
  11. matlab画图实例_自定义函数
  12. 黑客帝国_屏幕保护程序
  13. 电脑连接热点无internet访问权限_Win10连接wifi后显示无internet访问权限如何解决...
  14. 使用聚合数据接口发送短信
  15. 新浪云存储 php,新浪云存储SCS | SDK
  16. 24个足以改变事业的商业妙想
  17. latex 中下括号 underbrace 如何对齐
  18. 路由交换技术实战七 FR 网络中配置 OSPF( 完成版 )
  19. mac 下安装mysql-5.7.16-osx10.11-x86_64
  20. jq获取页面高度_使用jquery中height()方法获取各种高度

热门文章

  1. 失眠多梦主要表现和怎么预防。
  2. 开源爱好者Sugar:从兴趣使然到不懈努力
  3. 开源数据库CockroachDB(二)
  4. BSTR、LPSTR、LPWSTR、CString、VARIANT、COleVariant 、_variant_t、CComBSTR、_bstr_t
  5. 【系统设计】会议室预定系统房间预定系统设计
  6. CPU Utilization is Wrong
  7. iOS使用一些特殊键盘时的运行错误解决Can't find keyplane that supports type 4 for keyboard
  8. ChinaSoft 论坛巡礼 | 全国大学生软件测试大赛
  9. 蜘蛛侠飞越纽约上空,在Spider-Man3拍摄现场
  10. 编写SQL语句查询出每个各科班分数最高的同学的名字,班级名称,课程名称,分数...