自然语言处理评测汇总（持续更新）

自然语言处理评测汇总（持续更新）
- 一、评测相关会议
- - 1、 WSDM Cup 2021（3月份）
  - 2、 TAC相关评测（3月份）
  - 3、 CCKS 2021相关评测（4月份）
  - 4、 NLPCC相关评测（3月份）
  - 5、全国社会媒体处理大会相关评测（3月份）
  - 6、 SemEval（9月份）
  - 7、知乎看山杯（2017—2019）（2020未发布）
  - 8、CCF大数据与计算智能大赛（2020未发布）
  - 9、全国第二届“军事智能机器阅读”挑战赛（2020未发布）
  - 10、待补充……
  - 附录：（评测平台）
- 二、ChineseGLUE中文语言理解测评基准
- - 1、语料库(CLUECorpus2020)：语言建模、预训练或生成型任务
  - 2、ChineseGLUE的定位 Vision
  - 3、为什么我们需要一个中文任务的基准测试？
  - 4、中文任务的基准测试-内容体系 Contents
  - - 1）中文任务的基准测试，覆盖多个不同程度的语言任务
    - 2）公开的排行榜
    - 3）基线模型，包含开始的代码、预训练模型
    - 4）语料库，用于语言建模、预训练或生成型任务
- 三、命名实体识别（NER）评测
- - 1、简介
  - 2、标签评测
  - 3、实体边界+实体类型
  - - A、完全匹配
    - B、部分匹配（重叠）
  - 4、评估指标
  - 5、示例
- 参考文献：

一、评测相关会议

1、 WSDM Cup 2021（3月份）

WSDM（Web Search and Data Mining，读音为Wisdom）是业界公认的高质量学术会议，注重前沿技术在工业界的落地应用，与SIGIR一起被称为信息检索领域的Top2。

2020年的：
Task 1 Microsoft Research - Citation Intent Recognition（Microsoft研究-引文意图识别）
任务一将提供一个论文库（约含80万篇论文），同时提供对论文的描述段落，来自论文中对同类研究的介绍。参赛选手需要为描述段落匹配三篇最相关的论文。
Task 2 4Paradigm - Automated Time Series Regression（4Paradigm-自动时间序列回归）
Task 3 Sichuan Airlines - Flight Delay Discovery and Optimization（四川航空-航班延误的发现与优化）

2021年论文合集网站：http://www.wsdm-conference.org/2021/proceedings.php

2、 TAC相关评测（3月份）

Text Analysi Conference，2008-2019，任务发布时间一般是3月份，评测时间一般是下半年7-10月之间，评测语料是英文。

KBP（Knowledge Base Population）知识库(知识图谱)自动生成相关评测，包括**实体链接（entity linking）和槽填充(slot filling)**等，是知识库生成领域比较权威的评测，每年评测内容略有不同，2019年包括三个子任务：

1) Entity Discovery and Linking (EDL)

从自然语言文本中自动发现实体，并连接到知识图谱中。
EDL跟踪的目标是从任何语言中提取对预定义实体类型的提及，并将其链接（消除歧义）到英语知识库（KB）中的实体。

2) Streaming Multimedia Knowledge Base Population (SM-KBP)

考虑从多种数据源中自动抽取结构化信息。
SM-KBP跟踪的目标是开发和评估从各种非结构化中抽取结构化知识元素（KEs）的技术，以便应对嘈杂、冲突和具有欺骗性的信息环境中的事件、情况、以及趋势。

3) Drug-Drug Interaction Extraction from Drug Labels (DDI)

DDI跟踪的目的是测试各种自然语言处理（NLP）方法对结构化产品标签（SPL）文档中有关药品相互作用的信息抽取（IE）性能的影响。

3、 CCKS 2021相关评测（4月份）

第十五届全国知识图谱与语义计算大会（CCKS: China Conference on Knowledge Graph and Semantic Computing）由中国中文信息学会语言与知识计算专业委员会主办。全国知识图谱与语义计算大会源自中文知识图谱研讨会the Chinese Knowledge Graph Symposium (CKGS)和中国语义互联网与Web科学大会Chinese Semantic Web and Web Science Conference (CSWS)。2016年两会合并，CCKS2016 (www.ccks2016.cn)、 CCKS2017 (www.ccks2017.com) 、CCKS2018 (www.ccks2018.com)、CCKS2019 (www.ccks2019.cn)和CCKS2020 (www.sigkg.cn/ccks2020) 分别在北京、成都、天津、杭州和南昌举办。CCKS2019吸引了800余名来自学术界和工业界的学者和研究人员参加，而CCKS2020采用线上与线下相结合的方式，共计300余人赴现场参会，在线参与人数峰值高达4.6万。全国知识图谱与语义计算大会已经成为国内知识图谱、语义技术、链接数据等领域的核心学术会议，聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的和研究人员的学者和研究人员。2021年全国知识图谱和语义计算大会(www.sigkg.cn/ccks2021) 将于2021年8月18日至8月21日在广州召开。CCKS 2021共设立14个相关主题评测任务，分别是：地址要素抽取、面向通信领域的过程类知识抽取、网页文件中学者画像任务、面向中文电子病历的医疗实体及事件抽取、通用细粒度事件检测、面向金融领域的篇章级事件抽取和事件因果关系抽取七、表型-药物-分子多层次知识图谱的链接预测、保险领域信息抽取、运营商知识图谱推理问答、通用百科知识图谱实体类型推断、军事垂直领域知识图谱构建技术、蕴含实体的中文医疗对话生成、面向中文医疗科普知识的内容理解、生活服务领域知识图谱问答、知识增强的视频语义理解。

主题一：领域信息抽取

任务一：地址文本分析

任务描述：人类的活动离不开位置，从空间上可以表征为坐标，从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务，支撑着诸多互联网场景，比如地图搜索、电商物流分析等。实际应用中，地址文本存在写法自由、缺省别名多、地域性强等特点，对地址的解析、归一和匹配等都造成困难。针对这些难点，阿里达摩院机器智能技术团队联合CCKS2021大会举办此次地址评测任务。该评测包含2个子任务，分别是:中文地址要素解析、地址文本相关性。
地址要素解析是将地址文本拆分成独立语义的要素，并对这些要素进行类型识别的过程。地址文本相关性主要是衡量地址间的相似程度。
地址要素解析与地址相关性共同构成了中文地址处理两大核心任务，具有很大的商业价值。目前中文地址领域缺少标准的评测和数据集，这次我们将开放较大规模的标注语料，希望和社区共同推动地址文本处理领域的发展。

任务二：面向通信领域的过程类知识抽取

任务描述：通信领域存在多种的过程类知识，如硬件安装（基站主设备安装操作步骤）、参数配置（配置网元开通与对接相关的参数）、集成调测（网元开通调试和功能验证）、故障处理（修复网元开通或正常运行中出现的故障）等，其中故障处理过程类知识尤为重要。通信运维过程中，通过“事件”及“事件关系”对故障过程知识进行梳理，给用户呈现故障发生的逻辑，提供故障排查和故障恢复方案，指导一线处理现网故障。在故障知识整理过程中，“事件抽取”与“事件共指消解”是实现故障脉络、排查步骤和恢复步骤梳理的重要手段。通信领域“事件抽取”的挑战在于通信业务的复杂和任务本身的复杂，其中通信业务的在于复杂的领域长词、歧义事件、元素共用等，而任务本身的复杂在于多任务识别（包括触发词和角色识别）、元素间的依赖关系等。“事件共指消解”的难点在于事件元素表述多样化和事件元素缺损（漏抽取、文本描述缺损）。
本次评测任务的语料来源主要是华为公司的公开故障处理案例。本次评测任务的事件类型包括：指标恶化类、软硬件异常、采集数据、核查类、配置类故障、外部事件、调整机器、操作机器等。

任务三：网页文件中学者画像任务

任务描述：随着大数据和人工智能的发展，刻画用户的基本画像、行为画像、心理画像等已广泛应用于搜索、推荐系统等任务。高端人才画像旨在对专家学者的精准事实知识进行抽取、标签化和统计分析，进而用于学术搜索、科研服务、人才挖掘等方面，推动学术人工智能和科技情报分析系统的发展。本次大赛主要挖掘专家的基本画像，但现有的挖掘方法受限于标注数据集或者基于规则统计的方法，因而效果有限。希望选手能够结合当下最先进的AI和NLP技术，深入挖掘web文本中的专家标签信息，构建模型实现精准的高端人才画像。

任务四：面向中文电子病历的医疗实体及事件抽取

任务描述：本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续，在CCKS 2017，2018, 2019, 2020相关评测任务的基础上进行了延伸和拓展。本次评测依然是聚焦在两个任务：医疗命名实体识别和医疗事件抽取。与往年不同的是本次评测要求参赛者提供一个解决方案来同时解决实体识别和事件抽取两个任务。参赛者在建模过程中尽可能的利用两个任务间的关系来提高最终的效果。参赛者需在两个子任务上进行测试，两个子任务测试集上的综合表现作为最终的评测结果。

主题二：篇章级信息抽取

任务五：通用细粒度事件检测

任务描述：“事件检测”任务的目标是从纯文本中自动识别出事件的触发词（最准确表示事件发生的关键词或短语）并分类出其对应的事件类型。事件检测是事件抽取的第一步，也是学习事件语义和事件知识的最基础步骤。以往的事件检测数据往往只关心特定领域的有限事件类型，而且规模也较小，这限制了在其上开发的模型的实用性和通用性。本评测构建了包含十万余个事件实例的大规模英文数据集，覆盖了168类通用域事件类型，以期评测现有技术对通用域的普遍事件语义的检测能力。同时本评测鼓励探索事件间的层次标签体系、文档主题等额外信息对事件检测的帮助作用。

任务六：面向金融领域的篇章级事件抽取和事件因果关系抽取

任务描述：事件抽取是舆情监控和金融领域的重要任务之一。“金融事件”在金融领域是投资分析，资产管理的重要决策参考；事件也是知识图谱的重要组成部分，事件抽取是进行图谱推理、事件分析的必要过程。“事件抽取”的挑战体现在文本的复杂和任务的复杂。文本的复杂体现在事件抽取的输入文本可能是句子、段落或者篇章，不定长度的文本使得限制文本长度的模型无法使用；任务的复杂体现在事件识别的任务包括：事件类型识别，事件要素抽取，事件关系抽取等等。本评测任务的目标是解决篇章级事件元素抽取和事件因果关系抽取这两个核心的知识抽取问题。

主题三:链接预测

任务七：表型-药物-分子多层次知识图谱的链接预测

任务描述：过去的三十多年里，基于靶点的药物发现（Target-based Drug Discovery, TDD）是药物发现的主要方法。由于靶点明确，使用TDD很容易设计药物筛选试验，因此在过去有大量的成功案例。使用TDD方法来开发药物，药物发现的时间、过程和所需资源都是可预测的。近年来，随着细胞表型筛选技术，如诱导多能干细胞（iPS）技术、CRISPR-Cas技术、类器官和成像分析技术的飞速发展，表型药物发现（Phenotypic Drug Discovery, PDD）重新回到了人们的视线。在药物发现的研发中，研究者需要对各种药物做大量生物实验，从而确定药物治疗效果，但是此步骤需花费大量时间。机器学习是AI领域的一个强大的分支，它通过复杂的数据决策方案加速研究。在过去的10年里，AI方法学和机器学习算法已经成功地应用于药物发现的各个阶段，并逐步融入到大型制药公司的药物发现策略中。在大数据和人工智能时代，我们可以收集大量的临床和实验数据，利用AI算法对药物和基因的靶向作用、药物和表型的治疗作用等进行预测。其中，基于知识图谱是解决该问题的一种途径，通过构建表型-药物-分子多层次知识图谱，利用大规模图算法以及知识推理来预测疾病、症状、药物、基因、副作用等之间关系。表型-药物-分子多层次知识图谱依据表型（疾病、症状）、药物、基因等及其之间的关系来构建的知识图谱，其包含了大量实体及其关系数据，可以为致病机理和药理作用机制的研究提供一定支持。这些问题对于进一步了解疾病的分子机制、发掘潜在的药物治疗机理具有重大的实际意义和学术价值。
本任务基于表型-药物-分子多层次知识图谱进行关系预测，如药物和基因/蛋白的靶向作用、药物和表型的治疗作用、蛋白间的交互作用等。评测依据知识图谱模式（Schema）和知识图谱的实体、实体之间的关系，预测新的两个实体的关系。评测本身不限制各参赛队伍使用的模型、算法和技术。可以利用各种图算法模型，预训练等手段进行图谱上的关系预测，共同促进知识图谱技术的发展。

主题四：知识图谱构建与问答

任务八：保险领域信息抽取和运营商知识图谱推理问答

子任务1：面向保险领域的低资源文档信息抽取

任务描述：随着知识图谱在各个行业的应用，使用信息抽取技术从文档中挖掘大规模图谱知识已经成为了一个研究热点。然而当前信息抽取任务多关注于从无结构化文本中抽取知识，忽略了文档中丰富的格式信息。同时，在真实的业务场景下，文档级信息抽取标注数据的获取成本十分高昂，现有信息抽取方法在少量标注样本下的表现性能不佳，已经成为阻碍行业知识图谱规模化应用的主要瓶颈之一。
为此，阿里巴巴和中国人寿联合举办“面向保险领域的低资源文档信息抽取”评测任务，希望通过此次评测任务及开放的中文文档信息抽取数据集，助力中文文档信息抽取技术的发展及其商业化落地应用。本次评测面向真实业务场景下的商业文档理解需求，提供保险领域的少量标注数据和大量无标注数据，期望参与者能够充分利用文档格式信息，在低资源标注场景下完成“文档标题层级抽取”和“文档开放信息抽取”两个子任务。

子任务2：运营商知识图谱推理问答

任务描述：基于知识图谱的问答系统，通过对用户输入query进行语义理解，生成结构化查询语句，从给定知识库中选择若干实体或属性值作为该问题的答案。当前知识图谱问答系统在简单句（单实体单属性）上已经取得比较好的效果，而在约束句：条件约束句、时间约束句，以及推理型问句：比较句、最值句、是否型问句以及问句中带有交集、并集和取反的问句等，其逻辑推理能力还有待提升。
以电信运营商场景为例，比如：“不含彩铃的套餐有哪些？”、“支持长途漫游，价格低于100元的套餐有哪些？”、“神州行B套餐是5G套餐吗”等，这类需要推理的Query目前的问答系统难以回答。阿里巴巴与中移在线服务有限公司发布的此次评测任务，是希望参赛选手基于我们提供的运营商知识图谱，将用户这类真实query作为输入，构建模型预测其答案。为帮助参赛选手提高问答效果，训练文件会提供问题对应的SPARQL查询。该任务的训练可以使用额外的资源，但是最终的答案必须来自给定的知识库。

任务九：通用百科知识图谱实体类型推断

任务描述：本评测任务围绕通用百科知识图谱构建中的实体类型推断展开，评测从实体百科（包括百度百科、搜狗百科等来源）页面出发，从给定的数据中推断出相关实体的类型。本次任务的实体类型包括组织机构、人物、作品等多个领域，不同领域下包括多种实体类型，实体类型之间具有层级关系，并形成一棵分类树。对于一个具体的实体，需要尽可能推断到最细粒度的实体类型，同时一个实体还可能属于一种或多种实体类型。任务提供大量无标注数据，参与者可以通过分析网页相关数据及字段信息等，灵活采用无监督、半监督、有监督等方法进行实体类型推断。

任务十：面向军用无人机系统的军事垂直领域知识图谱构建

任务描述：军用无人机在军事斗争准备中发挥着重要作用，是加快“机械化、信息化、智能化三化融合发展”的抓手装备，近年来全球热点军事事件与局部冲突，充分证明了其军事价值。知识图谱，是公认的智能化信息基础，但垂直领域知识图谱的构建技术，至今仍是关乎图谱实效的难点所在。为此，我们组织本次评测任务，探索能够落地见效的军用无人机领域知识图谱构建技术，促进技术交流、推动技术进步，进一步通过知识图谱助力提升军用无人机相关领域的研究能力。本次任务从工程实际出发，对构建图谱的数据来源进行了严格限定，对图谱构建过程中涉及的技术、方法、模型、训练数据等不作限制，自动化、半自动化以及其他混合方式均可，鼓励参赛队面向工程实际开展探索；在评测上，结合工作实际，区分构建阶段与任务阶段，从“质”、“效”两个方面进行评测。同时，为支持本次评测任务，军科系统院组织有关单位专家，设计了目前公开领域最为全面、系统的军用无人机系统知识图谱顶层模式(Schema)。

任务十一：蕴含实体的中文医疗对话生成

任务描述：本评测任务为蕴含实体的中文医疗对话生成，主要涉及对话系统构建、自然语言生成、领域知识融合等方向。任务具体定义如下：给定医生和患者交流的对话历史H，并假定医生的下一句回复Y包含一个标注的实体列表E，模型要求根据对话历史H生成下一句回复Y。同时，模型的回复中应当包含尽可能准确的实体信息（E中的实体）。本评测提供了一万多个医疗咨询对话数据，并标注有疾病、症状、程度、检查、药物五大类共160种相关实体。任务的挑战如下：（1）医疗对话系统模型需要能够准确理解对话历史，生成与上文相关的回复。（2）训练集中，我们提供了五类实体标注，参赛者需要考虑如何利用这些信息来辅助模型训练。在验证和测试阶段，模型只能根据对话历史来推断回复中可能包含的实体。（3）除了任务提供的医疗对话数据，参赛者可以考虑利用开源的医疗领域相关语料进行模型预训练和迁移学习。

任务十二：面向中文医疗科普知识的内容理解

任务描述：本次评测任务围绕着中文医疗科普知识的内容理解展开，分为两个子任务：（1）医疗科普知识阅读理解；（2）医疗科普知识答非所问识别。其中，子任务1是针对用户提出的搜索query，在相关文章中找到对应的答案片段内容，以此作为直接展示给用户的摘要；子任务2指针对问答形式的医疗科普内容<Q, A>中，回答A和问题Q没有关联，即答案不能满足所提问题。

任务十三：生活服务领域知识图谱问答

任务描述：本任务属于中文知识图谱自然语言问答任务，简称CKBQA （Chinese Knowledge Base Question Answering）。即输入一句中文问题，问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型，不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取、语义解析等子任务。这些任务的训练可以使用额外的资源，但是最终的答案必须来自给定的知识库。
本次知识图谱问答任务是在CCKS上举办的第四届。今年在OpenKG基础上引入美团生活服务领域知识库及问答数据，由美团搜索与NLP部和北京大学王选计算所联合主办。同时依然保留去年开放领域的问答数据以供参赛队伍对模型进行训练。我们期望参赛选手的问答系统既能处理各种百科类的浅层问题，也能处理具备一定领域知识。
本评测任务所使用的生活服务领域知识图谱来源于美团知识图谱，其中包括旅游、酒店、美食等多种领域的数据。我们将这些数据集整合到一起，同开放领域知识库PKUBASE一起作为问答任务的依据。

主题五：多模态问答

任务十四：知识增强的视频语义理解

任务描述：
知识增强的视频语义理解任务，期望融合知识、NLP、视觉、语音等相关技术和多模态信息，为视频生成刻画主旨信息的语义标签，从而实现视频的语义理解。本评测任务以互联网视频为输入，在感知内容分析（如人脸识别、OCR识别、语音识别等）的基础上，期望通过融合多模信息，并结合知识图谱计算与推理，为视频生成多知识维度的语义标签，进而更好地刻画视频的语义信息。
本评测任务所使用的数据来源于百度好看/全民小视频，人工标注视频分类标签和语义标签（包括：实体/概念/事件/实体属性等维度）结果。同时，我们也提供了本次评测任务所需的知识数据，期望充分利用知识图谱的语义化知识，并结合多模态学习和知识推理技术，实现视频的深度语义理解。

4、 NLPCC相关评测（3月份）

Natural Language Processing and Chinese Computing，NLPCC从2012年开始举办，至今已成功举办9届，NLPCC2020共举办三个任务的开放评测，包括：中文轻量级预训练语言模型能力评测、多方面多类别情感分析评测和自动信息抽取评测等三个评测任务。下面将逐一对每个任务进行概要介绍，详细的任务说明参见评测指导手册。

任务一：中文轻量级预训练语言模型能力评测 (Light pre-training Chinese Language model for NLP task)

这个任务的目标是训练一个和正常大小的语言模型效果相似的轻量级的语言模型。每个提交上来的模型都会在多个不同的下游NLP任务上评估性能。我们将会综合考虑模型参数数量，模型准确率以及模型推理时间，这些将一起作为模型的评估标准。

任务二：多方面多类别情感分析 (Multi-Aspect-based Multi-Sentiment Analysis)

在现有的方面级别情感分析（ABSA）数据集中，大多数句子只包含一个方面或者多个具有相同情感极性的方面，这样就使得方面级别情感分析任务可能退化成句子级别情感分析。在NLPCC 2020中，我们提出了一个“多方面多情感”数据集（MAMS），其中每个句子包含两个及以上的方面，并且表达了不同的情感极性。本评测包含两个子任务：（1）aspect-term 情感分析（ATSA），其目标是判别句子中给定的aspect-term所表达的情感极性；（2）aspect-category情感分析（ACSA），其目标是判别预先定义好的aspect-category所包含的情感极性。

任务三：自动信息抽取 (Auto Information Extraction)

实体抽取是语言智能的核心基础任务之一，非常多的下游任务都有信息结构化的需求。实体抽取领域的绝大多数研究都是基于数据充足的假设下研究算法来准确的提取出目标类别实体。然而，实体信息的概念是有层级的，而且难以穷举，这就导致没有提供通用标注数据的可能。只有少量共需的实体类别可以通过通用的数据来建立模型，其余的实体类型只能使用者按需标注。

本次评测任务意在考虑噪音标注以及不全标注信息的情况下来构造信息抽取系统。当给定实体类别，实体的一个列表，还有大量未标注语料时，我们如何设计改进算法来构建一个信息抽取系统。这个假设是非常符合工业界实际需求的，抽取的目标繁杂，而只要相关的部分实体列表和待抽取的语料，如何投入很少的人力来构建系统是一个非常以挑战且有意义的研究方向。

5、全国社会媒体处理大会相关评测（3月份）

全国社会媒体处理大会创办于2012年，每年举办一次，现已成为社会媒体处理的重要学术活动。第九届全国社会媒体处理大会（SMP 2020）由中国中文信息学会社会媒体处理专委会主办，浙江大学承办，将于2020年9月4-6日在浙江杭州召开。

SMP 2020欢迎社会媒体相关方面的原创研究和应用的报告，鼓励学科交叉、文理交融，主题包括但不限于以下内容:

计算社会学与传播学

社交网络分析及用户建模

网络表示学习、图神经网络理论与应用

面向社会媒体的自然语言处理

社会媒体挖掘和预测

社会媒体信息可视化

社会媒体舆情分析

社会影响力建模与预测

社会媒体网络信息传播

社会媒体安全和隐私保护

社会媒体营销与品牌传播

众包计算等社会计算模式

疫情防控与分析

（1）机器人群聊比赛（3月份）

人机对话技术是人工智能领域的一个重要研究方向，从手机智能助手，到闲聊陪护型聊天机器人，再到各种面向场景的任务型对话系统平台和智能家居，人机对话系统渐渐融入人类社会的日常运行中，促进了将来人机共融社会的发展。然而，目前的人机对话系统在主导对话的能力和整体性能的评价方面存在巨大的挑战。

任务描述：在机器人群聊场景中，已知群聊主题和历史消息记录，要求生成符合群聊主题和上下文逻辑的回复。同时，所生成的回复需要流畅且与群聊对话主题相关。

（2）SMP2020中文人机对话技术评测（ECDT）（5月份）

在本届SMP会议上，我们继续举办中文人机对话技术评测（ECDT）。近年来，人机对话技术受到了学术界和产业界的广泛关注。学术上，人机对话是人机交互最自然的方式之一，其发展影响及推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展；产业上，众多产业界巨头相继推出了人机对话技术相关产品，如个人事务助理、虚拟情感陪护机器人、娱乐型聊天机器人等等，并将人机对话技术作为其公司的重点研发方向。以上极大地推动了人机对话技术在学术界和产业界的发展。

评测任务概述：本届人机对话技术评测主要包括两个任务，参赛者可以选择参加任意一个任务或全部任务。

任务1：小样本对话语言理解技术评测
【背景介绍】
本次评测中，我们着眼于任务型对话系统中对话语言理解任务（SLU，Spoken Language Understanding）的小样本学习问题。对话语言理解是任务型对话系统的关键组成模块，它负责将用户输入的自然语言转化为结构化的语义框架（Semantic Frame），为后续的对话管理模块和回复生成模块提供支持。任务型对话频繁面临新的需求和领域，而SLU模块针对不同领域的标注规范往往差异较大，使得SLU模块经常面临数据不足的严峻考验。综上，本次评测既有开拓自然语言下小样本问题的研究意义，同时也兼有切实的实际应用意义。

【任务描述】
对话语言理解SLU（Spoken Language Understanding）是任务型对话系统的关键组成模块，它把用户的自然语言输入（Utterance）转化为结构化信息（Semantic Frame）以为后续的对话状态管理和回复生成提供支持。其中Semantic Frame包括用户意图（Intent）和语义槽（Slot）。

任务2：知识驱动的多轮对话竞赛
【背景介绍】
在人机对话系统领域，尽管对话生成的任务得到了广泛的研究，但是对于驱动对话生成的知识的建模却由于缺少数据支持亟待研究。如可以在多轮人机对话中有效的对知识的交互进行建模，则可以极大地提升人机对话系统的逻辑性，信息量，可解释性等智能化程度，从而带来更好的用户体验。
【任务描述】
在对话场景下，已知对话上下文和所有知识图谱信息，要求生成符合知识图谱信息与上下文逻辑的对话回复。

（3）SMP2020微博情绪分类技术评测（SMP2020-EWECT）（5月份）

在本届SMP会议上，我们将举办微博情绪分类技术评测。情感分析技术一直是自然语言处理领域研究的重点内容之一。2020年，新冠肺炎疫情成为了全国人民关注的焦点，众多用户针对此次疫情在新浪微博等社交媒体平台上发表自己的看法，蕴含了非常丰富的情感信息。基于自然语言处理技术自动识别社交媒体文本中的情绪信息，可以帮助政府了解网民对各个事件的态度，及时发现人民的情绪波动，从而更有针对性地制定政策方针，具有重要的社会价值。尽管之前的社交媒体情感分析技术已经取得了不错的进展，但是如何将之前的研究成果快速高效地应用到疫情相关的数据当中，仍然是一个值得研究的问题。本次评测任务中，参赛成员不仅需要分析普通微博中的情绪，还要专门针对疫情相关微博进行情绪分析。

评测任务概述：
本届微博情绪分类评测任务一共包含两个测试集：第一个为通用微博数据集，其中的微博是随机收集的包含各种话题的数据；第二个为疫情微博数据集，其中的微博数据均与本次疫情相关。

任务描述如下：
微博情绪分类任务旨在识别微博中蕴含的情绪，输入是一条微博，输出是该微博所蕴含的情绪类别。在本次评测中，我们将微博按照其蕴含的情绪分为以下六个类别之一：积极、愤怒、悲伤、恐惧、惊奇和无情绪。

（4）SMP2020裁判文书互动论点对抽取技术评测（5月份）

在本届SMP会议上，我们将首次举办基于论辩挖掘的法律文本技术测评。本次测评也同样是第三届“中国法研杯”司法人工智能挑战赛第四赛道论辩挖掘项目。法院审判过程中，存在着大量记录详实、内容完整的文本数据，即裁判文书。近年来，随着科技的飞速发展，信息自动化成为了社会进步的主要标志。因此，在传统的法院审判过程中实现信息自动化，从而进一步实现司法公平性、客观性，是一项意义重大的任务。裁判文书作为法律文本中结构化最为明显、内容最为丰富的信息载体，在庭审过程中起着至关重要的作用，也是法律文本中信息自动化最为重要的一环。

■ 评测内容
裁判文书互动论点对抽取技术评测

【背景介绍】
裁判文书是人民法院庭审过程中记载的案件诉辩双方观点、证词和结果等内容的总称，它是庭审中诉讼事件结果的载体，也是人民法院用于裁定和判定各当事人实体权利以及负担义务的凭证。裁判文书的重要性在于，它是整个诉讼程序的浓缩，是对于庭审过程最为客观、动态的记录；也是用于分析、排解矛盾纷争最为客观、真实的工具；同时，裁判文书更体现着庭审法官在该过程中对于自身审判权的运用方式。

当前阶段，法院对于争议焦点的提取方法仍然停留在依靠法官人工阅读、整理、分析、归纳裁判文书中的双方陈词，使得这一步骤会耗费大量法官的时间精力资源。

本次测评旨在让参赛者设计模型，从给定的裁判文书中自动抽取出双方存在互动关系的论点对，为日后裁判文书整理工作的自动化、客观化做出贡献。

【任务描述】
如上文所介绍的，本次评测目的旨在自动化抽取出裁判文书中诉辩双方观点陈述中存在互动关系的论点对。具体操作层面上，对于所收集到的互动论点对中每一句诉方论点，我们都会给出四句辩方论述中的无关论点以及一句存在互动关系的辩方论点，共五句选项。参赛者的模型需要对于每一句给出的诉方论点，从五句候选论点中选出一句。最终的评价指标便是统计参赛者模型给出答案的正确率。

文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文本。文本溯源技术在学术诚信检测、搜索引擎优化等领域有广泛应用。

6、 SemEval（9月份）

SemEval评测及相关数据集在语义关系，推理，知识库生成领域是比较权威的，SemEval2020开始时间为2020年2月19日。今年包含12个子任务：

Lexical semantics
Task 1: Unsupervised Lexical Semantic Change Detection (无监督词汇语义变化检测)
Task 2: Predicting Multilingual and Cross-Lingual (Graded) Lexical Entailment (预测多语和跨语(分级)词汇蕴涵) ·
Task 3:Graded Word Similarity in Context (GWSC) (上下文中单词相似性的分级)

Common Sense Knowledge and Reasoning, Knowledge Extraction
Task 4: Commonsense Validation and Explanation (常识验证和解释)
Task 5: Modelling Causal Reasoning in Language: Detecting Counterfactuals (用语言模拟因果推理:发现反事实)
Task 6: DeftEval: Extracting definitions from free text in textbooks (DeftEval: 从教科书中的自由文本中提取定义)

Humour, Emphasis, and Sentiment
Task 7:Assessing Humor in Edited News Headlines (评价编辑过的新闻标题中的幽默)
Task 8:Memotion Analysis (情感分析)
Task 9: Sentiment Analysis for Code-Mixed social media text (代码混合社交媒体文本的情感分析)
Task 10: Emphasis Selection for Written Text in Visual Media (视觉媒体中文字的重点选择)

Societal Applications of NLP
Task 11: Detection of Propaganda Techniques in News Articles(新闻文章中宣传技巧的检测)
Task 12: OffensEval 2: Identifying and Categorizing Offensive Language in Social Media (识别和分类社交媒体中的攻击性语言)

7、知乎看山杯（2017—2019）（2020未发布）

知乎主办，每年任务都不相同，2020年任务还不确定。

2019年——专家发现算法大赛，评测语料中文。比赛将提供知乎的问题信息、用户画像、用户回答记录，以及用户接受邀请的记录，要求选手预测这个用户是否会接受某个新问题的邀请。

2019年8 月29 日 ：比赛正式开始，开放比赛队伍注册，同步发布训练集和验证集。11 月 27 日（23:59pm UTC）：12 月 16 日 23:59 pm UTC（北京时间 12 月 17 日 7:59 AM）：测试集开放下载，选手有24小时时间下载数据并提交测试集结果（3次）。

8、CCF大数据与计算智能大赛（2020未发布）

CCF Big Data & Computing Intelligence Contest，简称CCF BDCI，是由中国计算机学会大数据专家委员会于2013年创办的国际化智能算法、创新应用和大数据系统大型挑战赛事，是全球大数据与人工智能领域最具影响力的活动之一。评测语言中文。2019/08/17发布赛题，开放报名，2019/10/31-2019/11/4截止报名，复赛入围资格审核。2019年评测任务包括：

1) 互联网新闻情感分析
2) 金融信息负面及主体判定
3) 互联网金融新实体发现
4) 多人种人脸识别
5) 视频版权检测算法
6) 文本实体识别及关系抽取

9、全国第二届“军事智能机器阅读”挑战赛（2020未发布）

全国第二届“军事智能机器阅读”挑战赛，2019年7月2日报名，2019年9月3日初赛，2019年10月9日复赛。

本届“莱斯杯”秉承“算法顶天、应用立地”的理念，在赛题设置上面向用户关键信息需求，以文字情报整编业务面临的实际痛点问题为切入点，旨在由机器筛选、整编出多篇文字报中用户所关心的活动时间、地点、频率、性能参数等中心内容。相比上一届“莱斯杯”，赛题在更加贴合实际应用同时，也将带来NLP算法的全新挑战，属当下最前沿热点研究领域之一。一旦成功应用，将颠覆以往情报整编工作以人工分析提炼为主的模式，逐步实现由机器替代繁琐、重复性情报整编业务流程。

10、待补充……

附录：（评测平台）

2020年自然语言处理评测平台内容发布情况地址：

kaggle（https://www.kaggle.com ）
DataFountain（https://www.datafountain.cn/）
biendata（https://biendata.com/）
天池（https://tianchi.aliyun.com/home/）
……

二、ChineseGLUE中文语言理解测评基准

ChineseGLUE
Language Understanding Evaluation benchmark for Chinese: datasets, baselines, pre-trained models, corpus and leaderboard

中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜。

我们会选择一系列有一定代表性的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

1、语料库(CLUECorpus2020)：语言建模、预训练或生成型任务

Corpus for Langauge Modelling, Pre-training, Generating tasks

可用于语言建模、预训练或生成型任务等，数据量超过14G，近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目https://github.com/brightmart/nlp_chinese_corpus

当前语料库按照【预训练格式】处理，内含有多个文件夹；每个文件夹有许多不超过4M大小的小文件，文件格式符合预训练格式：每句话一行，文档间空行隔开。

包含如下子语料库（总共14G语料）：
1、新闻语料 news2016zh_corpus : 8G语料，分成两个上下两部分，总共有2000个小文件。 密码:mzlk
2、社区互动-语料 webText2019zh_corpus：3G语料，包含3G文本，总共有900多个小文件。 密码:qvlq
3、维基百科-语料 wiki2019zh_corpus：1.1G左右文本，包含300左右小文件。 密码:rja4
4、评论数据-语料 comments2019zh_corpus：2.3G左右文本，共784个小文件，包括点评评论547个、亚马逊评论227个，合并 ChineseNLPCorpus 的多个评论数据，清洗、格式转换、拆分成小文件。 密码:5kwk

这些语料，你可以通过上面这两个项目，清洗数据并做格式转换获得；

你也可以通过邮件申请（chineseGLUE#163.com）获得单个项目的语料，告知单位或学校、姓名、语料用途；

如需获得ChineseGLUE项目下的所有语料，需成为ChineseGLUE组织成员，并完成一个（小）任务。

2、ChineseGLUE的定位 Vision

为更好的服务中文语言理解、任务和产业界，做为通用语言模型测评的补充，通过完善中文语言理解基础设施的方式来促进中文语言模型的发展。

3、为什么我们需要一个中文任务的基准测试？

首先，中文是一个大语种，有其自身的特定、大量的应用。

如中文使用人数近14亿，是联合国官方语言之一，产业界有大量的的朋友在做中文的任务。
中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词(分字或词)会影响下游任务。

其次，相对于英文的数据集，中文的公开可用的数据集还比较少。

很多数据集是非公开的或缺失基准测评的；多数的论文描述的模型是在英文数据集上做的测试和评估，那么对于中文效果如何？不得而知。

再次，语言理解发展到当前阶段，预训练模型极大的促进了自然语言理解。

不同的预训练模型相继产生，但不少最先进(state of the art)的模型，并没有官方的中文的版本，也没有对这些预训练模型在不同任务上的公开测试，
导致技术的发展和应用还有不少距离，或者说技术应用上的滞后。

那么，如果有一个中文任务的基准测试，包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展，

能缓解当前中文任务的一些问题，并促进相关应用的发展。

4、中文任务的基准测试-内容体系 Contents

Language Understanding Evaluation benchmark for Chinese(ChineseGLUE) got ideas from GLUE, which is a collection of resources for training, evaluating, and analyzing natural language understanding systems. ChineseGLUE consists of:

1）中文任务的基准测试，覆盖多个不同程度的语言任务

A benchmark of several sentence or sentence pair language understanding tasks. Currently the datasets used in these tasks are come from public. We will include datasets with private test set before the end of 2019.

2）公开的排行榜

A public leaderboard for tracking performance. You will able to submit your prediction files on these tasks, each task will be evaluated and scored, a final score will also be available.

3）基线模型，包含开始的代码、预训练模型

baselines for ChineseGLUE tasks. baselines will be available in TensorFlow,PyTorch,Keras and PaddlePaddle.

4）语料库，用于语言建模、预训练或生成型任务

A huge amount of raw corpus for pre-train or language modeling research purpose. It will contains around 10G raw corpus in 2019;

In the first half year of 2020, it will include at least 30G raw corpus; By the end of 2020, we will include enough raw corpus, such as 100G, so big enough that you will need no more raw corpus for general purpose language modeling. You can use it for general purpose or domain adaption, or even for text generating. when you use for domain adaption, you will able to select corpus you are interested in.

三、命名实体识别（NER）评测

1、简介

命名实体识别评测方式分为两种，一是通用的基于token标签进行直接评测，二是考虑实体边界+实体类型的评测。

2、标签评测

不考虑实体类型与实体边界，直接进行评测。

3、实体边界+实体类型

A、完全匹配

1、实体边界与实体类型都匹配正确；
2、预测出的实体在测试集中不存在；
3、测试集中的实体，没有被预测出来；

B、部分匹配（重叠）

4、实体边界正确，类型不正确；
5、边界错误（边界重叠）；
6、边界错误，实体类型也错误

4、评估指标

1）CoNLL-2003: Computational Natural Language Learning

仅考虑1、2、3方案；

完全匹配：精度、召回率、F1

参考 Introduction to the CoNLL-2003 Shared Task:
Language-Independent Named Entity Recognition：https://www.aclweb.org/anthology/W03-0419/

2）Automatic Content Extraction (ACE)

包括加权方案

参考 Automatic Content Extraction 2008 Evaluation Plan (ACE08)：
https://pubweb.eng.utah.edu/~cs6961/papers/ACE-2008-description.pdf

参考 The Automatic Content Extraction (ACE) Program: Tasks, Data, and Evaluation：
https://pdfs.semanticscholar.org/0617/dd6924df7a3491c299772b70e90507b195dc.pdf

3）Message Understanding Conference (MUC)

同事考虑实体边界和实体类型

Correct (COR): 匹配成功；

Incorrect(INC)：匹配失败；

Partial(PAR)：预测的实体边界与测试集重叠，但不完全相同；

Missing(MIS)：测试集实体边界没有被预测识别出来；

Spurius(SPU)：预测出的实体边界在测试集中不存在；

参考：MUC-5 EVALUATION METRICS：https://www.aclweb.org/anthology/M93-1007/
Python参考代码：https://github.com/jantrienes/nereval

4）SemEval‘13

严格（strict）：完全匹配，需要实体边界与实体类型都正确；

精确边界匹配（exact）：无论实体边界如何，预测的实体边界都是正确的；

部分边界匹配（partial）：忽略实体边界，有实体边界重叠即可；

类型匹配：预测的实体与测试集实体需要一定的重叠；

5、示例

图-实体预测结果与测试集匹配情况

1）测试集标签个数统计（golden）：

2）预测结果标签个数统计（predict）：

3）精确匹配（exact）：

4）部分匹配（partial）：

5）F1：

参考文献：

[1] https://zhuanlan.zhihu.com/p/102898713?utm_source=qq
[2] https://github.com/chineseGLUE/chineseGLUE
[3] https://github.com/CLUEbenchmark/CLUE
[4] 实体边界+实体类型：https://ychai.uk/notes/2018/11/21/NLP/NER/Evaluation-metrics-of-Name-Entity-Recognition-systems/
[5] scikit-learn标签评测（多分类评测方法）：https://devdocs.io/scikit_learn/modules/generated/sklearn.metrics.classification_report
[6] conlleval参考代码：https://github.com/sighsmile/conlleval
[7] NER MUC evaluation参考代码：https://github.com/cyk1337/NER-evaluation/