中文数据集有奖公开征集

各位自然语言处理界的同仁：

我们是中文任务基准测评小组，即Chinese Language Understanding Evaluation(CLUE)的成员。我们收集、制作了一套中文自然语言理解评测平台：CLUE Benchmark。

CLUE Benchmark旨在综合形式不同、难度各异的中文自然语言理解数据集，制作一个统一的测试平台，以准确评价模型的自然语言理解能力。目前我们已经收集了至少9大数据集，并制作了排行榜。包括华为、阿里、腾讯等公司，以及中科院相关院所等高校参与了测评。我们的GitHub repository已获得超过1000个星。

我们的网站：

https://www.CLUEbenchmarks.com

论文的arxiv地址：

https://arxiv.org/abs/2004.05986

Github地址：

https://github.com/CLUEbenchmark

现在，我们诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者为我们提供更多的中文自然语言理解数据集。这些数据集可以是您自己制作推出的，也可以是您认为很有意义但是是他人制作的数据集。我们计划在5月14日前完成筛选，推出正式的CLUE Benchmark。请您将推荐数据集的名称、作者、形式以及License情况发送至 CLUE@CLUEBenchmarks.com

【奖励】如果您推荐的数据集被选中，将能提高扩展数据集的知名度，并为学界、业界对自然语言理解的研究做出贡献。CLUE组织会引用和推广该数据集；我们也会结合数据集质量、意义、量级和标注难度、任务类型设置不同等级的奖励，给与1000--5000元现金奖励。

您推荐的数据集需要满足以下【要求】：

1、【任务与自然语言理解相关】

我们要求数据集能够测试模型是否理解了中文，模型可以是以研究为导向，也可以由实际应用为导向，重点是需要包含语言理解的成分。任务本身质量还不错。

2、【任务形式】

任务输入是一段文本（可长可短），具体任务可以是分类、序列标注、指代消歧、多项选择、回归任务，等等。任务最好能够使用基本的神经网络模型做出基线，方便测评。

3、【能够测评】

提交的任务需要有简单、客观的评测标准。如果是包含文本生成的项目，那么需要证明该项目有易行的可靠评测标准。

4、【公开的训练数据】

任务的训练数据和开发数据需要公开，并且能够由CLUE使用。

5、【未公开的测试集】

任务最好有尚未公开的测试集。

6、【任务难度】

提交的任务不能太简单。具体来讲，目前的模型如BERT应该比训练过的普通标注者做的差很多。

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

中文数据集有奖公开征集相关推荐

ACL 2021｜CHASE: 首个跨领域多轮Text2SQL中文数据集
©PaperWeekly 原创 · 作者 | 徐叶琛单位 | 字节跳动研究方向 | NLP语义理解.问答系统自然语言处理语义解析子任务 Text2SQL 旨在将用户的自然语言转换为 SQL 序列 ...
HiAGM模型源码测试【原始数据集+中文数据集】
论文链接:Hierarchy-Aware Global Model for Hierarchical Text Classification github代码链接:HiAGM HiAGM模型源码测试 ...
AI周报丨中国信息通信研究院发布《AI框架发展白皮书》；华为开源首个NLP中文数据集-悟空；AAAI2022年度论文公布。
AI周报丨中国信息通信研究院发布<AI框架发展白皮书>:华为开源首个NLP中文数据集-悟空:AAAI2022最佳论文公布. 2022年2月22日极链AI云官网地址点击注册更多AI内 ...
【NLP从零入门】预训练时代下，深度学习模型的文本分类算法（超多干货，小白友好，内附实践代码和文本分类常见中文数据集）
如今NLP可以说是预训练模型的时代,希望借此抛砖引玉,能多多交流探讨当前预训练模型在文本分类上的应用. 1. 任务介绍与实际应用文本分类任务是自然语言处理(NLP)中最常见.最基础的任务之一,顾名思 ...
NKCorpus：利用海量网络数据构建大型高质量中文数据集
摘要 [目的]大规模.高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架.[方法]利用语言提取.文本清洗.数据去重等 ...
百度发起机器阅读理解竞赛，提供中文数据集，获胜团队奖10万
允中发自 SSJQ 量子位报道 | 公众号 QbitAI 机器阅读理解(中文版)技术竞赛,现在可以报名了. 3月1日,由百度.中国中文信息学会(CIPS).中国计算机学会(CCF)联手举办的&q ...
基于BERT 的中文数据集下的命名实体识别(NER)
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程公众号:datayx 网上也有很多使用BERT的例子和教程,但是我觉得都不是很完整,有些缺乏注释对新手不太友好,有些 ...
【wiki维基百科中文数据集】抽取wiki数据集——实操
参考 [https://blog.csdn.net/wangyangzhizhou/article/details/78348949] [另外一篇参考处理wiki数据] [1][https://blo ...
Glove模型训练自己的中文数据集词向量详细步骤
首先,下载Glove项目资源: https://github.com/stanfordnlp/GloVe 注意1: 后续训练命令仅在服务器命令行界面有效,在本机命令行.anaconda prompt ...

中文数据集有奖公开征集

中文数据集有奖公开征集相关推荐

最新文章

热门文章