各位自然语言处理界的同仁:

我们是中文任务基准测评小组,即Chinese Language Understanding Evaluation(CLUE)的成员。我们收集、制作了一套中文自然语言理解评测平台:CLUE Benchmark。

CLUE Benchmark旨在综合形式不同、难度各异的中文自然语言理解数据集,制作一个统一的测试平台,以准确评价模型的自然语言理解能力。目前我们已经收集了至少9大数据集,并制作了排行榜。包括华为、阿里、腾讯等公司,以及中科院相关院所等高校参与了测评。我们的GitHub repository已获得超过1000个星。

我们的网站:

https://www.CLUEbenchmarks.com

论文的arxiv地址:

https://arxiv.org/abs/2004.05986

Github地址:

https://github.com/CLUEbenchmark

现在,我们诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者为我们提供更多的中文自然语言理解数据集。这些数据集可以是您自己制作推出的,也可以是您认为很有意义但是是他人制作的数据集。我们计划在5月14日前完成筛选,推出正式的CLUE Benchmark。请您将推荐数据集的名称、作者、形式以及License情况发送至 CLUE@CLUEBenchmarks.com

【奖励】如果您推荐的数据集被选中,将能提高扩展数据集的知名度,并为学界、业界对自然语言理解的研究做出贡献。CLUE组织会引用和推广该数据集;我们也会结合数据集质量、意义、量级和标注难度、任务类型设置不同等级的奖励,给与1000--5000元现金奖励。

您推荐的数据集需要满足以下【要求】:

1、【任务与自然语言理解相关】

我们要求数据集能够测试模型是否理解了中文,模型可以是以研究为导向,也可以由实际应用为导向,重点是需要包含语言理解的成分。任务本身质量还不错。

2、【任务形式】

任务输入是一段文本(可长可短),具体任务可以是分类、序列标注、指代消歧、多项选择、回归任务,等等。任务最好能够使用基本的神经网络模型做出基线,方便测评。

3、【能够测评】

提交的任务需要有简单、客观的评测标准。如果是包含文本生成的项目,那么需要证明该项目有易行的可靠评测标准。

4、【公开的训练数据】

任务的训练数据和开发数据需要公开,并且能够由CLUE使用。

5、【未公开的测试集】

任务最好有尚未公开的测试集。

6、【任务难度】

提交的任务不能太简单。具体来讲,目前的模型如BERT应该比训练过的普通标注者做的差很多。

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

中文数据集有奖公开征集相关推荐

  1. ACL 2021|CHASE: 首个跨领域多轮Text2SQL中文数据集

    ©PaperWeekly 原创 · 作者 | 徐叶琛 单位 | 字节跳动 研究方向 | NLP语义理解.问答系统 自然语言处理语义解析子任务 Text2SQL 旨在将用户的自然语言转换为 SQL 序列 ...

  2. HiAGM模型源码测试【原始数据集+中文数据集】

    论文链接:Hierarchy-Aware Global Model for Hierarchical Text Classification github代码链接:HiAGM HiAGM模型源码测试 ...

  3. AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI2022年度论文公布。

    AI周报丨中国信息通信研究院发布<AI框架发展白皮书>:华为开源首个NLP中文数据集-悟空:AAAI2022最佳论文公布. 2022年2月22日 极链AI云 官网地址 点击注册 更多AI内 ...

  4. 【NLP从零入门】预训练时代下,深度学习模型的文本分类算法(超多干货,小白友好,内附实践代码和文本分类常见中文数据集)

    如今NLP可以说是预训练模型的时代,希望借此抛砖引玉,能多多交流探讨当前预训练模型在文本分类上的应用. 1. 任务介绍与实际应用 文本分类任务是自然语言处理(NLP)中最常见.最基础的任务之一,顾名思 ...

  5. NKCorpus:利用海量网络数据构建大型高质量中文数据集

    摘要 [目的]大规模.高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架.[方法]利用语言提取.文本清洗.数据去重等 ...

  6. 百度发起机器阅读理解竞赛,提供中文数据集,获胜团队奖10万

    允中 发自 SSJQ  量子位 报道 | 公众号 QbitAI 机器阅读理解(中文版)技术竞赛,现在可以报名了. 3月1日,由百度.中国中文信息学会(CIPS).中国计算机学会(CCF)联手举办的&q ...

  7. 基于BERT 的中文数据集下的命名实体识别(NER)

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 网上也有很多使用BERT的例子和教程,但是我觉得都不是很完整,有些缺乏注释对新手不太友好,有些 ...

  8. 【wiki维基百科中文数据集】抽取wiki数据集——实操

    参考 [https://blog.csdn.net/wangyangzhizhou/article/details/78348949] [另外一篇参考处理wiki数据] [1][https://blo ...

  9. Glove模型训练自己的中文数据集词向量详细步骤

    首先,下载Glove项目资源: https://github.com/stanfordnlp/GloVe  注意1: 后续训练命令仅在服务器命令行界面有效,在本机命令行.anaconda prompt ...

最新文章

  1. 涉密计算机格式化维修,涉密计算机中的涉密信息被删除或格式化后,不可复原,可以连接互联网 - 作业在线问答...
  2. 爬楼梯[LeetCode]
  3. Jmeter启动错误及解决方案
  4. visibility和display隐藏元素的区别
  5. for循环延时_RocketMQ进阶-延时消息
  6. reg类型变量综合电路_2014年PLD习题集(含参考答案)数字系统设计
  7. FarPoint Spread For .Net 4.0
  8. Android RecyclerView之SnapHelper原理解析(一)
  9. 【NOIP2017提高A组集训10.25】凤凰院凶真(dp)
  10. guid主分区表损坏如何处理_恢复guid分区表【免费找回技巧与步骤】
  11. 解决 您的安全设置不允许将此应用程序安装到您的计算机上的问题
  12. Hrbust 1162 魔女 【dp】
  13. 30_ElasticSearch IK分词器配置文件 以及自定义词库
  14. java获取指定周的第一天和最后一天(周统计报表)
  15. 4.第K个数(快速选择排序)
  16. WeChatPlugin Mac版安装
  17. 活动星投票国潮大秀东方网络评选投票怎么做的免费微信投票活动
  18. 内网渗透——WINDOWS认证机制之KERBEROS
  19. 阿泽CSS踩坑系列(二)-解决安卓端手机横屏后图片比例失调,需要刷新才能恢复正常的问题。(华为手机浏览器)
  20. 支付接口申请_谈一下关于个人网站实现免签支付接口自动收款

热门文章

  1. linux关于界面的API,linux系统基础知识(ABI和API)
  2. $.extend 的相关用法
  3. js中“||”和“”的高级用法 js,与或运算符 || 妙用
  4. uva 11991 (map vector 嵌套)
  5. Linux Shell编程(5)——shell特殊字符(下)
  6. 壊小子的学习【日常阅读篇】(四)与阅读有关的那些事儿
  7. 关于每年一次的社会保险缴费基数核定说明
  8. android r文件错误,Android R文件丢失异常原因汇总
  9. 为什么数组排序大写字母在前小写字母在后
  10. Maven_1.了解Maven以及其安装配置