重磅来袭!EasyNLP正式成为CLUE榜单的官方工具!

1、导读

EasyNLP是一款简单、易用、高效的NLP开发工具,其完全基于Pytorch实现,提供了包括预训练语言模型(Pre-trained Language Model)、多模态模型(Multimodal Models)、知识增强模型(Knowledge-enhanced Models)等开源和自研模型,包含自行实现的数据仓库(DataHub),提供了包括Adam、AdamW、SGD等丰富的优化器,涵盖监督学习(Supervised Learning)、小样本学习(Few-shot Learning)以及迁移学习(Transfer Learning)等在内的场景。EasyNLP已经在多项学术研究和业务落地等方面上积累了丰富的成果。更多有关EasyNLP框架的介绍详见专栏:

EasyNLP玩转NLP - 知乎EasyNLP案例详解https://www.zhihu.com/column/c_1500207477181960192

CLUE是目前国内非常权威的中文自然语言理解评测基准之一,有大量国内外互联网公司、高校以及个人参与到刷榜行列中。截止目前,CLUE已涵盖包括文本分类(Text Classification)、文本匹配(Text Matching)、阅读理解(Machine Reading Comprehension)、多项选择(Multi-choice Question Answering)、信息抽取(Information Extraction)等多项常用任务,最近也增加了包括小样本(FewCLUE)、零样本(ZeroCLUE)、知识图谱(KgCLUE)等新的评测场景。不论是在打造行业影响力,还是在学术论文中验证方法的有效性,CLUE系列榜单深受NLP研究者和爱好者的青睐。

目前CLUE官网已经将EasyNLP的刷榜工具作为唯一的官方工具。可点击下方链接立即体验:

CLUE benchmarkhttp://www.cluebenchmarks.com/index.html


2、CLUE Benchmark

我们以CLUE的分类榜单为例,CLUE的分类榜主要包含AFQMC、CMNLI、CSL、IFLYTEK、OCNLI、TNEWS、和WSC任务。CLUE1.1收录了OCNLI任务,而CLUE1.0收录了CMNLI任务。这些任务的简要描述如下所示:

  • AFQMC(蚂蚁金融语义相似度):给定两个用户提问的短文本,判断两个文本是否相似;

  • CMNLI(中文自然语言推理):给定两个文本,判断它们是否存在蕴含关系;

  • CSL(中文科技文献数据分类):给定一个长文本以及若干关键词,判断这些关键词是否与给定文本有关;

  • IFLYTEK(长文本分类):1.7万多条关于app应用描述的长文本标注数据,一共有119个类别;

  • OCNLI(中文自然语言推理):给定两个文本,判断它们是否存在蕴含关系;

  • TNEWS(今日头条新闻分类):给定一个短文本,判断其所属的新闻类别,一共有15个新闻类;

  • WSC(词语消歧):给定一个短文本,以及两个词,其中一个是实体,另一个是代词,判断代词是否指代相应的实体;

各评测任务的数据分布情况如下所示:

评测任务

AFQMC

CMNLI

CSL

IFLYTEK

OCNLI

TNEWS

WSC

训练集

34,334

391,782

20,000

12,133

50,000

53,360

1,244

验证集

4,316

12,426

3,000

2,599

3,000

10,000

304

测试集

3,861

13,880

3,000

2,600

3,000

10,000

2,574

3、EasyNLP For CLUE

我们将CLUE相关的刷榜工具部署在EasyNLP中,点击立即体验:

GitHub-EasyNLPhttps://github.com/alibaba/EasyNLP/tree/master/benchmarks/clue

快速使用它只需要3步:

  • Download & Development:将项目文件下载到本地服务器后,按照README部署说明安装相关依赖包,并跳转至clue目录下:

cd benchmarks/clue
  • Training For CLUE:我们已经提供了训练脚本,只需要修改脚本中的相关路径和参数,即可实现训练。例如对CSL任务进行训练:

bash run_clue_adamw.sh 0 train csl

bash run_clue_bertadam.sh 0 train csl

其中“0”表示GPU的设备编号,如果使用多卡,则罗列出所有卡编号并用逗号隔开。“train“表示当前为训练阶段,“csl”表示评测任务,可自行更换为其他任务。

  • Generation Predictions:训练完后,只需要执行脚本即可直接生成测试集预测结果:

bash run_clue_adamw.sh 0 test csl

评测结果文件存储的默认路径为./tmp/predict/clue/csl/test_prediction.json。该结果文件即可直接提交至官网实现评测。

4、Experiments

我们使用默认的超参数,对几个分类任务进行了评测,在验证集上的评测结果如下所示:

(1) bert-base-chinese:

Task

AFQMC

CMNLI

CSL

IFLYTEK

OCNLI

TNEWS

WSC

P

72.17%

75.74%

81.9%

60.22%

78.31%

57.52%

75.33%

F1

52.96%

75.74%

82.68%

60.22%

78.30%

57.52%

80.82%

(2) macbert-base:

Task

AFQMC

CMNLI

CSL

IFLYTEK

OCNLI

TNEWS

WSC

P

74.23%

80.35%

81.70%

61.14%

80.65%

57.65%

80.26%

F1

55.77%

80.47%

82.43%

61.14%

80.65%

57.65%

84.54%

(3) chinese-roberta-wwm-ext:

Task

AFQMC

CMNLI

CSL

IFLYTEK

OCNLI

TNEWS

WSC

P

73.10%

80.65%

80.07%

60.98%

80.75%

57.93%

86.84%

F1

56.04%

80.59%

81.50%

60.98%

80.75%

57.93%

89.58%

接下来,EasyNLP将会继续集成包括阅读理解、多项选择等其他NLP评测任务,并扩展到FewCLUE、ZeroCLUE等榜单。敬请拭目以待!


本文首发

【EasyNLP】带你轻松玩转CLUE榜单 - 知乎重磅来袭!EasyNLP正式成为CLUE榜单的官方工具!1、导读EasyNLP是一款简单、易用、高效的NLP开发工具,其完全基于Pytorch实现,提供了包括预训练语言模型(Pre-trained Language Model)、多模态模型(Multimodal …https://zhuanlan.zhihu.com/p/518823721

参考文献

EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing

@article{DBLP:journals/corr/abs-2205-00258,author    = {Chengyu Wang andMinghui Qiu andTaolin Zhang andTingting Liu andLei Li andJianing Wang andMing Wang andJun Huang andWei Lin},title     = {EasyNLP: {A} Comprehensive and Easy-to-use Toolkit for Natural LanguageProcessing},journal   = {CoRR},volume    = {abs/2205.00258},year      = {2022},url       = {https://doi.org/10.48550/arXiv.2205.00258},doi       = {10.48550/arXiv.2205.00258},eprinttype = {arXiv},eprint    = {2205.00258},timestamp = {Tue, 03 May 2022 15:52:06 +0200},biburl    = {https://dblp.org/rec/journals/corr/abs-2205-00258.bib},bibsource = {dblp computer science bibliography, https://dblp.org}
}

相关文章:

  • Github地址:https://github.com/alibaba/EasyNLP

  • [EasyNLP解析]阿里灵杰:阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地

  • [EasyNLP技术] ACL工作之元知识蒸馏MetaKD

  • [EasyNLP技术] 电商多模态预训练FashionBERT

  • [EasyNLP技术] EasyNLP框架概览

【EasyNLP】带你轻松玩转CLUE榜单相关推荐

  1. 带你们轻松玩遍吃遍张家界

    来张家界的朋友一般都会去的景点是国家森林公园.天门山.玻璃桥.凤凰等等,玩遍这些景点至少需要4天-5天的时间.很多朋友虽然想一次性玩遍张家界的各大景点,但是由于时间.距离关系,只能选取几个最想去的地方 ...

  2. Kubernetes Pod篇:带你轻松玩转Pod

    本文将对Kubernetes如何发布与管理容器应用进行详细说明,主要包括Pod概述.基本用法.生命周期.Pod的控制和调度管理.Pod的升级和回滚,以及Pod的扩容机制等内容,并结合具体详细的示例,带 ...

  3. 登顶CLUE榜单,腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 2018年以来,以BERT.GPT等为代表的大规模预训练模型,带来了 ...

  4. 带你轻松玩转统计图~

    在做统计资料整理与分析时,我们经常会遇到做统计图.在数据量不大的时候,通常使用Excel或者其他普通图表,但是一遇到数据庞大的情况,就容易杂乱无章.那么使用什么工具能带你轻松玩转统计图呢?当然是Fin ...

  5. 无需TCL编程能力,STKO带你轻松玩转OpenSEES

    笔者:心尘轩/Angus 划重点:通过本文,你会了解OpenSEES(以下简称OS)基于tcl 和C++混合编程的实质,会洞悉一个有限元软件的三大主要部分,会明白现在OS的不足.并在对一个有限元软件宏 ...

  6. 最新最全的视觉Transformer教程!论文分析 + 逐行Coding,带你轻松玩转ViT

    Transformer自2017年被提出后,从横扫NLP领域的风光无二,到陷入一片对其在CV任务有效性的质疑声中,再到不久前在多项图像任务中显示出直逼CNN的优异性能 以及 ICCV2021 best ...

  7. TPYBoard开发板带你轻松玩转MicroPython

    2019独角兽企业重金招聘Python工程师标准>>> 说到MicroPython,也许有人会感到陌生.而说到和它密切相关的Python,是否会恍然大悟呢?Python属于解释型语言 ...

  8. 带你轻松玩转神奇Micro:bit开发板的Max:Bot机器人!

    MaxBot Max:Bot机器人是一款低门槛,功能丰富的移动平台,设计感的接口,可以完美的与micro:bit搭配使用.集成了机器人的基础功能,具有易组装.一体成型的全金属闪亮外壳. micro:b ...

  9. 剪裁tiff影像数据_能看更会用,超擎影像云平台带你轻松玩转海量影像!

    北斗系统.高分专项.无人机航拍--在行业数字化转型的今天,影像作为大数据的一种,以其大范围动态实时监测等特点备受青睐.越来越快的更新频率,爆炸式的数量增长,也带来了入库慢.处理时间长.系统整合不畅等难 ...

最新文章

  1. Python【每日一问】21
  2. 程序开发是编写sql语句的注意事项
  3. android alertdialog 背景透明,Android Alertdialog弹出框设置半透明背景
  4. python人工智能要学什么_为什么学人工智能首推Python 需要学习哪些知识
  5. java中判断字符串乱码_java中如何判断字符串是否乱码
  6. 分布式事务方案这么多,到底应该如何选型?
  7. java hashset char_java集合之HashSet
  8. 我用Python把抖音上的美女图片转字符画,期望的AI目标更进一步【机器学习算法实战小项目,k聚类算法图片转化字符画】
  9. 方法、hadoop源码之JobQueueTaskScheduler-by小雨
  10. 雅酷帮微信公众平台操作手册
  11. java开发16g内存够吗_Java 内存模型 ,一篇就够了!
  12. JAVA测试人员考核_自动化测试的绩效考核
  13. python游戏寻路_python模拟实现A*寻路算法
  14. 面试通过了,也给了Offer,不去有什么后果?
  15. linux 建树软件,新一代建树工具IQ-Tree介绍
  16. Comparable
  17. 《狂飙》壁纸大嫂如此惊艳,做成日历壁纸天天看(7)
  18. 佛山市妇幼保健院 CIO 马丽明:以超融合加速智慧妇幼信息化建设
  19. 大数据夯实基础_2019_1_7
  20. mysql索引入门-黑马

热门文章

  1. QT 多线程的实现方法以及GUI线程与其他线程间的通信
  2. activity中onResume()的用处
  3. 通过STDIN_FILENO向后台运行的程序传递数据
  4. Go中strings的常用方法详解
  5. 数据库字段非空(null的缺点)
  6. 谷歌员工担心自家 AI 敌不过 ChatGPT,高管回应:其过快发展可能损害公司
  7. 校队训练 | 数论专题
  8. 淘宝产品详情页布局怎么做?大神导航,一个神奇的网站,从此开启大神之路!
  9. 在线浏览PDF:Grapecity Documents for PDF Viewer 6.0.2
  10. 绝地求生体验服显示服务器以满,绝地求生:体验服新增8排,信号枪可以在这里找到!...