点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

背景

 预训练语言模型,通过海量文本语料上语言模型的预训练,极大提升了NLP领域上多种任务上的表现。结合成数千或上万的标注样本,在下游任务上做微调,可以取得较好的效果;相对于机器需要大量样本,人类却可以在极少数量的样本上进行学习。

小样本学习(Few-shot Learning)正是解决这类在极少数据情况下的机器学习问题。结合预训练语言模型通用和强大的泛化能力基础上,探索小样本学习最佳模型和中文上的实践,是本课题的目标。

项目地址:

https://github.com/CLUEbenchmark/FewCLUE

概览

1. 任务描述和统计

2. 实验对比

3. 实验结果分析

4. FewCLUE 有什么特点?

5. 基线模型及一键运行代码

6. NLPCC2021-小样本测评

7. 任务介绍 

8. 任务的文件结构 

9. 贡献力量与参与 

任务描述和统计

EPRSTMT:电商评论情感分析;CSLDCP:科学文献学科分类;TNEWS:新闻分类;IFLYTEK:APP应用描述主题分类OCNLI: 自然语言推理;BUSTM: 对话短文本匹配;CHID:成语阅读理解;CSL:摘要判断关键词判别;
CLUEWSC: 代词消歧。EPRSTMT,CSLDCP,BUSTM 为新任务;
其他任务(TNEWS,CHID,IFLYTEK,OCNLI,CSL,CLUEWSC)来自于CLUE benchmark,部分数据集做了新的标注。

实验对比

实验设置:

训练集和验证集使用32个样本,或采样16个,测试集正常规模。基础模型使用RoBERT12层chinese_roberta_wwm_ext(GPT系列除外)。

说明:PtuningB: Ptuning_RoBERTa; PtuningGPT: Ptuning_GPT; 报告的数字是每一个任务的公开测试集(test_public.json)上的实验效果;
Zero-shot: 零样本学习。前4个任务采用GPT模型,后5个任务采用chinese_roberta_wwm_ext为基础模型。N”,代表已更新;五一后待榜单可以提交后,将报告在测试集(test.json)上的效果;由于CHID还在继续实验中,暂时未将CHID的分数纳入到最终的分数(Score)中。

实验结果分析

人类水平

我们采取如下方式测评人类水平。按照训练,然后测评的方式。首先,人类会在训练集上学习30个样本,然后我们鼓励人类标注员进行讨论和分享经验;然后,每一个人人类标注员在验证集上标注100个样本;最后,由多个人的投票得出最终预测的答案。从实验结果可以看到,人类有高达82.49分的成绩。人类在多个任务中可以取得超过80分以上的分数。在较难的指代消解任务中,人类甚至达到了高达98的分数;而在类别特别多的任务,如iflytek(119个类别),csldcp(67个类别),人类仅取得了60多分的及格成绩。

测评结果

模型表现分析

模型有5种不同的方式做任务,分别是使用预训练模型直接做下游任务微调、PET、RoBERTa为基础的Ptuning方式、GPT类模型为基础的Ptuning方式、
使用RoBERTa或GPT做零样本学习。我们发现:
1)模型潜力:最好的模型表现(54.34分)远低于人类的表现(82.49分),即比人类低了近30分。说明针对小样本场景,模型还有很大的潜力;2)新的学习范式:在小样本场景,新的学习方式(PET,Ptuning)的效果以较为明显的差距超过了直接调优的效果。如在通用的基础模型(RoBERTa)下,PET方式的学习比直接下游任务微调高了近8个点。3)零样本学习能力:在没有任何数据训练的情况下,零样本学习在有些任务上取得了较好的效果。如在119个类别的分类任务中,模型在没有训练的情况下
取得了27.7的分数,与直接下游任务微调仅相差2分,而随机猜测的话仅会获得1%左右的准确率。这种想象在在67个类别的分类任务csldcp中也有表现。

任务分析

我们发现,在小样本学习场景:
不同任务对于人类和模型的难易程度相差较大。如wsc指代消解任务,对于人类非常容易(98分),但对于模型却非常困难(50分左右),只是随机猜测水平;而有些任务对于人类比较困难,但对于模型却不一定那么难。如csldcp有67个类别,人类只取得了及格的水平,但我们的基线模型PET在初步的实验中
就取得了56.9的成绩。我们可以预见,模型还有不少进步能力。

FewCLUE 有什么特点?

(1)任务类型多样、具有广泛代表性。包含多个不同类型的任务,包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。

(2)研究性与应用性结合。在任务构建、数据采样阶段,即考虑到了学术研究的需要,也兼顾到实际业务场景对小样本学习的迫切需求。如针对小样本学习中不实验结果的不稳定问题,采样生成了多份训练和验证集;考虑到实际业务场景类别,我们采用了多个有众多类别的任务,并在部分任务中存在类别不均衡的问题。

(3)时代感强。测评的主要目标是考察小样本学习,我们也同时测评了模型的零样本学习、半监督学习的能力。不仅能考察BERT类擅长语言理解的模型, 也可以同时查考了近年来发展迅速的GPT-3类模型在零样本学习、小样本学习上的能力;

此外,我们提供小样本测评完善的基础设施。从任务设定,广泛的数据集,多个有代表性的基线模型及效果对比,一键运行脚本,小样本学习教程,到测评系统、学术论文等完整的基础设施。

基线模型及一键运行

目前支持5种形式的学习:直接fine-tuning、PET、Ptuning、GPT、零样本学习。直接fine-tuning:一键运行.基线模型与代码1、克隆项目 git clone https://github.com/CLUEbenchmark/FewCLUEDatasets.git2、进入到相应的目录分类任务  例如:cd FewCLUEDatasets/baseline/models_tf/fine_tuning/bert/3、运行对应任务的脚本(GPU方式): 会自动下载模型并开始运行。bash run_classifier_multi_dataset.sh计算8个任务cecmmnt tnews iflytek ocnli csl cluewsc bustm csldcp,每个任务6个训练集的训练模型结果结果包括验证集和测试集的准确率,以及无标签测试集的生成提交文件     PET/Ptuning/GPT:环境准备:预先安装Python 3.x(或2.7), Tesorflow 1.14+, Keras 2.3.1, bert4keras。需要预先下载预训练模型:chinese_roberta_wwm_ext,并放入到pretrained_models目录下 运行:1、进入到相应的目录,运行相应的代码。以ptuning为例:cd ./baselines/models_keras/ptuning2、运行代码python3 ptuning_iflytek.py

NLPCC2021-小模型测评

测评报名与提交入口: 

https://www.CLUEbenchmarks.com/NLPCC.html

报名已经开始,截止5月30日。

NLPCC2021官方链接: 

http://tcci.ccf.org.cn/conference/2021/cfpt.php

比赛证书:测评前三名队伍会获得NLPCC和CCF中国信息技术技术委员会认证的证书;优胜队伍有机会提交测评任务论文(Task Report),并投稿到NLPCC会议(CCF推荐会议);

现金奖励:第一、二、三名分别奖励1万、5千、两千五(实在智能提供)

任务介绍

分类任务 Single Sentence Tasks

1. EPRSTMT(EPR-sentiment) 电商产品评论情感分析数据集 E-commerce Product Review Dataset for Sentiment Analysis
数据量:训练集(32),验证集(32),公开测试集(610),测试集(753),无标签语料(19565)例子:
{"id": 23, "sentence": "外包装上有点磨损,试听后感觉不错", "label": "Positive"}
每一条数据有三个属性,从前往后分别是 id,sentence,label。其中label标签,Positive 表示正向,Negative 表示负向。
2. CSLDCP 中文科学文献学科分类数据集
中文科学文献学科分类数据集,包括67个类别的文献类别,类别来自于分别归属于13个大类,范围从社会科学到自然科学,文本为文献的中文摘要。
数据量:训练集(536),验证集(536),公开测试集(1784),测试集(2999),无标签语料(67)例子:
{"id": 23, "sentence": "外包装上有点磨损,试听后感觉不错", "label": "Positive"}
每一条数据有三个属性,从前往后分别是 id,sentence,label。其中label标签,Positive 表示正向,Negative 表示负向。
3.TNEWS 今日头条中文新闻(短文本)分类数据集 Toutiao Short Text Classificaiton for News

该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游、教育、金融、军事等。例子: {"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}  每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。

4.IFLYTEK 长文本分类数据集 Long Text classification
该数据集关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别:
"打车":0,"地图导航":1,"免费WIFI":2,"租车":3,….,"女性":115,"经营":116,"收款":117,"其他":118(分别用0-118表示)。例子:
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}。每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。

Sentence Pair Tasks

5.OCNLI 中文原版自然语言推理数据集 Original Chinese Natural Language Inference
OCNLI,即原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
数据量:训练集(32),验证集(32),公开测试集(2520),测试集(3000),无标签语料(20000)例子:
{
"level":"medium",
"sentence1":"身上裹一件工厂发的棉大衣,手插在袖筒里",
"sentence2":"身上至少一件衣服",
"label":"entailment","label0":"entailment","label1":"entailment","label2":"entailment","label3":"entailment","label4":"entailment",
"genre":"lit","prem_id":"lit_635","id":0
}
6.BUSTM 小布助手对话短文本匹配数据集 XiaoBu Dialogue Short Text Matching
对话短文本语义匹配数据集,源于小布助手。它是OPPO为品牌手机和IoT设备自研的语音助手,为用户提供便捷对话式服务。
意图识别是对话系统中的一个核心任务,而对话短文本语义匹配是意图识别的主流算法方案之一。要求根据短文本query-pair,预测它们是否属于同一语义。数据量:训练集(32),验证集(32),公开测试集(1772),测试集(2000),无标签语料(4251)例子:
{"id": 5, "sentence1": "女孩子到底是不是你", "sentence2": "你不是女孩子吗", "label": "1"}
{"id": 18, "sentence1": "小影,你说话慢了", "sentence2": "那你说慢一点", "label": "0"}

Reading Comprehension Tasks

7.ChID 成语阅读理解填空 Chinese IDiom Dataset for Cloze Test
以成语完形填空形式实现,文中多处成语被mask,候选项中包含了近义的成语。https://arxiv.org/abs/1906.01265
数据量:训练集(42),验证集(42),公开测试集(2002),测试集(2000),无标签语料(7585)例子:
{"id": 1421, "candidates": ["巧言令色", "措手不及", "风流人物", "八仙过海", "平铺直叙", "草木皆兵", "言行一致"],
"content": "当广州憾负北控,郭士强黯然退场那一刻,CBA季后赛悬念仿佛一下就消失了,可万万没想到,就在时隔1天后,北控外援约瑟夫-杨因个人裁决案(拖欠上一家经纪公司的费用),
导致被禁赛,打了马布里一个#idiom#,加上郭士强带领广州神奇逆转天津,让...", "answer": 1}
8.CSL 论文关键词识别 Keyword Recognition
中文科技文献数据集(CSL)取自中文论文摘要及其关键词,论文选自部分中文社会科学和自然科学核心期刊,任务目标是根据摘要判断关键词是否全部为真实关键词(真实为1,伪造为0)。
数据量:训练集(32),验证集(32),公开测试集(2828),测试集(3000),无标签语料(19841)例子:
{"id": 1, "abst": "为解决传统均匀FFT波束形成算法引起的3维声呐成像分辨率降低的问题,该文提出分区域FFT波束形成算法.远场条件下,
以保证成像分辨率为约束条件,以划分数量最少为目标,采用遗传算法作为优化手段将成像区域划分为多个区域...采用分区域FFT波束形成算法的成像分辨率较传统均匀FFT波束形成算法有显著提高,且满足实时性要求.","keyword": ["水声学", "FFT", "波束形成", "3维成像声呐"], "label": "1"}每一条数据有四个属性,从前往后分别是 数据ID,论文摘要,关键词,真假标签。
9.CLUEWSC WSC Winograd模式挑战中文版
Winograd Scheme Challenge(WSC)是一类代词消歧的任务,即判断句子中的代词指代的是哪个名词。题目以真假判别的方式出现,如:
句子:这时候放在[床]上[枕头]旁边的[手机]响了,我感到奇怪,因为欠费已被停机两个月,现在[它]突然响了。需要判断“它”指代的是“床”、“枕头”,还是“手机”?
从中国现当代作家文学作品中抽取,再经语言专家人工挑选、标注。数据量:训练集(32),验证集(32),公开测试集(976),测试集(290),无标签语料(0)例子:{"target": {"span2_index": 37, "span1_index": 5, "span1_text": "床", "span2_text": "它"}, "idx": 261, "label": "false", "text": "这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。"}"true"表示代词确实是指代span1_text中的名词的,"false"代表不是。

任务的文件结构

每个任务包括:
5份训练集,对应5份验证集,1份公开测试集,1份用于提交测试集,1份无标签样本,1份合并后的训练和验证集单个数据集目录结构:train_0.json:训练集0train_1.json:训练集1train_2.json:训练集2train_3.json:训练集3train_4.json:训练集4train_few_all.json:合并后的训练集,即训练集0-4合并去重后的结果dev_0.json:验证集0,与训练集0对应dev_0.json:验证集1,与训练集1对应dev_0.json:验证集2,与训练集2对应dev_0.json:验证集3,与训练集3对应dev_0.json:验证集4,与训练集4对应dev_few_all.json:合并后的验证集,即验证集0-4合并去重后的结果test_public.json:公开测试集,用于测试,带标签test.json: 测试集,用于提交,不能带标签unlabeled.json: 无标签的大量样本

问题 Question

1. 问:测试系统,什么时候开发?答:测评系统在5月1节后才会开放。

贡献与参与

1.问:我有符合代码规范的模型代码,经过测试,可以贡献到这个项目吗?答:可以的。你可以提交一个pull request,并写上说明。2.问:我正在研究小样本学习,具有较强的模型研究能力,怎么参与到此项目?答:发送邮件到 CLUEbenchmark@163.com,标题为:参与FewCLUE课题,并介绍一下你的研究。

引用 Reference

1、GPT3: Language Models are Few-Shot Learners

2、PET: It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners

3、必须要GPT3吗?不,BERT的MLM模型也能小样本学习

4、LM_BFF: Making Pre-trained Language Models Better Few-shot Learners

5、GPT-3的最强落地方式?陈丹琦提出小样本微调框架LM-BFF,比普通微调提升11%

6、论文:GPT Understands, Too

7、文章:P-tuning:自动构建模版,释放语言模型潜能

点个在看 paper不断!

FewCLUE: 为中文NLP定制的小样本学习测评基准相关推荐

  1. 【论文泛读169】少数线索:中文的小样本学习评估基准

    贴一下汇总贴:论文阅读记录 论文链接:<FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark> 一.摘要 预训练语言模型 (P ...

  2. 阿里云力夺FewCLUE榜首!知识融入预训练+小样本学习的实战解析

    简介: 7月8日,中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果,阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队,在大模型和无参数限制模型双赛道总成绩第一名,决赛答辩总 ...

  3. PaddleNLP新增AutoPrompt自动化提示功能,登顶FewCLUE小样本学习榜单

    近年来,预训练语言模型已逐渐成为NLP任务的主流解决方案.但是在业务场景中,往往会遇到标注数据不足的问题,如何利用少量样本将模型快速迭代至可用状态成为了必要的研究方向. 近期,PaddleNLP团队开 ...

  4. 模型精度再被提升,统一跨任务小样本学习算法 UPT 给出解法!

    近日,阿里云机器学习平台PAI与华东师范大学高明教授团队.达摩院机器智能技术NLP团队合作在自然语言处理顶级会议EMNLP2022上发表统一多NLP任务的预训练增强小样本学习算法UPT(Unified ...

  5. 中文巨量模型“源1.0”的小样本学习优化方法

    浪潮发布了中文巨量模型"源1.0",参数量达2457亿,超越美国OpenAI组织研发的GPT-3."源1.0"在语言智能方面表现优异,获得中文语言理解评测基准C ...

  6. ChineseGLUE:为中文NLP模型定制的自然语言理解基准

    机器之心整理 参与:张倩.郑丽慧 GLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低.然而,现有的 GLUE 基准针对的是英文任务,无法评价 NLP ...

  7. 阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地

    作者:临在.岑鸣.熊兮 一 导读 随着 BERT.Megatron.GPT-3 等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万 ...

  8. 业务数据全用上也喂不饱AI?试试这个小样本学习工具包

    项目作者 | 王雅晴 量子位 编辑 | 公众号 QbitAI 引言 机器学习在数据密集型的应用中取得了极佳的效果,但在数据集很小的场景下,多数机器学习算法的效果会严重受限[1].在计算机视觉.自然语言 ...

  9. 样本量很少如何获得最佳的效果?最新小样本学习工具包来啦!

    关注公众号,发现CV技术之美 开发者简介 王雅晴,PaddleFSL负责人.飞桨高级开发者技术专家(高级PPDE).2019年毕业于香港科技大学计算机科学及工程学系.通过百度公司AIDU计划加入百度研 ...

最新文章

  1. ida pro学习笔记2022.3.19
  2. C语言指针表示二维数组的方法!_只愿与一人十指紧扣_新浪博客
  3. Linux(ubuntu)下安装anaconda(64位)并配置jupyter notebook远程访问
  4. error LNK2019: 无法解析的外部符号 __imp__inet_ntoa@4
  5. 初步认识Linux oops 消息
  6. 从学习 Paddle 开始学习深度学习
  7. oracle创建登录用户有限制吗,Oracle创建用户限制文件,表空间用户授权等。
  8. Informatica通过人工智能重新定义数据管理助力数据驱动型数字化转型
  9. Windows 修改注册表实现键位修改
  10. jeDate 日期控件
  11. 解决shardingsphere 4.1.1 SQLFeatureNotSupportedException: isValid sharding-jdbc
  12. 2015最好用的PHP开源建站系统
  13. Linux-ubuntu系统查看显卡型号、显卡信息详解、显卡天梯图
  14. 项目财务分析中的陷阱(3)(转)
  15. (二)对导入的Excel某列进行合并、求和,删除重复行
  16. VsCode插件整理
  17. backpackII
  18. 解锁网易云音乐小工具_什么?网易云音乐又变灰了
  19. c# 从一组数中随机抽取一定个数_C#随机一组不重复的数字
  20. 在手机端浏览pdf文件,遇到的问题整理

热门文章

  1. 基于STM32F030、MAX30102血氧心率监测仪的设计(四)
  2. 钣金行业中,如何建设MES系统?
  3. 100种思维模型之黑板去沙思维模型-42
  4. (dp)CF102302E.Chi's performance
  5. Hbase中的Column Family
  6. 外企一道 SQL 面试题,刷掉 494 名候选人
  7. 高中计算机学校名字,姓名性别就读中学省份报考院校名称自主招生类型专业.PDF...
  8. 2022年施工升降机司机(建筑特殊工种)考试试题及在线模拟考试
  9. h265、h264的RTP包封装区别
  10. JZOJ 3913. 艰难的选择