你的中文大模型真的行吗？来用智源指数测测看

来源：PaperWeekly
本文约2300字，建议阅读9分钟本文介绍了最新发布的中文自然语言评估指数—智源指数。

作为深度学习研究的重要组成部分，评测 benchmark 扮演着评估模型性能、指导研究方向的重要角色。在自然语言处理中，针对英文任务的评测 benchmark 有 GLUE，SuperGLUE，针对中文任务的有 CLUE，这些都为自然语言处理的迅速发展奠定了基础，但随着预训练模型，尤其是大模型的不断涌现，这些评测benchmark的指引作用越来越小，在很多榜单上模型的性能已超越所谓的“人类水平”，但模型的语言理解与应用能力相比人类的认知水平仍有较大差距。那么，如何来准确标定这种差距，并在未来的发展中继续发挥评测 benchmark 的指导作用，成为了一个亟需解决的核心问题。

为解决这一问题，智源研究院发布了中文自然语言评估指数—智源指数 CUGE（Chinese language Understanding and Generation Evaluation），这是一个多层次、多维度、全面系统的中文评测体系。和现有的评测 benchmark 相比，CUGE 在任务（数据）选择，评估标准，评测方式三大方面进行了改进，实现了更加科学、规范、高质量的模型效果评估。

01 任务（数据）选择

现有的评测 benchmark 大多是数据驱动的，通过选择常用的数据集构成评测数据集集合，而且更多关注于语言理解及表示能力，对其他语言能力（例如生成，数学推理，多语言等）并没有给予太多的关注，而且 benchmark 中的数据集组成非常松散，对模型的语言能力评估比较粗糙。与之相对的，如上图所示，CUGE 通过能力-任务-数据这样自顶向下的层次化结构选择更具代表性的任务以及数据集，从而实现模型语言能力更全面的评估。

具体而言，CUGE 借助中国高考评价体系中的评估标准和自然语言处理研究现状，筛选出评估模型的7种重要语言能力，然后针对这些语言能力，选择了 17 个主流的评估任务以及对应的 19 个代表性数据集作为最终的评测 benchmark 组成，具体可以总结为如下形式：

词句级语言理解能力：中文分词、词性标注、古诗匹配、命名实体识别、实体关系抽取；
篇章级语言理解能力：幽默检测、故事完形填空、阅读理解；
信息获取及问答能力：反向词典、开放域问答、文档检索；
语言生成能力：摘要生成、数据到文本生成；
对话交互能力：知识驱动的对话生成；
多语言能力：机器翻译、跨语言摘要；
数学推理能力：数值计算。

整体数据集组成如下图所示：

02 评估标准

现有的 benchmark 基本上都是选择比较单一的评估标准（准确率，F1 等），针对模型在所有的数据集上性能取平均作为模型的最终评估效果。而 CUGE 有两方面的改进：

1. 单数据集评估：CUGE 不再是直接使用模型的性能作为评估结果，而是为所有的评估模型选择一个基线模型（mT5-Small），利用该基线模型在数据集上的效果，对需要评估模型的结果进行归一化，从而使得实验结果更合理，同时在不同的数据集之间更具可比性。

2. 多层次的评估标准：借助 “能力-任务-数据”层次化结构，CUGE 能够实现模型的多维度评估，防止对某个评估标准进行“刷榜”，从而能够更好的指导针对模型语言能力的研究。具体可分为三个层次：

任务级别性能评估：对指定任务下的数据集模型结果做归一化平均；
能力指标性能评估：对指定能力，不同任务下的模型结果进行平均；
全局指标性能评估：对所有能力下的模型结果进行平均。

03 评测方式

CUGE 的评测方式更加方便、直观和人性化。具体表现在：

1. 支持根据具体需求定制对应的评测能力、任务和数据集，通过勾选，实现显示所关心能力和任务的评测。

2. 提供丰富的数据样例使用教程，让用户更容易上手使用。

3. 提供更加直观的模型效果展示图，利用雷达图呈现模型在7种重要语言能力的性能分布以及提升效果，可辅助研究者进行针对性地分析和改进。相关展示如下图所示：

4. 确保数据集的更新和动态维护，CUGE 会不断吸收新的数据和任务，保证 CUGE 对机器语言能力研究的持续指导作用。

04 总结

当前自然语言处理领域的评测 benchmark 非常多，被大模型们反复“刷榜”。最近谷歌的一个工作指出，现有的 benchmark 并不能做到对模型的公平性评测，反映出评测本身是一个开放性的难题。而智源指数的提出，是希望通过持续不断地改进和更新 benchmark，让更多的研究工作回归提升机器语言能力本身上，准确鉴别出真正的好技术。同时，基于每年的评测情况，来向大家展示机器语言能力的发展现状，共同推进自然语言处理领域的发展。

参考资料

[1] CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark. https://arxiv.org/pdf/2112.13610.pdf

[2] 智源指数: http://cuge.baai.ac.cn/#/

[3] GLUE: https://gluebenchmark.com/

[4] SuperGLUE: https://super.gluebenchmark.com/

[5] CLUE: https://chineseglue.github.io/index.html

[6] AI and the Everything in the Whole Wide World Benchmark

编辑：王菁

校对：林亦霖

你的中文大模型真的行吗？来用智源指数测测看相关推荐

软银计划大幅减持阿里巴巴；美国将12家中国芯片贸易商纳入“实体清单”；知乎发布中文大模型“知海图AI”丨每日大事件...
‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业企业动态百度Apollo将在上海车展发布智能汽车开放方案 4月13日,据科创板日报报道,百度Apollo将现身即将开幕的上海车展,并于4月 ...
《预训练周刊》第8期：首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...
No.08 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...
透视鹏程.盘古：首个2000亿参数中文大模型是怎样炼成的？
2021-05-19 10:21:00 机器之心原创机器之心编辑部给足算力和数据,就能训练出千亿参数的大模型?事实没有那么简单. 「70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最 ...
开源中文医疗大模型华佗GPT来了，真人医生盲测效果优于ChatGPT
©作者 | 机器之心编辑部来源 | 机器之心香港中文大学(深圳)和深圳市大数据研究院所在的王本友教授团队训练并开源了一个新的医疗大模型 --HuatuoGPT(华佗GPT),以使语言模型具备像医生 ...
深度学习大模型训练--分布式 deepspeed PipeLine Parallelism 源码解析
deepspeed PipeLine Parallelism 源码解析 basic concept PipeDream abstract 1F1B 4 steps Code comprehension ...
考那么多试，拿那么高分，大模型们真的懂语言了吗？
选自quantamagazine 作者:Melanie Mitchell 机器之心编译编辑:小舟.张倩关于 GPT-3 等大规模语言模型能否理解人类语言,人们一直存在分歧. 十年前,IBM 的 W ...
【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca
昨天在github上看到一个在本地部署中文大模型的项目,和大家分享一下.先把地址po出来. 项目名称:中文LLaMA&Alpaca大语言模型+本地部署 (Chinese LLaMA & ...
GPT-4充当评测老师效果惊艳！港中文深圳开源凤凰、Chimera等大模型
©作者 | 钟格非单位 | 港中文深圳本科生来源 | 机器之心港中文(深圳)"凤凰 "多语言大模型,中文效果逼近文心一言,多种语言开源 SOTA:英文版"Chime ...
大模型的1000+篇文章总结
大模型的1000+篇文章总结本文收集和总结了有关大模型的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关AI的 ...

你的中文大模型真的行吗？来用智源指数测测看

你的中文大模型真的行吗？来用智源指数测测看相关推荐

最新文章

热门文章