摘要

大型语言模型（LLM）的前所未有的表现有必要改善评估系统。我们认为，细致和全面的设计benchmark对于彻底，公正和可用的评估至关重要，而不是仅仅探索LLM能力的广度。考虑到世界知识对LLM的重要性，我们构建了一个Knowledge-oriented LLM Assessment benchmark (KoLA)，在该基准中，我们仔细设计了三个关键因素：（1）对于ability modeling，我们模仿人类认知以形成一个与知识有关的能力的四级分类，涵盖了19个任务。（2）对于data，为了确保公平的比较，我们使用Wikipedia（这是一个普遍被LLM训练的预训练语料库）以及持续收集的新语料库，后者旨在评估处理未知数据和新增知识的能力。（3）对于evaluation criteria，我们采用了一个对比度系统，包括整体标准分数，以更好地在多任务和模型间保证数值可比性，以及包含一个独特的自我对比指标，以自动评估知识幻觉。我们评估了21个开源和商业LLM，并获得一些有趣的发现。KOLA数据集和开放排行榜将在https://kola.xlore.cn上公开发布，并将不断更新，以为开发LLM和知识相关的系统提供参考。

1.介绍

　　最近，像GPT-4这样的大型语言模型（LLM）取得的显着突破引起了广泛的关注。考虑到LLM表现出广泛而深刻的自然语言理解和生成能力，仅关注相对狭窄和浅层能力的常规基准不再有助于测试它们。因而有必要构建更好的基准，以有效地比较LLM并提供有价值的诊断结果。为此，研究人员提出了各种基准，重点是扩展评估范围以涵盖更广泛的能力或更具挑战性的任务。
　　除了扩大评估范围以探索LLM能力的广度外，我们认为精心设计一个能建立深入理解LLM能力的评估基准，对不同LLM的公正性的评估也是必要的。设计基准需要仔细考虑三个关键因素：（1）Ability Modeling。基准不仅应定义所需能力的范围，而且还应建模评估能力之间的内部连接，从而可以就如何获取和提高这些能力进行诊断。（2）Data。考虑到LLM的训练数据极为广泛，其中可能包括某些任务的标注数据，并且有些LLM的数据未公开，因而确保训练数据的差异不会影响评估公平性是至关重要的且具有挑战性的。（3）Evaluation Criteria。对于高适用性，评估指标应使研究员能够轻松理解并获得有用的观察结果。此外，还有许多众所周知的问题需要解决，例如用于评估具有较大搜索空间（例如生成式任务）的任务。对相关能力的评估仍然在很大程度上依赖于人类评估，这很耗时，且难以复现。
　　在本文中，我们提出了一个面向知识的LLM评估基准（KoLA），该基准通过考虑上述三个因素来进行精心设计，旨在仔细评估LLM的世界知识：

对于能力建模，我们旨在评估LLM的世界知识，并设计了与认知能力相关四级分类。我们选择世界知识作为我们的评估范围，因为：（i）世界知识被广泛认为是在LLM令人印象深刻的表现中发挥基本作用，而对知识的更深入掌握使LLM可以更好地帮助人类；（ii）最近的工作表明，LLM对的理解和生成结构化世界知识仍然具有挑战性。与以前的工作着重于通过覆盖多种任务和纪律知识来测试LLM的知识界限来评估广度的工作不同，我们更多地专注于评估的“深度”，即对知识相关能力内在联系间的建模和确保可靠评估结果。受人类学习理论中认知过程的启发，例如Bloom的分类法，我们将评估能力组织成四个层面：知识记忆，知识理解，知识应用和知识创造。这种分类法有助于提供更具体和有用的评估结果，详细说明评估模型可能缺乏知识的哪些方面。它还促进了对LLMS和人类学习机制之间的相似性和差异的初步探索。为了和我们稍后介绍的数据设计相协调，我们选择了19个任务，主要关注有关实体，概念和事件的世界知识。
对于数据，我们同时获取了已知和不断发展的数据源。一些研究采用了未发表或机器不可读的数据，以减少LLM学习测试数据的可能性。但是，考虑到LLM与他们对高质量数据的渴望之间的激烈竞争，这些数据也可能在不久的将来带入到LLM中进行训练。我们认为，理想的方法是对新增数据进行评估并保持不断更新的基准。在KoLA中，我们每三个月举办一个新的赛季。对于每个赛季，我们爬取并标注了500个最近发表的文章作为不断更新的数据。不断更新的数据源使我们能够（i）更公平地评估模型，即使某些模型可以快速更新其知识，从而证明其力量，并且（ii）更好地跟踪模型的开发。除了不断更新的数据外，我们还考虑了LLM的已知数据，这意味着所有模型都学到了数据源。对已知数据的评估使我们能够（i）通过比较他们从相同的训练数据中获得的不同知识来比较LLM的学习效率，并通过比较LLM在已知数据和不断更新数据上的表现来评估泛化能力。由于被广泛使用，我们选择了Wikipedia作为我们已知的数据源。考虑到Wikipedia的局限性以及我们在不断更新数据上的标注能力，我们无法涵盖非常广泛的任务。
对于评估标准，我们设计了一个对比评估系统，包括总体标准评分系统和创建自我对比的知识创造指标。传统基准分别报告了不同任务的绝对指标。多任务间的分数是不可比较的，使观众很难直观地比较LLM在不同任务间的能力水平。此外，不同指标的灵敏度各不相同，这可能导致缺乏经验的受众误解了数值差异所代表的能力差异。在KoLA主排行榜中，我们报告了不同任务间的标准分数，该标准得分由当前LLM与其他评估的LLM进行比较确定。这使得KoLA适用于广泛的受众。如果需要，经验丰富的观众仍然可以参考绝对指标。此外，评估知识创建特别具有挑战性，因为它涉及区分正确创建的知识和知识幻觉。我们设计了一种自我对比指标，用于对比具有相同开始文本的自由创建的内容和知识的内容，以评估知识幻觉。该指标消除了LLM与人类作者之间风格差异的影响，并专注于生成的内容是否与实际呈现的知识一致。

在KoLA的第一个赛季中，我们评估了21个广泛使用的LLM，包括8个API 访问的商业 LLM，例如GPT-4和Cohere-command，以及13个开源LLM，包括GLM-130B，LLaMa等。我们获得了一些有趣的观察结果，例如较大的基础模型倾向于记住更多的知识，对齐释放了较大模型更高级别的潜力，但可能会损害记忆，而开源模型与商业模型相比表现出整体的劣势。
　　我们欢迎更多LLM参与KoLA评估，并鼓励对KoLA的新赛季做出贡献。数据，排行榜，参与信息和支持工具可在https://kola.xlore.cn上公开获取。我们希望KoLA可以作为诊断工具，以促进越来越多的LLM的开发，还可以帮助知识相关应用程序的开发人员选择适当的LLM。

2.KoLA Benchmark

2.1 Ability Modeling

在人工智能（AI）的背景下，长期以来知识已被用来表示包括事实，事件和技能的信息，并以作为AI智能水平的指标。因此，提出了各种知识密集的任务来检查语言模型与知识相关的能力。最近，LLM令人印象深刻的性能鼓励了使用广泛的人类主观评估开发更全面的基准。
　　Cognitive Ability Taxonomy。面对如此大量的评估数据集，我们主张考虑能力的层级和联系，而不是基于学科或困难度来离散或直接地组织这些评估。认知科学家维持了这种观点数十年，从而产生了一系列经典的认知学习理论。考虑到围绕高级思维的持续辩论，我们简化并选择了布鲁姆学习理论中四个广泛接受的认知过程，以在KoLA基准中组织任务。

Knowledge Memorization (KM)。知识记忆（KM）旨在评估该模型忠实召回已知事实的能力，这以先前的知识探测任务为例。
Knowledge Understanding (KU)。知识理解（KU）的重点是评估模型理解文本中潜在知识的能力，该知识是由常规信息提取任务实例化的。
Knowledge Applying (KA)。知识应用（KA）反映了智能体利用知识来完成推理和解决问题的能力。因此，通过各种知识推理任务来评估此级别。
Knowledge Creating (KC)。知识创建（KC）表示该模型在给定已知事实的情况下创建新且合理的知识的能力。通过模型生成的内容知识的连贯性和正确性来评估这项能力。值得注意的是，评估不仅仅是评估生成质量（流利度等）。

2.2 Data Source and Selected Tasks

　　Known & Evolving Data。评估LLM的一个普遍关注点是由训练数据中的变化和潜在的测试数据泄漏风险带来的公平问题。为了最大程度地减少这些偏差，我们提出了以下独特数据源的设计方式：
　　（1）Known Data Source。Wikipedia是一种公认的高质量知识丰富的语料库，其中包含超过660万英文文章，自BERT以来，这些文章已被许多语言模型用于预训练，并被广泛包含在各种开放式预训练预料库中。因此，我们认为假设每个LLM都在Wikipedia上训练过是合理的，因此将其作为我们已知的数据源。考虑到许多LLM声明他们只能根据“ 2021年之前的内容”提供答案，我们选择Wikidata5M（Wikidata的高质量子集）作为基础，它允许链接到2019版的Wikipedia，从而能够选择或重建下游任务的数据集。
　　（2）Evolving Data Source。考虑到模型训练所需的时间，新出现的数据不太可能被LLM立马训练。因此，我们设计了一种不断进化的评估机制，该机制不断检索近90天以来发表的Web内容，并在其上构建了新数据集。这种方法可确保LLM在未知内容以及是否“秘密”调用外部搜索的知识更新模块上性能的公平评估。每次更新（我们称其为KoLA的一个赛季）需要至少爬行500篇文章来支持构建测试集。对于本文报道的第一个赛季，我们采用了两种数据：事实新闻和虚构的小说。
　　如表1所示，基于这两个数据源，我们最终在KoLA中选择并构建19个任务。为了确保每一个赛季标注的质量和效率，我们随机从每一个评估类别中选择一个任务来标注新的进化评估数据集。对于现有数据集，我们确保大多数测试集都是不公开的，并且这种严格的设置可确保高水平的公平性。数据收集和任务构建细节如附录C所示。我们简要介绍了以下四个级别的任务。
　　Knowledge Memorization Tasks。我们类似于LAMA通过探测LLM的事实来评估知识记忆，但在我们的数据源上重新构造了数据集。给定Wikidata5M中的三元组，我们将其转换为具有特定于关系模板的句子，并让LLM补全其尾实体。此外，我们要探索LLM的知识记忆是否与训练频率相关。我们根据Wikidata5M的实体在Wikipedia中出现的频率进行排序，从而创建了两个测试集：（1-1）High-Frequency Knowledge。从前2, 000个频率最高的实体中随机选择100个实体，并用它们的三元组构建数据；（1-2）Low-Frequency Knowledge。同样，我们从最低频实体中随机选择100个实体，并构建一个更具挑战性的评估集。（1-3）Evolving Test of Memorization (ETM)。从不断发展数据源的文章中，我们标注了其中的知识三元组，并且只保留了100个无法从先前可用的语料库中推断出来的三元组。
　　Knowledge Understanding Tasks。通过LLM是否可以从文本中理解各种知识，包括概念，实体，实体关系，事件和事件关系，可以评估知识理解。（2-1/2-2/2-3）Concept Probing采用了COPEN的三个探测任务（CSJ，CPJ，CIC）来评估模型对概念知识的理解。（2-4）Named Entity Recognition使用了FewNERD数据集，我们在评估中随机选择了300个示例。（2-5）Relation Extraction从具有挑战性的文档级的关系提取数据集DocRED中选择未公开的测试集。（2-6）Event Detection采用了精细标注的MAVEN数据集的未公开测试集。（2-7）Event Relation Extraction涉及MAVEN-ERE的未公开测试集，该测试集由113K包含指代关系，时间关系，因果关系和事件之间的子事件关系组成。（2-8）Evolving Test of Understanding (ETU)。对于不断发展数据源的文章，我们进行实体识别，并遵循与DocRED相同的关系模式注释标注一个全新的测试集，其中包含50篇文章中的100个关系实例。值得注意的是，除了不断发展的测试外，其他数据集都基于Wikipedia文本。
　　Knowledge Applying Tasks。知识应用能力由LLM的（特别是上世界知识的）多跳推理能力评估。这与最近的几项研究不同，这些研究涵盖了更通用的推理，例如数学推理。因此，KoLA中包括以下渐进式的基于Wikipedia的数据集：（3-1）HotpotQA是一个问答的数据集，其中涉及大量的母语人士编写的大量自然语言问题，从而监测机器的比较，多跳推理和更多的能力。但是，HotpotQA的局限性是可以通过快捷方式回答一些问题。为了解决这个问题，（3-2）2WikiMultihopQA确保无法通过手动设计的模板这一快捷方式解决问题，但是他们的问题在语言上缺乏自然性。此外，（3-3）MuSiQue数据集同时应对捷径和自然性的挑战。它的问题由现有数据集中的简单问题组成，最多是四跳复杂的推理。（3-4）KQA Pro是一个大规模数据集，其问题相对复杂，可以通过逻辑操作和修饰符对LLM的多跳推理进行更细粒度的评估。（3-5）KoRC是一个数据集，需要在文本和知识库之间进行联合推理。它与上述四个数据集有所不同，因为它需要隐式而不是显式的推理。（3-6）Evolving Test of Applying (ETA) 采用与KoRC相同的构建方法，在不断发展的数据中，在350个标注的知识三元组和40篇文章上产生了49个问题。
　　Knowledge Creating Tasks。作为Bloom认知分类法的最高级能力，如何评估知识创造能力是一个开放而充满挑战的问题。我们提出了一项基于知识的文本生成任务。在诸如历史，新闻和小说之类的叙事文本的生成中，创造力的核心在于描述后续事件。因此，我们试图通过在生成的文本中其事件知识幻觉来评估模型的创建能力。为了建立标准参考，我们构建了一个标注平台，并对不断发展的数据中的Wikipedia文本和文章进行细粒度的事件标注，该数据构建了两个评估数据集：（4-1）Encyclopedic Knowledge Creation。（4-2）Open Knowledge Creation。

2.3 Contrastive Evaluation System

我们的对比评估系统包括基于相对模型比较的标准化总分和独特的自我对比度量，后者可以自动评估知识幻觉并增强生成评估。
　　Standardized Overall Scoring。
　　
　　Self-contrast Metric。
　　

2.4 Availability

KoLA: Carefully Benchmarking World Knowledge of Large Language Models翻译相关推荐

【Sentence Simplification via Large Language Models 论文精读】
Sentence Simplification via Large Language Models 论文精读 Information Abstract 1 Introduction 2 Related ...
A Survey on Evaluation of Large Language Models
这是LLM相关的系列文章,针对<A Survey on Evaluation of Large Language Models>的翻译. 大型语言模型评价综述摘要 1 引言 2 背景 2 ...
【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
文章目录主要解决什么问题采用什么方法实验分析与结果消融实验 Commonsense Reasoning Symbolic Reasoning 问题与展望 Chain-of-Thought Pr ...
A Survey of Large Language Models
本文是LLM系列的第一篇文章,针对<A Survey of Large Language Models>的翻译. 大语言模型综述摘要 1 引言 2 概述 2.1 LLM的背景 2.2 G ...
论文笔记--Evaluating Large Language Models Trained on Code
论文笔记--Evaluating Large Language Models Trained on Code 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 评估 3.2 模型训练--Cod ...
Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models
大模型系列文章,针对<Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models ...
GPT-2隐私泄露论文阅读：Extracting Training Data from Large Language Models
文章目录论文地址: 原文阐释: 渔樵问对: 原理梗概预防策略隐私策略这个新颖的攻击方式是什么? 三种典型采样策略: 隐私风险文章第5页第二段中提到的 memorized training e ...
【AI人工智能】用于代码生成的大型语言模型 Large Language Models for Code Generation
目录 Large Language Models for Code Generation – Part 1用于代码生成的大型语言模型--第 1 部分 Introduction
【人工智能】大语言模型简介 —— A Very Gentle Introduction to Large Language Models without the Hype
[人工智能]大语言模型简介 -- A Very Gentle Introduction to Large Language Models without the Hype 目录 [人工智能]大语言模型 ...

KoLA: Carefully Benchmarking World Knowledge of Large Language Models翻译

摘要