On the Opportunities and Risks of Foundation Models- APPLICATIONS

On the Opportunities and Risks of Foundation Models

Healthcare and biomedicine
- Opportunities in healthcare.
- Opportunities in biomedicine.
- Challenges and future research in foundation models
Law
- Opportunities in law.
- How can foundation models uniquely help?
- What are foundation models lacking that requires more research?
Education
- Important concerns for centering foundation models in education research.
- Foundation models of student thought.
- Foundation models for instruction.

基础模型的能力（2：能力）表明，它们有改变不同部门和行业的潜力，扩大人工智能在社会中所扮演的角色（5：社会）。在可能应用基础模型的众多应用中，我们将重点关注三个学科——医疗保健（3.1：医疗保健）、法律（3.2：法律）和教育（3.2：法律）——这些都是社会功能的基础。在每个方案中，我们将讨论基础模型为该领域带来的机会，以及挑战（如可解释性；4.11：可解释性）和关注点（如隐私；4.7：安全性）。

Healthcare and biomedicine

图12。在医疗保健和生物医学领域的基础模型。我们可视化了一个交互式框架，在对医疗保健生态系统中的各种来源生成的多模式数据进行训练时，基础模型支持跨医疗保健和生物医学的各种任务。第一列列出了几个数据来源，包括护理提供者、支付者、机构（大学、非营利组织和政府）、制药公司、可穿戴设备和医学出版物/论坛。第二列显示了由数据源生成的几种数据模式。它们包括图像（如胸部x光片）、视频（如超声波）、化合物图表、电子健康记录表（EHRs）、临床记录等文本、心电图等时间序列和基因数据。第三列可视化了在这些数据上训练的基础模型，然后应用于第四列中列出的医疗保健和生物医学下游任务。这个过程可以生成新的数据，进一步改进基础模型，从而形成基础模型与任务之间的双向关系。

例如，医疗保健和生物医学是社会中一个巨大的应用领域，支出占美国国内生产总值（GDP）的17%[斯文森等人2011年；范哈特坎普等人2019年；Keehan等人2020年]。医疗保健（侧重于通过诊断、治疗和卫生管理向患者提供护理）和生物医学研究（侧重于对疾病的科学理解和新疗法的发现）都需要大量的费用、时间和全面的医学知识[Yu等人2018；科恩吉贝尔和穆尼2021年]。我们设想，基础模型可以成为医学知识的中心存储，根据医学数据的不同来源/模式进行培训[克鲁姆霍尔兹等人2016；2020]（图12左），可以由医疗专业人员（例如，医疗保健提供者和生物医学研究人员交互查询/更新研究人员访问已发表的发现并上传新的出版物）[Ionescu等人2020]，并由公众查询。由于基础模型具有强大的适应能力（例如，微调、提示[Brown等2020])，它们可以有效地适应医疗保健和生物医学中的各种个人任务（例如，患者使用的问题回答应用程序[克拉斯尼亚和普拉特2012；朱等2019；丹尼尔等2019；刘等2020a]，临床试验匹配系统[镍等2015；Harrer等2019；Beck等2020]被研究人员和患者访问；图12右）。通过这种方式，基础模型可以成为一个中心接口，支持医疗保健和生物医学中的数据、任务和人员之间的各种交互，从而提高医疗保健/生物医学应用的效率和准确性[Elbattah等人，2021年]。我们在3.1.1：医疗保健任务和3.1.2：生物处理任务中详细阐述了这些机会。

与此同时，医疗保健/生物医学应用提出了独特的挑战，激发了对基础模型的进一步研究，如在医疗保健/生物医学中整合多模式数据[三浦等人，2021；Liu等人，2021a]，并观察医学中的伦理和法律法规（隐私、安全和可解释性）[Guan，2019；Xu等人，2019]。我们在3.1.3中详细阐述了这些挑战：医疗保健生物挑战。

Opportunities in healthcare.

基础模式可以通过医疗保健提供者和医院改善向患者提供的护理。目前，医疗保健成本每年都在增加[Keehan等人，2020年]，研究估计，由于行政效率低下和可预防的医疗错误，30%的医疗保健支出可能是浪费的[Kocher，2021年]。此外，随着对医疗保健需求的增加，社会面临着医疗保健提供者的严重短缺[Kirch和Petelle 2017]。这种医疗保健的低效和短缺需要为医疗保健提供者和患者开发快速和准确的接口，如诊断/治疗、对患者记录摘要和回答患者问题的自动辅助系统[达文波特和卡拉科塔2019；Nie等2018；Wang等2021b]。特别是在COVID-19等紧急大流行危机，快速诊断/筛查（如自动分析胸片图像）以及自动问答患者（如症状检查和护理）和公众（如疾病预防）对于减少疾病的传播和分配医疗资源，拯救更多的生命[Lalmuanawma等2020]。由于基础模型具有作为一个集成的知识库的很强的能力，因此它们可以被查询并适应医疗保健中的各种个人任务。下面是医疗保健中将受益于基础模型的重要任务的例子。

为医疗保健提供者提供的接口。基础模型可以提高护理提供者的护理效率和准确性。医疗保健提供者花费不必要的时间编辑电子健康记录（EHRs）[Kocher 2021]，可预防的医疗错误（如再入院、手术错误）导致医疗保健浪费[Shrank等人2019年；Shah等人2020年]。基础模型可纳入电子病历（临床记录、实验室价值历史和成像文件）[Li等人2020c；斯坦伯格等人2021；Percha 2021]，帮助医疗保健提供者创建患者就诊摘要[克里希纳等人2020]，检索相关病例和文献，并建议实验室检测、诊断、治疗和出院[Zhang等人2019b；Rasmy等人2021]。基础模型也可以用于帮助外科机器人监测并实现准确的手术[戴安娜和马雷斯科2015；阿格里戈奥伊和塔普斯2016；Yu等人，2019年]。关于机器人技术的基础模型的更多讨论，请参见2.3：机器人技术。

Interface for patients。基础模型可用作患者接口，提供有关临床预约的相关信息[贝茨2019]，回答与预防保健相关的患者问题[德姆纳-富什曼等2020]，以及相关医学解释信息（例如，解释条件的文本和图形）[中国等2019]，并帮助患者使用辅助护理机器人[Jeong等2015；Abdi等2018]。有关用户交互的基础模型的更多讨论，请参见2.5：交互。基础模型还可以作为与普通公众的接口，回答与公共卫生和大流行预防（如COVID-19病例）相关的问题[Bharti等人，2020年；Herriman等人，2020年]。我们注意到，该接口必须保证事实的准确性，以确保公众对医疗建议的信任。

Opportunities in biomedicine.

基础模型可能促进生物医学研究，如药物的发现和对疾病的理解，这最终转化为改进的医疗保健解决方案[Hanney et al. 2015]。目前，生物医学发现需要大量的人力资源、实验时间和经济成本。例如，药物开发涉及一个复杂的过程，从基础药物研究蛋白质目标识别和有效分子发现临床开发（如临床试验）最终药物批准，通常需要超过10年，成本超过10亿美元[Wouters et al. 2020]。利用现有数据和已发表的发现，促进和加速生物医学发现是生物医学中的一个迫切问题[Yu et al. 2018]。特别是，COVID-19等新疾病的爆发导致数百万人失去生命和数万亿美元[拉尔穆阿纳瓦马等人2020；McKibbin等人2020]；如果我们能加快新疾病的药物开发，这将非常有帮助。基础模型在两个方面对生物医学的发现特别有帮助。首先，基础模型具有很强的生成能力（例如，GPT-3中的连贯文本生成），这可以帮助生物医学研究中的生成任务，如生成实验协议（临床试验）和在现有数据下设计可工作的分子（药物发现）[Kadurin等人，2017；Harrer等人，2019]。其次，基础模型有潜力整合医学中的不同数据模式，这使得能够从多个尺度（使用分子、患者和人群水平的数据）和多个知识来源（使用成像、文本和化学描述）来研究生物医学概念（例如，疾病）。这有利于使用单模式数据难以获得的生物医学发现[兰开克里特等2004；Aerts等2006；Kong等2011；Ribeiro等2012；王等2014,2015c；鲁伊斯等2020；Wu等2021h]。基础模型还支持跨模式转移知识。Lu等人[2021a]展示了用自然语言（一种数据丰富的模式）训练的变压器模型如何适用于其他基于序列的任务，如蛋白质折叠预测，这是生物医学中长期研究的预测任务[Jumper等人，2020]。以下是生物医学中将受益于基础模型的重要任务的例子。

药物发现。为了发现一种治疗疾病的药物或治疗方法，研究人员必须首先确定一个靶点（例如，蛋白质、基因、涉及疾病的RNA），然后必须寻找与靶点结合并治疗疾病的分子（例如，化合物、抗体）。通常，确定合适的目标并生成相应的分子需要多年昂贵的湿实验室实验[休斯等人2011；Schenone等人2013年；施耐德2018]。基础模型的通用性可以提高搜索空间和效率（见2.4：推理），不仅减少了实验量，而且有助于发现新的更好的药物[Jin等人2018；你等人2018；沃尔特斯和巴齐莱2020；Stokes等人2020年]。此外，通过单一基础模型同时解决相关药物发现问题（即目标识别、疗效预测、副作用预测等），可以改进每个问题的解决方案[拉姆松达尔等2015；卡马乔等2018；杜兰-弗里戈拉等2020；黄等2021a]。例如，基础模型在影响治疗设计方面显示出重大潜力的一个领域是使用语言模型对蛋白质进行建模。成功的应用范围从预测能够逃避疫苗诱导的免疫应答的病毒突变，到预测蛋白质对接潜力，以更好地设计治疗性抗体[Bepler和Berger 2021；Hie等人2021；Tsaban等人2021；Wu等人2021b；里维斯等人2021]。

个性化的医学。个性化医疗的目的是根据患者个体的健康史、遗传学、影像学和其他个人测量数据，为其选择最佳的治疗方法。例如，给定一组药物和患者基因组，基础模型可以帮助预测哪种药物最有可能治疗患者[卡里罗等2012；塔托内蒂等2012；格汀等2017；格林菲等2018年；亚当等2020年]。基础模型能够整合多模式患者数据，从EHR [Rajkomar等人2018]到医学成像[贝拉等人2019；欧阳等人2020]到药物和分子测量[戈特利布等人2011；Ruiz等人2020]，以做出最佳预测。

临床试验。临床试验研究治疗药物或候选药物的有效性和安全性。传统的临床试验效率低且昂贵：80%的试验由于无法显示疗效/安全性或患者匹配问题而失败[All等2020；Liu等2021c]。基础模型可以帮助以下方面：预测潜在的失败，基于现有研究设计有前途的临床试验方案（例如，患者合格标准）；根据患者个体特征自动匹配合格患者，这是多模式数据，包括电子病历、基因序列等。[Harrer等人，2019年]。

Challenges and future research in foundation models

虽然基础模型有潜在的帮助机会，但医疗保健/生物医学应用也带来了独特的挑战，促使了对基础模型的进一步研究。

多模态。医疗数据高度多模式，具有各种数据类型（文本、图像、视频、数据库、分子）、量表、分子、基因、细胞、组织、患者、群体）[Kong等2011年；Ruiz等2020年]，以及风格（专业和世俗语言）[Lavertu和Altman 2019年；李等2019年]。目前的自我监督模型是为每种模式开发的（例如，文本[Lee等人2020b]、图像[Chaitanya等人2020]、基因[Ji等人2021]、蛋白质[Jumper等人2020]），并且没有共同从不同的模式中进行学习。为了从这些不同的多模态医学数据中学习模态间和跨模态信息，我们需要在基础模型的训练中同时研究特征级和语义级的融合策略。如果做到有效，就有可能统一生物医学知识，促进3.1.2：生物任务中讨论的发现。

可解释性。可解释性——为决策提供证据和逻辑步骤——在医疗保健和生物医学中至关重要[霍尔辛格等人，2019年]，并且是《一般数据保护条例》（GDPR）的强制性规定。例如，在诊断和临床试验中，患者的症状和时间相关性必须被解释为证据。这有助于解决系统和人类专家之间的潜在分歧。医疗保健领域的知情同意也需要可解释性[Amann等人，2020年]。然而，目前的基础模型的培训目标不包括可解释性，需要未来在这个方向上进行研究[Linardatatos等人，2021]。合并知识图可能是进一步提高模型可解释性的一个步骤[Roberts等，2020；Xu等，2020；Jin等，2021]。读者可参考4.11：可解释性，以便更多地讨论可解释性。

法律和道德法规。医疗保健应用程序必须遵守法律和道德法规，如患者安全、隐私和公平。例如，在安全性方面，基础模型所做出的预测必须与已建立的医学知识一起事实准确，必须量化不确定性或在不确定时选择听从专家[Challen等人，2019；莫桑纳和桑塔格2020]。为了保护隐私，使用患者健康记录必须遵守隐私法，如美国的HIPAA[1996年法案]。联邦学习是在基础模型训练中保持原始、敏感数据隐私的一种潜在解决方案[Chamikara等人，2021年]。为了公平起见，研究人员需要注意常见的缺陷，否则就有加剧现有社会不平等的风险[Chen等人2019；Wiens等人2019；Chen等人2020b]。确保基础模型的培训和评估数据能够充分代表不同的性别、种族、民族和社会经济背景；一个医学数据集和临床试验有长期的偏见历史的领域[马丁内斯-马丁等人，2020年；Kaushal等人，2020年]。在代表性数据缺乏的情况下，还需要研究去偏差和规范模型，以确保公平性[Zhao et al. 2020a]。基础模型开发人员还需要咨询伦理和法律研究人员，并遵守他们被部署的特定情况下（例如，国家、地区）的法规。我们还向读者参考4.7：安全性、4.8：稳健性、5.1：公平性、5.4：关于隐私、稳健性、公平性和合法性的合法性。

外推。生物医学发现的过程涉及到外推法。例如，基础模型必须能够快速适应新的实验技术（例如，新的分析方法，新的成像技术，如高分辨率显微镜）或新的设置（例如，新的目标疾病，如COVID-19）[Jaroch等，2018；Benam等，2019]。利用现有数据集和推断新设置的能力是生物医学中的一个关键机器学习挑战[Snell等人，2017；Ma等人，2021b]。虽然GPT-3表现出一些外推行为（例如，生成以前未见过的新文本），但其机制尚不清楚，仍处于起步阶段。需要进一步的研究来提高基础模型的外推能力，特别是当考虑到医疗保健和生物医学固有的各种数据模式和任务，但在当前的GPT-3和相关模型中并不常见的研究时。

Law

图13。美国民事案件各个步骤的例子，以及基础模式可能有所帮助。在每个阶段，可能需要处理不同的方式，并需要适应一个新的法院或法律观点。

从家庭法庭到刑事司法，从环境政策到企业交易，法律的影响范围是巨大的。在美国，有31名律师超过130万人[美国律师协会，2021年]，法律服务的年收入超过3000亿美元。然而，对大多数人来说，“获得正义”仍然遥不可及。法律服务可能会非常昂贵。例如，在美国，大约有86%有民事法律问题的低收入者报告说，他们得到的帮助不足或没有法律帮助。即使任命了律师，律师也可能会因为越来越大的案件量而紧张。例如，研究表明，公共辩护律师经常工作过度，资金不足。美国司法部报告称，2007年，73%的县公设辩护律师办公室超过了每位律师收到的案件的最高推荐限额，19个报告的州公设辩护律师项目中有15个超过了每位律师收到的重罪或轻罪案件的最高推荐限额。即使在一个人均律师比例最高的国家之一，司法公正也可能是遥不可及的。美国总统吉米·卡特曾经认为：“我们90%的律师为我们10%的人民服务。我们的律师人数过多，律师代表不足。”根据获取正义的主要声音，技术可能提供一条前进的道路[罗德，2014]，这一观点得到了许多其他人的赞同[Cabral等人，2012]。

基础模型可能会在法律中扮演什么角色？一个主要承诺是，基础模式可以通过扩大法律服务的程序和财政障碍来改善获得司法和政府服务的机会。法律应用所带来的挑战反过来又可以激发基础模型的基础研究问题。许多法律应用程序对计算解决方案提出了独特的挑战。法律语言是专门化的，法律结果往往依赖于将模棱两可和模糊不清的标准应用于不同的和以前看不见的事实模式。与此同时，由于其成本较高，带标记的训练数据非常稀缺。根据具体任务的不同，这些特性可能会对传统模型的成功部署构成不可逾越的障碍。相比之下，它们的灵活性和从少数例子中学习的能力表明，基础模型可以独特地应对上述挑战。

在本节中，基础模型可以将许多模式作为证据作为背景：审判过程中的音频，发现过程中的视频和图像，以及进行法律研究中的文本。然而，大多数依赖基础模型将是有益的法律任务都涉及基于文本的输入和输出。因此，我们主要关注基于文本的领域，而只简要地讨论其他领域。为了结束讨论，图13描述了美国民事诉讼的各个阶段，以及基础模型在这一过程中可能发挥的作用。图14显示了只生成法律摘要的一段的一部分所需的逻辑流，这可以作为基础模型有一天可能被使用的任务的具体示例。

一个重要的考虑。在继续之前，我们注意到伦理、法律和公平的考虑扩展到5.6：伦理、5.4：合法性和5.1：公平在应用法律或政府中使用基础模型之前特别重要，因为这些应用程序通常对受影响的人产生重要的现实后果[Surden 2020]。在部署前，还必须仔细检查基础模型，如4.4：评估中所述。例如，法律体系特别强调，甚至可能是强制要求，即透明度、问责制和可解释性。因此，目前的模式是否能够解决许多最紧迫的法律问题是值得怀疑的。尽管如此，扩大和改善获得法律和政府服务的必要性为基金会模式提供了一个有价值的目标。

Opportunities in law.

法律应用范围从在政府环境中使用机器学习[恩格斯特罗姆等人2020；科格利亚尼斯和本多尔2020；雷和索罗-尼德曼2019]到协助律师提供法律服务[郑等人2021；黄等人2021b；奥斯坦多夫等人2021；沃尔德和康拉德2021]。我们注意到，之前的工作也调查了基于文本领域的机器学习辅助法律任务[Zhong等人2020；查尔基迪斯等人2020]，尽管已经注意到最近的法律人工智能研究集中在美国以外的地理区域。虽然我们讨论的许多主题可能适用于不同的法律体系，由于我们团队的专业知识我们主要关注美国，我们专注于三大类的法律应用程序可能受益于基础模型在美国法律体系：私法或民事司法（个人之间的索赔，引起，例如，合同、财产或侵权），刑法（即个人犯罪行为的起诉），和（非刑事）公法（例如，政府机构对私人行为的监管）。

民法。在美国的民事诉讼中，当事人通常必须找到并支付代理律师的费用。因此，许多个人，特别是那些低收入者，难以获得足够的法律代表权[罗德省，2004年]。基础模式有可能通过降低成本、提高质量和扩大法律服务的覆盖范围来改善获得司法的机会。在图13中，我们描述了在美国法院提起民事诉讼的过程，以及基础模型可能在帮助律师和法官方面发挥的作用。

甚至在律师参与法律程序之前，客户也可能从基础模型的部署中受益。最近的工作使用机器学习模型来识别包含在由客户提供的事实的简单语言描述中的相关法律问题。像这样的工具可以帮助为解决手头问题所需的法律行动类型提供建议，或推荐专业律师。其他一些类似的努力也试图通过提供适合客户特殊需要的信息来增加获得正义的机会。

在民事诉讼之前，一旦当事人与律师交谈，律师可能会寻求避免代价高昂的审判。在这个阶段，他们可以依靠基础模型来评估合同，审查服务条款，寻找相关专利，并进行其他诉讼前程序，以确保其客户处于优势。值得注意的是，最近的工作都描述了使用基础模型进行合同审查的挑战和好处。除了审查和起草法律文件外，还可以翻译客户互动和文件，以降低提供法律服务的成本和障碍[Cuellar 2019]。但是，法律文件的翻译需要精确性和对高度技术性语言的理解，这使得收集培训数据的成本高昂。此外，翻译客户陈述或审判程序通常需要了解当地的方言和语言。这也使得很难收集到足够的地面真实翻译数据来进行训练。因此，传统的监督方法很少达到法律领域所需的准确性水平[Vieira et al. 2020]。基础模型可以通过在这些低资源环境中快速适应，比完全监督的机制提高这一领域的性能。

在诉讼过程中，基础模型可以帮助律师进行法律研究，起草法律语言，或评估法官如何评估他们的主张[郑等人2021年；黄等人2021b；奥斯坦多夫等人2021年；沃尔德和康拉德2021年；查尔基德斯等人2020年，2019年]。这可能会降低法律服务的成本，并改善法律服务。例如，最近的工作利用预先训练的模型，在撰写法律文本时推荐相关引用和持有陈述。其他工作使用预先训练好的模型来改进法律问题，回答常用的法律搜索引擎，并帮助律师进行法律研究[Vold和Conrad 2021]。各种各样的工作也审查了自动合同的起草和审查，这项任务同样可以受益于基础模型[亨德里克斯等人，2021c；贝茨和Jaep 2017]。也许最引人注目的基础模式可以帮助帮助律师生成法律摘要（书面论据）。这些模型可能会在由律师撰写的摘要部分中找到新的论点或识别问题。例如，Tippett等人[2021]根据从已归档的案情摘要中提取的特征来预测法律程序的结果。可以利用基础模型来使用原始语言作为输入，而不是使用提取的特性。这可能为律师提供更多信息的建议，关于如何改进他们的摘要，以确保有利的结果。

在打开和回复摘要提交后，双方然后开始发现过程，该过程已经在十年的大部分时间里使用了简单的机器学习模型[格罗斯曼和科马克2010]。律师使用这些系统来标记是否应该向对方出示文件。这些文档在本质上是多模态的，通常包含视频、图像、音频和文本。当前的系统成本高昂，因为它们使用监督学习和主动学习将文档标记为响应性系统[格罗斯曼和科尔马克2010；Oard等人2018；Yang等人2021]。相反，使用基础模型可能实现的少镜头或零镜头文档检索功能将有助于缓解人们对当前流程的巨大成本的担忧。为了避免发现过程中小招的可能性，崔[2018]提出了一种零镜头（或少镜头）适应过程，只能通过使用基础模型来实现。

在发现后，一旦审判开始，基础模型可以通过预测法官在询问时可能会关注什么来帮助当事人为审判做准备[狄金森2018]，适应法官先前发表的意见的当前背景。在法庭上，基础模型可以被用来检查法庭程序的音频和视频，以确定结果是否因为其种族或方言而对被告有偏见。

一旦审判结束，基础模型可以帮助法官和法律助理使用类似技术正确评估双方的法律主张，或者使用基础模型的上下文嵌入可能有助于法定解释[Nyarko和Sanga 2020；Choi 2020]。最近的工作（不依赖基础模型或NLP）检验了上诉决定是否可以从一组提取的特征中预测，如引用计数和关键词的出现[Katz等人2017；Boniol等人2020]。这些模型可以使用基础模型进行改进，并应用于通过在其意见中发现明显的错误来帮助法官起草决定，正如在裁决机构的背景下讨论过的那样[Engstrom等人，2020；Ray和Lubbers 2014]。它们还可以用来识别法律意见中的种族偏见，并帮助法官相应地修改他们的意见[Rice等人，2019年]。

刑法。一个特别有争议的领域是在政府环境中使用风险评分，特别是在刑法中。有些人可能希望使用基于语言的基础模型来帮助根据给定的基于文本的事件叙述来做出收费决定或假释决定。在使用基础模型进行风险评分之前，特别是在包含语言数据时。但基础模型可能在刑事司法的许多其他方面发挥作用。与上述民事诉讼中相同的工具，也可以用于检察官和辩护律师。这可以帮助指定的律师更有效地完成他们的工作，并减少不必要的开销。因此，他们可能能够更有效地平衡已经很大的工作量。例如，公设辩护者往往被视为工作过度和资金不足，这将导致可避免的程序错误。基础模型可以通过识别错误和自动化简单的任务来帮助减少这些资源约束。然而，它们本身并不是一个解决方案。

在其他领域，基础模型可以作为一种监督机制来减少结构性不平等。预先训练好的模型已被用于处理假释听证记录，以找到异常结果的实例[Bell et al. 2021]。最近的研究也删除了警方报告中有关嫌疑人种族的语言线索，以促进种族盲指控决定，避免种族偏见的起诉[Chohlas-Wood等人，2020年]。其他工作有助于识别不尊重的警察沟通[Voigt等人，2017]。在这些情况下，标记数据是非常昂贵的，因为必须让注释者访问敏感数据，而且通常需要进行适当的背景检查。为了降低这些成本，基础模型可以用于预训练，并快速适应标签稀缺的下游任务。

公法。政府机构管理着社会的大部分领域，而基础模式在公法中具有广泛的潜在适用性。这包括：在通知和评论过程中分析公众评论，协助专利审查，检索相关文件以响应《信息自由法》的要求，协助大规模裁决，等等。最近的工作调查了各种背景下的这些政府应用，我们建议读者参考相关来源进行深入讨论[Engstrom等人2020；科利亚尼和本多尔2020]。在许多这样的应用程序中，基础模型可以提高政府服务的质量、效率、效用和可及性：标签稀缺，资源有限，上下文不断变化。因此，基础模型的适应性和灵活性往往需要提高效率和性能。为了给出一个这样的应用程序的说明性例子，现有的工作利用NLP在公共评论论坛中促进审核。在这个用例中，预测模型帮助外行人改进参数，并识别他们的评论中的错误陈述。这种系统已经在美国交通部的规则制定过程中部署了应用[Park等人，2012年]，尽管它很可能通过基础模型的语言推理能力得到改进。但是，政府机构必须遵守宪法、法定和行政义务（见5.4：合法性），因此在这些情况下需要额外的照顾。

How can foundation models uniquely help?

上述法律应用的例子在几方面是独一无二的。首先，注释数据的成本非常高。通常，创造高质量标签的专业知识只能在律师身上找到，他们可能每小时收费数百美元。即使在获得了标签之后，某些数据也可能是敏感的，并且不能汇集在一起来训练一个大型语言模型。鉴于最近在少镜头学习方面取得的进展[Brown et al. 2020]，基础模型是学习具有有限注释的模型的最有前途的路径之一。

第二，法律决策需要不同规模的背景：对所有历史决策和标准的了解，对目前仍然相关的判例法的了解，以及对手头的个别案件的细微差别的了解。基础模型具有独特的潜力，可以学习历史和法律背景的共享表示，并具有建模个别案例的语言能力和精确性。

What are foundation models lacking that requires more research?

为了说明当前的基础模型需要克服的缺陷，以便进行实际部署，我们考虑了自动创建一个要提交给法院的法律摘要作为一个例子。

在听证会前向法官陈述论点。一旦一方当事人提交了开庭陈述书，对方当事人就会提出回应。然后，法官评估案情摘要，并在做出决定前在听证会上向双方提出问题。图14可视化了这种法律摘要的结构及其一些特征。

自动简短生成机制可以将案件的相关文件和事实（由律师指定）以及预期结果的草图作为上下文。然后，它将生成一份包含复杂法律论据的法律摘要，并提交给法院。

长文件和叙述。为了实现这一目标，该模型必须能够阅读长上下文并产生长叙述。在任何其他情况下，法律文件往往比文件要长得多。平均美国最高法院意见包含约4700字，一个简短的优点最高法院可以多达15000字，38法律审查文章通常包含20000到30000字，39假释记录可以数百页长(贝尔et al. 2021]，和审判记录可以更长。当前的基础模型一直在努力处理如此长的上下文和输出（参见4.1：建模）。

图14。本作品的一位作者所写的虚构摘要的摘录。法律专业学生被要求写案情摘要的原型形式包括： (1)介绍论点；(2)以有说服力的方式陈述法律规则；（三）将法律规则应用于案件的事实；（四）有说服力地结束论点。这通常涉及到从以前的案例和当前案件的事实中检索和解释信息。

除了阅读特定案例的文件，基础模型必须检索相关的判例法，并了解哪些判例法仍然有效，哪些已经被否决，并考虑到自训练以来潜在的概念漂移。随着判例法的发展，还需要在基础模型中进行基础信息的编辑[De Cao et al. 2021]。使用检索到的法律标准，基础模型必须理解如何将它们编织成一个有说服力的论点。新兴研究研究了使用基础模型测量、检测和生成有说服力文本的方法[Duerr和Gloor 2021；Li等人2020a；Longpre等人2019]，这可能为实现这一目标提供垫脚石。

但法律简报还要求人们能够确定相关的法律规则，并确定其如何适用于新的情况。例如，霍尔森伯格等人[2020]提供了一个数据集和方法，以评估基于税法的当前模型中的这种能力。给定一组税法规则和对某人情况的描述，该模型必须确定这些规则如何适用于个人，以确定他们的纳税义务是什么。霍尔曾伯格等人[2020]发现，领域专家可以将相关税法作为一个问题解决方案，以非常准确地确定个人的税务责任。然而，他们发现，仅仅使用BERT模型，即使在领域内的法律文本上进行了预先训练，也不足以让模型推导和应用相关的规则，这一过程也被称为“法律推理”。

这些挑战可以通过与GPT-3的实际交换来进一步说明，这表明当前的模型甚至无法执行涉及法律推理的相对简单的任务。

GPT-3的法律推理。

“违约金”是双方在协议中约定的对违约行为的一种金钱赔偿形式。一般来说，如果合同中规定的数额太高，作为一种惩罚，而不仅仅是补偿，美国法院不会执行违约金条款。

首先，我们看看该模型是否编码了关于执行违约金条款的正确规则。
Q：违约金条款是否可强制执行？
A: 违约损害赔偿金条款一般可强制执行，除非所规定的金额过高或不合理。

规则看起来正确。但然后我们将该规则应用于一组事实。在这里，该模型需要推断，丰田花冠的一百万美元的损失是过高的，因此，违约金条款不应该被强制执行。
Q：X和Y签订出售丰田花冠的合同。他们的合同规定，如果X不能按时交货，X必须支付100万美元的赔偿金。X不能按时交货。你有权得到损害赔偿吗？如果是这样，具体的金额是多少？
A: 是的，Y有权获得100万美元的损失。损害赔偿是为了赔偿受害方因违约而遭受的损失。由于X没有按时交付汽车，Y公司损失了100万美元。

该车型无法推断出100万美元的丰田花冠价格太高。即使模型同时提供了抽象规则及其在提示中对上下文的精确转换——因此应用程序应该微不足道——GPT-3仍然无法进行所需的逻辑推理。
Q：X和Y签订出售丰田花冠的合同。他们的合同规定，如果X不能按时交付汽车，X必须支付Y100万美元的巨额赔偿金。X不能按时交货。法律规定，必须执行违约金条款，除非规定的数额过高或不合理。你有权要求损害赔偿吗？如果是这样，具体的金额是多少？
A: 是的，Y有权获得违约金。本案中的金额并不过高，因为价格是由双方自己设定的。

准确率基础模型也不能在此过程中创建虚假事实，这是当前模型中出现的一个问题[Gretz等人，2020；Zellers等人，2019b]。在法律环境中，特殊性和真实性更加重要，在法律环境中，不精确的陈述可能会产生剧烈的、意想不到的后果，而虚假陈述可能导致对律师的制裁。

**少镜头(FLOW-SHOT)**学习除了上述例子中描述的模型之外，基础模型面临的一些挑战包括少镜头学习，这仍处于起步阶段[Perez et al. 2021]。对少镜头学习技术和增加合法语料库的研究可以协同工作。因为基础模型需要是精确的，不仅在上面讨论的事实真相中，而且在技术法律语言中，所以仍然不清楚从一个语料库中获得的信息在多大程度上可以被利用在另一个不同领域的语料库中。因此，少镜头学习仍然很重要。

Adaptation从未标记的法律语料库的领域自适应预训练中已经观察到一些收益。当训练前语料库与下游任务高度相关，且标记训练数据有限（在法律中常见的设置）时，这些增益似乎最为显著[Zheng et al. 2021]。这是否会扩展到一组不同的法律任务，目前还没有得到全面的研究，但利用未标记的领域特定的语料库对基础模型进行自我监督训练，可能会为少镜头方法提供互补的改进。

访问清理域内数据最近的一些努力试图通过自动化[Zheng等人2021]或志愿法律专家的手动注释[Hendrycks等人2021c]来创建更具有挑战性的法律基准任务。这些努力表明，与在其他环境中观察到的更有限的收益相比，经过更多数据预训练的大型语言模型在某些具有挑战性的任务上实现了性能提高[查尔基迪斯等人2020；Elwany等人2019；钟等人2020]。这项工作表明，更大的法律基准数据集可能是必要的，以观察从应用迁移学习技术到基础模型的进一步收益。然而，创建基准数据集的任务是有法律意义的和困难的从自然语言处理的角度来看本身就具有挑战性，作为人类专家注释可能是昂贵的和自动化方法，利用传统标记和句子分割技术无法占法律文本的独特方面，如法律引文的结构[Bommarito等2018；Savelka等2017]。由于这些挑战，许多现有的法律领域特定的标记数据集很小，不能公开获得，或者反映了更简单的任务，这些任务通常早于基础模型开发的方法解决。

许多可用的法律数据也可能不具有代表性。由于只有一小部分案件最终形成法律意见，因此不清楚公开数据中的争议是否代表了实践中呈现的典型纠纷[牧师和克莱因1984]。针对更具代表性的场景的昂贵培训数据可能集中在最大的律师事务所。这些律师事务所可能有能力保留和积累许多案件和客户的数据。一个问题是，基础模型可以将地集中在少数有资源训练模型的参与者中——除非模型能够很好地泛化。

可靠性。最后，我们再次注意到，即使基础模型可以成功地执行所有任务在法律领域，部署仍然是一个重大挑战：失败的基础模型在法律上将有真正的，有害的后果客户和律师（参见讨论公平、合法性和道德5.1：公平，5.4：合法性和5.6：道德）。因此，机器翻译软件在一些法院已经被认为是不可靠的证据，尽管在其他法院仍然依赖于它。

考虑到所有这些复杂性，法律简报和推理很可能超出了当前模型的能力，但似乎是在未来的可能性范围内。因此，这些为正在发展的基础模型提供了潜在的矿脉星。

Education

图15。教育中的基础模型可以在多个数据源上进行培训，以学习教育所需的能力：理解各种主题和不同的教学技术。这些基础模型可以以一种通用的方式应用于一系列的任务和目标中，如理解学生、协助教师和生成教育内容。

2000年，世界最大的领导人会议召开了联合国千禧年首脑会议，反思未来的理想展望。代表们得出结论，主要重点应该是教育，宣称它是“人类实现、和平、可持续发展、经济增长、体面工作、性别平等和负责任的全球公民身份的基础”。这一讨论最终被重新纳入联合国可持续发展目标，即“确保全民接受包容性和高质量的教育，并促进终身学习”[联合国大会，2015年]。然而，大规模提供高质量的全纳教育构成了困难的社会和经济挑战。每个学生的教育价格的增长速度快于整个经济范围内的成本[Bowen 2012]，这限制了支持学生学习的可用资源。在美国，其中一个症状是，学生持有的私人教育债务已经达到1.6万亿美元，超过了信用卡债务总额[弗里德曼，2020年]。考虑到提供成人再培训的需求不断增加，对教育的需求和我们提供教育的能力之间的差距惊人，在受保护人口之间存在成就差异。

随着数字时代的到来和数字学习的快速增长，计算性的教育方法在提高学习者和教师的效率方面显示出了希望。几个核心方向已经出现了潜在的教育应用[伍尔夫等2013]，如可以为学生提供有意义的反馈的系统,甚至创造个性化和适应性的学习体验，根据个人学生的需要和性格定制学习过程。

尽管有这种潜力，但建立有效地包括规模和教育质量已被证明是非常困难的。一个特别的挑战是，现有的工作集中于针对高度特定的任务的定制解决方案，对于这些任务，必须从头开始收集大量的训练数据。由于创建大数据集的难度和成本，使用这种方法独立解决每个教育任务从根本上是有限的。相反，是否有可能创建跨各种任务和主题可重用的通用方法？

基础模式已经开始提高教育中一些特定的旗舰任务的表现。最近的例子包括使用MathBERT[沈等。2021b]权力“知识追踪”——跟踪学生的理解的挑战给他们过去的反应和“反馈挑战”，一个算法来解释学生的回答结构化开放式任务，如编码问题[吴et al. 2021e]。基础模型能在这个领域导致更多的变革性变化吗？而基础模式应用于教育的已知和想象的风险是什么？在本节中，我们首先围绕着伦理考虑来构建对话。然后，我们将讨论放在两个具体的任务上： (1)理解学生的误解，(2)通过教学提高学生的理解。

Important concerns for centering foundation models in education research.

人工智能对教育的未来是令人兴奋的，特别是在基础模型的背景下。然而，我们提醒读者要特别考虑任何应用于教育的人工智能研究的影响。教育的目标与复杂的、长期的社会影响深深交织在一起。在我们积极努力改善数字教育的同时，我们必须进行实质性的思考，尝试和想象在这个领域的任何破坏的复杂性[Piech和爱因斯坦2020]。伦理方面的挑战包括诸如数据偏见、法律限制和数字社会化的影响等问题。这些问题并不是基础模型所特有的，但随着研究在人工智能教育方面取得了重大进展，它们值得定期反思。当研究开始问“新的人工智能技术能负担得起什么？”

5.6中的许多问题是：伦理学适用于教育。例如，与许多其他领域一样，基础模型训练数据中的小偏差可能难以追踪[Dixon等人，2018；Bolukbasi等人，2016]，但对教育获取的公平性具有重要意义。此外，这些系统可能会经历高度的“反馈”，其中收集的数据不断地加强模型的决策。这个偏见问题超出了收集的数据，还包括对研究人员选择的应用的关注。下面，我们将讨论其他有关教育的具体问题。许多问题都围绕着这样一个问题：“谁会受益？”新技术是为谁创造的呢？

Removing teachers from the loop数字教育的目标之一，特别是基于人工智能的教育，是提高学习体验的生产力，从而使单位时间或单位成本发生更多的学习。人们可以想象，决策者可以利用这种提高的生产力，将人类教师从循环中移除。这些决定的长期影响很难预先知道。与优化以最大限度地“学习”的教育系统互动，是否会对社会情绪技能的发展产生不利影响？

它能创造更少的与他人互动的机会吗？孤独在年轻一代中正在上升[信诺2018]，教师是一种调节人工智能研究人员可能无法想象的压力的力量。

图16。该图展示了一个系统，它将来自各种模式（图像、语音、符号、文本）和语言的信号嵌入到一个通用的特征空间中。这样的特征空间允许思想跨模式和语言连接起来。教学相关的链接类型包括类比（不同语言的相似性）和对比（不同语言的不同概念），这两者都可以以相同的方式发生，也可以跨不同的方式发生。

**这项工作是由学习者完成的还是由基础模式完成的？**另一个挑战是如何有效地教授那些拥有基于基础模型的工具的学生。例如，如果学生与一个强大的生成模型一起工作，或者规范无效的合作并检测抄袭，这将会复杂得多。Visual Studio最近发布了GitHub副驾驶，这是一个基于GPT-3的AI对程序员[Chen等人，2021f]。这将如何改变计算机科学教育？对于初学者程序员来说，许多挑战对副驾驶或其技术上的继任者来说可能是微不足道的，这可能会破坏新手的学习经验。研究其他技术进步破坏了某些学科教育的例子将会很有指导意义，比如数学课堂中的计算器和语言课程中的谷歌翻译，这两种方法现在都与传统教学共存。

隐私和安全。在教育中使用人工智能的一个重要伦理问题是关于学生工作中隐私的严格法律准则。例如，在美国，学生信息受到家庭教育权利和隐私法案（FERPA）的保护。这些法律和法规对13岁以下的儿童尤其重要，他们的数据隐私和安全还受到了《儿童在线隐私保护法》的额外保护。此外，FERPA还限制教师分享具有个人身份的学生作品。这可能直接影响到共享用于培训和评估基础模型的数据的倡议。此外，还有一个问题是，基础模型的权重是否会以某种方式泄露其训练的数据（可能是私有的）。这些问题及其相应的方法类似于3.1中描述的挑战：医疗保健。

这个列表并不是详尽的，伦理方面的考虑会因项目而异。

Foundation models of student thought.

当构建具有包容性和快乐教育的人工智能工具时，有许多任务的基础模型可能是有用的。许多这些任务要求我们首先了解我们试图帮助的学习者，特别是在开放式工作的背景下。

什么需要一个基础模型来推理学生的理解？我们很容易想象一个基础模型已经被用于正确地回答一个数学问题，但是如何建立一个可以根据学生的答案来诊断学生理解中的错误的模型还不太清楚。为了探索这个主题，我们考虑了一个为从事开放式工作的学生提供反馈的案例研究，比如写短段、绘制物理图或编写代码。这种“反馈挑战”举例说明了基础模型如何为学习者提供帮助，也展示了基础模型研究的开放领域。

为了有效地向学生提供反馈，需要两种核心能力： (1)理解任务的主题（例如，物理或编码），以及(2)“注意”的诊断能力：教育中的一个技术术语，用于推断学生犯错的原因。对于典型教室中的典型学生互动，没有足够的数据可以让人工智能模型从头开始学习这两种中心能力。即使是有数百万学生的大规模课程，监督算法也几乎无法理解学生在简短的四行课程背后的复杂原因[Malik等人，2021年]。因此，反馈任务本质上需要从外部数据和经验中转移理解。

基础模型目前的存在，直接有助于这些功能中的第一个：理解特定的主题。例如，当学习对简短的编程问题提供反馈时，像GPT-3这样的基础模型可以通过几个例子有效地理解流畅的代码的样子。这一方向上的一些研究已经开始探索能够快速适应新主题领域的问题的基础模型。类似地，基础模型还可以集成多种信息模式，如任务提示符的文本、问题中的图表，甚至是提供给助教的评分标题的内容。这种统一的表征能力可以帮助基础模型通过更丰富的信息来源来理解一个主题内容。作为一个具体的案例研究，许多这些见解被作为算法的核心组件，能够在斯坦福大学的计算机科学入门中中课程评分，与人类教学助理相同[Wu et al. 2021e]。在这种情况下，主题编码是建立在一个基础模型上的，该模型为每个问题的主题建立了相应的小数据集。一般来说，我们可以想象利用不同的数据来源来使基础模型适应不同的主题事项。例如，数学改编可以使用数学网站或教科书[Shen et al. 2021b]或历史学生在毕业台等平台上回答；口语理解可以利用广播档案或播客；像创意写作这样的领域可以看到像古登堡计划这样的大型数字档案。

与主题相比，将基础模型应用于将观察到的错误映射到学生思维过程中的缺陷的任务，并没有被很好地探索。教师“注意到”学生犯了一个特定错误背后的原因的能力是反馈挑战的一个关键组成部分。例如，想象一下，一个学生学习两位数加法，回答“什么是26+19？”他的回答是“315”。花点时间，试着猜猜他们为什么会给出答案，以及他们有什么误解。 45.这种注意能力可以作为基础模型的适应任务（4.3：适应），甚至可以作为推理任务（2.4：推理）。

虽然困难，但训练人工智能系统注意是一个可以实现的目标。在课堂上，在给定领域的学习任务中，学生如何得出他们的答案有一些可概括的模式。可以直接用于这一适应任务的标记数据，如[Wu et al. 2021e]中对学生工作的书面反馈，通常由不同数据集中的教师私人保存。然而，公共可访问的数据，如堆栈溢出交互，也可以创造性地用于调整基础模型以引起注意。一些研究还探索了从教师那里提取学生如何犯错的生成性描述的有效方法[Malik等人，2021；古尔瓦尼和Singh 2013]——这些手写的生成模型也可以用于生成自适应数据，以帮助基础模型诊断学生的错误。

Foundation models for instruction.

对学生理解的推理是迈向第二个目标的重要一步：提供包容性、高质量的指导。教学的计算方法侧重于不同的任务，如内容个性化[康纳2019]，问题生成[郭等2016；威利斯等2019；斯里瓦斯塔瓦和古德曼2021]，自适应课程设计[曼德尔等2014；多鲁迪等人2017]，以及预测教师干预[钱德拉塞卡兰和Kan 2019；Alrajhi等人2021年]。在本小节中，我们将讨论基础模型如何在教学学生中有用。

由于有效的教学需要对学生理解的推理，所以之前关于理解主题和“注意”的讨论是非常相关的。然而，提供有效的教学需要一种额外的能力：理解教学法[McKenzie 2003]。这概括了对指导学生的技巧的有效理解，比如问苏格拉底式的问题或提供类比/对比的案例；使用鼓励或支持的语言；为学生量身定制问题的难度；并生成与学生兴趣和背景相关的例子。

如何适应基础模型来理解良好的教学教学方法？一个想法是考虑使用数据源进行适应，其中指令是主要角色。例如，来自像堆栈溢出流这样的问答论坛的数据可能被用来建立一个导师，可以重复常见的苏格拉底式问题。类似地，一个基于维基百科等百科全书的基础模型可能能够为学生提出的（通常）事实正确的问题提供答案。还有一些公共数据来源，如教科书、讲座视频、课程计划和分级反馈，这些数据来源共同包含了重要的教学行为，可以通过基础模型进行调整（图15）。

另一个基于基础模式的教学适应挑战是学习如何与像老师一样的学生说话。教师使用的语言通常不同于一般人群使用的语言。教师接受的理想培训是，要尊重学生说话，并有意帮助他们与所学习的学科形成积极的认同[Truax 2018]。比如微软2016年的推特机器人“Tay”，这个聊天机器人在现场部署后的24小时内就开始产生仇恨言论，它向我们展示了在教育中明确解释这一因素的重要性。为了训练一种在课堂上受到专业教师影响更大的语言模型，我们或许可以将基础模型应用于诸如课堂视频或录制的办公时间视频等数据源。

上面的适应问题是由于不同的教育环境在合适的语言类型上是显著不同的：例如，五年级科学课的有效教学看起来与大学物理课的完全不同，更不用说大学文学课了。这提出的技术挑战超出了在典型的NLP域转换设置中所面临的挑战(例如，基于新闻文章的问题回答vs。因为基础模型需要在语调和语言方面进行流畅的适应性，而不仅仅是它所产生的事实内容。

除了健全的教学技巧和教学语言之外，基础模型又如何能提供更有洞察力的教学形式呢？2.1：本文的语言强调了婴儿可以在短时间内获得非常复杂的语言。正如作者所指出的那样，基础模型训练和人类语言习得之间的一个显著区别是，“人类语言是基于现实世界的：例如，婴儿的看护人在谈论物体时指向这些物体。”同样的见解也可以激发人们关于如何将基础模型用于生成性教育的想法。当面对现实世界的类比和对比时，人类似乎学得很好，这些对比可能是他们当前的背景和过去的经验之间的交叉.例如，在教授手语时，老师可能会使用一个类比，比如“‘早晨’这个单词的手的形状看起来像太阳升起”，或者注意“你刚刚做的手的形状看起来和另一个单词非常相似，所以让我们关注它们的区别。”另一个例子是，当教已经懂阿拉伯语和英语的学习者斯瓦希里语时，老师可以指出斯瓦希里语8的单词（发音为nane）是一个“假朋友”，在发音上与英语单词9（发音为9）相似。能够整合多模态数据的基础模型有潜力进行这些在儿童语言学习中典型的丰富的类比和比较（图16）