通过问答改进和高效的会话槽标签

Gabor Tibor Fuisz ∗ , Ivan Vulić, Samuel Gibbons, Inigo Casanueva, Paweł Budzianowski PolyAI Limited, London, UK ivan@poly-ai.com, pawel@poly-ai.com

摘要

基于Transformer的预训练语言模型（PLM）在大多数自然语言理解（NLU）任务中提供了无与伦比的性能，包括一系列问答（QA）任务。我们假设QA方法的改进也可以直接在dialog NLU中使用；但是，对话任务必须重新格式化为QA任务。特别是，我们通过QA光学系统对NLU for dialog的关键组件插槽标记（slot labeling，SL）进行建模和研究，旨在提高其性能和效率，并使其在处理有限任务数据时更有效、更具弹性。为此，我们做出了一系列贡献：

1）我们展示了QA调谐PLM如何应用于SL任务，达到最新水平的性能，在这种低数据状态下，获得了显著的收益。

2）我们建议仅仅通过自然语言，利用上下文信息来处理不明确的值。3）通过使用轻量级但有效的适配器模块，提高了面向QA的微调的效率和紧凑性。4）我们将QA数据集的一些质量与其大小进行权衡，使用更大的自动生成的QA数据集进行QA调优，从而获得更高的性能。最后，我们的分析表明，在PLMs的支持下，我们新的基于QA的时隙标记模型在高数据状态下达到了性能上限，需要在未来的工作中使用更具挑战性和更细致的基准。

1引言和动机

面向任务的对话系统允许用户使用自然语言进行交互，以解决诸如餐厅预订、酒店协助和旅行信息等明确的任务（Young，2002；Raux等人，2005；Budzianowski等人，2018）。Slot labeling（SL）是这些系统的一个关键组件，其目的是填充与域本体中预定义的插槽相关的正确值：例如，酒店预订对话框系统预计将使用从用户话语中提取的值（例如，下周五，4）填充诸如入住日期和客人数量等插槽。然而，手动构建此类领域本体和相应的带注释示例是昂贵、耗时的，通常需要领域专家作为数据设计者。
    因此，最近，很少有镜头和数据高效的SL引起了很多注意力（Hou等人，2020年；Henderson和Vulić，2021；Liu等人，2020年），其目的是通过仅从少数几个任务注释示例中学习来最大限度地提高数据效率。
    至于过多的其他NLP任务（邱等人，2020；RasuVoSkaaIa等人，2021），这些模型通常依赖于基于transformer的预训练语言模型（PLMS）（德夫林等人，2019；刘等人，2019），再加上SL特定的微调（亨德森和Vulic of，2021）。
    并行地，机器阅读理解得到了基于PLM的改进和大规模数据集的创建（RajPurkar等人，2018；Fisher等人，2019），甚至在一系列挑战中与人类水平的性能相匹配（德夫林等人，2019；张等人，2021）。问答（QA）模型的这些进步激发了将对话系统重新格式化为QA系统的想法（McCann等人，2018年）。这种qareformatting步骤可以是“全局的”（即，它可以应用于整个系统），也可以应用于特定的NLU组件，就像在对话状态跟踪中广泛尝试的那样（Gao等人，2019年，2020年；Zhou and Small，2019年）。
    最近，NAMZIFIFAR等人（2021）提供了初步的证据，如意图检测和时隙标记等NLU任务也可以由PLMS支持的基于跨度的QA任务构成：特别是对于SL，在每个时隙中定义自然语言的问题，并且由微调PLM给出的答案填充时隙值。1他们基于QA的NLU方法的性能提升，尤其是在低数据场景中，表明QA方法对NLU建模的适用性。
    受这一新兴研究方向的启发，在本文中，我们提出了QASL框架：插槽L标记的问答，它为将SL重新格式化为QA任务提供了新的思路，并从多个关键方面对其进行了广泛研究，同时也旨在与“现实世界”的productionready设置保持良好的一致。我们将这些核心方面总结如下：（1）将SL重新表述为QA使我们能够从现成的PLM和面向QA的系统适应感兴趣的对话领域中获益。这些适应性在域和数据集之间是否强大，尤其是在低数据区？此外，它们对于所选择的PLM和QA数据集是否是基于QA的自适应微调（RUDER，2021）？
    （2）为了提高效率，当前基于span的SL模型只对最新的用户输入起作用；然而，在某些情况下，这种简化会降低性能，因为对话的上下文对于消除重叠时段之间的歧义是必要的（见图1）。我们如何在保持效率的同时，使QASL适应对话固有的上下文性质？。
    （3）完全微调PLM会带来巨大的训练和运营成本，尤其是当需要专门的每槽SL模型时（Namazifar等人，2021；Henderson和Vulic，2021；Mehri和Eskénazil，2021）。有没有可能建立更有效的微调和调整方法？这种更轻量级的QASL机型能否跟上全模型微调的性能？。
    （4）利用更大的自动生成的QA资源进行微调的QASL模型也能获得高性能吗？这样的资源能否与更小（但更高质量）的手工QA资源相结合？。
    总之，我们进一步推动了对基于QA的对话SL方法的关键优势和局限性的理解。拟议的QASL框架适用于广泛的PLM，并通过添加到问题中的自然语言提示整合了上下文信息（图1）。在标准SL基准和基于QA的不同资源上进行的实验证明了QASL的实用性和健壮性，具有最先进的性能，在低数据场景中观察到了最显著的收益。
    我们还验证了为SL任务人工创建的QA资源的可行性。最后，我们证明了特定于时隙的SL模型可以在预训练主干PLM参数小于1%的情况下进行微调，同时保持强大的SL性能。

图1：使用上下文信息将插槽标签重新格式化为QA。S、 U、Q、A分别表示系统、用户、问题和答案（虚线）。在前面的对话回合中显示的请求的时间段（虚线）将添加到当前回合中的所有问题中。第二个例子显示了上下文信息对时隙消歧至关重要的情况。

2 QASL：方法论

预备赛。NAMAZIFAR等（2021）之后，我们将SL任务设为“纯”问题回答问题。这种对QA范式的重新表述将领域本体中的插槽列表映射到相应问题的列表Q。例如，吃角子老虎机的日期，从_位置到_位置，可以作为简单的自然问题提出，如下所示：“什么日期？”，“从哪里来？”，“去哪儿？”，分别地参见图1。2在每个对话回合中，给定输入上下文C（可能包括一个或多个先前回合），将使用附加到C的所有预定义问题顺序查询模型，并返回一个答案，作为从输入用户话语中提取的范围，再次参见图1。
简而言之，微调阶段。我们从任何基于标准transformer（Vaswani等人，2017年）的PLM开始，例如BERT（Devlin等人，2019年）、RoBERTa（Liu等人，2019年）或ELECTRA（Clark等人，2020年）。接下来，在称为QA调优的第1阶段中，使用大型QA数据集（如SQuAD（Rajpurkar et al.，2018）或MRQA（Fisch et al.，2019））使用基于跨度的QA目标对基础PLM进行微调。第1阶段的目标是使模型适应跨度提取任务（Ruder，2021）和（大型和通用）QA数据，并通过这种方式有效提高模型处理许多不同问题的能力。然后，在称为QASL调优的第2阶段中，针对特定对话域进一步微调模型。在此阶段，模型进一步专门处理与领域本体中的插槽相对应的领域内问题的小子集。

2.1具有上下文信息的QASL

在具有多个时隙的复杂域中，值经常会重叠，这可能会导致严重的预测歧义。3.正确的预测只能根据对话的上下文做出。
    此外，自然对话具有混合主动性，用户可以提供比要求的更多的信息，或者意外地更改对话主题（Rastogi等人，2020年）。传承语境知识是成功对话系统的基本特征（Heck等人，2020年）。然而，目前的基于SL的SL模型（亨德森和Vulic As，2021；NasZiFar等人，2021）采用的一种标准的直截了当的方法来提高简单性和效率，只在最新的用户话语中进行推理，而没有上下文，或者为系统明确请求的时隙保留额外的参数。
    简单地说，当前的许多方法都抛弃了潜在的关键上下文信息。
    在实践中，以前的对话回合中的一些上下文信息可以形成所谓的请求时隙（Coope et al.，2020）：这意味着当前的对话回合会附加系统请求的时隙注释（Coope et al.，2020；Rastogi et al.，2020），帮助消除时隙歧义。我们建议通过简单地将请求的插槽特性（作为自然语言提示）附加到提出的问题，而不进行任何架构修改，向QASL提供该信息，如图1所示。例如，如果请求的时隙出现在时隙到达时间，并且当前问题与时隙日期有关，那么最后一个问题采用以下形式：“您要查找的到达时间是什么日期”，其中是一个特殊的分隔符标记。
    当请求多个时隙时，它们都会附加到初始问题中，每个时隙由一个分隔符标记分隔。

2.2优化QA-Tuning

QASL QA调谐的第1阶段涉及在最终任务QASL调谐之前，将输入PLM自适应转换为（通用）跨度提取器。我们还建议进一步细化阶段1，并将其划分为两个子阶段：（a）阶段1a，然后重点对更大但更嘈杂的自动生成的QA数据集进行精细调整，如PAQ（Lewis等人，2021）；（b）阶段1b继续阶段1a的输出，但利用更小的、手动创建的、因而质量更高的QA数据集，如第2班。0（Rajpurkar等人，2018年）和/或MRQA（Fisch等人，2019年）。
这种改进的多步Quununn程序的原理是，模型1）应该利用大量的自动生成（QA）数据和与最终任务对齐的任务目标（亨德森和Vulic’，2021），即，大规模自适应微调（RUDER，2021）在2）获得“抛光”（即，进一步专门针对最终任务）利用较少的高质量数据。
我们将依赖于改进的第1阶段程序的QASL模型称为QASL+。

2.3高效QASL

原则上，可以使用一个模型为不同部署中所有域中的所有插槽提供服务。
    然而，这防止了不同数据源数据的分离，而从数据隐私的角度来看，这通常是必需的。另一方面，存储从大参数化PLMS导出的单独的槽特定和域特定模型是极其低存储效率的，并且它们的微调可以是非常慢的（亨德森和Vulic As，2021）。4因此，对于多个域和槽，模型的紧凑性和微调效率成为关键特征。
    为了满足这些要求，我们在第2阶段的QASL框架内依赖并试验了三种不同的效率和紧凑性导向方法，如图2所示：（1）仅微调QASL模型的头部，该头部负责预测答案范围的开始和结束。所有其他参数保持固定/冻结。大多数基于PLMs的QA系统都包含一个简单的前馈层作为头部，使用≤ 0 . 所有参数的1%。
    （2）使用轻型可调瓶颈层，即适配器（Houlsby et al.，2019；Pfeiffer et al.，2021），插入基础模型的每个Transformer层中。微调时，仅更新适配器参数，而模型的所有其他参数保持不变：即通常≤ 1%的PLM的原始参数容量得到更新（菲佛等人，2021）。
    （3）仅微调注意力层的偏差参数：这种方法称为比特拟合（Zaken et al.，2021），实际上微调小于0。完整参数的1%。
    值得注意的是，在之前的工作中，仅在完整任务数据设置中评估了适配器和仅偏置调谐（即BitFit）。在这里，我们的用例场景增加了另一层复杂性，因为我们在SL任务的几个镜头场景中对它们进行了评估。

图2:QASL使用的不同有效微调方案及其相应参数子集的简洁说明（见§2.3）。

3.实验装置

潜在PLM。我们选择了一组在其他NLP任务中具有良好性能记录的既定PLM：RoBERTa（Liu等人，2019年）（其基础和大型变体），以及BERT–DistilBERT的蒸馏版本（Sanh等人，2019年）。然而，我们注意到，QASL也适用于其他PLM。5个质量保证数据集（第1阶段）。我们用两个手动创建的QA数据集进行实验，（i）第2小队。0（ra5-jpurkar等人，2018年）和（ii）MRQA（Fisch等人，2019年）；和（iii）一个自动生成的QA数据集，PAQ（Lewis等人，2021）。二队。0也被用于NAMAZIFAR等人的前期工作（2021）：它包括150 K QA对，包括50 K负对，没有任何答案。MRQA数据集是18个现有QA数据集的集合，跨越近200万个QA对，转换为与2班相同的格式。0 . 为opendomain QA创建的PAQ数据集由超过6500万个自然语言QA对组成。由于硬件限制，我们从完整的PAQ中随机抽取两个较小的版本，跨越5M和20M QA对，分别表示为PAQ 5和PAQ 20；他们也适应了同一个2队。0格式。
    通过选择这些不同的QA数据源，我们验证并比较了它们在面向SL的自适应QA微调中的有用性，其范围超出了第二班。0作为标准的数据集。我们还测试了与手动创建的团队和MRQA相比，自动生成的数据集（即PAQ）的规模是否可以弥补其较低的数据质量。
    时隙标记数据集：第2阶段和评估。
    我们在两个标准和常用的SL基准上进行了实验：（i）restaurants8 k（Coope等人，2020）和DSTC8（Rastogi等人，2020），这两个基准都包含在已建立的dialoglue基准（Mehri等人，2020）中。
    餐厅-8K包含来自商业餐厅预订系统的对话，涵盖预订任务所需的5个时段：日期、时间、人员、名字和姓氏，总共有8198个示例，有关更多详细信息，请参阅Coope et al.（2020）的工作。
    DSTC8是在Dialog System Technology Challenge（DSTC）8挑战赛期间引入的，然后Coope等人（2020年）将其改编为跨度提取任务。它包括超过20k个带注释的多域、面向任务的人类和虚拟助手之间的对话。这些对话涉及与跨越4个域（公交车、租车、活动和住宅）和12个插槽的服务和API的交互；见Rastogi等人（2020年）。
    类似于先前的工作（Coope等人，2020；亨德森和Vulic），2021；Mehri和埃斯科纳粹主义，2021），我们也做测试，我们在两个SL数据集的较小的少量镜头数据样本上进行微调，同时总是在相同的（完整的）测试集上进行评估。餐馆——8K附带8个不同的少数镜头数据样本，称为1/128、1/64、1/32、1/16、1/8、1/4、1/2、1（完整数据集的比例）。同样，我们对完整DSTC8的1/32、1/16、1/8、1/4、1/2、1比例进行微调。6 QASL：微调设置和超参数。
    我们的QASL实施基于transformer库（Wolf等人，2020年）。每个PLM配备一个QA头，该QA头是一个前馈网络，有两个输出，用于计算跨度开始逻辑和跨度结束逻辑。
    第1阶段在8个V100 GPU上进行，共2个时代，每个GPU每批24个QA对，依靠Adam优化器（Kingma和Ba，2015），学习率为3 e-5。我们调查了以下8个阶段1（即QA调整）机制：团队、MRQA、PAQ5、PAQ20（基本QASL）、PAQ5团队、PAQ5-MRQA、PAQ20团队和PAQ20-MRQA（QASL+，见§2.2）。
    除非另有说明，第一阶段的基本设置是QA调整阵容。
    第二阶段（QASL调整）以32码的批量进行，同样是Adam，学习率为2E-5。
    所有呈现的结果在5次不同的运行中取平均值。我们遵循先前工作的设置（Coope等人，2020；亨德森和Vulic），2021；Mehri和埃斯克纳粹主义，2021），其中所有超参数都固定在所有域和槽中。报告的评估指标是给定任务/域中所有时段的F1平均分数。7个基线。我们比较QASL与最近三个国家的最先进的SL模型：8凸（亨德森和Vulic的，2021）定义了一个新的SL为导向的预训练目标，被称为成对句完形填空，结合SL调谐仅一个子集的参数。它表现出强大的性能，尤其是在少数镜头场景中。
    GenSF（Mehri和Eskénazil，2021）采用了预先训练的DialoGPT模型（Zhang等人，2020），并控制/限制其生成自由，以反映特定的对话领域；同时，它调整下游SL任务，以便更好地与（微调的）DialoGPT的体系结构保持一致。
    QANLU（Namazifar et al.，2021）还通过对DistilBERT Base模型（Sanh et al.，2019）进行任务内微调，将SL重新定义为QA任务（见§2），该模型首次在第2班进行微调。0 .
    第二阶段：设置中的高效QASL。Wolf[E]库的默认大小是PLE的头，其中a的头大小[E]是PLE的头。我们将QA头定义为一个前馈网络，包含两层，覆盖≈ 1米参数。对于适配器的实验，我们依赖于轻量级但有效的菲佛体系结构（菲佛等人，2021），使用除了第一和最后的transformer层的所有16的约化因子，其中使用了8的因子。9

4结果和讨论

QASL对基线。在第一个实验中，我们针对所有基线模型和不同级别的数据可用性对QASL进行基准测试，以进行第2阶段SL调优。我们假设2队。0作为所有模型（包括基线QANLU）第1阶段的基础QA数据集，不在此处集成上下文信息（见§2.1）。
    图3绘制了餐馆8K和10的结果，并揭示了几个发现。首先，有迹象表明，较大的车型会带来性能提升：作为基础模型，RoBERTa Large略强于RoBERTa Base，尽管RoBERTa Base也显示出非常有竞争力的整体性能。虽然大多数模型在全数据模式下都达到了非常相似和非常高的性能，但在少数快照设置中，模型之间的差异变得更加突出。
    在数据最稀缺的情况下：1/64和1/128，所有基线中支持带RoBERTa-s的QASL的收益最大。11.12使用上下文信息。我们现在调查以请求时隙的形式整合上下文信息是否会提高SL性能（见§2.1）。除非另有说明，否则从现在起，我们假设QASL始终集成请求的插槽信息。表1总结了具有非空请求时隙的测试示例子集（即所有3731个测试示例中的897个）的结果。
    尽管测试集仅包含86个可能导致歧义的示例，但具有请求的时隙信息的变量始终会产生更高的F1分数。
    图4中提供的所有测试示例的DSTC8的4个域的结果显示了与基线SL模型GenSF和CONVENCE非常相似的模式和改进，尤其是在少数镜头场景中。由于DSTC8涵盖的模棱两可的测试示例较少，因此使用上下文变量的收益不如在餐馆-8k中显著。
    此外，我们观察到极高的绝对分数，尤其是在更高的数据设置中，这是标准SL基准在未来可能不足以区分SL模型的第一个迹象。我们将在§5后面对SL基准进行更细粒度的分析。
    在第二阶段进行高效微调。现在，我们将RoBERTa Base模型作为我们的基础PLM进行以下所有实验：它在使用≈ 参数比RoBERTa Large少3倍。表2给出了三种有效微调方法（见§2.3）在少数镜头场景下对餐馆-8k获得的分数。
    总体而言，结果表明，很少的镜头场景是非常有挑战性的有效的微调方法，通常只在以前的工作中的完整数据场景进行评估（ZAKEN等人，2021）。到目前为止，基于适配器的方法是最有效的，对于完整的模型微调非常有竞争力，甚至在除两个最少的数据场景之外的所有场景中都优于它。其他两种有效的方法在所有训练机构中都远远落后。总之，这些结果从经验上验证了基于适配器的微调在性能和效率之间提供了一个可行的折衷方案，即使在低数据状态下也是如此：它只进行微调≈ 1.5M参数，转换为5MB存储空间，而完全微调需要110M参数（即550MB）。
    不同的第一阶段微调方案。请注意，到目前为止，结果仅基于与2队一起调整的QA模型。第1阶段为0。现在，我们测试阶段1中QA资源对最终SL性能的影响。表3给出了8个第1阶段制度的结果（见§3），在第2阶段的3个最小餐厅的8 k训练数据拆分上使用QASL进行了微调。
    当在第一阶段仅使用一个QA数据集时，出现了几种趋势。首先，两个手动创建的数据集中较大的一个，即MRQA，比SQuAD2产生一致的收益。0，所有训练数据拆分。
    使用更大但自动创建的PAQ5和PAQ20与PAN相比，甚至是更好的，但它们不能匹配MRQA的性能。
    这证实了QA数据集的质量和数据集的大小在PLM的两阶段适配到有效的插槽标签机中起着重要作用。
    拥有更多的PAQ数据通常会产生更差的性能：似乎来自更自动生成的QA对的更多噪声会被插入到微调过程中（参见PAQ20和PAQ5）。
    然而，仅用自动生成的数据调整的QASL仍然与PAN 2的调谐一致。0 . 这证明了大规模（自动获得的）QA数据集在与策划的QA数据（如SQuAD）有少量重叠的领域中用于基于QA的插槽标记的潜力。在使用PAQ的情况下，球队获得的最大收益来自两个位置：名字和姓氏。
    这源于这样一个事实：在维基百科相关的语料库中，找到合适的人的名字是一项常见的任务。最后，在三次训练数据分割中，有两次通过改进的第1阶段（PAQ5-MRQA变体）获得了最高分数，但较昂贵的PAQ5-MRQA制度相对于MRQA的收益大多无关紧要。

图3:RESTAURANTS-8k上插槽标签模型的比较。QASL和QANLU的第一阶段在2队进行。0.x轴显示用于SL调谐的训练数据的分数（见§3）。

表1:QASL在没有和有请求的时隙信息的情况下，对具有非空请求时隙（891个测试示例）的8k测试示例子集的比较。

表2：整个餐厅所有时段的平均F 1分数-8k测试数据，第2阶段采用高效微调架构（见§2.3），以及与完整模型微调的比较。

图4:DSTC 8数据集跨4个域的结果。GenSF的性能取自原始文件，仅适用于两种数据分割：1（完整数据）和1/4。QASL乐队为罗伯塔·拉格演唱了美妙的曲调。0，并在阶段2中使用上下文请求的插槽信息。

表3：餐厅所有时段的F1分数——第1阶段不同QA调整机制的8K测试数据。

5 SL数据分析和审计

在我们的比较中，在许多模型的完整数据设置中检测到较高的绝对分数（例如，见图3、表2、图4），这表明当前的SL基准可能无法区分最先进的SL模型。与100%性能的剩余差距也可能是由于注释错误和不一致。因此，我们将更详细地检查这两个SL基准。
    在RESTAURANTS-8k上，我们发现添加上下文信息可以有力地解决单字歧义的问题。
    我们确定了86个示例，其中话语是一个数字，目的是测试模型使用请求时隙的能力，因为它们可以指时间或人数。
    添加请求的插槽信息可以消除除2个以外的所有错误。另一组具有挑战性的例子涉及罕见的名字。大多数问题都来自于名字和姓氏的混淆，因为这两个名字都是同时要求的。
    在检查RESTAURANTS-8k的测试集时，我们发现了几个注释问题。经过分析的模型在时间段内表现最差。
    这在一定程度上是因为人们可以用多种方式来表达时间，但也有注释方面的困难。
    在测试集中，一些时间示例的格式是time pm，而另一些使用time p.m.：简单地说，pm后缀是否被注释是不一致的。另一个不一致之处涉及介词注释，如on、at。在一些例子中，介词包含在答案中（例如早上8点有空桌子吗），而在另一些例子中则没有。类似的挑战涉及在日期答案中注释“the”，例如9月的第一个星期日而不是9月的第一个星期日。这导致模型选择8月23日，而不是8月23日。另一个注释不一致涉及人员槽。在一些例子中，只有具体的数字被注释，其他时候下列名词也被注释：4人vs 4。
    附录B中提供了DSTC8的类似分析。鉴于最前沿的SL模型只有在提供精确的跨度匹配（见§3）的情况下才会得到奖励，因此它们似乎主要由于检测到的注释不一致和训练和测试数据中的错误而受到惩罚。纠正这些不一致将进一步提高它们的性能，甚至可以考虑在完整的数据设置中“解决”当前的SL基准。因此，我们的简单分析也暗示，社区应该在未来的工作中投入更多精力，创建更具挑战性的SL基准。

6相关工作

对话框中的插槽标签。已经提出了多种方法来利用诸如BERT（Devlin et al.，2019）和RoBERTa（Liu et al.，2019）等PLM的语义知识进行意图分类和对话状态跟踪（Chen et al.，2019；Casanueva et al.，2020；Louvan and Magnini，2020；Gao et al.，2020）。PLMS的潜力也被利用在端到端多域系统中，提供了模块化系统的设计简单性和优越性能（HOSESENI ASL等人，2020；彭等人，2021）。
    SL任务也得益于PLMs的语义能力。一系列模型采用通用句子编码器（Devlin等人，2019年），并训练特定于任务的头部来提取时隙值跨度（Chao and Lane，2019年；Coope等人，2020年；Rastogi等人，2020年）。在最近的工作中，亨德森和Vulic（2021）定义了一种新的基于SL的预训练目标。提出的凸模型在SL任务中取得了实质性的改进，尤其是在低数据区。然而，与QASL相反，它需要在微调过程中对额外的上下文相关特性进行训练。另一项工作是通过调整生成性语言模型，将时隙标记重新格式化为自然语言反应生成任务。Madotto等人（2020b）表明，这可以通过以任务为导向的情境启动，以零拍的方式完成。GenSF模型（Mehri和Eskénazil，2021）通过约束生成将预先训练的DialoGPT模型用于SL任务。这些方法也缺乏上下文化，不考虑效率导向的微调。
    最接近我们的工作是QANLU（NaZaFiar等人，2021），它也将SL重新设计为QA任务，显示了在低数据状态下的性能增益。然而，QANLU不包含上下文信息，不试验不同的QA资源，也不允许进行高效紧凑的微调。
    对话框中的有效方法。最近的对话工作对训练和微调的效率方面越来越感兴趣。Henderson和Vulic（2021）通过微调完全预训练模型中解码层的一小部分来实现紧凑性。如前所述，它们的凸面框架受到训练前状态的特殊性的限制，不能轻易地与大量不同的PLM组合。
    通过在预训练的transformer中插入小的适配器模块（HoussBy等人，2019；菲佛等人，2021），可以实现具有良好便携性的高效微调。适配器通过按照风格/主题对特定于任务的模块进行训练，使在线系统能够生成可控的响应（Madotto等人，2020a）。通过适配器注入，王等人（2021）；Ranget等人（2021）克服了对话实体的不一致性，同时实现了有利的计算占用，使得适配器特别适合于多域专门化。然而，QASL是成功地将适配器整合到SL任务中的第一个例子，它还特别关注最具挑战性的低数据场景。

7结论

我们已经证明，将对话的时隙标记（SL）重新格式化为问答（QA）任务是一种可行且有效的SL任务方法。我们对两个标准SL基准进行了综合评估，验证了所提出的QASL方法的有效性和稳健性，与最先进的SL模型相比产生了改进，尤其是在最具挑战性、数据较少的情况下。QASL是一个非常通用的框架，它可以从手动创建和自动创建的QA资源中获益，并且适用于一系列预先训练的语言模型。
最后，我们展示了如何有效地微调特定领域的SL模型。

参考文献

Paweł Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Iñigo Casanueva, Stefan Ultes, Osman ramadan, and Milica Gašić. 2018. MultiWOZ a large-scale multi-domain wizard-of-oz dataset for task-oriented dialogue modelling . In Proceedings of EMNLP 2018 , pages 5016–5026.

Iñigo Casanueva, Tadas Temčinas, Daniela Gerz, Matthew Henderson, and Ivan Vulić. 2020. Efficient intent detection with dual sentence encoders . In proceedings of the 2nd Workshop on Natural Language Processing for Conversational AI , pages 38–45.

Guan-Lin Chao and Ian Lane. 2019. BERT-DST: scalable end-to-end dialogue state tracking with bidirectional encoder representations from transformer . Proceedings of Interspeech 2019 , pages 1468–1472.

Qian Chen, Zhu Zhuo, and Wen Wang. 2019. BERT for joint intent classification and slot filling . CoRR , abs/1902.10909.

Kevin Clark, Minh-Thang Luong, Quoc V Le, and Christopher D. Manning. 2020. Electra: pretraining text encoders as discriminators rather than generators . In Proceedings of ICLR 2020 .

Samuel Coope, Tyler Farghly, Daniela Gerz, Ivan Vulić, and Matthew Henderson. 2020. Span-ConveRT: Few-shot span extraction for dialog with pretrained conversational representations . In Proceedings of ACL 2020 , pages 107–121.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding . In Proceedings of NAACL-HLT 2019 , pages 4171–4186.

Adam Fisch, Alon Talmor, Robin Jia, Minjoon Seo, eunsol Choi, and Danqi Chen. 2019. MRQA 2019 shared task: Evaluating generalization in reading comprehension . In Proceedings of the 2nd workshop on Machine Reading for Question Answering , pages 1–13.

Shuyang Gao, Sanchit Agarwal, Di Jin, Tagyoung Chung, and Dilek Hakkani-Tur. 2020. From machine reading comprehension to dialogue state tracking: Bridging the gap . In Proceedings of the 2nd Workshop on Natural Language Processing for conversational AI , pages 79–89.

Shuyang Gao, Abhishek Sethi, Sanchit Agarwal, tagyoung Chung, and Dilek Hakkani-Tur. 2019. Dialog state tracking: A neural reading comprehension approach . In Proceedings of SIGDIAL 2019 , pages 264–273.

Tianyu Gao, Adam Fisch, and Danqi Chen. 2021. Making pre-trained language models better few-shot learners . In Proceedings of ACL-IJCNLP 2021 , pages 3816–3830.

Michael Heck, Carel van Niekerk, Nurul Lubis, christian Geishauser, Hsien-Chin Lin, Marco Moresi, and Milica Gasic. 2020. TripPy: A triple copy strategy for value independent neural dialog state tracking . In Proceedings of SIGDIAL 2020 , pages 35–44.

Matthew Henderson and Ivan Vulić. 2021. ConVEx: Data-efficient and few-shot slot labeling . In proceedings of NAACL-HLT 2021 , pages 3375–3389.

Ehsan Hosseini-Asl, Bryan McCann, Chien-Sheng Wu, Semih Yavuz, and Richard Socher. 2020. A simple language model for task-oriented dialogue . In proceedings of NeurIPS 2020 .

Yutai Hou, Wanxiang Che, Yongkui Lai, Zhihan Zhou, Yijia Liu, Han Liu, and Ting Liu. 2020. Few-shot slot tagging with collapsed dependency transfer and label-enhanced task-adaptive projection network . In Proceedings of ACL 2020 , pages 1381–1393.

Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. 2019. Parameter-efficient transfer learning for NLP . In Proceedings of ICML 2019 , pages 2790–2799.

Chia-Chien Hung, Anne Lauscher, Simone Paolo Ponzetto, and Goran Glavaš. 2021. DS-TOD: efficient domain specialization for task oriented dialog . CoRR , abs/2110.08395.

Diederik P. Kingma and Jimmy Ba. 2015. Adam: A method for stochastic optimization . In Proceedings of ICLR 2015 .

Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2020. ALBERT: A lite BERT for self-supervised learning of language representations . In proceedings of ICLR 2020 , volume abs/1909.11942.

Patrick Lewis, Yuxiang Wu, Linqing Liu, Pasquale Minervini, Heinrich Küttler, Aleksandra Piktus, pontus Stenetorp, and Sebastian Riedel. 2021. PAQ: 65 million probably-asked questions and what you can do with them . CoRR , abs/2102.07033.

Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2021. pretrain, prompt, and predict: A systematic survey of prompting methods in Natural Language Processing . CoRR , abs/2107.13586.

Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. RoBERTa: A robustly optimized BERT pretraining approach . CoRR , abs/1907.11692.

Zihan Liu, Genta Indra Winata, Peng Xu, and Pascale Fung. 2020. Coach: A coarse-to-fine approach for cross-domain slot filling . In Proceedings of ACL 2020 , pages 19–25.

Samuel Louvan and Bernardo Magnini. 2020. Recent neural methods on slot filling and intent classification for task-oriented dialogue systems: A survey . In Proceedings of COLING 2020 , pages 480–496.

Andrea Madotto, Etsuko Ishii, Zhaojiang Lin, Sumanth Dathathri, and Pascale Fung. 2020a. Plug-and-play conversational models . In Findings of the association for Computational Linguistics: EMNLP 2020 , pages 2422–2433.

Andrea Madotto, Zihan Liu, Zhaojiang Lin, and pascale Fung. 2020b. Language models as few-shot learner for task-oriented dialogue systems . CoRR , abs/2008.06239.

Bryan McCann, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. 2018. The natural language decathlon: Multitask learning as question answering . CoRR , abs/1806.08730.

Shikib Mehri, Mihail Eric, and Dilek Hakkani-Tür. 2020. DialoGLUE: A natural language understanding benchmark for task-oriented dialogue . CoRR , abs/2009.13570.

Shikib Mehri and Maxine Eskénazi. 2021. GenSF: Simultaneous adaptation of generative pre-trained models and slot filling . In Proceedings of SIGDIAL 2021 , pages 489–498.

Mahdi Namazifar, Alexandros Papangelis, Gokhan Tur, and Dilek Hakkani-Tür. 2021. Language model is all you need: Natural language understanding as question answering . In Proceedings of ICASSP 2021 , pages 7803–7807.

Baolin Peng, Chunyuan Li, Jinchao Li, Shahin shayandeh, Lars Liden, and Jianfeng Gao. 2021. Soloist: Buildingtask bots at scale with transfer learning and machine teaching. Transactions of the Association for Computational Linguistics , 9:807–824.

Jonas Pfeiffer, Aishwarya Kamath, Andreas Rückĺe, Cho Kyunghyun, and Iryna Gurevych. 2021.

AdapterFusion: Non-destructive task composition for transfer learning . In Proceedings of EACL 2021 .

Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. 2020. Pre-trained models for Natural Language Processing: A survey . CoRR , abs/2003.08271.

Pranav Rajpurkar, Robin Jia, and Percy Liang. 2018. Know what you don’t know: Unanswerable questions for SQuAD . In Proceedings of ACL 2018 , pages 784–789.

Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, and Pranav Khaitan. 2020. Towards scalable multi-domain conversational agents: The schema-guided dialogue dataset . In Proceedings of AAAI 2020 , pages 8689–8696.

Antoine Raux, Brian Langner, Dan Bohus, Alan W Black, and Maxine Eskenazi. 2005. Let’s go public! Taking a spoken dialog system to the real world. In Ninth European conference on speech communication and technology .

Evgeniia Razumovskaia, Goran Glavaš, Olga majewska, Anna Korhonen, and Ivan Vulić. 2021. crossing the conversational chasm: A primer on multilingual task-oriented dialogue systems . CoRR , abs/2104.08570.

Sebastian Ruder. 2021. Recent advances in language model fine-tuning .

Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2019. Distilbert, a distilled version of BERT: smaller, faster, cheaper and lighter . CoRR , abs/1910.01108.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need . In Proceedings of NeurIPS 2017 , pages 5998–6008.

Weizhi Wang, Zhirui Zhang, Junliang Guo, Yinpei Dai, Boxing Chen, and Weihua Luo. 2021. taskoriented dialogue system as natural language generation . arXiv preprint arXiv:2108.13679 .

Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, pierric Cistac, Tim Rault, Remi Louf, Morgan funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush. 2020. transformers: State-of-the-art natural language processing . In Proceedings of EMNLP 2020: System Demonstrations , pages 38–45.

Steve Young. 2002. Talking to machines (statistically speaking). In Seventh International Conference on Spoken Language Processing .

Elad Ben Zaken, Shauli Ravfogel, and Yoav goldberg. 2021. BitFit: Simple parameter-efficient fine-tuning for transformer-based masked languagemodels . CoRR , abs/2106.10199.

Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. 2020. DIALOGPT : largescale generative pre-training for conversational response generation . In Proceedings of ACL 2020: System Demonstrations , pages 270–278.

Zhuosheng Zhang, Junjie Yang, and Hai Zhao. 2021. Retrospective reader for machine reading comprehension . In Proceedings of AAAI 2021 , pages 14506–14514.

Li Zhou and Kevin Small. 2019. Multi-domain dialogue state tracking as dynamic knowledge graph enhanced question answering . CoRR , abs/1911.06192.

A RESTAURANTS-8k和DSTC8的统计数据和完整结果

•表4提供了餐厅中所有训练数据拆分（8k和DSTC8）的所有插槽的确切示例数。
•表5给出了与主要论文图3相关的准确分数。
•表6提供了与主要论文中图4相关的准确分数。

B DSTC8的简要分析

QASL在全数据场景中的性能在未来的工作中几乎没有改进DSTC8的空间。最具挑战性的时段是租车领域的上下车日期。与RESTAURANTS-8k一样，我们再次观察到SL模型的一些错误可归因于模棱两可或错误的注释。
例如，我们发现两个例子，其中一辆车是租一天的：日期是取车日期还是取车日期是不明确的。

表4：从RESTAURANTS-8k和DSTC8数据集中提取的数据拆分统计。

表5：餐馆-8K测试集所有时段的F1平均得分。

表6:DSTC8单域数据集的F1平均分数。

Improved and Efficient Conversational Slot Labeling through Question Answering相关推荐

论文翻译：《Improved Neural Relation Detection for Knowledge Base Question Answering》
该论文于2017年发表在ACL,主要讲了智能问答在sq和wq两个数据集上的性能提升,本人研究生方向为这个,故翻译此论文,希望对大家有用. 论文地址:Improved Neural Relation D ...
论文解读：Improved Neural Relation Detection for Knowledge Base Question Answering
论文解读:Improved Neural Relation Detection for Knowledge Base Question Answering 本文解决KBQA中的子问题--Relat ...
Improved Neural Relation Detection for Knowledge Base Question Answering
Improved Neural Relation Detection for Knowledge Base Question Answering 2017 ACL SQ78.7 WebQSP63.9 ...
2021：Improved RAMEN: Towards Domain Generalization for Visual Question Answering
摘要 REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化.本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善,以进一步增强领域泛化.融合模块中引入基于融合策略的向量 ...
【笔记1-1】基于对话的问答系统CoQA (Conversational Question Answering)
CoQA: A Conversational Question Answering Challenge (一)论文概述(摘要+简介) (二)目标任务 (三)数据收集过程 3.1 数据收集界面 3.2 ...
Learning to Identify Follow-Up Questionsin Conversational Question Answering
题目:学习识别对话式问答中的后续问题作者:Souvik Kundu, Qian Lin, Hwee Tou Ng 发布地方:acl 面向任务:后续问题识别论文地址:Learning to Iden ...
acl 2020 Question Answering
文章目录 2020 Fluent Response Generation for Conversational Question Answering PLATO: Pre-trained Dialog ...
CHAPTER 23 Question Answering
CHAPTER 23 Question Answering Speech and Language Processing ed3 读书笔记 Two major paradigms of questio ...
【VideoQA最新论文阅读】第一篇视频问答综述Video Question Answering: a Survey of Models and Datasets
Video Question Answering: a Survey of Models and Datasets 长文预警!!! p.s.此篇文章于2021年1月25日新鲜出炉,在Springer需 ...
论文-《Visual Question Answering A tutorial》重点翻译+扩展
论文笔记论文下载摘要Abstract: Tremendous advances have been seen in the field of computer vision due to the ...

Improved and Efficient Conversational Slot Labeling through Question Answering