Emotion Recognition in Conversation: Research Challenges， Datasets， and Recent Advances–会话中的情感识别：研究挑战，数据集和最新进展

Soujanya Poria, Navonil Majumder, Rada Mihalcea, Eduard H. Hovy:
Emotion Recognition in Conversation: Research Challenges, Datasets, and Recent Advances. IEEE Access 7: 100943-100953 (2019)

摘要

情感是人类固有的，因此，情感理解是类似人类的人工智能（AI）的关键部分。对话中的情感识别（ERC）作为自然语言处理（NLP）的新研究前沿，正变得越来越受欢迎，这是因为它具有从Facebook，Youtube，Reddit，Twitter等平台上大量公共可用对话数据中挖掘意见的能力。此外，它在医疗保健系统（作为心理分析的工具），教育（了解学生的挫败感）等方面具有潜在的应用。此外，ERC对于生成需要了解用户情绪的情绪感知对话也非常重要，满足这些需求需要有效且可扩展的对话式情绪识别算法，然而，由于存在诸多研究挑战，这是一个很难解决的问题。在本文中，我们讨论了这些挑战，并为该领域的最新研究提供了启示。我们还描述了这些方法的缺点，并讨论了它们未能成功克服ERC中的研究挑战的原因。

引言

情感通常被定义为与思想，感觉和行为相关的个人心理状态。像西塞罗这样的斯多葛主义者把情绪分为四类：metus（恐惧）、aegritudo（痛苦）、libido（欲望）和 laetitia（愉悦）。后来，情绪进化论是由达尔文和普罗杰[1]在19世纪末提出的。他假设情绪是通过自然选择演变而来的，因此具有跨文化的普遍对应物。近年来，Plutchik[2]将情绪分为八种主要类型，通过情绪轮形象化。此外，Ekman [3]认为情绪与面部表情之间存在相关性。

自然语言通常表示一个人的情绪。因此，由于情感识别在舆论挖掘，推荐系统，医疗保健等领域的广泛应用，在NLP领域[4]，[5]中受到欢迎。Strapparava和Mihalcea [6]解决了新闻头条中的情绪检测任务。为了解决文本情感识别问题，已经开发了许多情感词典[7]，[8]。在过去的几年里，由于公众会话数据的不断增加，情绪识别(ERC)才得到了NLP社区[9][12]的关注。ERC可以用来分析发生在社交媒体上的对话。它还可以帮助实时分析会话，这对法律审判，访谈，电子医疗服务等有用。

与一般的句子/话语的情感识别不同，ERC理论上需要对个体话语进行上下文建模。该上下文可以归因于前面的话语，并且依赖于话语的时间顺序。与最近发表的有关ERC的著作[10] – [12]相比，基于词典的[8]，[13]，[14]和基于现代深度学习的[4]，[5]情感识别方法均无法正常工作在ERC数据集上，因为这些作品忽略了对话特定的因素，例如上下文提示的存在，说话者交替的时间性或特定于说话者的信息。图4a和图4b示出了一个例子，其中相同话语由于其先前的话语的不同而表达出不同的情感。。

A. TASK DEFINITION–任务定义

给定对话的记录以及每个组成话语的说话者信息，ERC任务旨在从一组预先定义的情绪中识别每个言语的情绪。图2说明了两个人之间的一种这样的对话，其中每个话语都被潜在的情感所标记。形式上，给定N个话语的输入序列[(u1,p1),(u2,p2),...,(uN,pN)][(u_1,p_1),(u_2,p_2),...,(u_N,p_N)][(u1,p1),(u2,p2),...,(uN,pN)]，其中每一个话语ui=[ui,1，ui,2,...,ui,T]u_i=[u_{i,1}，u_{i,2},...,u_{i,T}]ui=[ui,1，ui,2,...,ui,T] 包含TTT个单词ui,ju_{i,j}ui,j并由参与者pip_ipi说出，任务是预测每一个话语uiu_iui的情感标签eie_iei。

B.CONTROLLING VARIABLES IN CONVERSATIONS–在对话中起到控制作用的变量

会话大致可以分为两类:面向任务的和闲聊的(也称为非面向任务的)。这两种类型的对话受不同的语用因素[15]的支配，如话题、对话者的个性、论证逻辑、观点、意图[16]等等。图1显示了这些因素如何在二元对话中发挥作用。首先，话题（Topic）和对话者人格（P∗P_*P∗）总是影响对话，与时间无关。一个说话者会根据来自说话者和聆听者的前面的话语(U∗<tU_*^{<t}U∗<t)所构成的上下文，来决定他或她的回应(U∗tU^t_*U∗t)，先前的话语是最重要的，因为它通常会在联合任务模型(用于任务导向的对话)或说话者的情绪状态(用于闲聊)中产生最大的变化。深入研究发现，Hovy[15]解释的语用特征，如论证逻辑、对话者观点、人际关系和依赖、情景意识等，都被编码在说话者状态(S∗tS^t_*S∗t)中。说话者的意图I∗tI^t_*I∗t是基于先前的意图I∗t−2I^{t-2}_*I∗t−2和说话者的状态S∗tS^t_*S∗t，因为对话参与者可能会基于当前状态以及对方的话语而改变自身的意图。然后，说话者形成对基于状态S∗tS^t_*S∗t和意图I∗tI^t_*I∗t的回应的适当的情感E∗tE^t_*E∗t。最终回应U∗tU^t_*U∗t基于说话者状态S∗tS^t_*S∗t，意图I∗tI^t_*I∗t和情感E∗tE^t_*E∗t而形成。据推测，考虑这些因素将有助于反映对话的论点和话语结构，从而提高对对话的理解，包括情绪识别。

早期的对话计算工作主要集中在面向任务的形况中，在这些情况中，总体的对话意图和逐步的子目标发挥了很大的作用[17]，[18]。Cohen and Levesque [19]开发了一个模型和逻辑来表示意图及其与话语的联系，其运算符递归地阐明了关于对话者信念的信念的处理，反之亦然。然而，情感在这方面的研究中没有任何作用。在最近的研究中，聊天机器人和聊天对话变得更加突出，部分原因是使用了不容易支持逻辑推理的分布式表示形式（例如嵌入）。

在对话环境中，D’Melloet等人。[20] 和[21]分别使用了带有三个和四个情感标签的小型数据集。随后是Phanet等人[22]，尝试对会话记录进行情感检测。近来，一些著作[23]，[24]已经设计出基于深度学习的ERC技术。这些研究是至关重要的，因为我们推测ERC在情感感知又称为情感对话生成中的工具性作用，这已经属于Hovy提出的“在实用语境下生成文本”的主题[15]。图3示出了人（用户）和医疗聊天机器人（健康助手）之间的一种这样的对话。智能助手会根据用户的输入做出情感回应。根据使用者是否更早受伤，健康助理会以兴奋(唤起紧迫感)或快乐(唤起宽慰感)作出回应。ERC是一个新的研究领域，概述研究挑战、可用数据集和基准可以潜在地帮助未来的ERC研究。在本文中，我们旨在通过讨论影响谈话中情绪动态的各种因素来达到这一目的。我们推测，本文不仅可以帮助研究人员更好地了解ERC面临的挑战和最新工作，而且还可以显示未来可能的研究方向。本文的其余部分安排如下：第二节提出了关键的研究挑战；第三节和第四节介绍了该领域的数据集和最新进展。最后，第五节总结了论文。

II. RESEARCH CHALLENGES–研究挑战

有关ERC的最新作品，例如DialogueRNN [11]或ICON [23]，力图解决使ERC的任务难以解决的几个关键研究挑战：

A. CATEGORIZATION OF EMOTIONS–情感的分类

情感是使用两种类型的模型定义的：分类模型和维度模型。分类模型将情绪分为固定数量的离散类别。相反，维度模型将情感描述为连续多维空间中的一个点。

在分类方面，Plutchik[2]的“情绪轮”定义了八种离散的基本情绪类型，每一种类型都有更精细的子类型。另一方面，Ekman[3]总结了六种基本情绪愤怒anger，厌恶disgust，恐惧fear，快乐happiness，悲伤sadness和惊讶surprise。

大多数维度分类模型[25]，[26]采用两个维度-valence和arousal。valence代表情绪的积极程度，arousal代表情绪的强度。与分类模型相反，维度模型将情感映射到连续频谱中，而不是硬分类。这样就可以使用向量运算轻松直观地比较两个情绪状态。由于存在多种分类和维度分类法，因此选择一种特定的模型进行注释具有挑战性。选择一个简单的分类模型，例如，Ekman的模型有一个主要缺点，这些模型无法传递复杂的情绪。另一方面，复杂的情感模型，如Plutchik的模型，使得注释者很难区分相关的情感，如区分anger和rage。复杂的情感模型也增加了获得较低的注释者间一致性的风险。

流行的ERC数据集IEMOCAP[27]同时采用了分类模型和维度模型。但是，更新的ERC数据集（如DailyDialogue [28]）由于其直观性强而仅采用分类模型。ERC的大多数可用数据集都采用了简单的分类法，是Ekman模型的细微变体。EmoContext数据集中的每个情感话语都标记有以下情感之一：幸福happiness，悲伤sadness和愤怒anger。EmoContext中的大多数话语都不会引起这三种情感中的任何一种，并带有一个额外的标签：其他others。当然，由于EmoContext数据集的情感分类过于简单，注释者之间的一致性更高。但是，较短的上下文长度和简单的情感分类法使此数据集上的ERC不具有挑战性。

B. BASIS OF EMOTION ANNOTATION–情感标注的偏差

情感标签的标注具有挑战性，因为标签取决于注释者的视角。对话者的自我评估可以说是注释话语的最佳方法。但是，实际上，这是不可行的，因为对未脚本化对话进行实时标记会影响对话流程。对话后自注释可能是一种选择，但目前还没有实现。因此，许多ERC数据集[27]由一群不参与脚本和对话的人编写脚本并添加注释。注释者被给予话语的上下文作为先验知识，以便进行准确的注释。

注释者还需要知道对话者的视角，以便进行情境感知注释。例如，“雷曼兄弟股票暴跌”这句话背后的情绪。取决于说话者是否能从中受益。注释者应意识到说话者与雷曼兄弟之间的联系性质，以便准确标注。

C. CONVERSATIONAL CONTEXT MODELING–对话的上下文建模

上下文是NLP研究的核心。根据最近的几项研究[29]，[30]，上下文句子和单词的嵌入可以显着提高先进的NLP系统的性能。

上下文的概念因问题而异。例如，在计算单词表示时，周围的单词会携带上下文信息。同样，为了对文档中的句子进行分类，将其他相邻句子视为其上下文。在Poriaet等人[31]中，周围的话语被视为上下文，它们从实验上表明上下文证据确实有助于分类。

类似地，在会话情感检测中，为了确定在时间ttt的话语的情感，可以将时间<t<t<t的先前话语视为其上下文。然而，由于情感动态，计算这种情境表示通常会遇到较大的困难。

对话的情感动态包括两个重要方面:自我依赖和人际依赖[32]。自我依赖，也被称为情绪惯性，涉及说话者在谈话中对自己的情感影响[33]。另一方面，人际间的依赖性与对方对说话者的情感影响有关。相反，在对话过程中，说话者也倾向于模仿对方，以建立融洽的关系[34]。这种现象如图2所示。在这里，PaP_aPa为长期失业感到沮丧，并寻求鼓励(u1，u3u_1，u_3u1，u3)。然而，PbP_bPb用讽刺的语气回答(u4u_4u4)。这激怒了PaP_aPa，使其做出愤怒的回应(u6u_6u6)。在这段对话中，情感惯性在PbP_bPb身上表现得很明显，他没有偏离自己的冷漠行为。然而，PaP_aPa受到PbP_bPb的情感影响。对自我和人际关系以及依存关系进行建模还可能取决于对话的主题以及各种其他因素，例如论点结构，对话者的个性，意图，对话观点，彼此态度等。因此，分析所有这些因素对于建立真正的自我和人际依存关系模型至关重要，从而可以建立丰富的上下文理解。

上下文信息可以来自局部和遥远的会话历史。正如近期研究所述，局部上下文的重要性更为明显，遥远语境在ERC中的重要性往往不那么重要。遥远的上下文信息主要在以下情况下有用：当说话者提及对话历史中任何一个说话者的话语的时候。

上下文的用途在将‘‘yeah’’，‘‘okay’’，‘‘no’’之类的简短话语进行分类时更为普遍，这些简短话语可以根据上下文和对话的内容表达不同的情感。图4a和图4b中的示例解释了这一现象。在这两个示例中，用相同的话语"Yeah"表达的情感彼此不同，只能从上下文中推断出来。

寻找语境化的对话话语表示是一个活跃的研究领域。利用这些上下文线索是一项艰巨的任务。记忆网络、RNN和注意机制在以前的工作中已经被使用，例如HRLCE或DialogueRNN，从上下文中获取信息。

D. SPEAKER SPECIFIC MODELING–特定于说话者的建模

每个人都有自己微妙的表达情绪的方式。例如，有些人比其他人更爱挖苦人。在这种情况下，某些单词的用法会根据他们是否讽刺而有所不同。考虑这个例子，PaP_aPa：‘‘The order has been cancelled.’’PbP_bPb：‘‘This is great!’’如果PbP_bPb是一个讽刺的人，那么他的回应会通过great这个词来表达对取消订单的负面情绪。另一方面，如果取消的订单对PbP_bPb有利（也许PbP_bPb负担不起他订购的产品），那么PbP_bPb的响应就是字面意思。由于对话中经常缺少必要的背景信息，因此基于先前话语的说话人概况分析通常会产生更好的结果。

E. LISTENER SPECIFIC MODELING–特定于聆听者的建模

在对话中，聆听者在说话者的话语被说出时决定自己的想法。During a conversation, the listeners make up their mind about the speaker’s utterance as it’s spoken.但是，在说话者说话时，聆听者对说话者的反应没有文字记载。一个模型必须建模聆听者的面部表情，从而捕捉听者的反应。然而，根据DialogueRNN的说法，捕捉聆听者的反应不会产生任何改善，因为听者在随后的话语中表达了他们的反应。而且，在聆听者从不讲话的情况下，他/她的反应无关紧要。但是，在需要对谈话的每个时刻进行连续情感识别（例如政治演讲期间的听众反应）而不是对每个说话的情感识别的情况下，听众建模仍然很有用。

F. PRESENCE OF EMOTION SHIFT–情感转变的存在

由于情绪惯性，对话的参与者倾向于保持特定的情绪状态，除非某些外部刺激（通常是其他参与者）引起了变化。如图5所示，因为Chandler的最后一句话，这让Joey感到意外和震惊，Joey的情绪从neutral变成了anger。这是一个很难解决的问题，作为最先进的ERC模型，DialogueRNN在没有情绪转变或情绪转变为类似情绪(例如，从恐惧到悲伤)的话语的情绪检测方面更为准确。

最先进的方法总是模仿特定人的相同情绪，因为情绪不太可能突然改变。因此，这些方法在发生改变的大多数情况下都会失败。为了解决这个问题，可以构造一个检测情绪变化的新问题：

根据历史话语和当前话语，是否有情绪转变（二元分类）？
如果有变化，那么目标情感是什么（多标签分类）？

作为基线，条件随机场的性能将很有趣，因为它可以对标签的依赖关系进行建模。

G. FINE-GRAINED EMOTION RECOGNITION–细粒度的情感识别

细粒度的情感识别旨在识别在显性和隐性主题上表达的情绪。它涉及对对话主题，对话者意见和立场的更深刻理解。例如，在图6中，虽然两个人都支持政府的法案，但他们却使用完全相反的情绪来表达它。一个普通的情感识别器不可能理解双方在政府法案方面的积极情绪。只有通过解读Person 2对反对派反对该法案的不满，分类器才能推断出Person 2对该法案的支持。另一方面，即使Person 1没有明确表达对反对派的看法，但从谈话的内容来看，可以推断出Person 1对反对派持消极看法。

H. MULTIPARTY CONVERSATION–多方对话

在多方对话中，涉及两个以上的参与者。自然，与二元对话相比，这种对话中的情绪识别更具挑战性，因为在追踪单个说话人的状态和处理共同引用方面存在困难。

I. PRESENCE OF SARCASM–讽刺的存在

讽刺是一种语言工具，使用讽刺意味表达蔑视。无法检测到讽刺的ERC系统大多无法正确预测讽刺话语的情绪。对话中的讽刺检测很大程度上取决于对话的上下文和话语。例如，对于话语"The part where Obama signed it"，只有看前面的话语"What part of this would be unconstitutional?"，才能发现其是讽刺的。嘲讽的性质也取决于人，这再次需要在谈话中对说话者进行描述。

J. EMOTION REASONING–情感推理

推理能力对于任何可解释的AI系统都是必需的。在ERC的背景下，通常希望了解说话者表达情绪的原因。如图2所示，一个理想的ERC系统，具有情感推理的能力，应该能够感知图中Person A的u6u_6u6表达愤怒的原因。根据观察，这种愤怒显然是由PersonB持续的漠然行为引起的。读者不应该将情感推理与上下文建模混为一谈，这一点我们在本节前面讨论过。与上下文建模不同的是，情感推理不仅要发现会话历史中触发话语情感的上下文话语，而且还要决定这些上下文话语对目标话语的作用。在图2中，是u4u_4u4和u5u_5u5反映的Person B的冷漠，使得Person A生气。同样，在图5中，Joey在确认Chandler在之前的话语中是在欺骗后，表达了愤怒。很难为情感推理定义分类或标记集。目前尚无包含此类丰富注释的数据集，构建此类数据集将使未来的对话系统能够构建有意义的论证逻辑和话语结构，从而进一步逼近类似于人的对话。

III. DATASETS

在过去的几年中，对话中的情感识别已经引起了广泛的研究兴趣，这主要是因为其在对话系统中产生情感感知和移情对话的潜在应用[12]。ERC任务的主要目标是使用情感标签来标记对话中的每个话语。在本节中，我们将讨论可公开获得的ERC数据集以及这些数据集的缺点。

ERC有一些公开可用的数据集-IEMOCAP [27]，SEMAINE [35]，Emotionlines [10]，MELD [36]，DailyDialog [28]和EmoContext [37]。表2列出了这些数据集的详细比较。在这五个数据集中，IEMOCAP，SEMAINE和MELD是多模态的（包含声音，视觉和文本信息），其余两个是文本的。除了SEMAINE数据集之外，其余的数据集都包含分类情感标签。相比之下，每个SEMAINE数据集的话语都用四个实值的情感属性进行注释：价（valence，[-1，1]），唤醒（arousal，[-1，1]），期望（expectancy，[-1，1]）和功效（power，[ 0，∞)）。我们在表1中显示了这些数据集的情感标签分布。在EmoContext数据集中，一个情绪标签只分配给每个对话的最后一个话语。这些数据集缺少推理任务所需的必要注释信息，因此无法用于情感推理。读者还应注意，所有这些数据集都不包含细粒度和主题级别的情感注释。

IV. RECENT ADVANCES

在本节中，我们简要介绍有关此主题的最新研究。我们还比较了这些方法并报告了它们的缺点。如图1所示，识别对话中的话语情绪主要取决于以下三个因素：

话语本身及其上下文（由对话者在对话中的先前话语定义）以及对话的意图和主题
说话者的状态，包括诸如个性和论证逻辑之类的变量
在前面的话语中所表达的情感

IEMOCAP和SEMAINE已经开发了近10年，大多数使用这两个数据集的研究都没有考虑到上述因素。

A. BENCHMARKS AND THEIR DRAWBACKS

基于这些因素，最近提出了一些解决ERC问题的方法。会话记忆网络(CMN)是由Hazarikaet al.[38]提出的用于二元对话的方法，是ERC最早的方法之一，它利用每个说话者的不同记忆来进行特定说话者的上下文建模。后来，Hazarikaet al.[23]通过交互式会话记忆网络(ICON)改进了这种方法，该网络将这些记忆连接起来，以建模自我和说话者之间的情感影响。这两种方法实际上都没有利用目标话语的说话人信息进行分类。这使得该模型看不到对特定说话人的细微差别。

DialogueRNN[11]旨在通过考虑目标话语的说话人信息来解决这一问题，并进一步利用带有注意机制的分层多阶段RNN来建模自我和说话人间的情感影响。在IEMOCAP和SEMAINE数据集上，DialogueRNN的性能都优于其他两种方法（表3和表4）。

在[39]中，通过利用量子理论和LSTM，也认识到需要掌握ERC的说话人间依赖性。他们的网络“量子启发式互动网络（QIN）”在IEMOCAP和MELD数据集上的表现优于CMN和ICON。最近，Yeh等人[9] 通过利用说话者之间的关系建模，提出了一种ERC方法，称为交互感知注意网络（IANN）。与ICON和CMN类似，IANN(图8)为每个说话者使用不同的记忆。

所有这些模型都证实了上下文历史，建模自我和说话者之间的影响对ERC有利（如图7和图10所示）。此外，DialogueRNN还表明，当时间>t的未来话语可用时，附近的话语通常有更丰富的上下文信息，并且会提高ERC性能。如图10所示，DialogueRNN使用过去和将来的话语作为上下文，频率大致相同。此外，距离较远的话语的使用频率也低于距离较近的话语。另一方面，CMN和ICON完全不使用未来话语作为上下文。但是，对于实时应用程序，系统可能不依赖将来的讲话。在这种情况下，具有固定上下文窗口的CMN，ICON和DialogueRNN将是合适的。

所有这些网络，如CMN、ICON、IANN和Dia-logueRNN，在带有情绪性转换的话语上表现不佳。特别是在目标话语的情感与先前话语的情感不同的情况下，DialogueRNN只能正确预测47.5％的实例。与没有情绪变化情况的69.2％的成功率相比，这一数字要低得多。

在这三种方法中，只有DialogueRNN能够大规模处理多方对话。然而，与bc-LSTM相比，DialogueRNN在多方会话数据集MELD上的性能只有一点改进（如表5所示），说明了多方ERC的未来研究方向。 ICON和CMN被设计用来检测二元对话中的情绪。将ICON和CMN应用于多方会话数据集MELD会导致当测试数据中参与会话的说话人多于训练数据时的可伸缩性问题。

由于会话中话语的顺序性质，在上述模型中RNN用于上下文生成。但是，由于基于RNN的上下文表示方法在掌握远距离上下文信息方面表现不佳，因此还有很大的改进空间。

最近，组织了两个共享任务—EmotionX1（与SocialNLP研讨会合用）和EmoContext2（与Semeval 2019合用）来解决ERC问题。EmoContext共享任务已经吸引了超过500名参与者，证实了这一研究领域的日益普及。与其他数据集相比，EmoContext数据集[37]有非常短的对话，仅包含三个话语，目标是对第三个话语进行标记，如图9a所示。

EmoContext数据集中不存在先前话语的情感标签。这个数据集上的关键工作[24]，[37]，[40][44]主要利用了使用bc-LSTM架构[31]的上下文建模，该架构使用LSTM封装了话语的时间顺序。在这些作品中可以看到一个共同的趋势，其中传统的词嵌入（例如Glove [45]）与经概念化的词嵌入（例如ELMo [29]）相结合以提高性能。这些作品大多使用bc-LSTM之上的注意机制来丰富上下文表示。在图9b中，我们描述了Huang等人[40]提出的HRLCE框架，该框架包括话语编码器和上下文编码器，后者从话语编码器获取输入。为了表示每种话语，HRLCE利用ELMo [29]，Glove [45]和Deepmoji [46]。

HRLCE中的上下文编码器采用bc-LSTM框架，后接多头注意层。Huang等人[40]只在EmoContext数据集上应用了HRLCE框架。应该注意的是，EmoContext数据集上没有任何作品利用说话者信息。事实上，在我们的实验中，我们发现利用说话人信息的DialogueRNN在EmoContext数据集上的表现与Baeet al.[24]、Huanget al.[40]和Chatterjeeet al.[37]类似(表6)。造成这种情况的一个可能原因可能是数据集中存在很短的上下文历史，这使得说话者信息变得无关紧要。

V. CONCLUSION

Context数据集上的表现与Baeet al.[24]、Huanget al.[40]和Chatterjeeet al.[37]类似(表6)。造成这种情况的一个可能原因可能是数据集中存在很短的上下文历史，这使得说话者信息变得无关紧要。

V. CONCLUSION

对话中的情绪识别在自然语言处理研究者中越来越受欢迎。在本文中，我们总结了该任务的最新进展，并重点介绍了与此研究领域相关的几个关键研究挑战。此外，我们指出了目前的工作如何部分地解决了这些挑战，同时也指出了一些不足之处。总的来说，我们认为有效的情绪转移识别模型和上下文编码器可以大大改善聊天对话的性能，甚至可以改善面向任务对话的某些方面。此外，诸如主题级别的特定于说话者的情绪识别，多方对话的ERC和对话嘲讽检测等挑战可以形成新的研究方向。另外，细粒度的说话者特定的连续情感识别可能会引起人们的兴趣，目的是在长时间的独白中追踪情感。我们认为，解决本文概述的每个挑战不仅将增强AI支持的对话理解，还将通过适应情感信息来提高对话系统的性能。

论文阅读--Emotion Recognition in Conversation: Research Challenges, Datasets, and Recent Advances相关推荐

【论文阅读】2021年牛津大学的 Survey：Recent Advances in Reinforcement Learning in Finance
1 本文概述本文是牛津大学2021年对深度强化学习在金融领域内各种决策的应用的综述文章.文章分为四个部分,第一部分是整体介绍:第二部分详细介绍了强化学习的基础知识,包括马尔科夫决策过程的定义.基 ...
《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
<论文阅读>EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa 简介思路出发点任务定义模 ...
论文阅读--Adapted Dynamic Memory Network for Emotion Recognition in Conversation
Adapted Dynamic Memory Network for Emotion Recognition in Conversation Xing S , Mai S , Hu H . Adapt ...
语义激光SLAM论文阅读 Semantic Lidar_based SLAM paper Research
语义激光SLAM论文阅读 Suma: Efficient Surfel-Based SLAM using 3D Laser Range Data in Urban Environments 主要工作 ...
Mimicking the Thinking Process for Emotion Recognition in Conversation with Prompts and Paraphrasing
论文评价: 发布于IJCAI2023,链接:论文链接文章给我最大的启发在于给了很多细粒度或者说"会被忽略的"的知识的利用方法,例如如何利用说话人的背景知识,如何让情感标签之间的区 ...
【论文阅读】Modeling Multi-turn Conversation with Deep Utterance Aggregation
目录一.简介二.方法 1.任务 2. 模型架构 Utterance Representation Turns-aware Aggregation Matching Attention Flow R ...
[论文阅读] 对话式推荐系统的进展与挑战：综述(Advances and Challenges in Conversational Recommender Systems: ASurvey)-06
0. 序言本文介绍CRS的最后一个主要挑战:Evaluation and User Simulation 评估和用户模拟 1. Evaluation 常见数据集如下,大部分研究采用基于对通用数据 ...
[论文阅读] Active Class Incremental Learning for Imbalanced Datasets
论文地址:https://arxiv.org/abs/2008.10968 发表于:ECCV 20 Workshop Abstract 增量学习(IL)使人工智能系统能够适应流式数据.大多数现有的算法 ...
❀论文篇❀EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle论文翻译
情绪识别论文:EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's Principle 论文地址:https://a ...
行为识别论文阅读（2）——3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children
行为识别论文阅读(2)--3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children ...

论文阅读--Emotion Recognition in Conversation: Research Challenges, Datasets, and Recent Advances

Emotion Recognition in Conversation: Research Challenges， Datasets， and Recent Advances–会话中的情感识别：研究挑战，数据集和最新进展

摘要

引言

A. TASK DEFINITION–任务定义

B.CONTROLLING VARIABLES IN CONVERSATIONS–在对话中起到控制作用的变量

II. RESEARCH CHALLENGES–研究挑战

A. CATEGORIZATION OF EMOTIONS–情感的分类

B. BASIS OF EMOTION ANNOTATION–情感标注的偏差

C. CONVERSATIONAL CONTEXT MODELING–对话的上下文建模

D. SPEAKER SPECIFIC MODELING–特定于说话者的建模

E. LISTENER SPECIFIC MODELING–特定于聆听者的建模

F. PRESENCE OF EMOTION SHIFT–情感转变的存在

G. FINE-GRAINED EMOTION RECOGNITION–细粒度的情感识别

H. MULTIPARTY CONVERSATION–多方对话

I. PRESENCE OF SARCASM–讽刺的存在

J. EMOTION REASONING–情感推理

III. DATASETS

IV. RECENT ADVANCES

A. BENCHMARKS AND THEIR DRAWBACKS

V. CONCLUSION

V. CONCLUSION

论文阅读--Emotion Recognition in Conversation: Research Challenges, Datasets, and Recent Advances相关推荐

最新文章

热门文章