Multimedia Event Extraction From News With a Unified Contrastive Learning Framework

论文：Multimedia Event Extraction From News With a Unified Contrastive Learning Framework (acm.org)

代码：https://github.com/jianliu-ml/Multimedia-EE (很难复现)

期刊/会议：ACM MM 2022

摘要

从新闻中提取事件在下游应用程序中有很多好处。然而，今天的事件提取（EE）系统通常专注于单一的模态——无论是文本还是图像，并且由于新闻文档通常以多媒体格式呈现，因此这种方法会受到信息不完整的影响。在本文中，我们提出了一种新的多媒体EE方法，通过使用统一的对比学习框架桥接文本和视觉模式。我们的中心思想是为文本和图像创建一个共享空间，以改善它们的相似表示。这通常是通过对文本图像对进行训练来实现的，我们证明，通过研究另一种模态的互补性，可以使用该框架来促进一种模态学习。在基准数据集上，我们的方法实现了一个新的最先进的性能，并显示F1提高了3%。此外，我们证明，即使在视觉模态中没有标注数据的零样本场景中，它也可以实现视觉模态EE最前沿性能。

关键词：多媒体事件抽取、对比学习、图像表征学习

1、简介

目前的EE方法主要用于单一形式——文本或图像[16]，并且由于新闻文章通常以多媒体格式呈现，因此它们存在获取不完整信息的风险。考虑图1所示的新闻文章。本文描述了一个攻击事件（用文本单词“fires”表示）；然而，事件的一个论点，即[machine gun]，只出现在图片中。根据先前的研究，超过30%的新闻图像包含文本中不存在的视觉事件论点[16]，使得多媒体EE成为一个关键话题。

多媒体EE的发展有两个主要障碍。第一个是数据问题：由于标注昂贵，标记有并行文本视觉事件的资源有限。现有数据集，如文本模态中的ACE 2005语料库[20]和视觉模态中的imSitu语料库[31]，具有完全不同的事件定义/模式，使得跨模态数据共享具有挑战性。第二个问题与建模有关-由于缺乏并行数据，先前的多媒体EE方法通常使用流水线方法和启发式规则来对齐数据[28，33]并学习模态不变模式（例如，使用绑定分类器[16]）。然而，这些方法存在一定的缺陷，流水线方法会存在错误传递，学习模态不变模式很难在全局角度捕捉不同模态的依赖性。

在这项研究中，我们提供了一种新的多媒体EE方法，展示了有效应对上述挑战的优势。与之前的工作相比，我们的方法通过统一的对比学习框架为图像、文本和事件模式创建了共享的表示空间。我们证明，使用该框架，任何配对的文本图像资源，无论模式如何，都可以用于模型训练，这大大减轻了缺少并行标记数据的问题。另一方面，该框架避免了管道方法的复杂性，并能够从整体角度对不同模式的相互依赖性进行建模。特别是，给定一个多媒体文档，1）我们可以将图像投影到联合表示空间中，并将其用作增强文本EE的额外证据，2）类似地，我们可以将文本投影到联合表达空间中，以找到增强视觉EE的补充线索。此外，通过评估句子和图像的相似性，这种联合空间自然能够实现跨模态事件的共同参考。

我们基于M2E2基准评估了我们的方法[16]。根据结果，我们的方法显著优于以前的方法（包括单模态方法和多模态方法），在F1中，事件提取和事件论元提取分别提高了2.6%和3.4%-这显然证明了其有效性。有趣的是，通过使用这种对比学习框架，我们发现，即使在没有用于训练的训练数据的零样本场景中，我们的方法也能达到与最先进方法相比的竞争性能。此外，我们进行了一系列定性和定量研究，以调查我们方法的优点和缺点。

总之，我们有三个贡献：

我们为多媒体EE提供了一种新的方法，该方法使用统一的对比学习框架来解决数据和模型挑战。作为一项研究多媒体EE对比学习的开创性研究，我们的工作可能会启发这方面的更多研究。
我们表明，使用我们的统一框架，无论其标注模式如何，都可以利用不同模式的资源进行学习。此外，通过采用整体建模方法，该统一解决方案避免了管道方法的复杂性。
我们根据标准基准建立了新的最先进性能。此外，我们还表明，即使在零样本场景中，我们的方法也能与以前的视觉EE方法相媲美。

2、相关工作

2.1 多媒体学习事件抽取

尽管不同的领域域/模态具有不同的事件定义和数据集，但从新闻中提取事件（EE）是许多应用程序的重要主题。在文本域中，EE是一个经典的信息提取任务，旨在提取文本中的事件实例[1，17]，每个事件由一个事件触发词和几个论元（如果有）表示。传统的文本EE方法基于词汇和句法特征[17，30]，而现代模型依赖于神经网络[19，21]。与文本EE相比，视觉领域的EE使用了不同的事件定义，该任务通常称为场景识别[24，31]。特别是，给定图像，视觉EE的目标是生成场景的简要总结，包括主要活动（即事件动词）、参与者（即事件论元）以及这些参与者在活动中扮演的角色。

如前所述，现有的EE方法只关注一种模态，直接使用它们进行事件提取可能会导致遗漏重要信息。到目前为止，多媒体EE还处于早期阶段，对这一主题的研究非常有限。其中一项开创性工作[33]研究了通过结合通过弱监督方法获取的图像信息来增强文本EE。同样，另一项工作[28]通过手动获取与新闻文档相关的图像来提高性能。最近的一项工作[16]构建了更细粒度的对齐规则和策略，以学习多媒体EE的跨模态模式；另一方面，另一项工作[27]从应用角度对城市事件的多模态分类进行了研究。尽管如此，现有的多媒体EE方法通常在管道流中受到错误传播的影响，并且缺乏集成各种模式的综合方法。在这项工作中，我们提出了一种新的用于对齐图像和文本的联合对比学习框架，它可以有效地解决上述问题。

2.2 对比学习

对比学习[5]是一种机器学习技术，用于通过指示示例对相似或不同的模型来学习无标签的一般特征；它在数据增强[6，11]、特征聚类[2]、无监督句子嵌入学习[10]等应用中得到了广泛应用[3，7]。关于连接文本和图像，Radford等人[25]提供了一种方法，该方法在预训练任务上使用对比学习来联合训练文本编码器和图像编码器。我们的方法受到[25]的启发，学习图像和文本的联合表示空间，但我们将其扩展到包括标签信息，并设计了一种方法来捕捉多媒体EE的精细训练模式，这不能通过简单地对齐两种模式来解决。据我们所知，这是第一部为多媒体EE引入对比学习的作品；此外，虽然我们的方法使用图像和文本模态作为案例，但它也可能适用于具有两种以上模态的场景。

3、问题定义

我们遵循Li等人[16]定义多媒体EE任务：假设每个新闻文档都有一组句子 S = { s 1 , s 2 , s ∣ S ∣ } S=\{s_1,s_2,s_{|S|}\} S={s1,s2,s∣S∣}和一组图像 M = { m 1 , m 2 , … , m ∣ M ∣ } M=\{m_1,m_2,\ldots,m_{|M|}\} M={m1,m2,…,m∣M∣}。每句话可以进一步表示为 s = { w 1 , w 2 , … } s = \{w_1,w_2,\ldots\} s={w1,w2,…}，带有 w j w_j wj作为 j j j第个单词。我们进一步假设每个句子与一组实体 T ＝ { t 1 , t 2 , … } T＝\{t_1,t_2,\ldots\} T＝{t1,t2,…}，每个实体都是一个单独的唯一对象，指的是真实世界的对象（即，一个人、一个组织、一个设施和一个地点）。鉴于此，我们可以通过建立以下两个子任务来描述多媒体EE问题：

事件提及提取。给定一个多媒体新闻文档，事件提及提取的目的是提取一组事件提及： E = { e i } i = 1 ∣ E ∣ \mathcal{E}=\{ e_i \}_{i=1}^{|\mathcal{E}|} E={ei}i=1∣E∣:
e = { ( w , m ) , y e } e=\{(w,m),y_e \} e={(w,m),ye}
w w w是最清楚地表达事件存在的单词（即事件触发词[1]）， m m m是与事件最匹配的图像，并且 y e y_e ye表示事件类型。当两者都 w w w 和 m m m存在，指示文本触发词和视觉图像引用同一事件，该事件被称为多媒体事件。或者，如果仅有 w w w或 m m m 存在，则该事件被称为仅文本事件或仅图像事件。

事件论元抽取。事件论元提取的目的，给定已识别的事件 e e e, 是找到一组论元（即参与者），每个论元在事件中扮演特定角色。与我们表示事件提及的方式相同，我们将事件论元表示为：
a = { ( t , o ) , y a } a=\{(t,o),y_a \} a={(t,o),ya}
t t t表示识别句子中的特定实体， o o o表示为图像中的边界框的视觉对象，以及 y a y_a ya表示实体所扮演的角色。类似于事件提及提取的情况， t t t和 o o o可以同时存在，也可以仅存在其中一个。

注意，没有用并行文本图像事件标记的大规模数据集，这使得直接训练多媒体EE模型变得困难。作为一种变通方法，与Li等人[16]类似，我们使用以下资源进行训练：1）ACE 2005[20]，它只包含文本事件；2）imSitu[31]，它只包括视觉事件（请注意，此数据集不提供论元的边界框）；3）VOA Image Caption数据集[16]，它包含并行图像字幕对（没有事件标注）。我们调整M2E2数据集[16]进行评估，其中包含245个标记有文本和视觉事件的文档。数据集的更详细统计数据见§5.1。

4、方法

图2描述了我们方法的高级概述。特别是，我们首先引入了一个对比学习框架来学习图像、文本和事件本体（例如，事件类型和语义角色）的共享表示空间。然后，使用这个共享空间，我们进行文本和视觉EE，以将补充信息合并到其他模态中。最后，我们执行具有相似性度量的跨模态事件共同参考过程，以组合来自多个模态的事件。我们的方法的技术细节如下。

4.1 通过对比学习学习共享表征空间

我们方法的第一阶段是学习共享的表示空间，其中图像、文本和事件本体都具有统一的表示。为了实现这一点，我们使用对比学习[25]来鼓励匹配的图像文本对比不匹配的图像-文本对具有更高的分数，以便学习允许进一步跨模态匹配和推理的共享空间。

假定 D D D是成对图像和文本的集合。首先，我们开发了两个基于Transformer的编码器[29]，分别用于图像和文本。然后，我们从 D D D中采样 N N N图像文本对 { ( m i , s i ) } i = 1 N \{(m_i,s_i)\}_{i=1}^N {(mi,si)}i=1N，并且图像编码为 I = [ I 1 , I 2 , … , I N ] I= [I_1,I_2,\ldots,I_N ] I=[I1,I2,…,IN]，文本为 T = [ T 1 , T 2 , … , T N ] T = [T_1,T_2,\ldots ,T_N] T=[T1,T2,…,TN], 分别地基于 I I I和 T T T, 我们可以构造一个矩阵 U ∈ R N × N U \in R^{N \times N} U∈RN×N, 使用元素 U i j U_{ij} Uij表示匹配分数 I i I_i Ii和 T j T_j Tj . 在这个矩阵视图中，对角线元素表示匹配的图像文本对，而其余元素表示不匹配的，如图3所示。我们的目标是让匹配的分数高于不匹配的分数，我们使用以下损失函数来训练模型：
L = − ∑ i log ⁡ s o f t m a x ( U i , i , U i , ∗ ) − ∑ j log ⁡ s o f t m a x ( U j , j , U ∗ , j ) L=-\sum_{i}\log softmax(U_{i,i},U_{i,*})-\sum_{j} \log softmax(U_{j,j},U_{*,j}) L=−i∑logsoftmax(Ui,i,Ui,∗)−j∑logsoftmax(Uj,j,U∗,j)

U i , ∗ , U ∗ , j U_{i,*},U_{*,j} Ui,∗,U∗,j表示 U U U第 i i i行和第 j j j列 , 分别地这里softmax表示标准化标量值的函数 x x x在矢量上 Y Y Y（ x ∈ Y x \in Y x∈Y ) 如下： s o f t m a x ( x , Y ) = exp ⁡ ( x ) ∑ y ∈ Y exp ⁡ ( y ) softmax(x,Y ) =\frac{\exp (x)}{\sum_{y \in Y} \exp (y)} softmax(x,Y)=∑y∈Yexp(y)exp(x) . 鉴于此，对于匹配的图像文本对 ( m , s ) (m,s) (m,s), 等式（3）中的第一项鼓励图像 m m m和正确文本匹配的分数大于和其他文本匹配的分数，第二个项鼓励文本 s s s和正确图像匹配的分数大于和其他文本匹配的分数，任何其他图像，形成对比学习框架。学习之后，我们最终得到了图像和文本的共享表示空间（通过在VOA Image Caption数据集上进行训练），以及事件本体（通过在imSitu数据集上的训练）。

我们分三个步骤训练模型：1）使用CLIP设置进行初始化[25]，其目的是直接利用普通图像字幕对的监督进行学习。2）对VOA ImageCaption数据集进行预训练[16]，该数据集旨在获取更多有关新闻文档的特定领域知识。3）对imSitu数据集进行微调[31]，该数据集旨在了解有关新闻事件的更多领域特定知识。鉴于imSitu数据集同时定义了活动动词和语义角色，我们设计了两种微调策略：1）联合训练策略，其中单个模型同时在活动动词和词义角色上进行训练；2）单独训练策略，两个独立模型分别在活动动词与语义角色上进行训练。§6.5对上述策略的消融进行了研究。

4.2 带有视觉线索的文本事件抽取

共享表示空间允许跨模态信息集成。我们首先介绍了使用视觉线索改进文本EE的方法，该方法包括三个步骤：图像融合表示学习、文本事件触发词提取和文本事件论元提取。

4.2.1 图像融合表征学习

给定一个新闻文档，表示为一组句子 S S S和图像 M M M，每个句子 s = { w 1 , w 2 , … } ∈ S s =\{w_1,w_2,\ldots\}∈S s={w1,w2,…}∈S，我们首先构造了一个基于BERT的编码器[8]来学习每个单词的上下文表示。假设表示为 H s = { H 1 , , … , H ∣ s ∣ } H_s= \{H_1,,\ldots,H_{|s|}\} Hs={H1,,…,H∣s∣}. 然后，我们建议使用图像信息来增强表示，通过计算如下的集成图像表示：
H M = ∑ j = 1 ∣ M ∣ α j I j , α j = exp ⁡ ( cos ⁡ ( I j , T s ) ) ∑ j ^ exp ⁡ ( cos ⁡ ( I j ^ , T s ) H_M=\sum_{j=1}^{|M|} \alpha_j I_j,\alpha_j =\frac{\exp (\cos (I_j,T_s))}{\sum_{\hat j} \exp (\cos (I_{\hat j},T_s)} HM=j=1∑∣M∣αjIj,αj=∑j^exp(cos(Ij^,Ts)exp(cos(Ij,Ts))
I j I_j Ij表示第 j j j张图像 m j ∈ M m_j \in M mj∈M在联合空间中； α j \alpha_j αj是的 m j m_j mj的权重 , 计算为余弦相似度的归一化值 T s T_s Ts ( T s T_s Ts 是 s s s 在联合空间中表示）。最后，我们将 H M H_M HM和每个单词的原始表示来创建图像融合表示： H s , M ′ = { H 1 ′ , H 2 ′ , … , H ∣ s ∣ ′ } H_{s,M}'=\{H_1',H_2',\ldots,H_{|s|}' \} Hs,M′={H1′,H2′,…,H∣s∣′} ，其中 H i ′ = H i ⊕ H M ⊕ T s H_i' = H_i ⊕H_M⊕T_s Hi′=Hi⊕HM⊕Ts， ⊕ ⊕ ⊕是串联运算符。值得注意的是，为了丰富表示形式，我们还将 T s T_s Ts, 将整个句子的表示转换为单词的原始表示。

4.2.2 文本触发词抽取

基于图像融合表示 H s , M ′ = { H 1 ′ , H 2 ′ , … , H ∣ s ∣ ′ } H_{s,M}'=\{H_1',H_2',\ldots,H_{|s|}' \} Hs,M′={H1′,H2′,…,H∣s∣′}, 我们预测每个单词的事件标签，以指示它是否是事件触发词：
O i = s o f t m a x ( W t H i ′ + B t ) O_i=softmax(W_tH_i'+B_t) Oi=softmax(WtHi′+Bt)
O i O_i Oi是包含每个事件类型的概率的输出向量 w i w_i wi（即 s s s的第 i i i个单词); w t w_t wt和 B t B_t Bt是要训练的模型参数。 w i w_i wi的最终预测事件类型为 O i O_i Oi中索引值最高的事件类型.

4.2.3 文本事件论元抽取

对于事件论元提取，我们使用类似于事件触发词提取的方法，但使用以下计算来预测每个实体（而不是单词）的语义角色（而不是事件类型）：
O j = s o f t m a x ( W a [ H t r i g g e r ′ ⊕ H t j ′ ] + B a ) O_j=softmax (W_a [H_{trigger}' \oplus H_{t_j}']+B_a) Oj=softmax(Wa[Htrigger′⊕Htj′]+Ba)
H t r i g g e r ′ H_{trigger}' Htrigger′是预测事件触发词的表示； H t j ′ H_{t_j}' Htj′是句子中的第 j j j个实体； W a W_a Wa和 B a B_a Ba是要训练的模型参数。当一个实体有多个词时，我们使用均值作为表示。

4.2.4 训练和优化

对于优化，我们使用交叉熵损失和Adam[13]以及默认的超参数。请注意，在训练和测试阶段之间存在差距——因为原始的ACE2005数据集缺少图像，所以学习图像融合表示很有挑战性。我们用一种弱监督的方法来解决这个问题：对于每个ACE 2005文档，我们列举每个句子，并从VOA Image Caption数据集中选择最多五个最匹配的图像，然后将其与句子一起用于学习。

4.3 带有文本线索的视觉EE

视觉EE的定义不同于文本EE：视觉事件提及提取旨在预测每个图像的事件类型（由活动动词[31]表示），而视觉论元提取旨在定位图像中与给定语义角色相对应的论元（由框表示）。我们对两个子任务采用统一的基于查询的策略，而不是使用基于分类的方法。

4.3.1 视觉事件提及抽取

给定表示为一组句子 S S S和图像 M M M的输入新闻文档 m ∈ M m ∈ M m∈M、我们首先构造一个活动动词列表 V = { v 1 , v 2 , … , v ∣ V ∣ } V=\{v_1,v_2,\ldots,v_{|V|}\} V={v1,v2,…,v∣V∣}在imSitu数据集[31]中定义。然后，对于每个动词，我们计算其与图像 m m m的相似度并将得分归一化为概率值。例如 v i v_i vi和 m m m计算如下：
o v i = exp ⁡ ( s c o r e ( v i , m ) ) ∑ i ′ = 1 ∣ V ∣ exp ⁡ ( s c o r e ( v i ′ , m ) ) o_{v_i}=\frac{\exp (score(v_i,m))}{\sum_{i'=1}^{|V|} \exp (score(v_{i'},m))} ovi=∑i′=1∣V∣exp(score(vi′,m))exp(score(vi,m))
一种简单的方法是将分数定义为联合表示空间中动词和图像的余弦相似性，即让分数 s c o r e ( v i , m ) = c o s ( T v i , I m ) score(v_i,m)=cos(T_{v_i},I_m) score(vi,m)=cos(Tvi,Im). 然而，这种策略忽视了文本信息，并可能助长诸如“snowing(下雪)”之类的错误模式，没有事件语义。作为一种解决方案，我们考虑到文本线索，并设计以下得分函数：
s c o r e ( v i , m , S ) = λ cos ⁡ ( T v i , I m ) + ( 1 − λ ) cos ⁡ ( T v i , T S ) score(v_i,m,S)=\lambda \cos (T_{v_i},I_m)+(1- \lambda)\cos (T_{v_i},T_S) score(vi,m,S)=λcos(Tvi,Im)+(1−λ)cos(Tvi,TS)
T S T_S TS是联合空间中所有句子表示的平均值； λ \lambda λ是平衡图像相似性和文本相似性的权衡系数。这样，只有同时匹配图像和文本的动词才能获得高分。最后，为了获得图像的事件类型，我们考虑Top-K动词，并使用一种主要的投票方法将它们映射为imSitu事件类型（imSitu活动动词与M2E2事件类型之间的映射基于[16]）。

4.3.2 视觉事件论元抽取

视觉事件论元提取比视觉事件提及提取更困难，因为我们应该：1）确定在图像中实现了哪个语义角色，2）使用框定位图像中的论元。

4.3.3 语义角色识别

为了确定哪个语义角色在图像中实现，我们将类似的方法应用于视觉事件提及提取，但使用一组预定义的语义角色，由 R = { r 1 , r 2 , ⋅ ⋅ ⋅ , r ∣ R ∣ } R=\{r_1,r_2, · · · , r_{| R|}\} R={r1,r2,⋅⋅⋅,r∣R∣}（而不是活动动词）来计算相似度。因为语义角色识别发生在事件提及提取之后，所以我们还应该根据预测的事件类型过滤掉不相关的角色。文本线索也被合并以产生更准确的预测。

4.3.4 事件论元定位

对于预测集中的每个角色，我们应该在图像中找到一个框。然而，由于现有的训练数据集不包含论元框标注，我们无法直接训练模型来实现这一点。受最近对模型可解释性的研究[4]的启发，我们通过以下三个步骤定位语义角色的对象框：i）正向传递，其中我们使用角色和图像作为输入来计算其得分。ii）基于梯度的注意力整合，其中我们对注意力头部进行简单平均，以生成梯度增强注意力图 A ‾ \overline A A, 沿着向前通过程序：
A ‾ = E h d ( ∂ c ∂ A ⊙ A ) \overline A=E_{hd} (\frac{\partial c}{\partial A} \odot A) A=Ehd(∂A∂c⊙A)
h d hd hd枚举图像编码器中的每个注意力头， c c c是模型的输出（即相似性分数）， ⊙ ⊙ ⊙表示Hadamard乘积。iii）相关性图计算，其目的是将注意力图转换为相关性图。特别是，我们首先介绍四个相关性图： R t t , R i i , R t i , R i t R^{tt},R^{ii},R^{ti},R^{it} Rtt,Rii,Rti,Rit定义文本到文本、图像到图像、文本到图像和图像到文本相关性矩阵。然后1）对于自关注，我们对相关性图采用以下更新规则：
R t t = R t t + A ‾ ⋅ R t t R^{tt}=R^{tt}+\overline A \cdot R^{tt} Rtt=Rtt+A⋅Rtt

R t i = R t i + A ‾ ⋅ R t i R^{ti}=R^{ti}+\overline A \cdot R^{ti} Rti=Rti+A⋅Rti

这可以被视为与自注意力计算过程一起向相关性图添加上下文。2）对于双模型注意力，我们采用以下更新规则，对自注意力图实施标准化：
R t i = R t i + R ~ t t ⋅ A ‾ ⋅ R ~ i i R^{ti}=R^{ti}+\tilde{R}^{tt} \cdot \overline A \cdot \tilde{R}^{ii} Rti=Rti+R~tt⋅A⋅R~ii

R t t = R t t + A ‾ ⋅ R i t R^{tt}=R^{tt}+\overline A \cdot R^{it} Rtt=Rtt+A⋅Rit

R ~ t t , R ~ i i \tilde{R}^{tt},\tilde{R}^{ii} R~tt,R~ii分别代表 R t t , R i i R^{tt},R^{ii} Rtt,Rii行标准化， R t i R^{ti} Rti被用作预测框的相关性图。特别是，要为角色生成边界框，我们需要阈值 R t i R^{ti} Rti使用自适应值 0.75 ∗ p 0.75*p 0.75∗p, p p p 是地图局部最大值的峰值。然后我们计算包围所有区域的最紧边界框作为预测框。

4.4 跨模态事件共指

最后，我们应该结合文本和视觉事件，以便进行跨模态事件共指。使用联合表示空间进行跨模态事件共指是简单而直接的：给定一个输入新闻文档，我们首先计算每个句子和图像之间的余弦相似度，通过链接它们，我们最终得到一个二分图，每个边连接一个句子和一个图像。然后，我们利用匈牙利算法[14]找到句子和图像之间的最佳匹配，这将任务表述为最大权重匹配问题。我们最终将最匹配的文本和视觉事件组合成一个事件集。在实践中，我们发现为每个图像迭代选择最佳匹配句子的贪婪算法很好地发挥作用。§6.4研究了跨模态事件共指的各种解决方案的影响。

5、实验设置

5.1 数据集

在我们的实验中，我们使用以下资源进行模型训练：1）ACE 2005[20]，它用33个事件类型和36个语义角色标注文本事件，其包含123078个并行图像字幕对（注意，该数据集没有事件的标注）。为了进行评估，我们使用M2E2数据集[16]，其中包含245个标记有并行文本和视觉事件的文档。M2E2事件模式与8种ACE类型和98种即时事件类型相一致，事件实例分为1105个纯文本事件、188个纯图像事件和385个多媒体事件。表1汇总了详细的数据统计。根据对EE[1，16，22，32，33]的大多数研究，我们使用precision（P）、recall（R）和F1 score（F1）作为评估指标。

6、实验结果

7、总结

在本文中，我们提出了一种新的多媒体EE方法，通过提出一个联合对比学习框架来连接文本和视觉模式。这通常是通过对文本图像对进行训练来实现的，我们证明，通过研究其他模态的互补性，可以使用该框架来促进每个模态的学习。我们的方法实现了最先进的性能，大大优于以前的方法。在未来，我们将努力实现更精确的论元框识别，并考虑多媒体EE的更多模式（如视频）。