跨模态检索是用于跨不同的方式实施检索任务。例如图像文本,视频文本,音频文本跨模态检索。跨模态检索的主要挑战是模态差距,而跨模态检索的关键解决方案是从共享子空间中的不同模态生成新的表示形式,以便将新生成的特征应用于距离度量的计算中,例如 作为余弦距离和欧几里得距离。

目录

  • 摘要
  • 一、介绍
  • 二、跨媒体检索的定义
  • 三、公共空间学习
    • A. 传统的统计相关分析方法
    • B. 基于DNN的方法
    • C. 跨模态图正则化方法
    • D. 度量学习方法
    • E. 学习排列方法
    • F. 词典学习方法
    • G. 跨媒体哈希方法
    • G. 其他方法
  • 未完待续......

摘要

多媒体检索在大数据利用中起着不可或缺的作用。过去的努力主要集中在单一媒体检索。然而,用户的需求是高度灵活的,例如用一个图像查询来检索相关的音频剪辑。因此,来自 “媒体鸿沟” 的挑战吸引了越来越多的关注,这意味着不同媒体类型的表现是不一致的。跨媒体检索是为查询和检索结果属于不同媒体类型的情况而设计的。作为一个相对较新的研究课题,其概念、方法和基准在文献中还不清楚。为了解决这些问题,我们 回顾了100多篇参考文献,给出了包括概念、方法、主要挑战和公开问题在内的概述,并建立了包括数据集和实验结果在内的基准。研究人员可以直接采用这些基准来迅速评估他们提出的方法。这将有助于他们专注于算法设计,而不是耗时的比较方法和结果。值得注意的是,我们已经构建了一个新的数据集XMedia,这是第一个公开可用的数据集,最多有 五种媒体类型(文本、图像、视频、音频和3D模型)。我们相信这一综述将吸引更多的研究者关注跨媒体检索,并对他们有所帮助。

一、介绍

随着文本、图像、视频、音频和3D模型等多媒体数据的快速增长,跨媒体检索变得越来越有吸引力,通过跨媒体检索,用户可以 通过提交任何媒体类型的一个查询来获得各种媒体类型的结果。例如,在参观门桥时,用户可以提交它的照片,并检索相关结果,包括文本描述、图像、视频、音频剪辑和3D模型。

多媒体检索的研究已经持续了几十年[1]。然而,过去的努力通常集中在单媒体检索上,其中查询和检索结果属于相同的媒体类型。除了单媒体检索的情况之外,已经提出了一些方法来处理一种以上的媒体类型。这样的方法旨在在检索过程中将多种媒体类型组合在一起,如[2],[3],但是查询和检索结果必须共享相同的媒体组合。例如,用户可以通过图像/文本对检索图像/文本对。虽然这些方法涉及多种媒体类型,但是它们不是为跨不同媒体类型执行检索而设计的,并且不能直接测量跨媒体的相似性,例如图像和音频剪辑之间的相似性。如今,随着数字媒体内容的生成和随处可见,用户的需求非常灵活,例如通过一次图像查询来检索相关的音频剪辑。这种检索范式被称为跨媒体检索,引起了广泛的兴趣。它比单一媒体检索更加有用和灵活,因为用户可以通过提交他们拥有的任何东西来检索他们想要的任何东西。

跨媒体检索的关键挑战是“媒体间隙”问题,这意味着不同媒体类型的表示是不一致的,并且位于不同的特征空间中,因此测量它们之间的相似性是极具挑战性的。通过分析跨媒体数据中包含的丰富相关性,已经提出了许多方法来解决这个问题。例如,当前的主流方法被设计为学习不同媒体类型的特征的中间公共空间,并且在一个公共空间中测量它们之间的相似性,这被称为 公共空间学习方法。同时,提出了跨媒体相似性度量方法,通过分析已知的数据关系直接计算跨媒体相似性,而不需要获得明确的公共空间。跨媒体检索的简要说明如图1所示。现有的大多数方法只设计用于检索两种媒体类型(主要是图像和文本),但是跨媒体检索强调媒体类型的多样性。因此,仍然存在将其他媒体类型整合到统一框架中的问题,例如视频、音频和3D模型。

图1:跨媒体检索的简要说明,它展示了两种主要的方法,即公共空间学习和跨媒体相似性度量方法。

由于我们对跨媒体检索的研究已经持续了几年[5]–[12],我们发现一些关键的概念、方法和基准问题在文献中仍然不清楚。为了解决这些问题,我们回顾了100多篇参考文献,旨在:

  • 总结现有的工作和方法,提出一个概述,这将有助于跨媒体检索的研究。
  • 建立基准,包括数据集和实验结果。这将有助于研究人员专注于算法设计,而不是耗时的比较方法和结果,因为他们可以直接采用基准来迅速评估他们提出的方法。
  • 为跨媒体检索的综合评估提供新的数据集XMedia。这是第一个由多达五种媒体类型(文本、图像、视频、音频和3D模型)组成的公开数据集。
  • 提出主要的挑战和公开的问题,这对跨媒体检索的进一步研究方向是重要和有意义的。

本文的其余部分组织如下:

  • 第二节介绍了跨媒体检索的定义
  • 第三、四、五节介绍了常见空间学习、跨媒体相似性度量等方法的代表性工作,如表一所示。
  • 第六节总结了跨媒体检索中广泛使用的数据集
  • 第七节介绍了这些数据集的实验结果
  • 第八节介绍了公开的问题和挑战
  • 第九节总结了本文

表1:跨媒体检索的代表性作品。u代表无监督的方法,S代表半监督的方法,F代表完全监督的方法,R代表涉及相关反馈的方法,并且不能通过监督设置容易地分类。

二、跨媒体检索的定义

目标是计算跨媒体相似性sim(xa,yb),并在测试任何媒体类型的一个查询的数据中检索不同媒体类型的相关实例。无监督方法采用所有训练数据都没有标记的设置,半监督方法采用只有训练数据的子集被标记的设置,而完全监督方法采用所有训练数据都被标记的设置。

一些工作涉及分析不同媒体类型之间的相关性,主要是图像和文本,但它们与跨媒体检索有很大不同。例如:

  • 像[13]这样的图像注释方法旨在获得标签被分配给图像的概率,而在跨媒体检索中,文本指的是句子或段落描述,而不仅仅是标签
  • 像[14],[15]这样的图像/视频字幕方法主要是为生成图像/视频的文本描述而设计的,而跨媒体检索的目的是在现有数据中为图像/视频找到最相关的文本,反之亦然。它们之间的另一个重要区别是,图像/视频字幕只关注图像/视频和文本,这不容易扩展到其他媒体类型,而跨媒体检索是跨所有媒体类型的检索,如文本、图像、视频、音频和3D模型。
  • 此外,还有一些涉及不同媒体类型的迁移学习工作,如[16],但迁移学习和跨媒体检索在两个方面有所不同:(1)迁移学习是一种涵盖方法和应用广泛的学习框架,它允许培训和测试中使用的领域、任务和分布不同[17]。然而,跨媒体检索是一项跨不同媒体类型的特定信息检索任务,其特有的挑战和焦点是“媒体鸿沟”问题。(2)“迁移学习旨在从一个或多个源任务中提取知识并将知识应用于目标任务”[17],并且存在不同的源域和目标域。但是 不同的媒体类型在跨媒体检索中被同等对待,并且通常没有不同的源和目标域,或者源和目标任务

三、公共空间学习

基于公共空间学习的方法是目前跨媒体检索的 主流 。他们认为共享相同语义的数据具有潜在的相关性,这使得构建一个公共空间成为可能。以金门大桥为例,所有关于它的文字描述、图像、视频、音频剪辑和3D模型都描述了相似的语义。因此,它们可以在一个公共的高级语义空间中彼此接近。这些方法旨在学习这样一个公共空间,并将不同媒体类型的数据显式地投影到该空间以进行相似性测量。

我们主要介绍了现有的七类方法,其中(一) 传统的统计相关分析方法 是公共空间学习方法的基本范式和基础,主要是通过优化统计值来学习公共空间的线性投影矩阵。其他类别根据不同方面的特点进行分类:

  • 在基本模型上,基于DNN的方法以深层神经网络为基本模型,旨在利用其强大的抽象能力进行跨媒体关联学习
  • 在相关性建模方面,(三)跨媒体图正则化方法采用图模型来表示复杂的跨媒体相关性,(四)度量学习方法将跨媒体相关性视为一组相似/不相似的约束,(五)学习将跨媒体排序信息作为优化目标的排序方法
  • 关于公共空间的性质,(六)字典学习方法生成字典,并且所学习的公共空间是用于跨媒体数据的稀疏系数,(七)跨媒体散列方法旨在学习公共汉明空间以加速检索

因为这些类别根据不同的方面进行分类,所以这些类别之间存在一些重叠。例如,[7]的工作可以分为度量学习和图形正则化方法。

A. 传统的统计相关分析方法

传统的统计相关分析方法是常用空间学习方法的基本范式和基础,主要通过优化统计值来学习线性投影矩阵典型相关分析(CCA)[18]是[19]中介绍的最具代表性的工作之一。跨媒体数据通常被组织成具有不同媒体类型(例如图像/文本对)的成对数据集。CCA是这种情况下的一种可能的解决方案,它学习一个子空间,使两组异构数据之间的成对相关性最大化。作为一个早期的经典作品,CCA也用于最近的一些工作,如[20],[21]。CCA及其变体如[22]–[ 26],是最流行的跨媒体检索基线方法。

CCA本身是无监督的,不使用语义类别标签,但研究人员也试图扩大CCA纳入语义信息。Rasiwasia等人[27]提出首先应用CCA获取图像和文本的公共空间,然后通过逻辑回归实现语义抽象。Costa等人[28]随后进一步验证了将CCA与语义类别标签相结合的有效性。GMA [29]也获得了准确性的提高,这是CCA的监督扩展。多视图CCA [25]被提议将高级语义作为CCA的第三视图,多标签CCA [26]被设计用于处理跨媒体数据具有多个标签的场景。这些方法取得了长足的进步,表明 语义信息有助于提高跨媒体检索的准确性。除了CCA,还有传统统计相关分析的替代方法。

例如,跨模态因子分析(CFA) [30]被提出来 最小化公共空间中成对数据之间的Frobenius范数。作为跨媒体公共空间学习的基本范式,这些方法训练效率较高,易于实施。然而,仅通过线性投影很难完全模拟真实世界中跨媒体数据的复杂相关性。此外,这些方法中的大多数只能模拟两种媒体类型,但是跨媒体检索通常涉及两种以上的媒体类型。

  • CCA典型相关分析
  • CFA跨模态因子分析

B. 基于DNN的方法

随着深度学习的巨大进步,深度神经网络(DNN)在不同的多媒体应用中显示了其潜力,例如对象识别[31]和文本生成[32]。凭借学习非线性关系的强大能力,DNN还被用于对不同媒体类型的数据执行公共空间学习。Ngiam等人[33]将受限玻尔兹曼机(RBM)的扩展应用于公共空间学习,并提出了双模深度自动编码器,其中两种不同媒体类型的输入通过共享代码层,以学习跨媒体相关性并保存重建信息。根据这一思想,提出了一些相似的深层结构,并在跨媒体检索方面取得了进展。例如,Srivastava等人[34]采用两个独立的深Boltzmann机(DBM)对不同媒体类型的特征分布进行建模,并且这两个模型通过在它们之上的附加层作为联合表示层来组合,其可以通过计算联合分布来学习公共空间。

也有一些尝试将DNN和CCA结合起来作为深度典型相关分析(DCCA) [24],[35]。DCCA可以看作是CCA的非线性延伸,用来学习两种媒体类型的复杂非线性转换。与以前的工作[33],[34]不同,以前的工作为不同的媒体类型建立了一个具有共享层的网络,在DCCA有两个独立的子网,并且通过代码层之间的相关性约束来最大化总相关性。冯等人[36]提出了三种公共空间学习体系结构:对应自动编码器、对应跨模态自动编码器和对应全模态自动编码器。它们都有相似的体系结构,由两个耦合在代码层的子网组成,并共同考虑重构误差和相关损耗。一些作品还包括两个自动编码器,如独立组件多模式自动编码器(ICMAE) [37]和深度标准相关自动编码器(DCCAE) [38]。ICMAE通过学习视觉和文本模态的共享表示来关注属性发现,而DCCAE通过整合重构误差和典型相关来优化。彭等人[12]提出了跨媒体多深度网络(),这是一种具有多个深度网络的分层体系结构。CMDN联合保存媒体内和媒体间的信息,为每种媒体类型生成两种互补的独立表示,然后将它们分层组合,通过堆叠学习方式学习公共空间,提高了检索精度。此外,在[39]的工作中,用户的点击被用作跨媒体公共空间学习的辅助信息。前述方法的很大一部分是非卷积的,并且将手工特征作为输入[12],[36]。魏等人[40]提出了深度语义匹配的卷积神经网络,证明了卷积神经网络在跨媒体检索中的强大功能。He等人[41]提出了一种深度和双向表示学习模型,其中两个基于卷积的网络同时对匹配和不匹配的图像/文本对进行建模以进行训练。

跨媒体检索中使用的深层架构主要包括两种方式:

  • 第一种方式可视为一个网络,不同媒体类型的输入通过相同的共享层[33],[34]
  • 第二种方式由通过代码层[36],[42]的相关约束耦合的子网组成

这些方法以DNN为基本模型,因此具有处理复杂的跨媒体关联的抽象能力优势。然而,训练数据通常对DNN模型的性能起着关键作用,并且大规模标记的跨媒体数据集比单媒体数据集更难收集。值得注意的是,上述大多数作品都有仅采用两种媒体类型作为输入的局限性,尽管最近有一些作品涉及两种以上的输入,如[43]采用了五种输入类型。联合学习两种以上媒体类型的公共空间可以提高跨媒体检索的灵活性,这是未来研究的一个重要挑战。

除了上述工作,还为多媒体应用设计了其他深层架构,如图像/视频字幕和文本到图像合成[14],[15],[44],[45]。例如,递归神经网络(RNN)和长短期记忆(LSTM) [14],[15]已经被应用于图像/视频字幕,其可以生成视觉内容的文本描述。Goodfellow等人提出了 生成对抗网络(GANs) [46],该网络通过同时训练两个模型:生成模型和区分模型,通过对抗过程来估计生成模型。GANs的基本思想是在两个玩家之间建立一个游戏,让两个对手互相竞争。每个参与者都由一个可微函数表示,根据[47],该函数通常被实现为深层神经网络。Reed等人[44]开发了一个GANs公式,将视觉概念从字符转换为像素。后来,他们提出了生成性对抗的“什么在哪里”网络(GAWN)[45],通过给出要绘制的内容的位置来合成图像。这些方法不是直接为跨媒体检索而设计的,但是它们的思想和模型对它是有价值的。

C. 跨模态图正则化方法

图正则化[48]广泛应用于 半监督学习,它从标记部分标记图的角度考虑半监督学习问题。边权重表示图中数据的相似性,目的是预测未标记顶点的标签。图形正则化可以丰富训练集并使解平滑。

翟等[7]提出联合图正则化异构度量学习(JGRHML)。他们将图正则化结合到跨媒体检索问题中,跨媒体检索问题使用学习的度量空间中的数据来构造联合图正则化项。然后他们提出了联合表征学习(JRL)方法[10],该方法能够在一个统一的框架中为多达五种媒体类型联合考虑相关性和语义信息。具体来说,他们为每种媒体类型构建了单独的图,其中边权重表示相同媒体类型的已标记和未标记数据的相似性。通过图正则化,JRL丰富了训练集,并联合学习每种媒体类型的投影矩阵。由于对不同的媒体类型分别构造了不同的图,彭等人[11]进一步提出在公共空间中为所有的媒体类型构造一个统一的超图,从而不同的媒体类型可以相互促进。[11]的另一个重要改进是通过媒体实例分段利用细粒度信息,这有助于利用跨媒体数据的多级相关性。图形正则化在最近的一些工作中也是一个重要的部分,例如[49]–[ 51],其中跨媒体图形正则化项被用来保持媒体内和媒体间的相似关系。

图形正则化对于跨媒体相关性学习是有效的,因为它可以描述跨媒体数据的各种相关性例如语义相关性、媒体内相似性和媒体间相似性。此外,图形正则化自然可以在一个统一的框架中模拟两种以上的媒体类型[11]。然而,图形构建过程通常会导致很高的时间和空间复杂性,尤其是在具有大规模跨媒体数据的真实世界场景中

D. 度量学习方法

度量学习方法被设计为从给定的相似/不相似信息中学习输入特征的变换,以获得更好的度量结果,这在单媒体检索中被广泛使用[52],[53]。将跨媒体数据视为多视图单媒体数据的扩展是很自然的,因此研究者试图将度量学习直接应用于跨媒体检索。凭直觉,我们可以了解两种媒体类型的两种转换,并让相似的实例接近,不同的实例分开[54]。JGRHML [7]是一个跨媒体度量学习的代表性工作,它也在第三节讨论。除了相似/不相似的信息,JGRHML为度量学习引入了一个联合图正则化项。不同的媒体类型在联合图正则化中是互补的,联合优化它们可以使解平滑。度量学习在公共空间学习中保留了语义相似/相异的信息,这对于跨媒体数据的语义检索非常重要。然而,现有的用于跨媒体检索的度量学习方法(例如[7],[54])的主要限制是它们依赖于监督信息,并且在监督信息不可用时不适用。

E. 学习排列方法

学习排序方法将排序信息作为训练数据,直接优化检索结果的排序,而不是两两数据之间的相似性。早期的学习排序的工作集中在单媒体检索上,但是一些工作如[55]指出它们可以扩展到跨语言检索。在[56]的工作中,提出了一个判别模型来学习从图像空间到文本空间的映射,但是只涉及单向排序(文本→图像)。对于双向排序方法(具体为文本→图像和图像→文本排序信息),吴等[57]提出了双向跨媒体语义表示模型(Bi-CMSRM)来优化双向列表排序损失。为了融合细粒度的信息,蒋等人[58]首先将视觉对象和文本词投影到局部公共空间,然后利用排序信息以组合方式将它们投影到全局公共空间。此外,吴等人[59]将条件随机场作为共享主题学习,然后利用排序函数进行潜在联合表征学习。倾向于排名的目的是直接受益于最终的检索性能,并可以作为跨媒体检索的优化目标。现有方法主要只涉及[56],[57],[59]两种媒体类型,当媒体类型数量增加时,如何将两种以上媒体类型的排名信息整合到一个统一的框架中仍是一个问题。

F. 词典学习方法

字典学习方法认为数据由两部分组成:字典和稀疏系数。这个想法也可以被整合到跨媒体检索中:将数据分解成每个媒体的特定媒体部分,以及跨模态相关性的公共部分。莫纳奇等人[60]提出学习多模态字典,用于从音频和视频信号中恢复有意义的同步模式。这种方法的核心思想是学习联合视听词典,以便找到不同模态之间的时间相关性。然而,由于它只接受同步时间信号作为输入,它不是一个跨媒体检索方法。贾等人[61]提出每种情态动词学习一部词典,但这些词典的权重是相同的。在这项工作中,数据被清晰地分解成两部分:私有字典和共享系数。朱等人[62]提出了跨模态子模字典学习(CmSDL),它学习一个模态自适应字典对和一个跨媒体表示同构空间。

耦合字典学习[63]是为两个视图联合构建私有字典的有效方法。庄等人[64]提出将单媒体耦合字典学习扩展到跨媒体检索,假设不同媒体类型的稀疏系数之间存在线性映射。一种媒体类型的数据可以通过这些稀疏系数映射被映射到另一种媒体类型的空间中。总之,字典学习方法以因子分解的方式模拟跨媒体检索问题,并且公共空间用于稀疏系数。基于这一思想,他们对方法有不同的看法,例如所有媒体类型的唯一稀疏系数[61]和不同媒体类型的稀疏系数之间的一组投影[64]。由于高度稀疏性,从不同媒体类型的稀疏系数中获取跨媒体相关性更容易。然而,在大规模跨媒体数据上进行字典学习的大量计算是一个挑战。

G. 跨媒体哈希方法

如今,多媒体数据量急剧增长,这就要求检索系统具有较高的效率。哈希方法是为加速检索过程而设计的,广泛应用于各种检索应用中。然而,它们中的大多数只涉及单一媒体类型,如图像[65]。例如,唐等人[66]提出利用局部邻域结构的判别信息来学习图像散列函数,并利用原始空间中样本的邻域来提高检索精度。跨媒体散列旨在为一种以上的媒体类型生成散列码,并将跨媒体数据投影到公共汉明空间中。已经有一些工作将单媒体哈希扩展到具有多个视图或信息源的数据检索,如[67],[68]。它们不是专门为跨媒体检索而设计的,但是这些方法和思想可以很容易地应用到它上面。例如,为了对多个信息源进行建模,张等人[68]提出了具有多个信息源的复合散列法(CHMIS),其思想是既保留原始空间中的相似性,又保留多个信息源之间的相关性。类似地,保留媒体间和媒体内相似性的想法是一些后来的跨媒体检索工作中的一个关键原则[49],[69]–[ 71]。例如,吴等人[49]首先应用超图来模拟媒体内和媒体间的相似性,然后学习用于生成散列码的多模态字典。散列码的鉴别能力也被考虑在内[72],这有助于在监督条件下学习散列码。最近,龙等人[73]提出以无缝方案学习公共空间投影和复合量化器,而大多数现有的工作将连续公共空间学习和二进制代码生成视为两个独立的阶段。

此外,跨媒体哈希方法多种多样,如[74]–[ 83]。这些模型从特征分解和增强[74]到概率生成模型[71],甚至是深层结构[78],[82]都有所不同。上述跨媒体散列方法主要考虑相似的因素,例如媒体间相似性、媒体内相似性和语义辨别能力。值得注意的是,跨媒体散列方法是基于学习的,因为它们从跨媒体相关性中学习,以弥合“媒体鸿沟”。由于二进制哈希码较短,跨媒体哈希在检索效率上具有优势,有利于现实世界中大规模数据集的检索。然而,像[78]-[83]这样的现有作品只涉及两种媒体类型(主要是图像和文本)之间的数据检索。至于实验,一些小规模数据集如维基百科(2,866个图像/文本对)和帕斯卡句子(1,000个图像/文本对)被用来评估散列法的准确性[70],[75],[76],[78],[83]。然而,哈希的效率优势不能在这样的小规模数据集上得到有效验证。

G. 其他方法

仍然有一些方法不容易归类到上述类别。他们还遵循将异构数据投影到公共空间的思想,以便可以直接测量它们的相似性。例如,张等人[84]提出了两步法,首先将数据投影到高维公共空间,然后根据类内距离和类间距离将数据从高维空间映射到低维公共空间。Kang等人[85]提出了基于局部组一致特征学习(LGCFL)来处理不成对数据。在这种方法中,公共空间学习可以根据语义类别标签来获得,而不是像CCA那样严格配对的数据。大多数现有方法对于每种媒体类型只学习一种投影,例如[10],[18],[27]。这可以进一步解释为两个主要方面:第一,对于每种媒体类型,只学习一个全局投影,这可能导致大规模和复杂数据的不灵活性。相反,华等人[86]提出学习一组局部投影,并分析层次结构以利用数据标签的语义相关性。第二是对所有检索任务(如图像→文本和文本→图像检索)使用相同的投影。相反,魏等人[87]提出学习用于图像→文本检索和文本→图像检索的不同投影矩阵。为不同的任务训练不同模型的想法也在诸如[20]的著作中提出。然而,随着检索任务数量的增加,要学习的投影矩阵的数量也将增加,这种想法存在局限性。

在试图发现提供两个不同的高维数据集的公共低维表示的子空间和流形[88] (例如,来自不同视点的两个图像数据集)之后,诸如[89]的一些工作也扩展了用于跨媒体检索的流形对齐。这些方法利用了高维数据具有低维流形结构的直觉,并且旨在通过对齐不同媒体类型的底层流形表示来找到它们的公共空间投影。

未完待续…

An Overview of Cross-media Retrieval: Concepts, Methodologies, Benchmarks and Challenges相关推荐

  1. An Overview of Cross-media Retrieval: Concepts, Methodologies, Benchmarks and Challenges 笔记

    文章目录 1. 论文简介 2. 跨模态检索系统的定义 数学定义: 跨模态检索和其他方法的区别: Common Space Learning 1. 传统的统计相关分析方法 统计相关分析方法具体介绍 统计 ...

  2. 论文笔记--An Overview of Cross-Media Retrieval: Concepts, Methodologies,...-2018- (二)

    论文信息: 论文-An Overview of Cross-Media Retrieval: Concepts, Methodologies, Benchmarks, and Challenges-2 ...

  3. 论文学习- *Strata: A Cross Media File System

    论文学习- Strata: A Cross Media File System Motivation 从应用程序.文件系统.存储设备三个角度来看: >当前应用程序的需求 数据集庞大(容量) 执行 ...

  4. 论文笔记--跨模态间的人脸与人名对齐方法研究-2012

    论文信息: 硕士论文-跨模态间的人脸与人名对齐方法研究-2012-复旦大学-吴伟 文末附人脸标注论文下载地址 文章目录 摘要 技术 框架图 人名重要性评估 人名检测 句法分析获得人名重要性&语 ...

  5. Cluster analysis :Basic Concepts and Algorithms -- Part 5 Cluster Evalation

    系列文章 Cluster analysis :Basic Concepts and Algorithms – Part 1 Overview Cluster analysis :Basic Conce ...

  6. Cluster analysis :Basic Concepts and Algorithms -- Part 3 Hierarchical Clustering

    系列文章目录 Cluster analysis :Basic Concepts and Algorithms – Part 1 Overview Cluster analysis :Basic Con ...

  7. Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读

    Paper:<Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类>翻译与解读 目录 <Multimoda ...

  8. 转载【数据集】计算机视觉,深度学习,数据挖掘数据集整理

    金融 美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 深证A股日线数据,1999.12.09 至 2016.06.08,前复权, ...

  9. 【机器学习】【计算机视觉】非常全面的图像数据集《Actions》

    目录(?)[+] 1.搜狗实验室数据集: http://www.sogou.com/labs/dl/p.html 互联网图片库来自sogou图片搜索所索引的部分数据.其中收集了包括人物.动物.建筑.机 ...

最新文章

  1. 集合中重写equals方法删除new的对象
  2. 判决素数个数(信息学奥赛一本通-T1409)
  3. 十字消除 - Cocos2d-x 2.0.1
  4. springboot配置文件yml格式
  5. 英语——句子结构和成分大全【学习笔记】
  6. 闪存flash进阶知识
  7. CleanMyMac4.12最新版mac系统内存空间清理教程
  8. 第七章 NoSQL数据库技术(二)
  9. 软考高级可以作为高级职称直接落户上海吗?
  10. 如何获取iOS App素材
  11. MQTT下载安装和简单使用
  12. 树莓派4b入门以及各种系统烧录问题分享
  13. Python+OpenCV教程5:颜色空间转换 追踪视频中特定颜色的物体 消除票据中的红色印章
  14. Java介绍:java是什么?
  15. 基于Spring boot的小区物业管理系统
  16. JS来判断客户端是否已安装Adobe Reader软件并提示下载安装
  17. 2022年天猫年货节红包时间,2022年1月7日20点开始
  18. SSM整合redis
  19. Good Luck!
  20. 在线CAD-梦想云图Node.JS服务

热门文章

  1. 网络安全——使用反弹木马进行提权获取主机Shell
  2. 成功英语演讲的秘诀:开场白、结束语(我们做presentation时不用怕了。总结的真强大)
  3. 酷派大神目标年出货千万台 不降价
  4. GO语言—心形GIF图片
  5. PorterDuffXfermode使用
  6. 2020.7.11 日报
  7. 看了你就知道为什么iTunes要对电脑授权了
  8. Excel如何解密工作表保护
  9. 蚂蚁集团开源可信隐私计算框架「隐语」:开放、通用
  10. RTA OS系列介绍04-Alarm