论文链接:Online Collective Matrix Factorization Hashing for Large-Scale Cross-Media Retrieval | Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval

摘要

跨模式哈希最近因其在大规模跨媒体检索中的效率而受到广泛研究。然而,大多数现有的跨模态哈希方法都以基于批处理的学习模式来学习哈希函数。这种模式不适合大规模数据集,因为内存消耗大,在训练流数据时会失去效率。在线跨模态哈希可以通过在线学习过程中学习哈希模型来解决上述问题。然而,现有的在线跨模态哈希方法无法通过新学习的模型更新旧数据的哈希码。在本文中,我们提出了基于集体矩阵分解哈希(CMFH)的在线集体矩阵分解哈希(OCMFH),它可以根据哈希模型的动态变化自适应地更新旧数据的哈希码,而无需访问旧数据。具体来说,它通过在线优化方案中的集体矩阵分解来学习流数据的判别哈希码。与需要将整个数据点加载到内存中的传统 CMFH 不同,所提出的 OCMFH 仅通过新到达的数据点重新训练哈希函数。同时,它生成新数据的哈希码,并通过最新更新的哈希模型更新旧数据的哈希码。这样,新数据和旧数据的哈希码匹配良好。此外,开发了一种零均值策略来解决在线哈希学习过程中的均值变化问题。在三个基准数据集上的大量实验证明了 OCMFH 在在线跨媒体检索方面的有效性和效率。

1、介绍

随着来自各种社交媒体网站的多媒体数据的爆炸式增长,跨模式哈希(CMH)由于其独特的促进大规模跨媒体检索的能力而备受关注[14]、[19]、[6]。 CMH 的目标是将具有不同模式(例如图像、文本、视频)的高维数据投影到紧凑的二进制代码中,这些代码通过一系列散列函数保留原始数据的内在结构。通过这样做,可以将二进制代码之间的汉明距离用作度量跨模态相似性的度量。通过对二进制哈希码的快速按位运算,CMH 在大规模数据集的速度和存储方面显着节省了计算量。

近年来,许多 CMH 方法被提出并取得了可喜的性能 [20]、[30]、[12]、[29]、[13]。尽管 CMH 取得了实质性进展,但大多数现有方法都是基于批处理的方法。此类方法在离线过程中学习哈希函数,需要提前收集所有训练数据点。因此,它们在实际应用中遇到两个关键问题。首先,它们不能有效地处理流数据。在现实世界的在线网络跨媒体检索中,多媒体数据点通常以流式方式连续到达。例如,Facebook、Instagram 和 Twitter 等社交媒体网站每天都会产生大量数据。新数据到达后,基于批处理的方法应该对所有累积的数据重新训练哈希模型并重新计算整个数据点的哈希码,这显然是低效的。其次,在处理真正的大规模数据集时,它们的计算和内存成本难以承受。随着数据量的不断增长,由于内存开销很大,将所有数据加载到内存中学习哈希函数是不现实的。即使内存很大足以为这些方法加载所有数据,高计算负担和过长的计算时间通常是无法忍的。

为了应对上述挑战,提出了在线 CMH 方法,通过一次处理一大块数据点来学习在线学习模式下的哈希模型。这种方法从顺序到达的数据增量更新哈希函数以适应数据流的变化,同时将新数据编码为紧凑的二进制代码。因此,它们可以有效地应对流数据。同时,由于哈希函数仅由当前数据更新,在线 CMH 方法比基于批处理的方法大大降低了计算成本和内存需求。由于这些优点,在​​线 CMH 最近引起了极大的关注,并提出了几种方法。根据是否使用监督信息,在线 CMH 方法可以分为两类:监督方法和无监督方法。

受监督的在线 CMH 方法利用诸如标签之类的受监督信息来学习流数据的语义保留哈希码。在线潜在语义哈希(OLSH)[28]将离散标签映射到连续潜在语义空间以获得哈希码,并利用在线优化方案来学习哈希模型。灵活的在线多模态散列(FOMH)[15] 开发了一种非对称监督在线散列模型,将多模态数据投影到散列码中。它利用自加权模态融合策略自适应地学习在线流式多模态数据的每种模态的权重。尽管监督方法可以实现良好的性能,但由于标记样本需要大量人力,因此很难获得整个数据集的监督信息。

无监督在线 CMH 方法从数据分布中学习哈希码,在实际应用中比有监督方法更适用。据我们所知,在线跨模态散列(OCMH)[27]和动态多视图散列(DMVH)[26]目前只是两种无监督的在线跨模态散列方法。 OCMH 将哈希码表示为永久共享的潜在代码和动态传输矩阵。当前到达的数据生成永久哈希码以保存当前数据的信息。动态传输矩阵在流数据到达时增量更新。而 OCMH 的共享潜在代码是由当前数据学习的。它们随着哈希模型的变化是不可变的,这会导致新旧数据的哈希码不匹配。尽管 OCMH 试图通过动态传递矩阵来修正失配问题,但失配仍然存在。 DMVH 构造字典来表示多模态数据并支持在线哈希码生成。它随着流数据的变化动态地增加哈希码长度。但是,DMVH 生成的哈希码通常具有高冗余和长位长,尤其是当新到达的数据总是与旧数据不同时。这是因为 DMVH 通过不断变化的数据来增加哈希码。此外,DMVH 也无法通过最新更新的模型有效地更新旧数据的哈希码。综合以上分析,我们可以发现,就我们所知,现有的无监督在线CMH方法都不能有效地随着哈希模型的变化而更新旧数据的哈希码。

在本文中,我们提出了一种新的无监督在线交叉模态哈希方法,称为在线集体矩阵分解基于集体矩阵分解散列(CMFH)的散列(OCMFH),在不参考原始旧数据点的情况下,随着散列模型的变化自适应地更新旧数据的散列码。如图 1 所示,所提出的 OCMFH 通过当前到达的数据增量更新散列函数并为它们生成散列码。哈希模型更新后,OCMFH 会调整旧数据的哈希码以适应哈希模型的变化。因此,新旧数据的哈希码匹配良好。提议的 OCMFH 的贡献如下:

1、所提出的 OCMFH 通过开发一种有效的在线优化方法将 CMFH 扩展到在线学习模式。它增量更新哈希函数以适应流式多模式数据的变化,并同时为当前到达的数据生成哈希码。与需要将整个数据点加载到内存中的传统 CMFH 不同,OCMFH 一次只处理一个数据点,从而大大降低了计算开销和内存需求。
2、所提出的OCMFH可以随着哈希模型的变化而动态更新旧数据的哈希码,而无需访问原始旧数据。因此,旧数据和新数据的哈希码将得到很好的匹配,从而提高检索性能。
3、开发了一种零均值策略来克服在线哈希学习过程中的均值问题。

本文的其余部分安排如下。第 2 节简要回顾了几种现有的在线散列算法和密切相关的集体矩阵分解散列方法。第 3 节介绍了提出的在线集体矩阵分解散列方法及其理论分析。第 4 节提供了三个基准数据集的广泛实验结果。最后,在第 5 节中得出结论。

2 相关工作

2.1在线哈希

在线哈希通过一次使用一个数据点按顺序处理数据来逐步学习哈希模型 [17],[18]。与传统的基于批处理的哈希方法相比,它们在处理大规模数据集时的计算量和内存成本要低得多,并且可以有效地处理流数据,因此最近引起了人们的广泛关注。

在线哈希的早期努力是单模态方法。这种方法旨在学习单峰数据的哈希码。根据学习流数据哈希模型的方式,单模态在线哈希方法可以大致分为基于随机梯度下降(SGD)的方法和基于草图的方法[25]。基于 SGD 的方法首先构建保持相似性的目标函数,然后利用 SGD 在线优化目标函数。代表性的方法是在线基于内核的哈希(OKH)[7]、在线监督哈希(OSupH)[1]、互信息哈希(MIHash)[2]和基于Hadamard码本的在线哈希(HCOH)[10]。基于草图的方法首先在保留原始数据集主要信息的小尺寸数据草图中绘制流数据。然后他们通过数据草图在线学习哈希函数。在线草图哈希 (OSH) [9]、在线监督草图哈希 (OSSH) [25] 和更快的在线草图哈希 (FROSH) [3] 是具有代表性的基于草图的单模态在线哈希方法。

在线跨模式散列是为具有多种模式的数据设计的。目前仅提出了几种在线跨模态散列方法。根据是否使用有监督信息,可以分为有监督信息和无监督信息。受监督的利用语义标签提供的相似性信息来学习有区别的哈希码。例如在线潜在语义散列(OLSH)[28]和灵活的在线多模态散列(FOMH)[15]。在线多模态散列(OMMH)[16]是另一种有监督的跨模态散列方法。它以基于批处理的模式训练哈希模型,并支持查询阶段的在线哈希。它根据动态查询内容自适应地学习查询哈希码。通常,监督方法可以实现有希望的性能。然而,由于标记样本需要大量人力,因此很难获得整个数据集的监督信息。无监督在线跨模式散列从数据分布中逐步学习散列函数。它们比有监督的更适用。据我们所知,目前只有两种无监督的在线跨模态散列方法,即在线跨模态散列(OCMH)[27]和动态多视图散列(DMVH)[26]。然而,OCMH 和 DMVH 在不重新训练哈希模型或访问旧数据点的情况下无法有效地更新旧数据的哈希码。针对这个问题,我们在本文中提出了一种新的在线跨模态哈希方法,称为在线集体矩阵分解哈希。

2.2协同矩阵分解哈希

所提出的在线集体矩阵分解散列方法是集体矩阵分解散列 (CMFH) [5] 的在线版本。在本节中,我们将简要回顾 CMFH。

图 2 显示了 CMFH 的框架。它通过集体矩阵分解[22]将多模态数据转换为低维潜在语义空间,其中数据对共享一个统一的表示。对于样本外扩展,它为不同的模态学习特定于视图的哈希函数。 CMFH 的目标函数是

其中 X푖 ∈ R푑푖 ×푛 是第 푖 模态的零均值特征向量, 푑푖 和 푛 分别是特征向量的维度和数量。 U푖 ∈ R푑푖 ×푘 和 V ∈ R푘×푛 是基向量和统一表示, 푘 是哈希码长度。 P푖∈R푘×푑푖是散列函数的投影矩阵,휆푖、휇和훾是非负参数,푅(·)=∥·∥2퐹是避免过拟合的正则化项。目标函数(1)可以通过迭代更新每个矩阵变量来求解。 CMFH 的学习过程总结在算法 1 中。

CMFH 是一种基于批处理的方法。它需要将整个数据点加载到内存中来学习哈希模型。因此,它在大规模跨媒体检索中存在高内存和计算负担。此外,它不能增量学习流数据的哈希函数。为了解决这些问题,我们在本文中提出了在线集体矩阵分解散列方法。

3 在线集合矩阵分解哈希

在本节中,我们将介绍所提出的在线集体矩阵分解散列方法的细节。为了简化演示,我们首先关注由图像和文本组成的双模态数据的 OCMFH,然后将其扩展到多模态案例。

3.1 符号和问题描述

其中 x푚 ∈ R푑푚 是特征向量, P푚 ∈ R푘×푑푚 是投影矩阵, b푚 ∈ R푘 是标量阈值向量, 푚 = {1, 2}。一般情况下,b푚设置为投影训练数据的均值,得到均衡的哈希码(每个比特的1和-1个数相等),即b푚=1푛˝푖P푚x푚(푖),其中x 푚(푖)是图像或文本训练数据X푚的第푖特征向量。假设训练数据以零为中心,那么哈希函数可以重写为:

在 OCMFH 中,为简单起见,我们减去数据的平均值。

OCMFH 的关键点是通过当前到达的数据增量学习散列函数和散列码。假设我们在前一轮 푡 − 1 中学习了哈希函数 ℎ(푡−1)푚 (x푚) 和哈希码 ∼B(푡−1)。那么,在新的数据块 X(푡) 到达第 푡 轮之后,OCMFH的目标是:1)有效地更新哈希函数以适应新到达的数据块,同时匹配旧的数据块; 2) 为 X(푡) 生成哈希码 B(푡); 3)更新旧数据块〜B(푡-1)的哈希码以适应新的哈希模型,而不访问原始旧数据块〜X(푡-1)。

3.2 零均值归一化

在 OCMFH 中,为了方便学习哈希函数,我们减去了训练数据的均值。在在线设置中,每个数据块都以流式传输方式到达。在哈希学习过程之前无法计算训练数据的确切平均值。而且随着数据的不断变化,数据的平均值也在变化。在本文中,我们采用零均值归一化策略来减去 OCMFH 的数据均值。

在t-1轮,假设我们有一个数据块Xmt-1,其平均值为Umt-1,那么此时的零均值数据,其中 1 是一个全为 1 的常量向量 。在t轮,一个新的数据块Xm到达,平均值为Utm     。那么当前整个数据块的均值将变为 

因此,新的零均值数据块将是 Xmt=Xmt-Umt。下面,我们利用零均值数据块 Xmt来学习哈希模型。为方便起见,我们仍然使用 Xmt来表示 Xmt 。

3.3模型制定

提议的 OCMFH 是 CMFH 的在线版本。它以低计算和存储复杂度的流式方式逐步学习哈希函数和哈希码。其主要目标函数与 CMFH 相同。根据 2.2 节,其主要目标函数定义为

因此,我们专注于在训练阶段学习统一表示 V。

图 1 描述了 OCMFH 的学习框架。当一个新的数据块到达时,它首先更新哈希模型以适应数据的变化。然后它生成新数据的哈希码。最后,根据更新后的哈希模型更新旧数据的哈希码。下面,我们首先在 3.4 节介绍如何更新哈希模型并生成新数据的哈希码,然后在 3.5 节详细介绍如何更新旧数据的哈希码。

3.4 优化在线

OCMFH 的关键点是如何使用顺序到达的数据块增量更新哈希模型。在线学习过程中,在第 푡 (푡 ≥ 2) 轮,总训练数据块 X = {X1, X2} 由新数据块 X(푡) = {X(푡) 1 , X(푡) 2 组成} 和旧数据块 ∼X(푡−1) = { ∼X(푡−1) 1 , ∼X(푡−1) 2 }。那么,在 푡 轮的目标函数 F 的在线表述可以表示为

3.3哈希码更新

当一个新的数据块 X(푡) 到达第 푡 轮时,我们可以使用算法 2 更新哈希模型的参数并生成统一表示 V(푡)。然而,旧数据块 ∼X(푡−1) 的统一表示 ∼V(푡−1) 是由先前在 푡 − 1 轮学习的哈希模型生成的。因此,V(푡) 之间可能存在不匹配和 ∼V(푡−1) 因为哈希模型已经改变。因此,旧数据块的统一表示 ∼V(푡−1) 应该根据模型变化进行更新。简单的解决方案是通过新模型重新生成 ∼V(푡−1)。但是这样一来,我们又不得不在 푡 轮中再次访问到 ∼X(푡−1),这显然不能满足在线学习的要求。

在本文中,我们提出了一种哈希码更新策略来更新旧数据的哈希码以适应模型变化,而无需访问先前的数据点。请注意,矩阵分解的目标是找到两个矩阵,其乘积尽可能接近原始数据矩阵。因此,基矩阵和统一表示的乘积应该尽可能接近原始数据矩阵。因此,令 ∼V(푡−1)푛푒푤 表示在 푡 轮更新模型生成的旧数据的统一表示,我们有

因此,旧数据的统一表示可以通过(26)有效地更新以适应哈希模型的变化,而无需访问旧数据点。由于哈希码是通过量化获得的统一表示,它们也随着统一表示的更新而更新。

算法 3 总结了 OCMFH 的整个学习过程。

3.6 复杂性分析

在本节中,我们分析了所提出的 OCMFH 的时间和空间复杂度。随着 OCMFH 以流式方式增量学习哈希函数和哈希码,我们分析了 OCMFH 在每一轮 푡 的时间和空间复杂度。

时间复杂度:OCMFH的时间复杂度主要由在线优化程序决定。在在线优化过程中,有五个矩阵变量需要更新。更新每个变量的复杂度为 푂 (푛푡 ),푛푡 是第 푡 轮数据块的大小。由于迭代次数通常很少,在线优化过程的整体时间复杂度为 푂 (푛푡 ),与新数据块的大小成线性关系。因此,所提出的 OCMFH 在时间复杂度上是有效的。

空间复杂度:在每一轮中,OCMFH 都会保留中间矩阵以供下一轮更新。这些矩阵的大小只与哈希码长度和特征向量有关,占用的内存空间不大。在学习过程中使用的所有变量 OCMFH 中,只有数据矩阵的大小和统一表示矩阵与 푛푡 相关。一般来说,OCMFH的整体空间复杂度是푂(푛푡),在大规模检索任务中是高效的。

3.7 多模态扩展

OCMFH 对多模态数据的目标函数与(1)相同。我们可以将算法 3 应用于在线优化问题 (1)。

4 .实验

在本节中,我们在三个基准数据集上将提出的 OCMFH 与几种最先进的在线跨模态散列方法进行比较。采用最常用的平均精度度量平均值(mAP)来评估跨媒体检索性能[23]。 mAP 的平均值是所有查询的 top-푘 结果的平均精度值。在实验中,푘设为100。首先,我们介绍与以下实验相关的数据集、比较方法和实验设置。然后,我们报告和分析实验结果。最后,进一步研究了OCMFH的烧蚀分析、收敛分析、计算效率和参数敏感性。

4.1数据集

三个多模式数据集用于评估 OCMFH 的性能。每个数据集有两种模式,即图像和文本。对于每个查询数据,其语义邻居被定义为与其共享至少一个语义标签的那​​些。下面介绍这三个数据集的统计数据。

MIRFlickr [8] 数据集由从 Flickr 网站收集的 25,000 个图像-文本数据对组成。每个数据对与 24 个语义标签中的一个或多个相关联。按照文献 [12] 中的设置,我们获得了 16,738 对。通过对索引向量执行 PCA,将每个图像表示为 150 维的边缘直方图特征,将每个文本表示为 500 维的特征。我们随机选择 836 个图像-文本对作为查询集,其余对作为训练集。为了支持在线学习,训练集被分成 8 个数据块,前 7 个数据块每个包含 2000 个数据对,最后一个数据块包含 1902 个数据对。

NUS-WIDE [4] 数据集由从 Flickr 网站收集的 269,648 个图像-文本数据对组成。每个数据对与 81 个语义标签中的一个或多个相关联。我们选择了一个包含 186,577 个数据对的子集,这些数据对对应于文献 [24] 之后的前 10 个最常见的标签。通过对 VGG Net [21] 的 Caffe 实现提取的 4,096 维深度特征执行 PCA,将每个图像表示为 128 维特征,并将每个文本表示为 1,000 维词袋特征。我们随机选择 2,000 个图像-文本对作为查询集,其余对作为训练集。为了支持在线学习,训练集被拆分为 37 个数据块,前 36 个数据块每个包含 5,000 个数据对,最后一个数据块包含 4,577 个数据对。

MSCOCO [11] 数据集由从 Flickr 网站收集的 122,218 个标记的图像-文本数据对组成。每个数据对都与 80 个语义标签中的一个或多个相关联。通过对 VGG Net 的 Caffe 实现提取的 4,096 维深度特征执行 PCA,将每个图像表示为 512 维特征,通过对其索引向量执行 PCA 将每个文本表示为 512 维特征。我们随机选择 2,000 个图像-文本对作为查询集,其余对作为训练集。为了支持在线学习,训练集被分成 25 个数据块,前 24 个数据块每个包含 5,000 个数据对,最后一个数据块包含 218 个数据对。

4.2 基线和实验设置

据我们所知,有两种无监督的在线跨模态哈希方法,即 OCMH [27] 和 DMVH [26]。因此,我们将提议的 OCMFH 与它们进行比较。考虑到 OCMFH 是 CMFH 的在线版本,我们还将 OCMFH 与 CMFH 进行了比较。由于 CMFH 是一种基于批处理的方法,我们使用所有训练数据点仅在一轮中对其进行训练。为了展示 OCMFH 增量更新哈希函数的有效性,我们还使用第一个数据块通过 CMFH 训练哈希函数,然后应用学习到的哈希函数为其他训练数据块生成哈希码,并让 CMFHBatch 表示在这边走。
        OCMFH 和 CMFH 具有三个参数:휆、휇 和 훾。我们在以下实验中设置 휆 = 0.5、휇 = 100 和 훾 = 0.001。 OCMFH 每轮的最大迭代次数设置为 5。CMFH 在一轮中训练所有训练数据,最大迭代次数设置为 100。OCMH 和 DMVH 的参数根据其文献进行调整。请注意,DMVH 的代码长度不断增加。在实验中,我们将其初始编码长度设置为其他方法的固定哈希码长度。

4.3 实验结果

图 3 报告了 OCMFH 的 mAP 值以及在三个数据集上具有不同哈希码长度的所有比较方法。从中,我们有以下观察结果。

1)直观地说,与在线哈希方法 OCMH 和 DMVH 相比,所提出的 OCMFH 在图像-查询-文本和文本查询-图像任务方面在所有数据集上实现了最高的 mAP 值。这显示了 OCMFH 在在线跨媒体检索中的有效性。

2) OCMFH 产生比 CMFHBatch 更好的性能。反映了OCMFH可以根据流数据的变化更新哈希函数和哈希码。随着哈希模型的不断更新,OCMFH的性能可以不断提升。

3) OCMFH 导致与 CMFH 相当的结果。在某些情况下,OCMFH 甚至实现了比 CMFH 略高的 mAP 值。这种现象表明 OCMFH 可以以流式方式增量学习 CMFH 的哈希模型,具有竞争力的性能。

总之,图 3 中的实验结果表明,通过使用流数据的变化动态更新散列模型,OCMFH 可以获得有希望的检索性能。

图 4 显示了所有在线哈希方法在每轮 32 位哈希码长度的三个数据集上的 mAP 值。可以观察到,通常每种方法的mAP值随着可用训练数据点的增加而增加。这反映了在线方法可以使模型随着轮数的增加更适合数据。与 OCMF 和 DMVH 相比,所提出的 OCMFH 在所有数据集上的每一轮表现都明显更好,这表明其优越的性能。

4.4消融实验

        所提出的OCMFH可以在不参考原始旧数据的情况下,随着哈希模型的变化动态更新旧数据的哈希码。为了评估这种哈希码更新方案的有效性,我们设计了一个名为 OCMFH1 的 OCMFH 变体,它不更新旧数据的哈希码。表 1 报告了 OCMFH 和 OCMFH1 在三个不同码长的数据集上的 mAP 值。很明显,OCMFH 总是比 OCMFH1 表现得更好。这表明更新哈希码可以更好地匹配新旧数据的哈希码,从而提高检索性能。

4.5 收敛性分析

在本节中,我们通过实验展示了 OCMFH 的收敛特性。在实验中,哈希码长度设置为32位,每轮迭代次数设置为5。图5显示了OCMFH随着流数据到达三个数据集的收敛曲线。可以观察到目标函数值在每一轮的每一步都是单调递减的。并且随着轮数的增加,目标函数值普遍呈现下降趋势。随着迭代次数的增加,目标函数值最终会达到局部最小值

4.6 训练时间分析

图 6 通过改变三个具有 32 位哈希码长度的数据集的训练集大小显示了每种方法的训练时间。可以观察到,OCMFH 比 CMFHBatch 花费的时间略多,但比 CMFH 花费的时间少得多。由于 CMFHBatch 只使用第一个数据块训练哈希模型,因此它需要的训练时间当然比使用所有训练数据训练哈希模型的 OCMFH 和 CMFH 更少。与 CMFH 相比,OCMFH 在相同的训练规模下消耗的时间更少。这反映了在线学习的计算效率。在所有三种在线哈希方法中,OCMFH 比 DMVH 快得多,比 OCMH 稍慢。训练规模大于 14000 时,在线哈希法。

DMVH 甚至比基于批处理的方法 CMFH 需要更多时间。根据这些观察,与现有的在线跨模态哈希方法相比,所提出的 CMFH 具有有竞争力的训练效率和更好的性能。

4.7参数敏感性分析

在本节中,我们实证分析了 OCMFH 的每个参数对 MIRFlickr 的敏感性。哈希码长度设置为32。在分析具体参数时,我们固定其他参数并改变它们的值。图 7 显示了 휆 和 휇 的 mAP 变化。通常,当 휇 在 [0.1, 100] 范围内时,OCMFH 会取得良好的性能。 휆 对 OCMFH 对文本查询图像任务的影响很小。在图像查询文本任务上,当 휆 的值在 0.5 左右时,OCMFH 表现良好。一般来说,휆可以在[0.3,0.7]的范围内选择。图 8 显示了带有参数 훾 的 mAP 变化。可以观察到,当훾小于0.1时,可以实现OCMFH的稳定性能。一般来说,훾可以在[0.0001, 0.1]的范围内选择。

5 结论

在本文中,我们提出了一种基于批处理的集体矩阵分解散列的有效且高效的在线交叉模态散列方法,称为在线集体矩阵分解。它增量更新散列函数并通过新到达的数据生成散列码。通过一次处理一个数据块,可以大大节省计算量和存储量。此外,它通过哈希模型的变化自适应地更新旧数据的哈希码,而无需访问旧数据。这样,旧数据和新数据的哈希码匹配得更好,从而提高了检索性能。对三个基准数据集的广泛实验表明,所提出的方法在准确性和效率方面都优于几种最先进的方法。在未来的工作中,我们将尝试将所提出的方法扩展到深度矩阵分解模型以提高其性能

Online Collective Matrix Factorization Hashingfor Large-Scale Cross-Media Retrieval(OCMFH)--文献翻译相关推荐

  1. Matrix Factorization: A Simple Tutorial and Implementation in Python

    本文转自http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-i ...

  2. 【SFace】《SFace: An Efficient Network for Face Detection in Large Scale Variations》

    arXiv-2018 文章目录 1 Background and Motivation 2 Advantages / Contributions 3 Method 3.1 Feature Pyrami ...

  3. Paper之BigGAN:《Large Scale Gan Training For High Fidelity Natural Image Synthesis》翻译与解读

    Paper之BigGAN:<Large Scale Gan Training For High Fidelity Natural Image Synthesis>翻译与解读 目录 效果 1 ...

  4. MF+Matrix Factorization+矩阵分解

    MF+Matrix Factorization+矩阵分解 Matrix Factorization Matrix Decompostion LU分解,QR分解,SVD分解,,,, 非负矩阵分解 概念: ...

  5. 【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors

    ·阅读摘要:   本文提出了利用词向量+CNN/词向量+GRU来解决大规模数据下的多标签文本分类问题.   [1] Large Scale Multi-label Text Classificatio ...

  6. 论文笔记:Matrix Completion in the Unit Hypercube via Structured Matrix Factorization

    2019 IJCAI 0 摘要 复杂任务可以通过将它们映射到矩阵完成(matrix completion)问题来简化.在本文中,我们解决了我们公司面临的一个关键挑战:预测艺术家在电影镜头中渲染视觉效果 ...

  7. 论文笔记:HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization

    论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...

  8. 论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts

    ICDE 2019 0 摘要 在执行时间序列分析时,恢复时间序列中的缺失值至关重要.而本文研究的blackouts问题,即在一定时期内丢失所有数据,是最紧迫和最具挑战性的问题之一.现有的时间序列缺失值 ...

  9. 论文笔记:Temporal Regularized Matrix Factorization forHigh-dimensional Time Series Prediction

    0 摘要 时间序列预测问题在现代应用中变得越来越高维,如气候学和需求预测.例如,在需求预测中,项目数量可能高达50 000个.此外,数据通常是嘈杂的,充满缺失值.因此,现代应用程序需要高度可伸缩的方法 ...

最新文章

  1. R语言四格表的统计分析及假设检验
  2. 【原创】parseInt大改造
  3. 利用sharding-jdbc分库分表
  4. pytest架构 python_Pytest+Allure接口自动化
  5. oracle 体系结构认识,Oracle数据库体系结构简单认识一
  6. 经典的 Fork 炸弹解析
  7. openstack 热迁移(Live Migration)和冷迁移(Cold Migration)
  8. 安卓操作sqlite3,增删改查
  9. echarts地图的基本使用配置
  10. python不同版本共存_多个python版本共存时的pip配置
  11. 数据结构之顺序队列的优化
  12. 机器学习面试-处理聚类问题
  13. php有的图片显示不出来,图片显示不出来,但是数据库里有显示
  14. 网卡驱动程序igb和ixgbe
  15. 中职计算机应用和平面设计,中等职业教育十一五规划教材·中职中专计算机类教材系列·Photoshop平面设计与实训...
  16. 中国公司的「强」盛、拼多多「翻车」和吃不了的播 | 极客一周
  17. shell一站式攻略——history历史命令
  18. 怎么用c语言让电脑定时开关机,台式电脑定时开机怎么设置(怎么让电脑定时开机开关机)...
  19. Second season seventh episode,Ross finds out Rachel like him,what will he do???
  20. 计算机如何接两个屏幕,如何为一台电脑设置两个显示器

热门文章

  1. 笔记——android_uI页面设计基础
  2. 《超级时间整理术——每天多出一小时》读书笔记
  3. 爱思助手安卓能用吗_更好用的Windows版签名工具来啦,操作非常简单,无需越狱!...
  4. Java 中exists用法_SQL中EXISTS的用法
  5. Linux DNS服务详解——DNS服务搭建细节
  6. 电子计算机厂 四月份生产计,分数除分数练习题.doc
  7. 【网络安全】那些年我们一起为攻防做过的信息收集之whois查询
  8. 音乐 | 永远不会被超越的模拟音乐
  9. php检查链接是否有效,如何使用PHP编程检查有效(未死)链接?
  10. Java岗大厂面试百日冲刺【Day43】— Shrio1 (日积月累,每日三题)