Joint Learning of Deep Retrieval Model and Product Quantization based Embedding Index
Joint Learning of Deep Retrieval Model and Product Quantization based Embedding Index
嵌入索引能够实现快速近似近邻搜索,是目前最先进的深度检索系统不可缺少的组成部分。传统的检索方法往往将嵌入学习和建立索引两个步骤分离,增加了建立索引的时间,降低了检索的准确性。本文提出了一种基于乘积量化的嵌入指标与深度检索模型联合训练的新方法——Poeem,利用梯度直通式估计器、热启动策略和深度检索模型等技术,将两个单独的步骤统一到一个端到端训练中。最优空间分解和吉文斯旋转。大量实验结果表明,该方法不仅显著提高了检索精度,而且索引时间几乎为零。为了便于比较和再现,我们将方法开源。
背景
embidding indexi 的缺点主要问题在于模型训练与索引建立的分离,导致索引建立时间增加,检索精度下降。
量化方法缺点:1)量化步骤作为基于PQ的嵌入指标的核心,具有不可微分的操作,如参数min,使标准的反向传播训练失效。因此,我们利用梯度直通估计器绕过不可微性,以实现端到端训练。2)量化质心随机初始化导致质心分配非常稀疏,参数利用率较低,量化失真较高 3)标准优化乘积量化(OPQ)[9]算法通过正交矩阵对空间进行旋转,进一步降低PQ失真,不能与联合模型一起迭代运行
2 Method
2.1 Revisiting Retrieval Model
一个标准的嵌入检索模型由查询塔
[论文阅读笔记]2019_ICDM_DeepTrust: A Deep User Model of Homophily Effect for Trust Prediction 论文下载地址: 10.1 ... 总结:(1)对基于三元组学习的损失函数利用拉普拉斯矩阵增加了规则化项 (2)通过给hashing code 的每一Bit 给定一个权重,从而实现Bit-Scalable (3)设计tanh-like ... Learning deep energy model: contrastive divergence vs. Amortized MLE abstract 1 Introduction 2 Backg ... 题目:Combining Deep Learning with Information Retrieval to Localize Buggy Files for Bug Reports 作者:An ... 译自:http://sebastianruder.com/multi-task/ 1. 前言 在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我 ... ©作者 | 杰尼小子 单位 | 字节跳动 研究方向 | 推荐算法 文章动机/出发点 这是一篇字节跳动发表在 CIKM 2021 的论文,这一项工作在字节很多业务都上线了,效果很不错.但是这篇文章整体读 ... 今天讲讲字节的一个召回的文章:<Deep Retrieval: An End-to-End Learnable Structure Model for Large-Scale Recommend ... 1. 前言 在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务.然后,我们通过精细调参,来改进模型直 ... 30天挑战翻译100篇论文 坚持不懈,努力改变,在翻译中学习,在学习中改变,在改变中成长- Adversarial Transfer Learning for Deep Learning Based ...Joint Learning of Deep Retrieval Model and Product Quantization based Embedding Index相关推荐
最新文章
热门文章