深入浅出推荐系统（四）：召回：向量化的潮流

只要对机器学习稍有涉猎，就会发现如今机器学习，无论是推荐、图像、语言等领域，随处可见embedding，可以说，在深度学习主宰机器学习领域的今天，万物皆可embedding。那么，什么是embedding，怎么对实体进行embedding，推荐领域里，embedding会怎么应用呢？且待本文一一道来。

embedding简介

embedding是什么

在本文之前的几篇文章里，曾经提及对用户或物品的embedding，实际上，embedding就是将实体的自然表达变化成向量化表达的方法。

将实体（用户、物品、图像等）表示为向量有什么用处呢？因为基于文字或者图片表达的实体，并不能够被计算机理解，因此它们彼此之间无法进行相互比较，而一旦转换成计算机可理解的向量，则能够计算它们彼此的距离，从而可以对他们进行相似度的计算了。

其实，在embedding之前，也有各种讲实体进行数值化的方法，比如LDA，plsa，tfidf等， embedding可以看作是将实体在高维数值空间进行映射，只要向量维度足够高，且映射方式合理，就能够很好地表达复杂的实体，因此embedding甫一出世，便获得了热烈的追捧。

embedding的起源及发展

说起embedding，就不得不提word2vec。word2vec是embedding的开天辟地之作，奠定了embedding的根基。对word2vec的学术理解可以参考Mikolov等人的文献[1]和[2]和[3]（文献[3]是doc2vec，使用向量来表达整个文档）。

这里用白话简单介绍下word2vec：
word2vec构建了一个通过上下文来预测单词概率的任务。它的思路是：设置一个滑动窗口（比如5），当滑动窗口滑过文章时，出现在滑动窗口中的几个单词，掩盖住其中一个，通过其他单词来预测被掩盖的那个单词。

上图展示了经典的word2vec模型，对于V个单词，通过滑动窗口选中若干连续单词，这几个单词经过Hidden layer（隐藏层）后，再次映射到V个单词上，预测每个单词的概率，如果目标单词的概率最高，则说明这个网络可以很好地对单词进行预测，也就是隐藏层很好地表达了目标单词。
上面这个模型是word2vec中的CBOW方法，Mikolov还提出了另一个对word做embedding的方法，即Skip-gram。与Skip-gram的结构与CBOW完全一致，仅仅是任务不同，它会在滑动窗口中掩盖大多数单词，仅保留一个单词，用这个单词去预测其他被掩盖的单词。下图展示了这两种方法的区别。

因为在全量单词空间预测概率是个非常耗时的事情，因此word2vec分别使用了Hierarchical Softmax（层次化Softmax）和Negative Sampling（负采样）对目标进行近似处理，减少目标预测的任务量。其中Hierarchical Softmax使用哈夫曼树对单词进行编码，使得高频词更容易被采样到，从而从整体上减少对目标单词的预测任务。而Negative Sampling则是通过采样一定的负例（非目标单词），减少对全量负例的训练。

由于Hierarchical Softmax方法并不能很好地进行并行化，因此，当今的embedding模型中，大部分优化方式都是Negative Sampling，Hierarchical Softmax在深度学习中并不常见。以上两种优化方法包含在常用的机器学习训练包里，直接使用即可。

from gensim.test.utils import common_texts
from gensim.models import Word2Vecmodel = Word2Vec(sentences=common_texts, vector_size=100, window=5, min_count=1, workers=4)
model.save("word2vec.model")

需要注意的是，虽然大量的深度学习会用到embedding的概念，但是作为embedding始祖的word2vec，本身却并不是深度学习模型，因为它的模型里仅包含一层隐层。

embedding的思路非常好地在物体的现实表达和数值化表达构建出一个桥梁。它的精髓在于构建一个合理的任务，在训练任务的过程中，得到向量化的副产品。作为范本，word2vec很好地展现了这一思路，那之后，embedding的应用便在机器学习领域如火如荼地兴起了。

线上召回机制

当实体embedding之后，如何在海量向量中高效查找近邻实体，是非常关键的问题，可以说，正是由于该问题得到妥善解决，才使得embedding技术能在推荐系统中得到迅猛发展。向量召回从实践上来说属于工程范畴，但由于其中涉及到巧妙的算法设计，这里做一个简要介绍。

高维向量检索技术使用的是ANN，即Approximate Nearest Neighbor搜索，它并不是某个算法，而是指一系列用于解决近邻查找问题的算法。ANN包括基于暴力的方法，基于树的方法，哈希方法和基于图的方法，以及向量量化的方法 $^{[14]}$ 。工程实践中常用的成熟第三方库包括Facebook开源的Faiss和Zilliz开源的Milvus。其中Milvus提供了各类向量检索方案，且能满足高性能，强实时性要求。Faiss作为开源多年的常用库，能满足大部分的研究和实时性要求不是特别高的场景。Faiss使用的是向量量化方法中的PQ（Product Quantization，乘积量化）来对存储进行压缩，并使用IVFPQ来实现高效检索。

PQ是将对高维向量进行压缩的一种算法。如下图所示，N个D维向量，每个向量都划分为M（通常取8）段，每一段使用K-means算法进行聚类，聚成K个中心点，每一段的向量都使用其聚类中心表示，这样就压缩了向量的表达空间。K通常取256，使用8bits可以表达，这样每一段就变为8位向量空间，最终向量从N * D * 32bit的空间，压缩成了N * M * 8bit的空间。

当计算query与空间中某个向量x的距离时，可以计算该query所在聚类中心与x所在聚类中心的距离，该距离可线下计算好，因此在线查询的效率很高；另外，也可以计算query本身与x所在聚类中心的距离，需要线上计算，查询效率相对低，但更准确。
从性能啥上看，若要查找最相近的k个邻居，PQ仍然是不够的，因为仍需要遍历M*K次。IVFPQ在PQ基础上对这个问题进行了很好的解决。它的思路是，先对N个向量进行K个聚类，每个聚类中心索引其类内向量。查找时，先对聚类中心进行遍历，找到最近的聚类中心，再进行类内PQ查询。IVFPQ在每个聚类内部进行向量压缩构建时，做了一些细致化处理，如下图所示：聚类之后，在每个类内，先将向量进行处理，不保存原始向量，而保存原始向量与所在聚类中心的差值，PQ则针对差值向量进行。这一做法的背后思想是：差值之间的方差相较原始向量之间的方差更小，因此在差值向量上进行聚类和近似表达，所带来的误差会更小。

使用faiss进行向量构建和查找的代码如下：

import faiss
index = faiss.IndexIVFPQ(quantizer, d, nlist=100, m=4, 8) #构建索引，每个向量都被编码为8个字节大小
index.train(xb)
index.add(xb) #添加向量
D, I = index.search(xq, k) #搜索top k个向量

faiss作为成熟的工业界开源应用，把PQ推向了前台。但PQ本身存在着较大的精度损失。向量检索目前趋势是向图索引发展，比较有代表性的是hnsw算法，它将基于“邻居的邻居也是邻居”的思想，由疏到密构建了多层图，从而提升查询的效率。Milvus即有基于hnsw的实现。感兴趣的朋友可以进行深入阅读。

总结

embedding由于能够广泛融合各类特征，更好地学习到用户和物品的抽象化表达，同时能够通过深度学习网络抓住用户和物品的交互特征，所以在推荐系统上具有非常好的性能。

作为深度学习在推荐领域落地的一个代表性应用，embedding尽管兴起时间不长，但从工业界视角看，已经成为推荐系统在召回领域的基础构件之一。同时，学术界与工业界对embedding的研究一直如火如荼地进行，使得当今时代的推荐系统，几乎言必称embedding。

今天介绍的DSSM和YouTube，以及微软的item embedding都是embedding的杰出代表，尤其是DSSM，由于其思路简单，效果显著，在很多公司都得到了落地应用。而图计算的发展则将推荐系统的embedding带入了一个新天地。当然，复杂模型所带来的工程挑战同样不可忽略。以Faiss和Milvus为代表的ANN召回算法，为这些模型的线上部署提供了极大的便利。

需要注意的是，推荐系统没有万灵丹，embedding也有其自身的局限性。它存在着新用户和新物品冷启动的问题，以及深度学习一向存在的可解释性问题。同时，由于embedding过分关注用户与物品的交互，则在一定程度上损失了对用户和物品的内容结构上的捕获与表达。
因此，在推荐系统的召回应用时，仍然需要考虑业务场景来选择合适的方法与特征。

参考文献
[1] Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, https://arxiv.org/abs/1301.3781v3
[2] Distributed Representations of Words and Phrases and their Compositionality. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean. https://dl.acm.org/doi/10.5555/2999792.2999959
[3] Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]// ACM International Conference on Conference on Information & Knowledge Management. ACM, 2013:2333-2338.
[4] 词袋模型-维基百科. https://zh.wikipedia.org/wiki/%E8%AF%8D%E8%A2%8B%E6%A8%A1%E5%9E%8B
[5] Yelong Shen, Xiaodong He, Jianfeng Gao, Li Deng, Grégoire Mesnil. A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval.https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf
[6] H. Palangi, L. Deng, Y. Shen, J. Gao, X. He, J. Chen, X. Song, R. Ward. Semantic Modelling with Long-Short-Term Memory for Information Retrieval. https://arxiv.org/pdf/1412.6629.pdf
[7]《Al筑巢；机器学习在凤巢的深度应用》, 百度刘斌新, https://www.docin.com/p-2472025656.html.
[8]Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations. Xinyang Yi, Ji Yang, Lichan Hong, Derek Zhiyuan Cheng, Lukasz Heldt, Aditee Kumthekar, Zhe Zhao, Li Wei, Ed Chi. https://dl.acm.org/doi/10.1145/3298689.3346996
[9] Deep Neural Networks for YouTube Recommendations. Paul Covington, Jay Adams, Emre Sargin. https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45530.pdf
[10] Distributed Representations of Sentences and Documents. Quoc Le, Tomas Mikolov. 2014.
[11] Item2vec: Neural Item Embedding for Collaborative Filtering. Oren Barkan, Noam Koenigstein. http://ceur-ws.org/Vol-1688/paper-13.pdf
[12] DeepWalk: Online Learning of Social Representations. Bryan Perozzi, Rami Al-Rfou, Steven Skiena. https://arxiv.org/abs/1403.6652.
[13] Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba. KDD 2018. https://arxiv.org/abs/1803.02349
[14]一文纵览KNN（ANN）向量检索。https://zhuanlan.zhihu.com/p/264367144