DeepFM原理及tensorflow代码实战

1、背景

2、引入

FM挑战

DNN的局限

3、组件介绍

Deep

4、代码解析

1、背景

之前说了wide&deepGoogle于 2016 年在DLRS上发表了一篇文章：2016-Wide & Deep Learning for Recommender Systems，模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN 模型的泛化能力（generalization），在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。

但是由于Wide & Deep的wide部分是一个LR模型，因此仍然需要大量的人工特征工程工作。但是Wide & Deep模型给整个学术界和工业界提供了一种框架思想。基于这种思想，华为诺叶方舟团队结合FM的特征交叉功能，将Wide & Deep的LR部分替换成FM来避免人工工程，提出了Deep FM模型。

整体的结构如图

2、引入

特征组合的挑战

对于一个基于CTR预估的推荐系统，最重要的是学习到用户点击行为背后隐含的特征组合。在不同的推荐场景中，低阶组合特征或者高阶组合特征可能都会对最终的CTR产生影响。

之前介绍的因子分解机(Factorization Machines, FM)通过对于每一维特征的隐变量内积来提取特征组合。最终的结果也非常好。但是，虽然理论上来讲FM可以对高阶特征组合进行建模，但实际上因为计算复杂度的原因一般都只用到了二阶特征组合。

那么对于高阶的特征组合来说，我们很自然的想法，通过多层的神经网络即DNN去解决。

DNN的局限

下面的图片来自于张俊林教授在AI大会上所使用的PPT。

对于离散特征的处理，我们使用的是将特征转换成为one-hot的形式，但是将One-hot类型的特征输入到DNN中，会导致网络参数太多：

如何解决这个问题呢，类似于FFM中的思想，将特征分为不同的field：

再加两层的全链接层，让Dense Vector进行组合，那么高阶特征的组合就出来了

但是低阶和高阶特征组合隐含地体现在隐藏层中，如果我们希望把低阶特征组合单独建模，然后融合高阶特征组合。

即将DNN与FM进行一个合理的融合：

二者的融合总的来说有两种形式，一是串行结构，二是并行结构

DeepFM，就是并行结构中的一种典型代表。

如下：

3、组件介绍

DeepFM包含两部分：神经网络部分与因子分解机部分，分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的输入。DeepFM的预测结果可以写为：

FM

FM部分是一个因子分解机。关于因子分解机可以参阅文章[Rendle, 2010] Steffen Rendle. Factorization machines. In ICDM, 2010.。因为引入了隐变量的原因，对于几乎不出现或者很少出现的隐变量，FM也可以很好的学习。

FM的输出公式为：

Deep

深度部分是一个前馈神经网络。与图像或者语音这类输入不同，图像语音的输入一般是连续而且密集的，然而用于CTR的输入一般是及其稀疏的。因此需要重新设计网络结构。具体实现中为，在第一层隐含层之前，引入一个嵌入层来完成将输入向量压缩到低维稠密向量。

嵌入层(embedding layer)的结构如上图所示。当前网络结构有两个有趣的特性，1）尽管不同field的输入长度不同，但是embedding之后向量的长度均为K。2)在FM里得到的隐变量Vik现在作为了嵌入层网络的权重。

这里的第二点如何理解呢，假设我们的k=5，首先，对于输入的一条记录，同一个field 只有一个位置是1，那么在由输入得到dense vector的过程中，输入层只有一个神经元起作用，得到的dense vector其实就是输入层到embedding层该神经元相连的五条线的权重，即vi1，vi2，vi3，vi4，vi5。这五个值组合起来就是我们在FM中所提到的Vi。在FM部分和DNN部分，这一块是共享权重的，对同一个特征来说，得到的Vi是相同的。

4、代码解析

整个模型是由FM + Deep组成，所以代码也是按照这个逻辑来做的

FM包括两个部分，一个是线性部分，另一个是Embedding

可以根据公示进行得到

Y_liner = tf.matmul(x, W) + bembeddings = tf.multiply(v, Input_x) # None * V * X
summed_features_emb = tf.reduce_sum(embeddings, 1)  # sum(v*x)    summed_features_emb_square = tf.square(summed_features_emb)  # (sum(v*x))^2# square_sum part
squared_features_emb = tf.square(embeddings) # (v*x)^2
squared_sum_features_emb = tf.reduce_sum(squared_features_emb, 1)   # sum((v*x)^2)Y_pair = 0.5 * tf.subtract(summed_features_emb_square, squared_sum_features_emb)  # 0.5*((sum(v*x))^2 - sum((v*x)^2))

deep部分，就是将Embedding part的输出再经过两层全链接

input_size = n_features*fv
output_size = dnn_layer[0]
deep_inputs = tf.reshape(embeddings, shape=[-1, input_size]) # None * (F*K)
print("%s: %s" % ("lay1, deep_inputs", deep_inputs))# 全连接计算
deep_outputs = udf_full_connect(deep_inputs, input_size, output_size, dnn_active_fuc[0])for i in range(len(dnn_layer) - 1):with tf.variable_scope("deep_layer%d"%(i+2), reuse=tf.AUTO_REUSE):print("lay%s, input_size: %s, output_size: %s, active_fuc: %s" % (i+2, dnn_layer[i], dnn_layer[i+1], dnn_active_fuc[i+1]))# 全连接计算deep_outputs = udf_full_connect(deep_outputs, dnn_layer[i], dnn_layer[i+1], dnn_active_fuc[i+1])print("lay%s, deep_outputs: %s" % (i+2, deep_outputs))# 输出层计算
print("lay_last, input_size: %s, output_size: %s, active_fuc: %s" % (dnn_layer[-1], 2, dnn_active_fuc[-1]))
with tf.variable_scope("deep_layer%d"%(len(dnn_layer)+1), reuse=tf.AUTO_REUSE):deep_outputs = udf_full_connect(deep_outputs, dnn_layer[-1],2, dnn_active_fuc[-1])

最后把两部分输入进行结合

concat_input = tf.concat([Y_liner, Y_pair, Y_deep], axis=1)
Y_sum = tf.reduce_sum(concat_input, 1)
print("Y_sum",Y_sum)
score=tf.nn.sigmoid(Y_sum,name='score')

After 900 steps, loss_value is: 0.522057
After 900 trainging steps ,validation accuarcy is 77.1932%
Testing Accuracyis 77.4728%

完整代码可以到GitHub进行查看

https://github.com/Andyszl/Recommendation_algorithm/tree/tensorflow