推荐系统方法综述

Collaborative Fliter

CTR

根据用户的询问，给于用户信息度相关的广告，会极大的增加用户点击广告的可能性，会增加用户的体验，同时也会增加广告公司的收入。

CTR 指的是click through rate,代表点击该广告的概率。例如某个广告ad在过去一段时间内被展示了1000次，并且受到50次的点击次数，那么 CTR (ad)=0.05.

因此，如何根据历史广告信息和用户信息，较为精准的预测新的广告会被点击的概率具有重要意义，
但是这里存在一个问题：这种根据过去的信息预测点击率的方法有着极大的 Variance ，并且根据 大数定理 广告需要被大量投递后，才能获得较为精准的 CTR 结果。

因此如何能够精准构建广告信息和 CTR 之间的数学模型有着极其重要的意义。
$CTR=f(X_{ad})$
进一步思考，我们可以发现广告点击问题本质上是一个2分类问题: {点击，不点击} ,因此可以构建基于机器学习方法的 CTR 估计模型。

大数定理 ：大数定律说如果统计数据足够大，那么事物出现的频率就能无限接近他的期望值。
大数定理有3种：辛钦大数定理、切比雪夫、伯努利大数定理

辛钦大数定理：

切比雪夫不等式:在不知道随机变量的具体概率密度函数的情况下，可以根据总体的均值和方差时，用切比雪夫不等式来估算一定条件下的概率。

伯努利大数定理：

伯努利大数定理是日常中最常被使用的，它的直观表达就是只要做的试验够多，出现的次数除以总次数的结果接近统计概率p,这也是频率到概率概念演变的理论基础举个例子，结合概率论里面的概念。”抛5次硬币“是一种试验，一共作n重，“ 3次出现正面”，称为事件A,n重试验出现A的次数为fA另外已知"抛5次3次正面"的概率是p，这是一个先验可统计概率。如果n很大，则出现A的次数除以n就可做为统计的概率p.
引用博文大数定理的通俗理解²。

中心极限定理
(1). 样本的平均值约等于总体的平均值
(2).不管样本是什么分布，任意一个总体的样本平均值会围绕着总体平均值周围，并且呈正态分布。
中心极限定理³
基于机器学习LR的CTR估计的发展历程如下图：

LR

根据前文所诉：CTR 估计问题本质上是一个2分类问题，不妨设{点击，不点击}={1，0}，LR模型使用Logit将广告的特征值加权和映射到(0,1)区间，映射后的值就是 CTR 估计值.
$\hat{y}=w_0+\sum_{i=1}^n w_ix_i$
将输入 $\hat{y}$ 通过logit函数之后获得ctr值。
$CTR=logit(\hat{y})$
优化目标：
首先可求当根据原始特征 $X$ 时，预测为1的概率：
$\frac{1}{1+e^{-w^TX}}$
因此预测为0的概率：
$\frac{1}{1+e^-w^TX}=\frac{1}{1+e^{w^TX}}$
根据极大似然思想：
$J(w)=max_{w} \prod_{i=1}^{n} P(y=1|x;w)^{y=1}(y=0|x;w)^{y=0}\\=max \prod_{i=1}^{n} P(y=1|x;w)^{y}(y=0|x;w)^{1-y}\\J(w)=min -\sum_{i=1}^m y^ilog(logit(X^i))+(1-y^i)log(1-logit(X^i))$

当label={-1,1}时： $J(w)=min\sum_{i=1}^m log(1+e^{-y\hat{y}})$
当label是多目标时,有 $T$ 个类别： $J(w)=min-\sum_{i=1}^m\sum_{j=1}^T y_{ij}log(p_{ij})$

LR方法存在很明显的缺陷: (1).LR方法无法捕捉特征之间的联系。(2).LR方法在数据特征有缺失时或者特征空间很大时表现不佳。

POLY2

由于LR方法无法捕捉特征之间的联系，因此可以组合特征建立特征之间的关系：
$\hat{y}=w_0+\sum_{i=1}^n w_ix_i+\sum_{i=1}^n\sum_{j=i+1}^n w_{ij}x_ix_j$
由于对特征进行了组合，因此数据矩阵必定是一个非常稀疏的矩阵。由于 $\frac{\partial\hat{y}}{\partial w_{ij}}=x_ix_j,因此w_{ij}在x_i=0或者x_j=0时不能得到很好的调整。$
POLY2 方法虽然能够捕捉特征之间的联系（度为2），但是由于数据稀疏问题，往往不能得到较好的结果。

FM

FM 方法不同于 PLOY2 ,FM 方法通过对每一位特征引入一个隐向量 $V$ ，使得 FM 方法能够使用稀疏的数据矩阵中，获得可信的结果。
$\hat{y}=w_0+\sum_{i=1}^n w_ix_i+\sum_{i=1}^n\sum_{j=i+1}^n <V_i,V_j>x_ix_j\\<V_i,V_j>=\sum_{f=1}^kV_{if}*V_{jf}$

FM 方法将特征的联系矩阵 $W$ 分解为 $W=V\cdot V^T$ 。其理论依据是，任何的正定矩阵 $W$ 总存在 $V_{n*k}$ ,使得 $W=V\cdot V^T$ ，在 $k$ 充分大的条件下。

FM 方法通过提出隐向量的思想解决了 PLOY2 方法中 $w_{ij}$ 在 $x_i=0$ 或者 $x_j=0$ 时不能得到很好的调整的问题。FM 通过分解 $W$ 打破了矩阵里面参数的独立性，即 $w_{ij}=<V_i,V_j>$ ， $V_i$ 和 $V_j$ 可以由其他特征下学习的结果，因此 FM 能够在稀疏数据集上获得较好的结果。
FM 方法在不调整计算的情况下的时间复杂度 $O(kn^2)$ ，但是通过调整上式，其时间复杂度可降为 $O (k n)$ 。
$\sum_{i=1}^n\sum_{j=i+1}^n <V_i,V_j>x_ix_j\\= \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n <V_i,V_j>x_ix_j-\frac{1}{2}\sum_{i=1}^n <V_i,V_i>x_ix_i \\= \frac{1}{2}(\sum_{i=1}^n\sum_{j=1}^n \sum_{i=f}^kv_{if}v_{jf}x_ix_j-\sum_{i=1}^n\sum_{f=1}^kv_{if}v_{if}x_ix_i)\\=\frac{1}{2}\sum_{f=1}^k((\sum_{i=1}^nv_{if}x_i)^2-\sum_{i=1}^nv_{if}^2x_i^2)$
很明显的可以看出 $(\sum_{i=1}^nv_{if}x_i)^2$ 这一项不需要重复计算，因此时间复杂度降为 $O (k n)$ 。

求解 $V$ 通过SGD方法求解 $V$ :
$\frac{\partial}{\partial\theta}\hat{y}(X)=1, \ when\ \theta=w_0\\ \frac{\partial}{\partial\theta}\hat{y}(X)=x_i, \ when\ \theta=w_i\\ \frac{\partial}{\partial\theta}\hat{y}(X)=x_i\sum_{j=1}^nv_{jf}x_j-v_{if}x_i^2, \ when\ \theta=v_{if}$
FM 的优点：
(1). 可以在稀疏的数据矩阵中对特征进行交叉。
(2).预测和参数的调整都是基于 $O (k n)$ 的时间复杂度。

#########2020.5.1 hwf#############
import tensorflow as tf
import os
import numpy as np
class Fm():def __init__(self,num_classes,k,batch_size,feature_size,train_feature,train_label,save_dir):self.num_classes=num_classesself.k=kself.batch_size=batch_sizeself.feature_size=feature_sizeself.train_feature=train_featureself.train_label=train_labelself.save_dir=save_dirdef bulid_model(self):self.x=tf.placeholder('float32',[None,self.feature_size])self.y=tf.placeholder('float32',[None,self.num_classes])with tf.variable_scope('linear_layer'):w0=tf.get_variable('w0',shape=[self.num_classes],initializer=tf.zeros_initializer)w=tf.get_variable('w',shape=[self.feature_size,self.num_classes],initializer=tf.truncated_normal_initializer(mean=0.0,stddev=0.01))linear_out=tf.add(tf.matmul(self.x,w),w0)with tf.variable_scope('interaction_layer'):embeding=tf.get_variable('v',shape=[self.feature_size,self.k],initializer=tf.truncated_normal_initializer(mean=0.0,stddev=0.01))interaction_out=tf.multiply(0.5,tf.reduce_sum(tf.subtract(tf.pow(tf.matmul(self.x,embeding),2),tf.matmul(tf.pow(self.x,2),tf.pow(embeding,2))),axis=1,keepdims=True))with tf.variable_scope('out_layer'):output=tf.add(linear_out,interaction_out)with tf.variable_scope('accuracy'):correct_prediction = tf.equal(tf.cast(tf.argmax(output,1), tf.float32), tf.cast(tf.argmax(self.y,1), tf.float32))self.accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))# add summary to accuracytf.summary.scalar('accuracy', self.accuracy)if self.num_classes==2:y_prob=tf.nn.sigmoid(output)cross_entropy = tf.nn.sigmoid_cross_entropy_with_logits(labels=self.y, logits=y_prob)elif self.num_classes>2:y_prob=tf.nn.softmax(output)cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels=self.y, logits=y_prob)mean_loss = tf.reduce_mean(cross_entropy)self.loss = mean_losstf.summary.scalar('loss', self.loss)self.optimizer=tf.train.AdamOptimizer()self.train_op=self.optimizer.minimize(self.loss)# def next_batch(self):#     print('mext+_natch',self.train_feature)#     print(self.batch_size)#     input_queue = tf.train.slice_input_producer([self.train_feature,self.train_label], shuffle=False)#     feature_batch, label_batch = tf.train.batch(input_queue, batch_size=self.batch_size, num_threads=2, capacity=128,allow_smaller_final_batch=True)#     return feature_batch,label_batchdef shuffle_list(self,data):num = data[0].shape[0]p = np.random.permutation(num)return [d[p] for d in data]def batch_generator(self,data, batch_size, shuffle=False):if shuffle:data = self.shuffle_list(data)batch_count = 0while True:if batch_count * batch_size + batch_size > len(data[0]):batch_count = 0if shuffle:data = self.shuffle_list(data)start = batch_count * batch_sizeend = start + batch_sizebatch_count += 1yield [d[start:end] for d in data]def train(self,iteration):self.Saver = tf.train.Saver(max_to_keep=100)merge = tf.summary.merge_all()nums_batch=len(self.train_label)//self.batch_size+1init = tf.initialize_all_variables()ckpt=tf.train.get_checkpoint_state(self.save_dir)with tf.Session() as self.sess:coord = tf.train.Coordinator()threads = tf.train.start_queue_runners(self.sess, coord)self.sess.run(init)train_writer=tf.summary.FileWriter('./log/train_logs',self.sess.graph)if ckpt and ckpt.model_model_checkpoint_path:self.Saver.restore(self.sess,ckpt.model_model_checkpoint_path)print("加载模型成功"+ckpt.model_model_checkpoint_path)global_step=int(ckpt.model_checkpoint_path.split('/')[-1].split('-')[-1])else:global_step =0for epoch in range(iteration):for _ in range(nums_batch):#feature_batch, label_batch = self.next_batch()feature, label = next(self.batch_generator([self.train_feature,self.train_label],batch_size=self.batch_size))#feature,label = self.sess.run([feature_batch, label_batch])feed_dic={self.x:feature, self.y:label}loss, accuracy, summary, _ = self.sess.run([self.loss, self.accuracy,merge, self.train_op], feed_dict=feed_dic)train_writer.add_summary(summary, global_step=global_step)global_step+=1if epoch % 100 == 0:print('save_model_{}'.format(epoch))self.Saver.save(self.sess, os.path.join(self.save_dir, 'fm'), global_step=global_step)print("Epoch {1},  loss = {0:.3g}, accuracy={2:.3g}".format(loss, epoch + 1,accuracy))coord.request_stop()coord.join(threads)
if __name__=='__main__':x_train,  x_test,y_train, y_test = load_data()print(x_train)# initialize the modelnum_classes = 5lr = 0.01batch_size = 128k = 40#reg_l1 = 2e-2#reg_l2 = 0feature_length = x_train.shape[1]save_dir=r'./model/'# initialize FM modelmodel =Fm(num_classes,k,batch_size,feature_length,x_train,y_train,save_dir=save_dir)model.bulid_model()model.train(12222)# build graph for model

FFM

FM 方法有仍然存在问题，离散特征 $x_i$ 进行onehot编码后， $x_i$ 会被编码成 $x_{i1},x_{i2},x_{i3}..x_{it}$ ，这些feature被称为一个field。其中特征 $x_{filed_i,feature_j}$ 的隐向量 $V_{ij}$ 跟其他的filed的特征进行组合时，如 $<V_{ij}\cdot V_{ab}>$ 和 $<V_{ij}\cdot V_{cd}>$ 由于 $x_{filed_i,feature_j},x_{filed_a,feature_b}$ 和 $x_{filed_i,feature_j},x_{filed_c,feature_d}$ 属于不同field，因此他们的隐向量组合也会不同。
FFM 对的每一个feature都会包含 $f$ 个隐向量， $f$ 是其他field的个数。
$y_{ffm}=\sum_{i=1}^n\sum_{j=i+1}^n <V_{i,f1},V_{j,f2}>x_ix_j\\其中f1表示j的filed，f2表示i的field。$
ffm的变量个数为 $n f k$ ，时间复杂度为 $O (n n k)$ 。

小结

Model	variable	complexity
LM	$n$	$O (n)$
Poly2	$B$	$O(n^2)$
FM	$n k$	$O (n k)$
FFm	$n f k$	$O (n f k)$

LR+GBDT

核心思想：模型想要得到好的预测结果的最重要的影响因素是 好的特征组合，即特征决定下限，模型决定上限。因此利用GBDT算法对原始特征进行特征重要性划分这种思想，对原始特征进行高维特征组合，减少人工的特征组合。

如上图所示假设有 $T$ 个树，不妨设 $T=2，T_1有5个叶子节点,T_2有3个叶子节点$ ，样本 $X_i$ 在第一棵树中被划分到节点2，在第二棵树中被划分到节点3，则通过GBDT后的: $transformed\ feature=[0,1,0,0,0,0,1,0]$
之后再结合 $transformed\ feature$ 和 $L M$ 模型获得预测结果。

from sklearn.ensemble.gradient_boosting import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import OneHotEncoder
from xgboost import XGBClassifier
import numpy as np
from lightgbm import LGBMClassifier
from sklearn.model_selection import train_test_split#gbdt.apply(x_test)
#返回值为 dimension[n,n_estimator,n_leaves_index]
#假设gbdt.apply(x_test)返回值[[1,1,2],[2,2,2],[3,1,3],[4,5,4]]
#其中[1,1,2],[2,2,2],[3,1,3],[4,5,4]。表示第1,2,3,4个样本，[1,1,2]表示样本1，被划分到第一棵树的第一个叶子节点，被划分到第二棵树的第一个叶子节点，被划分到第3棵树的第二个叶子节点。
#通过OneHotEncoder()之后可以获得每个树的叶子节点的特征组合。
# oneHot=OneHotEncoder()
# oneHot.fit([[1,1,2],[2,2,2],[3,1,3],[4,5,4]])
# print(oneHot.transform([[1,1,2],[2,2,2],[3,1,3],[4,5,4]]).toarray())
#[[1. 0. 0. 0. 1. 0. 0. 1. 0. 0.]
# [0. 1. 0. 0. 0. 1. 0. 1. 0. 0.]
# [0. 0. 1. 0. 1. 0. 0. 0. 1. 0.]
# [0. 0. 0. 1. 0. 0. 1. 0. 0. 1.]]random_seed=10
class GBDT_LR():def __init__(self,data,label,gbdt_name):self.gbdt_set=['xgboost','gbdt','lgb']self.gbdt_name=gbdt_nameself.data=dataself.label=labelself.x_train,self.x_test,self.y_train,self.y_test=train_test_split(self.data,self.label,train_size=0.7,random_state=random_seed)self.gbdt=self.init_gbdt()def init_gbdt(self):if self.gbdt_name == 'xgboost':gbdt = XGBClassifier()elif self.gbdt_name=='gbdt':gbdt=GradientBoostingClassifier()elif self.gbdt_name=='lgb':gbdt=LGBMClassifier()else:print('no valid gbdt model')return gbdtdef gbdt_train(self):self.gbdt.fit(self.x_train,self.y_train)def gbdt_predict(self):self.gbdt_predict =self.gbdt.predict_proba(self.x_test)def cal_auc(self):gbdt_auc=roc_auc_score(self.y_test,self.gbdt_predict)def LR(self):gbdt_encoder=OneHotEncoder()self.lr=LogisticRegression()self.x_train_leafs=self.gbdt.apply(self.x_train)self.x_test_leafs=self.gbdt.apply(self.x_test)gbdt_encoder.fit(self.x_train_leafs)x_train_encoder=gbdt_encoder.transform(self.x_train_leafs)x_test_encoder = gbdt_encoder.transform(self.x_test_leafs)self.lr.fit(x_train_encoder,self.y_train)self.gbdt_lr_predict=self.lr.predict_proba(x_test_encoder)gbdt_lr_auc=roc_auc_score(self.y_test,self.gbdt_lr_predict)print('基于gbdt编码后的LR AUC值:{:.2f}'.format(gbdt_lr_auc))lr2=LogisticRegression()lr2.fit(self.x_train)lr_predict=lr2.predict_proba(self.x_test)lr_auc=roc_auc_score(self.x_test,lr_predict)print('LR AUC值:{:.2f}'.format(lr_auc))

LR+DNN

Wide and deep

广度模型（FM,FFM）一般只能学习一阶和二阶的特征组合，不能很好的发现特征之间的更加高维和抽象的关系。
深度模型（FNN/DNN）一般学习的是不可视的高阶特征的组合，但是丢失了低阶特征的信息。
wide and deep模型结合广度模型和深度模型的优点，充分利用特征的低阶组合和高阶组合，能够达到单一模型达不到的精度。
wide and deep 模型有两个重要的概念：
memorization :通过一系列人工的特征叉乘（cross-product）来构造这些非线性特征，捕捉sparse特征之间的低阶（因为一般只做2阶的，更高阶难以计算）相关性，即“记忆” 历史数据中曾共同出现过的特征对。
优点：模型可解释强，实现高效，特征重要度易于分析。
缺点：需要人工的特征工程，无法捕捉未出现过的特征对，过高阶的特征叉乘容易出现过拟合。
generalization :Generalization 为sparse特征学习低维的dense embeddings来捕获特征相关性，学习到的embeddings本身带有一定的语义信息。可以联想到NLP中的词向量，不同词的词向量有相关性，因此文中也称Generalization是基于相关性之间的传递。这类模型的代表是DNN和FM。

Memorization趋向于更加保守，Memorization根据历史行为数据，产生的推荐通常和用户已有行为的物品直接相关的物品。而Generalization会学习新的特征组合，提高推荐物品的多样性。

这个是从人类的认知学习过程中演化来的。人类的大脑很复杂，它可以记忆(memorize)下每天发生的事情（麻雀可以飞，鸽子可以飞）然后泛化(generalize)这些知识到之前没有看到过的东西（有翅膀的动物都能飞）。但是泛化的规则有时候不是特别的准，有时候会出错（有翅膀的动物都能飞吗）。那怎么办那，没关系，记忆(memorization)可以修正泛化的规则(generalized rules)，叫做特例（企鹅有翅膀，但是不能飞）。
Wide&Deep Mode就是希望计算机可以像人脑一样，可以同时发挥memorization和generalization的作用。–Heng-Tze Cheng(Wide&Deep作者)
link

如上图所示：wide and deep模型仍然存在问题，需要人工的特征工程为wide部分选取合适的特征。

DeepFM

DeepFM 方法基于wide and deep思想，解决了wide and deep中需要进行人为的特征工程的问题。
deepfm结合FM中对每一位特征构建一个隐向量 $V$ 的思想，对onehot后稀疏特征进行embedding。
$\hat{y}=sigmod(y_{FM}+y_{DNN})$
由上式可知 DeepFM 可以分为 FM 和 DNN 两个模块，下面分开来将。
在讲两个模块之前，必须得清楚 DeepFM sparse feature 和 dense embeddings是什么。

由上图，每个 $x_{field,i}$ 都是只有某一个index的位置为1的稀疏向量。每个特征 $x_j$ 都蕴含一个隐向量 $V_j$ ，上图中的dense embeddings层就是每一个非零特征 $x_j$ 对应的隐向量 $V_j$ ，由于一个field只有一个index为1，其余都为零，因此dense embeddings节点个数 $k * f i e l d$ 。这是因为在FM中，只有当特征 $x_j$ 不为0时，对应的隐向量 $V_j$ 才会得到调整。上图中 $V_{1,1},V_{1,2},V_{1,3},V_{1,k}]$ 表示field 1中的某一位不为0的特征的隐向量。不妨设 $filed_i$ 的隐向量矩阵为 $W^i_{t_ik}$ ，其中 $t_i$ 表示 $filed_i$ 中的特征的个数， $k$ 表示隐向量的维数。，不妨设 $X_{filed_i,j}=1$ ，则 $X_{filed_i}*W^i_{t_ik}=[V_{t_i,1},V_{t_i,2},V_{t_i,3},V_{t_i,k}]$ 。

FM 模块:

FM 部分可回顾章节 FM 部分。
DNN DNN部分直接使用dense embeddings作为输入层
$a^0=[e_1,e_2...e_m]$
$e_i$ 表示等 $i$ 个filed的embedding， $m$ 表示field的个数。

DeepFM 总结：
1.不需要任何的预训练
2.结合wide and deep思想，可以同时具备高阶和低阶的特征组合
3.使用了共享隐向量embedding的思想，避免了人为的特征工程。

https://blog.csdn.net/Dby_freedom/article/details/89814644 ↩︎
https://blog.csdn.net/haoso2/article/details/85290720 ↩︎
中心极限定理 ↩︎

推荐系统：CTR模型学习总结--LR、FM、FFM、Wide and Deep、DeepFM相关推荐

推荐系统CTR预估学习路线：深度模型
推荐系统CTR预估学习路线:从LR到FM/FFM探索二阶特征的高效实现推荐系统CTR预估学习路线:利用树模型自动化特征工程推荐系统CTR预估学习路线:深度模型推荐系统CTR预估学习路线:引入注意 ...
CTR经典模型串讲：FM / FFM / 双线性 FFM 相关推导与理解
CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...
推荐系统CTR预估学习路线：引入注意力机制
推荐系统CTR预估学习路线:从LR到FM/FFM探索二阶特征的高效实现推荐系统CTR预估学习路线:利用树模型自动化特征工程推荐系统CTR预估学习路线:深度模型推荐系统CTR预估学习路线:引入注意 ...
推荐系统与深度学习（二）——FFM模型原理
作者:livan 来源:数据python与算法前言上一篇我们讲解了FM模型: 推荐系统与深度学习(一)--FM模型原理从FM的公式我们可以看出: FM中每个特征所对应的向量是唯一的: Vi是Xi ...
推荐系统fmlr_推荐系统实践 0x0c FM系列(LR/FM/FFM)
逻辑回归(LR) 在介绍FM系列之前,我想首先简单介绍一下逻辑回归.通常来说,逻辑回归模型能够综合利用更多的信息,如用户.物品.上下文等多种不同的特征,生成更为全面的结果.另外,逻辑回归将推荐问题看成 ...
推荐系统与深度学习（十四）——GBDT+LR模型原理
公众号后台回复"图书",了解更多号主新书内容作者:livan 来源:数据python与算法模型原理与GBDT+LR模型结缘是刚开始学习推荐系统的过程中,FaceBook一推出 ...
CTR深度学习模型之 DeepFM 模型解读
CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...
深度学习CTR模型粗略记录
深度学习CTR模型粗略记录 RoadMap FM:Factorization Machines DNN:Embedding+MLP WND:Wide & Deep Learning for R ...
CTR 模型之 Deep Cross (DCN) 与 xDeepFM 解读
CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...

推荐系统：CTR模型学习总结--LR、FM、FFM、Wide and Deep、DeepFM

推荐系统概括

推荐系统方法综述

推荐系统的目的

评价指标

Accuracy

logloss

AUC

F1 score