假如要预测Zero君对一部电影M的评分，而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分（包含M的评分）。那么能预测出Zero君对M的评分吗？答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多，并且也不算复杂的算法。
SVD(Singular Value Decomposition)的想法是根据已有的评分情况，分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度，最后再反过来根据分析结果预测评分。电影中的因子可以理解成这些东西：电影的搞笑程度，电影的爱情爱得死去活来的程度，电影的恐怖程度。。。。。。SVD的想法抽象点来看就是将一个N行M列的评分矩阵R（R[u][i]代表第u个用户对第i个物品的评分），分解成一个N行F列的用户因子矩阵P（P[u][k]表示用户u对因子k的喜好程度）和一个M行F列的物品因子矩阵Q（Q[i][k]表示第i个物品的因子k的程度）。用公式来表示就是
R = P * T(Q) //T(Q)表示Q矩阵的转置

下面是将评分矩阵R分解成用户因子矩阵P与物品因子矩阵Q的一个例子。R的元素数值越大，表示用户越喜欢这部电影。P的元素数值越大，表示用户越喜欢对应的因子。Q的元素数值越大，表示物品对应的因子程度越高。分解完后，就能利用P，Q来预测Zero君对《七夜》的评分了。按照这个例子来看，Zero君应该会给《七夜》较低的分数。因为他不喜欢恐怖片。注意不要纠结图中的具体数值，因为那些数值是我随便填上去的。

实际上，我们给一部电影评分时，除了考虑电影是否合自己口味外，还会受到自己是否是一个严格的评分者和这部电影已有的评分状况影响。例如：一个严格评分者给的分大多数情况下都比一个宽松评分者的低。你看到这部电影的评分大部分较高时，可能也倾向于给较高的分。在SVD中，口味问题已经有因子来表示了，但是剩下两个还没有相关的式子表示。因此有必要加上相关的部分，提高模型的精准度。改进后的SVD的公式如下：
R = OverallMean + biasU + biasI + P * T(Q)　　　　（1）
其中OverallMean表示所有电影的平均分，biasU表示用户评分偏离OverallMean的程度，biasI表示电影评分偏离OverallMean的程度，P，Q意思不变。特别注意，这里除了OverallMean之后，其它几个都是矩阵。

分解完后，即（1）式中的五个参数都有了正确的数值后，就可以用来预测分数了。假设我们要预测用户u对电影i的评分：

bu表示第u个用户的偏离程度，bi表示第i部电影的偏离程度，pu表示第u个用户的因子爱好程度，qi表示第i部电影的因子程度。

2. SVD实现

在第一部分的例子中，你也许会有疑问：明明评分矩阵有一个元素的值是空的，为什么还能得到两个完整的矩阵P和Q呢？原因是那两个矩阵是通过学习(learning)得到的。SVD使用随机梯度下降(stochastic gradient descent)学习（1）式中除了OverallMean之外的参数。学习过程可以概括成这样：先给各个参数一个初值，然后利用这些参数进行预测，并将预测结果与已知评分进行对比，最后根据对比结果修正各个参数。更准确点的说法是调整参数的值，使得以下式子能取到最小值：

ALPHA表示所有训练样本。被第一个圆括号括着的部分表示当前的预测结果与实际值的偏差。被第二个圆括号括着的部分是为了防止过拟合(overfitting)。

以上就是SVD实现时的主要思想了，至于具体实现可以参考我的代码。这个实现版本在movielens 1M上的效果比《A Guide to Singular Value Decomposition for Collaborative Filtering》中提到的要好一点点。这里，我主要提一下实现SVD时要注意的地方：
a. 更新qi时，要先保存
b. 预测分数时，范围要限制在最小值和最大值内

此外，这是我找到的一些有用的建议：
a. 所有参数的regularization 值是一样的，不用特别区分bu, bi和 p，q
b. bu, bi不需要初始化，全部设成0
c. P,Q应该的初始化，一般使用 0.1 * rand(0,1) / sqrt(dim) dim指特征的维数

推荐系统相关算法(1)：SVD相关推荐

svd文章分类 c语言,推荐系统相关算法：SVD
假如要预测Zero君对一部电影M的评分,而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分(包含M的评分).那么能预测出Zero君对M的评分吗?答案显然是能.最简单的方法就是直接将预测分 ...
推荐系统[一]：超详细知识介绍，一份完整的入门指南，解答推荐系统相关算法流程、衡量指标和应用，以及如何使用jieba分词库进行相似推荐，业界广告推荐技术最新进展
搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...
推荐系统相关算法(2)：k-nearest neighbor
1. kNN 1.1 基本的kNN模型 kNN(k-nearest neighbor)的思想简单来说就是,要评价一个未知的东西U,只需找k个与U相似的已知的东西,并通过k个已知的,对U进行评价.假如要 ...
推荐系统[八]算法实践总结V1：腾讯音乐全民K歌推荐系统架构及粗排设计
搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...
推荐系统[八]算法实践总结V3：重排在快手短视频推荐系统中的应用and手淘信息流多兴趣多目标重排技术
搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...
推荐系统[八]算法实践总结V4：混排算法在淘宝信息流第四代混排调控框架实战，提升推荐实时性捕捉实时兴趣。
搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...
推荐系统[八]算法实践总结V0：淘宝逛逛and阿里飞猪个性化推荐：召回算法实践总结【冷启动召回、复购召回、用户行为召回等算法实战】
搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...
科普|推荐系统常用算法总结
算法和模型是推荐系统的核心,直接决定了推荐效果的好坏.在推荐系统中,算法要从两个方面来考虑:算法本身准确性和算法的效率.相对算法准确性,推荐系统工程化更关注的是算法效率.算法和模型层面主要包含如图所示 ...

推荐系统相关算法(1)：SVD

2. SVD实现

推荐系统相关算法(1)：SVD相关推荐

最新文章

热门文章