mahout 推荐算法 java_Mahout推荐算法API详解

前言

用Mahout来构建推荐系统，是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法，并实现了并行化，提供非常简单的API接口；困难是因为我们不了解算法细节，很难去根据业务的场景进行算法配置和调优。

本文将深入算法API去解释Mahout推荐算法底层的一些事。

Mahout推荐算法介绍

算法评判标准：召回率与准确率

Recommender.java的API接口

测试程序：RecommenderTest.java

基于用户的协同过滤算法UserCF

基于物品的协同过滤算法ItemCF

SlopeOne算法

KNN Linear interpolation item–based推荐算法

SVD推荐算法

Tree Cluster-based 推荐算法

Mahout推荐算法总结

1. Mahout推荐算法介绍

Mahoutt推荐算法，从数据处理能力上，可以划分为2类：

单机内存算法实现

基于Hadoop的分步式算法实现

1). 单机内存算法实现

单机内存算法实现：就是在单机下运行的算法，是由cf.taste项目实现的，像我的们熟悉的UserCF,ItemCF都支持单机内存运行，并且参数可以灵活配置。单机算法的基本实例，请参考文章：用Maven构建Mahout项目

单机内存算法的问题在于，受限于单机的资源。对于中等规模的数据，像1G,10G的数据量，有能力进行计算，但是超过100G的数据量，对于单机来说是不可能完成的任务。

2). 基于Hadoop的分步式算法实现

基于Hadoop的分步式算法实现：就是把单机内存算法并行化，把任务分散到多台计算机一起运行。Mahout提供了ItemCF基于Hadoop并行化算法实现。基于Hadoop的分步式算法实现，请参考文章：

Mahout分步式程序开发基于物品的协同过滤ItemCF

分步式并行算法的问题在于，如何让单机算法并行化。在单机算法中，我们只需要考虑算法，数据结构，内存，CPU就够了，但是分步式算法还要额外考虑很多的情况，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储等等的很多问题。

2. 算法评判标准：召回率(recall)与查准率(precision)

Mahout提供了2个评估推荐器的指标，查准率和召回率(查全率)，这两个指标是搜索引擎中经典的度量方法。

mahout 推荐算法 java_Mahout推荐算法API详解相关推荐

Android复习14【高级编程：推荐网址、抠图片上的某一角下来、Bitmap引起的OOM问题、三个绘图工具类详解、画线条、Canvas API详解（平移、旋转、缩放、倾斜）、矩阵详解】
目录推荐网址抠图片上的某一角下来 8.2.2 Bitmap引起的OOM问题 8.3.1 三个绘图工具类详解画线条 8.3.16 Canvas API详解(Part 1) 1.transla ...
国密算法Go语言实现（详解）(十) ——SM2(椭圆曲线公钥密码算法)
国密算法Go语言实现(详解)(十) --SM2(椭圆曲线公钥密码算法) 原创代码:https://github.com/ZZMarquis/gm 引用时,请导入原创代码库.本文仅以注释方式详解代码逻辑 ...
《算法导论》红黑树详解（一）：概念
在学习红黑树之前,读者应先掌握二叉查找树的相关知识.学习红黑树或者二叉查找树,推荐大家看<算法导论>.<算法导论>原书第3版高清PDF 带详细书签目录下载密码:acis & ...
基于密度的聚类算法（1）——DBSCAN详解
基于密度的聚类算法(1)--DBSCAN详解基于密度的聚类算法(2)--OPTICS详解基于密度的聚类算法(3)--DPC详解 1. DBSCAN简介 DBSCAN(Density-Based S ...
PHP的PSR推荐规范,PSR-1,PSR-2,PSR-3,PSR-4详解
PHP的PSR推荐规范,PSR-1,PSR-2,PSR-3,PSR-4详解 PSR是php standards recommendation(php推荐标准)的简称.PHP-FIG制定了每个推荐的规范 ...
EMD算法之Hilbert-Huang Transform原理详解和案例分析
目录 Hilbert-Huang Transform 希尔伯特-黄变换 Section I 人物简介 Section II Hilbert-Huang的应用领域 Section III Hilbert ...
扩展Euclidean算法求乘法逆原理详解与算法实现
[利用扩展Euclidean算法求乘法逆] 1. Equipment (1) operating system version :WIN 10 (2) CPU instruction set: x 6 ...
国密算法Go语言实现（详解）(九) ——SM2(椭圆曲线公钥密码算法)
国密算法Go语言实现(详解)(九) --SM2(椭圆曲线公钥密码算法) 原创代码:https://github.com/ZZMarquis/gm 引用时,请导入原创代码库.本文仅以注释方式详解代码逻辑 ...
python模拟手写笔迹_Python实现基于KNN算法的笔迹识别功能详解
本文实例讲述了Python实现基于KNN算法的笔迹识别功能.分享给大家供大家参考,具体如下: 需要用到: Numpy库 Pandas库手写识别数据点击此处本站下载. 数据说明: 数据共有785列, ...
算法问题：整数除法详解（Java方向）
算法问题:整数除法详解(Java方向) 1.力扣题目 2.结果代码分析 3.完整的结果代码 4.代码出处和教学出处 5.博主边学习边记录算法的学习 1.力扣题目 1.给定两个整数 a 和 b ,求它 ...

mahout 推荐算法 java_Mahout推荐算法API详解

mahout 推荐算法 java_Mahout推荐算法API详解相关推荐

最新文章

热门文章