文章目录

  • 1.到底什么是协同过滤
  • 2.协同过滤的一般步骤
  • 3.基于用户的CF (User-CF)
    • 3.1 基本介绍
    • 3.2 用户相似度
      • 3.2.1 用户相似度基本介绍
      • 3.2.2 用户相似度改进:ICU
    • 3.3 User-CF的缺点
  • 4.基于项目的CF (Item-CF)
    • 4.1 基本介绍
    • 4.2 用户相似度
      • 4.2.1 用户相似度基本介绍
      • 4.2.2 用户相似度改进
  • 5.协同过滤:基于邻域的评分预测

该系列历史文章:

  • 1.推荐系统最通俗介绍
  • 2.推荐系统常见算法分类


资料整理,来源于北大刘宏志教授讲座内容。

1.到底什么是协同过滤

  • 协同过滤(Collaborative Filtering, CR):利用集体智慧,借鉴相关人群的观点进行推荐。

  • 基本假设:

    • 过去兴趣相似的用户在未来的兴趣也会相似(由古及今)
    • 相似的用户会产生相似的(历史)行为数据(由表及里)
  • 协同过滤优缺点

    • 优点:

      • 发现新的兴趣点;不需要领域知识;个性化、自动化程度高
    • 缺点:
      • 协同失效,即基本假设失效

2.协同过滤的一般步骤

  • 收集数据:收集能反映用户偏好的数据
  • 寻找邻域:相似的用户(或项目)
  • 计算推荐结果:根据邻域信息计算推荐结果

  • 举例:

  • 收集数据说明

显式反馈:用户主动地向系统表达其偏好,一般需要用户在消费完项目后进行额外反馈;

隐式反馈:隐含用户对项目偏好的行为数据,是用户在探索或消费项目过程中正常操作。

3.基于用户的CF (User-CF)

3.1 基本介绍

基本思想:

  • 基于用户对项目的历史偏好找到相邻(相似)的用户

  • 将邻居(相似)用户喜欢的项目推荐给当前用户

  • 假设:

    • 与我兴趣相似的用户喜欢的项目,我也会喜欢
  • 关键:
    • 寻找相似用户
    • 用户相似度度量

基于 User-CF 的推荐系统整体流程:

  • 离线预处理:

    • 计算用户之间的相似度

    • 并据此确定每个用户的邻域(K近邻)

  • 在线推荐:针对当前活跃(目标)用户,计算推荐列表

    • 确定候选项目集

    • 预测兴趣度并生成推荐列表

3.2 用户相似度

3.2.1 用户相似度基本介绍

用户相似度计算方法:

用户相似度的问题:

  • 下面哪一组用户更相似?

    • 用户A和B都买过《新华字典》

    • 用户C和D都买过《 Recommender Systems Handbook》

  • 【思考】热门项目对我们推荐的影响,如何解决?

3.2.2 用户相似度改进:ICU

逆用户频率(Inverse User Frequency)

  • 基本思想:惩罚热门项目

  • 两个用户对冷门项目有过同样行为更能说明他们兴趣相似

3.3 User-CF的缺点

  • 难以形成有意义的邻域集合

    • 很多用户两两之间只有很少的共同反馈

    • 而仅有的共同反馈的项目,往往是热门项目(缺乏区分度)

  • 随着用户行为数据的增加,用户间相似度可能变化很快

    • 离线(offline)算法难以瞬间更新推荐结果

4.基于项目的CF (Item-CF)

4.1 基本介绍

基本思想:

  • 基于用户对项目的反馈(偏好)寻找相似(相关)的项目
  • 根据用户的历史反馈(偏好)行为,给他推荐相似的项目

  • 假设:

    • 我过去喜欢某类项目,将来还会喜欢类似(相关)项目
  • 关键:

    • 寻找相似(相关)项目
    • 项目相似(相关)度度量

基于 Item-CF 的推荐系统整体流程:

和前面基于用户的非常类似,在此不做展开

  • 离线预处理、在线推荐

4.2 用户相似度

4.2.1 用户相似度基本介绍

用户相似度计算方法:

4.2.2 用户相似度改进

5.协同过滤:基于邻域的评分预测

基于领域的协同过滤算法的关键在于相似度度量的构造。主要有:

  • 余弦相似度

  • 皮尔逊相似度

  • 杰卡德相似度

除此之外,还有通过距离度量来构造相似度:

  • 欧式距离
  • 曼哈顿距离
  • 闵可夫斯基距离

这部分内容都比较常规,或者前面讲过,在此不再展开。


本文主要介绍了协同过滤基本内容,协同过滤,即利用集体智慧,借鉴相关人群的观点进行推荐。其后又介绍了基于用户、项目的协同过滤。

最基础的协同过滤介绍相关推荐

  1. 协同过滤介绍和简单推荐系统的实现

    本文引自http://blog.csdn.net/database_zbye/article/details/8664516 本文介绍推荐系统.协同过滤思想,两种基本的相似度衡量,并用python实现 ...

  2. [推荐系统]协同过滤介绍

    在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法.本文将带你深入了解协同过滤的秘密.下面直接进入正题 1 什么是协同过滤 协同过滤是利用集体智慧的一个典型方法.要理解什么是 ...

  3. 推荐系统组队学习——协同过滤

    文章目录 一.协同过滤介绍 二.相似度度量方法 1. 杰卡德(Jaccard)相似系数 2. 余弦相似度 3. 皮尔逊相关系数 三.基于用户的协同过滤 原理 编程实现 UserCF优缺点 四.基于物品 ...

  4. 推荐系统----协同过滤算法原理及实现

    一.基本介绍 1. 推荐系统任务 推荐系统的任务就是联系用户和信息一方面帮助用户发现对自己有价值的信息,而另一方面让信息能够展现在对它感兴趣的用户面前从而实现信息消费者和信息生产者的双赢. 2. 与搜 ...

  5. 大数据Hadoop学习之————基于物品的协同过滤算法实现物品推荐

    一.基础概念 协同过滤算法一般分为两种实现: 基于用户的协同过滤算法(userCF):通过寻找相似兴趣的其他用户,为指定用户推荐物品.比如用户A喜欢商品A.B,用户B也喜欢商品A和B,则可以认为用户A ...

  6. Spark机器学习——协同过滤推荐算法

    协同过滤介绍 协同过滤简单来说是利用某兴趣相投.拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不 ...

  7. 基于hadoop的商品推荐系统_[零基础入门推荐系统(1)]基于用户和基于物品的协同过滤方法(python代码实现)...

    1. 前言: 为什么会有该系列? 最近,打算写<零基础入门推荐系统>系列,为了系统地介绍推荐系统知识,以及加强基础的实践能力. 该系列将结合一些书籍,比如项亮的<推荐系统实践> ...

  8. 协同过滤入门介绍(转)

    转载自 http://www.cnblogs.com/wentingtu/archive/2011/12/16/2289926.html "探索推荐引擎内部的秘密"系列将带领读者从 ...

  9. 基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五)

    系列文章目录 初识推荐系统--基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一) 利用用户行为数据--基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二) 项目主要效果展示--基 ...

最新文章

  1. android 如何解决scrollTo无法执行
  2. 《计算机组成与体系结构:性能设计》读后小记 18、多核计算机
  3. fpga经典设计100例_“100例”—优秀产品设计曲线细节美图
  4. 机器学习 啤酒数据集_啤酒数据集上的神经网络
  5. Jackson(ObjectMapper)的简单使用(可转xml)
  6. SQL Server2005的XML数据类型之基础篇 (4)
  7. python做一个本地搜索_用 python, django 实现的一个很简单的搜索引擎
  8. 主数据——共享数据的核心,数据资产的灵魂
  9. java计算机毕业设计家庭安防系统MyBatis+系统+LW文档+源码+调试部署
  10. 如何将qlv格式视频转换成MP4?这款功能极强的视频格式转换工具不要错过
  11. c语言getc函数_C语言中的getc()函数与示例
  12. JAVA--多线程管理
  13. PyTorch搭建LSTM实现多变量输入多变量输出时间序列预测(多任务学习)
  14. C#之DES加密解密
  15. c语言编程被7整除的4位数,四位数3a8c能被7整除,且是55的倍数,求a..._一建考试_帮考网...
  16. 二进制 八进制 十进制 十六进制 之间进制转换(图解篇)
  17. 法语入门学习资料汇总
  18. Hibernate的下载和安装
  19. Windows无法访问\\请检查名称的拼写。否则,网络可能有问题。错误代码:0x80070053网络路径键入不正确、不存在或者网络提供程序当前不可用。请尝试键入路径或与网络管理员联系
  20. Linux虚拟机与主机无法Ping通,无法Ping通百度的解决办法

热门文章

  1. 数据分析案例-数据可视化
  2. 在cmd中进入mysql的步骤
  3. XC3101锂电池充电IC(耐高压,带OVP)
  4. VS 注释多行与取消多行注释快捷键
  5. 数据的探索性分析(EDA)
  6. 【Linux】linux的vim文件怎么全选复制、粘贴
  7. 医学统计分析:心电图智能诊病
  8. 16.04 安装 搜狗拼音
  9. 搜狗拼音Lunix系統-乱码及繁体解决
  10. 金庸小说里面的爱情观