目录

Hit Rate(HR)

Precision

Recall

NDCG


常用的评价标准:

第一类是线上评测,比如通过点击率、网站流量、A/B test等判断。这类评价标准在这里就不细说了,因为它们并不能参与到线下训练模型和选择模型的过程当中。

第二类是线下评测。评测标准很多,我挑几个常用的。我就拿给用户推荐阅读相关链接来举例好了。


Hit Rate(HR)

Hit Rate(HR) 所以到底是哪个????

一说:

https://zhuanlan.zhihu.com/p/67287992

二说

hit rate = 命中数/点击数

https://zhuanlan.zhihu.com/p/42158565/

三说

hit的定义为:看这召回的N个item中是否包含用户后续会点击的item(即hit),如果有则记为1,否则记为0,最后求sum(hit)/总用户数。

四说



TopN推荐

网站在提供推荐服务时,一般是给用户一个个性化的推荐列表,这种推荐叫TopN推荐。TopN推荐的预测准确率一般通过准确率(precision)和召回率(recall)度量。

令R(u)是根据用户在训练集上的行为给用户做出的推荐列表,而T(u)是用户在测试集上的行为列表。

Precision

推荐系统的准确率定义为:

Recall

推荐系统的召回率定义为:

比如有一个训练集为(苹果,香蕉,橘子,草莓,哈密瓜,西红柿,黄瓜),用户选中其中几样,以此训练,

测试集为(梨子,菠萝,龙眼,黑莓,白菜,冬瓜)

根据用户在训练集上的行为:

给用户做出的推荐列表为R(u) =(梨子,菠萝,龙眼),用户在测试集上的实际行为列表T(u) =(梨子,黑莓,白菜,冬瓜)

那么R(u)和T(u)的交集为1,R(u)=3,T(u)=4,故准确率为1/3,召回率为1/4。

总结:

  • precision是从已经预测为同一类别的样本抽样。是针对预测结果而言的,表示:预测样本为正的样本中有多少是真正的正样本。
  • recall是从dataset的同一类的样本抽样。是针对原来样本而言的,表示:样本中的正例有多少被预测正确。

【机器学习】评价指标

再举个例子

推荐系统往往只推荐有限个(如k个)物品给某个用户。真正相匹配的物品我们称之为相关物品(也就是二元分类中的阳性)。

k召回(recall at k)=所推荐的k个物品中相关物品的个数所有相关物品的个数k召回(recall at k)=所推荐的k个物品中相关物品的个数所有相关物品的个数。

k精度(precision at k)=所推荐的k个物品中相关物品的个数k精度(precision at k)=所推荐的k个物品中相关物品的个数k。

比如说,根据你的喜好,我们推荐了10个商品,其中真正相关的是5个商品。在所有商品当中,相关的商品一共有20个,那么

k召回 = 5 / 20

k精度 = 5 / 10


NDCG

可能大家接触比较多的是MAP,MAP考虑的是0和1的排序。而NDCG则是考虑到评分的排序。

说到NDCG就需要从CG开始说起。

参考:

推荐系统有哪些常用的评价标准

推荐系统研究中常用的评价指标 - 苏一的文章 - 知乎

怎么理解推荐系统中的NDCG?

希望之后能梳理出哪些是召回部分所用,哪些是排序模型所用。o(* ̄▽ ̄*)ブ

【推荐系统】召回模型线下评价指标相关推荐

  1. 推荐系统——召回模型

    YoutubeDNN 内容 YoutubeDNN是Youtube用于做视频推荐的落地模型,可谓推荐系统中的经典,其大体思路为召回阶段使用多个简单模型筛除大量相关度较低的样本,排序阶段使用较为复杂的模型 ...

  2. 推荐系统resys小组线下活动见闻2009-08-22

    http://www.tuicool.com/articles/vUvQVn 时间2009-08-30 15:13:22  不周山 原文  http://www.wentrue.net/blog/?p ...

  3. 【推荐系统召回模型 DSSM, YoutubeDNN】

    推荐系统组队学习 Task3 召回模型 DSSM, YoutubeDNN 学习内容: 提示:这里是根据开源学习组织DataWhale提供的torch-rechub组队学习相关资料整理的,再次感谢组织和 ...

  4. 推荐系统-模型(一):召回模型【协同过滤类: ItemCF/UserCF】【Embedding类】【Dssm/双塔/word2vec】【图类召回算法 (Deepwalk、EGES)】

    推荐系统-召回模型:[协同过滤类: ItemCF/UserCF][Embedding类][Dssm/双塔/word2vec][图类召回算法 (Deepwalk.EGES)]

  5. 阿里研究员:线下环境为何不稳定?怎么破

    简介: 为什么线下环境的不稳定是必然的?我们怎么办?怎么让它尽量稳定一点? 这篇文章想讲两件事: 为什么线下环境[1]的不稳定是必然的? 我们怎么办?怎么让它尽量稳定一点? 此外,还会谈一谈如何理解线 ...

  6. 推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF/TDM/Airbnb Embedding/Item2vec等)、召回路径简介、多路召回融合]

    搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...

  7. 推荐系统召回四模型之全能的FM模型

    作者 | 张俊林 作者简介:中国中文信息学会理事,中科院软件所博士.目前在新浪微博 AI Lab 担任资深算法专家.在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技 ...

  8. 总结下自己做过的深度召回模型

    作者 | 雨下 整理 | NewBeeNLP 大家好,这里是NeeBeeNLP.今天分享学弟『雨下』的深度召回模型总结.他从毕业后,一直在公司里做召回模型的相关工作,尝试过大量的召回模型,并进行了大量 ...

  9. 推荐系统召回四模型之:全能的FM模型

    原文地址:https://zhuanlan.zhihu.com/p/58160982?utm_source=ZHShareTargetIDMore&utm_medium=social& ...

最新文章

  1. ​厦大等高校研究人员利用卷积神经网络学习脑电地形图表示进行分类
  2. 易语言录入数据到access里重复提示_一招搞定:excel数据共享协同
  3. 跨域产生的原因和解决方法_幼儿语言障碍产生的原因及其解决方法
  4. python 如何转换dataframe列的类型_如何使用Python将所有列从数值转换为分类
  5. debian 安装curl 很简单的一步完成
  6. jQuery基本语法
  7. 模拟SAP ALV下载XLSX文件
  8. java dump可视化在线内存分析工具
  9. vue vuex 挂载_【HAVENT原创】Vue 中使用 Vuex 的几种写法
  10. 阿里云短信API使用
  11. phyton环境添加与工作空间设置
  12. Sverlet案例小萌神服务器端
  13. centos 6 安装 net-speeder
  14. 情报监视和侦察的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  15. ProtonMail邮箱
  16. icare3.0医用his软件部署基本流程
  17. mac 查看本机的IP地址
  18. 哪些行业适合开发小程序商城
  19. (最小生成树)Codeforces Educational Codeforces Round 9 Magic Matrix
  20. 民谣与2017年终总结

热门文章

  1. 新南威尔士大学巩东课题组招收若干名CV/ML/AI方向博士生
  2. freemarker生成word之后遇到未解决的问题,希望有大佬赐教!!!
  3. 诺基亚7.2 刷入第三方ROM
  4. xuperchain源码分析-合约
  5. 爬取NBA30支球队“现役球员信息”,分别存储至txt、excel、mysql数据库!
  6. mysql批量上传数据库_R批量上传数据到MYSQL数据库
  7. 未授权和敏感文件泄露
  8. Aegisub的视频窗口详解
  9. 2003系统服务器防域名报毒,【系统之家】木马病毒无孔不入 win 2003系统也要防木马...
  10. 获取 Windows 任务管理器中应用程序和进程 任务