背景

最近在做评论排序的需求,之前都是按照评论的点赞数来倒排。但是用的很多其它的app并不是这么简单的排序方式,所以本次决定好好研究一下,就有了这几篇

文章的转载。本文转载于阮一峰的网络日志http://www.ruanyifeng.com/blog/2012/02/ranking_algorithm_hacker_news.html

正文

上一篇介绍了"威尔逊区间",它解决了投票人数过少、导致结果不可信的问题。

举例来说,如果只有2个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。

以IMDB为例,它是世界最大的电影数据库,观众可以对每部电影投票,最低为1分,最高为10分。

系统根据投票结果,计算出每部电影的平均得分。然后,再根据平均得分,排出最受欢迎的前250名的电影。

这里就有一个问题:热门电影与冷门电影的平均得分,是否真的可比?举例来说,一部好莱坞大片有10000个观众投票,一部小成本的文艺片只有100个观众投票。这两者的投票结果,怎么比较?如果使用"威尔逊区间",后者的得分将被大幅拉低,这样处理是否公平,能不能反映它们真正的质量?

一个合理的思路是,如果要比较两部电影的好坏,至少应该请同样多的观众观看和评分。既然文艺片的观众人数偏少,那么应该设法为它增加一些观众。

在排名页面的底部,IMDB给出了它的计算方法。

- WR, 加权得分(weighted rating)。
  - R,该电影的用户投票的平均得分(Rating)。
  - v,该电影的投票人数(votes)。
  - m,排名前250名的电影的最低投票数(现在为3000)。
  - C, 所有电影的平均得分(现在为6.9)。

仔细研究这个公式,你会发现,IMDB为每部电影增加了3000张选票,并且这些选票的评分都为6.9。这样做的原因是,假设所有电影都至少有3000张选票,那么就都具备了进入前250名的评选条件;然后假设这3000张选票的评分是所有电影的平均得分(即假设这部电影具有平均水准);最后,用现有的观众投票进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。

这样做拉近了不同电影之间投票人数的差异,使得投票人数较少的电影也有可能排名前列。

把这个公式写成更一般的形式:

  - C,投票人数扩展的规模,是一个自行设定的常数,与整个网站的总体用户人数有关,可以等于每个项目的平均投票数。
  - n,该项目的现有投票人数。
  - x,该项目的每张选票的值。
  - m,总体平均分,即整个网站所有选票的算术平均值。

这种算法被称为"贝叶斯平均"(Bayesian average)。因为某种程度上,它借鉴了"贝叶斯推断"(Bayesian inference)的思想:既然不知道投票结果,那就先估计一个值,然后不断用新的信息修正,使得它越来越接近正确的值。

在这个公式中,m(总体平均分)是"先验概率",每一次新的投票都是一个调整因子,使总体平均分不断向该项目的真实投票结果靠近。投票人数越多,该项目的"贝叶斯平均"就越接近算术平均,对排名的影响就越小。

因此,这种方法可以给一些投票人数较少的项目,以相对公平的排名。

=================================================

"贝叶斯平均"也有缺点,主要问题是它假设用户的投票是正态分布。比如,电影A有10个观众评分,5个为五星,5个为一星;电影B也有10个观众评分,都给了三星。这两部电影的平均得分(无论是算术平均,还是贝叶斯平均)都是三星,但是电影A可能比电影B更值得看。

解决这个问题的思路是,假定每个用户的投票都是独立事件,每次投票只有n个选项可以选择,那么这就服从"多项分布"(Multinomial distribution),就可以结合贝叶斯定理,估计该分布的期望值。由于这涉及复杂的统计学知识,这里就不深入了,感兴趣的朋友可以继续阅读William Morgan的How to rank products based on user input

常用的评论/帖子/文章排序算法六(贝叶斯平均)相关推荐

  1. 常用的评论/帖子/文章排序算法一(Delicious和Hacker News)

    背景 最近在做评论排序的需求,之前都是按照评论的点赞数来倒排.但是用的很多其它的app并不是这么简单的排序方式,所以本次决定好好研究一下,就有了这几篇 文章的转载.本文转载于阮一峰的网络日志http: ...

  2. 排序算法六:选择排序之直接选择排序

    排序算法六:选择排序之直接选择排序 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 引言 在我的博文<"主宰世界"的10种算法短评& ...

  3. 基于用户投票的排名算法(六):贝叶斯平均

    作者: 阮一峰 日期: 2012年3月28日 (这个系列实在拖得太久,今天是最后一篇.) 上一篇介绍了"威尔逊区间",它解决了投票人数过少.导致结果不可信的问题. 举例来说,如果只 ...

  4. 贝叶斯平均:排序算法之二

    贝叶斯平均 贝叶斯平均思想和公式 贝叶斯平均计算实例 贝叶斯平均思想和公式 前期讲过Wilson得分进行排序,解决了观看量很少,导致结果不可信的问题.Wilson评分虽然保证了排名的可靠性,但该排序方 ...

  5. 机器学习(五)常用分类模型(K最近邻、朴素贝叶斯、决策树)和分类评价指标

    机器学习(五)常用分类模型(K最近邻.朴素贝叶斯.决策树)和分类评价指标 文章目录 机器学习(五)常用分类模型(K最近邻.朴素贝叶斯.决策树)和分类评价指标 综述 常用分类模型 K最近邻模型 朴素贝叶 ...

  6. a*算法的优缺点_轻松理解机器学习算法-朴素贝叶斯

    1.预备知识 贝叶斯定理(Bayes' theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关.通常事件A在事件B发生的条件下的概率,与事件B在事件A发生的条件下的概率是不一 ...

  7. 算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)

    算法杂货铺--分类算法之贝叶斯网络(Bayesian networks) 2010-09-18 22:50 by T2噬菌体, 66011 阅读, 25 评论, 收藏, 编辑 2.1.摘要 在上一篇文 ...

  8. 机器学习算法之贝叶斯

    目录 文章目录 目录 一.简单实例 二.朴素贝叶斯 三.高斯贝叶斯 四.综合实例 总结 一.简单实例 import numpy as np X=np.array([[0,1,0,1],#模拟天气特征[ ...

  9. Machine Learning | (5) Scikit-learn的分类器算法-朴素贝叶斯

    Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...

最新文章

  1. MongoDB numa系列问题一:[initandlisten] connection refused because too many open connections:
  2. 谷歌浏览器 关闭 提示恢复网页功能_最强浏览器又更新喽!
  3. hdu5692【dfs序】【线段树】
  4. 趣说游戏AI开发:曼哈顿街角的A*算法
  5. Java 读取 .properties 配置文件的几种方式
  6. VMware vSphere学习笔记二
  7. 40种Javascript中常用的使用小技巧【转】
  8. 130个你需要了解的VIM命令
  9. VC RichEdit插入表格(RTF形式)
  10. oracle复制表到mysql_oracle – 如何将数据从一个数据库/表复制到另一个数据库/表...
  11. GetLogicalProcessorInformation
  12. 微信小程序报Cannot read property ‘setData‘ of undefined的错误
  13. centos6/7修改主机名的正确方法
  14. js 设置cookie和获取cookie
  15. python图像的手绘效果代码_Python项目1:实现将图片转化为手绘效果
  16. ERROR:write javaBean error, fastjson version 1.2.62, class com.itheima.pojo.Brand, fieldName : 8
  17. 为一个 iOS 应用编写一个简单的 Node.js/MongoDB Web 服务
  18. 被繁杂的数据搞到头大?让 Google Cloud 大数据平台帮你实现快准狠!
  19. shopee上架接口java_Shopee虾皮店小秘ERP刊登发布产品图文教程
  20. 应用题:计算以秒为单位的时间量所包含的分钟数和秒数。例如,500秒就是8分20秒

热门文章

  1. MySQL版本由5.7.37更新到5.7.39
  2. java如何打印数组的值,Java打印数组元素的值
  3. 59.(leaflet之家)leaflet动态画线
  4. leafLetAPI中文版
  5. 【OpenCV 例程200篇】45. 图像的灰度直方图(cv2.calcHist)
  6. [转帖][分享]垂直搜索引擎深度分析
  7. 史上最简单的 MySQL 教程(六)「SQL 基本操作 之 数据操作」
  8. 2010.4 计算机二级等级考试 vb上机试题 第一套 的答案,2010年4月计算机二级等级考试VB上机考试第一套.doc...
  9. 【Bug】01_VMware虚拟机中鼠标左右键失灵
  10. C语言刮刮乐(掩码图的范例)