分享一个常见的场景,也是经常困扰大家的问题。

先来一个场景:假设平台售卖两款手机A和B。A手机有800人喜欢,200人不喜欢;B手机有9人喜欢,2人不喜欢。那么,用户更喜欢哪款手机?

相信这个场景,各位朋友在日常生活中、在工作中都遇到过。你们平时是如何做判断呢?希望通过今天的文章,能给大家一个新的视角、也更加科学的方案。

01

常见的衡量方法

我想,大家的第一反应应该是按照比率进行衡量吧?因此,

A手机喜好率=800÷(800+200)=80%

B手机喜好率=9÷(9+2)=82%

80%<82%,因此用户更喜欢B手机。

这样对吗?

看起来没毛病。毕竟喜欢率越高,代表用户更喜欢嘛!但是,相信朋友也看出了这个例子的端倪:B手机的总共的样本量才11个,虽然喜欢率高,但是样本量这么低,随便一个数据变化都会对结果产生巨大的影响。

因此,按照这种比率的方法,算出的喜欢率,“靠谱”吗?用统计学的语言,置信吗?

02

威尔逊得分

上面我们觉得按照简单的喜欢率来计算,有点难衡量。但是,如果不按照喜欢率来比较,还能如何计算呢?这就是我们今天的主题了:威尔逊得分。

(1)公式定义

先看看具体的威尔逊得分计算公式:

u表示正例数(喜欢),v表示负例数(不喜欢),n表示实例总数(总样本数),p表示喜欢率,z是正态分布的分位数(参数),S表示最终的威尔逊得分。得分越高,代表越喜欢的程度、喜欢的概率越大。

通常,当置信度95%的情况下,z取1.96(近似2)即可。其他常见置信水平与z取值的对应关系如下:

关于置信区间的概念,可以参考文章《区间估计的置信区间概念及方法》。

(2)案例验证

下面,我们根据上面的公式,计算一下我们开头案例的A手机和B手机的威尔逊得分情况。

对于A手机,n=1000,p=0.8,按照95%的置信度,取z≈2,代入威尔逊得分公式中,求得S(A)=0.77

对于B手机,n=11,p=0.82,按照95%的置信度,取z≈2,代入威尔逊得分公式中,求得S(B)=0.52

因此,0.77>0.52,A手机的威尔逊得分高于B手机,按照该算法,我们有结论:在置信度95%的情况下,虽然A手机的喜欢率不如B手机,但是有理由相信用户对A手机其实是更加喜欢的。

(3)相关应用

其实该得分算法的应用还是比较多的。

除了上文中提出的例子外,该得分算法经常应用于各个网站的排序上。比如知乎的搜索排序(我看网上有说知乎是用的威尔逊得分进行的。这里我也没法验证,如果有知乎的朋友可以留言验证一下。关于搜索算法可以参考文章《搜索系统的基础知识以及应用》):

可以看出,知乎的搜索结果排序中,并不是完全基于赞同数量进行的倒叙排列。如果完全赞同数多的回答置顶,那么新的高质量回答,就永远没有出头之日了,对于内容生态的维护一定是有很大问题的。

当然,哪怕是用了威尔逊得分,真实实践中,也会在这个基础上增加更多维度的打分,咱们这里就是以此举例,说明威尔逊得分的应用场景,大家清楚就好。

如果只是想把威尔逊得分作为工具,那么掌握到这里、知道了公式该如何使用、如何计算、应用场景是啥,就足够了。但如果想深入理解一下公式的统计学含义以及推导逻辑,可以参考下面一节。

03

统计原理与逻辑

下面,我们一起看看这个威尔逊公式是怎么得到的,以及背后的统计学原理是啥。

(1)原理概述

首先,威尔逊得分只是威尔逊区间的一个变形,取了威尔逊区间的下限值作为威尔逊得分。

那什么是威尔逊区间呢?

本质上,威尔逊区间其实就是用户喜欢率的一个区间估计(关于区间估计可参考历史文章《区间估计的基础介绍》)。但是该区间估计考虑了样本过小时候的情况,根据样本量对区间估计进行了修正,使得该区间估计能够较好的衡量不同样本量情况。

说白了,我们用样本计算的用户喜欢率,本质上只是对用户真正的喜欢率的一个点估计而已,样本越少,可信度越低;样本数越多,根据中心极限定理,点估计越接近真实值。如果样本数都很多,那么我们直接计算手机A和B的喜欢率,基本就能代表真实情况了,是可以比较的。但是当样本数不够,就面临了上文中的问题。威尔逊,就是1920年代提出了这个区间估计的公式,用以解决小样本的准确性问题。

由于提出的公式是区间估计公式,所以本来是一个一个的区间。比如假设A手机的喜欢率95%置信区间估计是[0.77,0.83],B手机喜欢率95%的置信区间估计是[0.52,1]。如何对比两个区间呢?威尔逊得分就是取了不同区间的下限进行比较,因此哪个下限高,代表概率更高。

(2)公式推导

这里的公式推导其实还是有点复杂的,我不一一展开了,放一下网上的推导步骤截图,有兴趣的朋友可以自行探索一下啊!

(3)性质特性

最后我们看看这个公式的一些性质吧。

  • 性质1:得分S的范围是[0,1),效果:已经归一化,适合排序

  • 性质2:当正例数u为0时,p为0,得分S为0;效果:没有好评,分数最低;

  • 性质3:当负例数v为0时,p为1,退化为1/(1 + z^2 / n),得分S永远小于1;效果:分数具有永久可比性;

  • 性质4:当p不变时,n越大,分子减少速度小于分母减少速度,得分S越多,反之亦然;效果:好评率p相同,实例总数n越多,得分S越多;

  • 性质5:当n趋于无穷大时,退化为p,得分S由p决定;效果:当评论总数n越多时,好评率p带给得分S的提升越明显;

  • 性质6:当分位数z越大时,总数n越重要,好评率p越不重要,反之亦然;效果:z越大,评论总数n越重要,区分度低;z越小,好评率p越重要;

(4)变形扩展

另外,我们这里都是二项分布。如果是评分等级问题:如五星评价体系,或者百分评价体系,该怎么办呢?

将威尔逊得分的公式由伯努利分布修改为正态分布,带入相关参数即可。

注意:均值和方差均是归一化之后的数值。

关于威尔逊得分,我们就分享这些,希望对大家今后的数据工作能有所帮助。以后再衡量哪个更好,可以有更专业的算法模型了!

END -

对比Excel系列图书累积销量达15w册,让你轻松掌握数据分析技能,可以在全网搜索书名进行了解选购:

样本量过少时,如何科学衡量喜好程度?相关推荐

  1. IQ一个人的智力和对科学知识的理解掌握程度。 EQ对环境和个人情绪的掌控和对团队关系的运作能力。 AQ挫折商 一个人面对困境时减除自己的压力、渡过难关的能力。...

    IQ: Intelligence Quotient 智商 一个人的智力和对科学知识的理解掌握程度.EQ: Emotional Quotient 情商 一个人对环境和个人情绪的掌控和对团队关系的运作能力 ...

  2. 如何衡量和分配广告渠道?

    [面试题] 用户在抖音中第一次看到58App的广告,两天后在百度信息流后再一次看到58App的广告,用户点击了广告转到OPPO应用商店进行下载,又过了四天用户第一次打开58App开始查看招聘信息. 问 ...

  3. 多大样本量才能模拟出中心极限定理

    我们在做AB测试时,需要用到很多的统计知识,如最小样本量.检验方法等,在这些方法之前有一个大的前提,构造检验的统计量要服从正态分布,然后才能进行接下来的统计量.p值.置信区间计算,加以判断是否统计显著 ...

  4. 数据科学教育白皮书联合发布!顶级数据人才成长路径

    Datawhale原创 联合发布:和鲸科技.腾云大学.AWS.Datawhale 寄语:为什么要加快推进高校的数据科学教育?数据科学的知识体系包括哪些内容?数据科学人才的成长路径及教育方法论?我们希望 ...

  5. Kubernetes,多云和低代码数据科学:2020年最热门的数据管理趋势

    新兴技术为我们的数据之旅铺平了道路.我们已经看到Kubernetes在应用程序自动化方面处于领先地位,越来越多的公司将赌注押在了云上,以及当今的企业对数据科学的依赖程度正不断提,再加上对大数据的人工智 ...

  6. 普惠数据科学应用,九章云极携手伙伴共探智慧未来

    AI时代到来后,数据的价值正在发生转变,数据分析也进入了 "强分析" 阶段.数据科学应用的程度也正在拉大企业间的竞争差距和收益差距,企业如果不想在智能化趋势中落后于人,不仅希望有更 ...

  7. 获取会话名称时错误 5_5种可重复的数据科学工具

    使用这些工具开发协作,可信赖和高效的数据科学项目 科学中可重复性的定义是"重复进行实验时获得一致结果的程度". 数据,尤其是数据保存在数据库中的位置,可能会发生变化. 此外,数据科 ...

  8. 因果推断笔记——数据科学领域因果推断案例集锦(九)

    文章目录 1 腾讯看点:启动重置问题 1.1 观测数据 . 实验数据的理论介绍 2.2 启动重置问题阐述:短期.长期.异质 2.3 短期影响的解决 2.4 长期影响构造准实验 2.5 异质性用户 1. ...

  9. 科学的失控与范式的超越——《侏罗纪公园》读后感

    我还记得第一次看<侏罗纪公园>电影时的感受,博物馆和教科书中的骨架变成血肉丰满.表情生动的恐龙在银幕中尽情地奔跑.咆哮,感觉是那么的不可思议!特别在看了作者迈克尔·克莱顿学霸人生介绍之后, ...

最新文章

  1. [PY3]——内置数据结构(3)——字符串及其常用操作
  2. SQL2008-分页显示3种方法
  3. Android移动开发之【Android实战项目】DAY7-项目结构
  4. 【Android 安全】DEX 加密 ( 支持多 DEX 的 Android 工程结构 )
  5. Python实战-获取鼠标键盘事件
  6. c#Md5 32位加密结果少了两个0的原因
  7. 存储过程里调用另一个存储过程的值
  8. java url重写 session_Java Web学习之Cookie和Session的深入理解
  9. 从折叠屏到AR 三星Galaxy新品预热宣传片大招频现
  10. JavaScript数据结构——散列表(Hash table,也叫哈希表)
  11. MQ详解及四大MQ比较
  12. NGUI组件参数总结
  13. Skyline软件二次开发初级——8如何在WEB页面中的三维地图上管理信息树
  14. “Network”游戏棋人机对弈的设计与实现(二)—判断步骤是否合法
  15. 扬帆际海:shopee跨境电商客服回复流程
  16. 采集用python还是火车头_我才知道爬虫也可以酱紫--火车采集器
  17. Arcgis小技巧【3】——计算图斑的投影面积和椭球面积
  18. 专科学历事业单位工资计算机,【事业单位工资标准表】 事业单位学历工资标准...
  19. OSChina 周二乱弹 —— 她根本就配不上我这么聪明的男人
  20. ubuntu中如何修改计算机名字

热门文章

  1. html访问手机相册,使用HTML5的FileReader读取手机图片(还可选择拍照), 并自动异步上传到服务器上...
  2. python 配置文件对比_difflib模块对比apache配置文件差异
  3. MySQL专题—— 从认识索引到理解索引【索引优化】
  4. C/C++ 动态存储分配 malloc calloc realloc函数的用法与区别
  5. [Guava]-使用Iterators进行分组时遇见的坑
  6. 使用独立主机时需要关注的问题
  7. 如何正确的在一个循环中删除ArrayList中的元素。
  8. java web 的粗粒度权限管理
  9. Linux下程序报出/bin/bash: No such file or directory
  10. sqlserver 查询表锁死,解除表锁死