引用《大数据》原文

假设我们确信在某个地方有一群恶人,目标是把他们揪出来。再假定我们有理由相信,这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模,我们再给出如下假设:

(1) 恶人数目可能有10亿;(这里翻译的不好,不是说有10亿个恶人,而是这10亿个人都有作恶的嫌疑,实际的恶人数只是这10亿人中的10人)

(2) 每个人每100天当中会有一天去宾馆;

(3) 一个宾馆最多容纳100个人。因此,100 000个宾馆已足够容纳10亿人中的1%在某个给定的日子入住宾馆;

(4) 我们将对1000天的宾馆入住记录进行核查。

为了在上述数据中发现恶人的踪迹,我们可以找出那些在两个不同日子入住同一宾馆的人。但是假设并没有恶人,也就是说,给定某一天,对每个人来说,他们都是随机地确定是否去宾馆(概率为0.01),然后又是随机地从10^5个宾馆中选择一个。从上述数据中,我们能否推断出某两个人可能是恶人?

接下来我们做个简单的近似计算。给定某天,任意两个人都决定去宾馆的概率为0.000 1,而他们入住同一宾馆的概率应该在0.000 1基础上除以10^5(宾馆的数量)。因此,在给定某天的情况下,两个人同时入住同一宾馆的概率是10^(-9)。而在任意给定的不同的两个日子,两人入住同一宾馆的概率就是10^(-9)的平方,即10^(-18)。需要指出的是,上述推理中只需要两人两次中每次住的宾馆相同即可,并不需要两次都是同一家宾馆 。

基于上述计算,我们必须要考虑到底事件出现多少次才意味着作恶事件的发生。上例中,"事件"的含义是指"两个人在两天中的每一天入住相同宾馆"。为简化数字运算,对于较大的n, 大概等于n^2/2。下面我们都采用这个近似值。因此在109中的人员组对个数为 =5×10^17,而在1000天内任意两天的组合个数为 =5×10^5。疑似作恶事件的期望数目应该是上述两者的乘积再乘上"两个人在两天中的每一天入住相同宾馆"的概率,结果为

5 × 10^17 × 5 × 10^5 × 10^(-18) = 250 000

也就是说,大概有25万对人员看上去像恶人,即使他们根本不是。

现在假定实际上只有10对人员是真正的恶人。警察局需要调查25万对人员来寻找他们。除了会侵犯近50万无辜人们的生活外,所需的工作量非常大,以至于上述做法几乎是不可行的。

总结:

Bonferroni correction方法在这个案例中的应用:

1.确定一个认定恶人的方法(1000天中有2天住在同一宾馆的两个人都是恶人)

2.给出问题的规模(总人数有10亿,每人每天去宾馆概率为1%,共100 000个宾馆)

3.分析这种方法会把多少无辜的人当做恶人(根据概率算出250000个,但实际上恶人没那么多,可能只有10个,所以这种方法正确找出恶人的概率很低:1/25000)。

普遍应用方法:

1.确定一个找出特定类型事件的方法,即数据符合某一规律时认为它是某一类型。

2.给出问题规模。

3.根据问题规模,分析随机出现但符合这一规律的数据的个数的期望值。

4.若计算出来的期望值大大于特定事件个数的期望值,则这一方法不合适。

《大数据》笔记 Bonferroni correction相关推荐

  1. 自学it18大数据笔记-第三阶段Spark-day04——会持续更新……

    笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第三阶段Spark-day04--会 ...

  2. 好程序员大数据笔记之:Hadoop集群搭建

    好程序员大数据笔记之:Hadoop集群搭建在学习大数据的过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天 ...

  3. 自学it18大数据笔记-第三阶段Scala-day06——会持续更新……

    笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第三阶段Scala-day06--会 ...

  4. 自学it18大数据笔记-第二阶段hadoop-day11——会持续更新……

    笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第二阶段hadoop-day11-- ...

  5. 自学it18大数据笔记-第一阶段Java-day16-day17-day18-day19--day20-day21-day22——会持续更新...

    笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第一阶段Java-day16-day ...

  6. 自学it18大数据笔记-第二阶段Hive-day4——会持续更新……

    笔记为自学时随手记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,欢迎小伙伴们加qq或微博沟通交流(QQ,微博和博客同名) 笔记分享:自学it18大数据笔记-第二阶段Hive-day4--会持续 ...

  7. 大数据笔记(学习归纳)

    本文初衷是为了学习归纳,若有错误,请指出. 修改记录 时间 内容 2020年4月10日 第一次发布 2020年4月16日 添加MaxCompute SQL部分 2020年9月14日 新增数仓部分笔记 ...

  8. C/C++ 笔记、Python 笔记、JavaWeb + 大数据 笔记

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 大数据.AI.python.C++学习资源 到上面一个文章中有 ...

  9. 明翰的大数据笔记V0.2(持续更新)

    文章目录 前言 什么是大数据 大数据应用场景 `MapReduce` 大数据的HelloWorld 内部机制与原理 组合器Combiner Hadoop 优缺点 Hadoop版本 Hadoop V1 ...

最新文章

  1. 声称代码会开源却迟迟没更新!网友等了好几个月,最终一怒之下把作者挂网上......
  2. find rm配合删除文件
  3. deep learning:RBM公式推导+源码 ----- C++
  4. python基础教程:将一个列表切分成多个小列表
  5. Springmvc中的拦截器interceptor及与过滤器filter的区别
  6. Django项目部署到Linux后,上传文件的时候,mkdirs创建目录OSError - Errno 13 Permission denied
  7. 测试博客园代码插入格式显示
  8. mysql配置文件路径
  9. 云计算决策指南:解析医疗的7大解决方案
  10. 分享:微信淘宝客自动查券找券返利机器人实现的原理和思路
  11. 微信网页版打不开怎么办?这里有官方解决办法!
  12. 行列式 (背诵内容)
  13. Vue实现一键复制文本内容
  14. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java高校就业管理系统157v3
  15. 【附源码】计算机毕业设计java智慧停车系统设计与实现
  16. 大学生简单个人网页作品代码HTML5+CSS大作业——彭于晏明星(15页) _网页设计期末作业
  17. tortoise git 更换邮箱和账号时,报错because commituserEmail is not oncorrect
  18. 金蝶云星空与管易云系统对接案例
  19. P30鸿蒙ota升级,MotoP30 摩托罗拉P30 XT1943-1 线刷包 救砖解锁 CN_OPEN_USER_Q00020.0_O_ZUI_4.0.249...
  20. Inte E3-1230 V2技嘉B75-D3V GTX660成功安装黑苹果

热门文章

  1. [git]fatal: unable to read config file 'xxx/.gitconfig': No such file or directory
  2. mysql 中添加和删除字段
  3. 利用HTML5+CSS3+JS实现简单的钟表
  4. 【OpenCV3图像处理】颜色空间转换(一)颜色空间分类总结
  5. python-基础语法
  6. hbase manager 2.0.9 安装
  7. mumu血压计母亲节“拼团”盛大开启,百度与厂商打造双赢局面
  8. MySQL Authentications
  9. js:如何删除dom元素
  10. python批量自动填写网页表单_使用python+selenium帮助你填写网站表单