01 幸存者偏差概念的本质是什么?

  • 用统计学的专业术语来解释是——“选择偏倚”,即我们在进行统计的时候忽略了样本的随机性和全面性,用局部样本代替了总体随机样本,从而对总体的描述出现偏倚。

  • 幸存者偏差(Survivorship Bias) 指的是人往往会注意到某种经过筛选之后所产生的结果,同时忽略了这个筛选的过程,而被忽略的过程往往包含着关键性的信息。

  • 统计学的简单描述是这样的:统计全集为A,观察到A的子集A1有特征X,A1为幸存者,而A另外的子集A2并没有观察到或者被人为忽略,于是判断全集A都有特征X,事实上A2的特征为Y。

02 它容易在哪些情况下发生?它的作用机制是怎样的?

  • 从统计学的角度我们来看我们是如何滥用幸存者偏差的——我们观察到了A1有特征X,同时我们意识到可能存在幸存者偏差,我们预先把A1定义为幸存者,于是直接判断非幸存者A2一定不会有特征X,而真相是:A2是否有特征X这个信息我们并不知道,可能有,也可能没有。

03 我们如何避免它?

“幸存者偏差” 是数据分析的常见逻辑错误,而数据又是驱动互联网的动力之一,那么互联网人应该在分析数据、决策判断时如何避免“幸存者偏差”的存在呢?

避免的方法:

  • 判断样本的随机性,即必须知道样本是否是随机的。
  • 判断样本和剩余样本中会不会存在显著差异。
  • 分析剩余样本数据,验证结论。

04 案例

  • 最初它来源于战争。 人们发现飞回来的飞机损伤最严重的地方在于机翼,有的几乎被打成筛子,而发动机和驾驶舱几乎没有损伤。就在所有人都认为应该给机翼加固装甲时,一个统计学家却认为,应该加固发动机和驾驶舱,因为机翼被打成筛子都可以安全返回,说明它并不脆弱,而驾驶舱和发动机中弹后,飞机都没有飞回来。死人不会说话。 飞回来的飞机,都是驾驶舱和发动机完好,死去的战士自然不会告诉他们发动机和驾驶舱才是最重要的,所以人们会自然而然的认为这些地方不重要。
  • 妈妈为什么不挑食?因为她买菜的时候已经挑过了!

学习笔记 | 幸存者偏差 Survivorship Bias相关推荐

  1. 幸存者偏差Survivorship Bias

    "最不符合逻辑的地方,一定埋藏着最深刻的逻辑."--余秋雨<行者无疆> 为什么要说幸存者偏差? 因为2018年全国II卷的描述即为典型的"幸存者偏差" ...

  2. 幸存者偏差:实现成功不是复制成功者,而是学习失败者

    1 英国著名魔术师和催眠师德伦·布朗在一个纪录片中,展示了一个心理骗局. 方法很简单.首先,获得一张数量足够大的联系人列表,给列表上的每个人发电子邮件说,你有能力预测到赛马的结果,并且你会向他们证明这 ...

  3. 幸存者偏差(survivorship bias)

    介绍 幸存者偏差(英语:survivorship bias),另译为"生存者偏差",是一种认知偏差.其逻辑谬误表现为过分关注于目前人或物"幸存了某些经历"然而往 ...

  4. 吴恩达神经网络和深度学习-学习笔记-6-训练集、验证集和测试集 + 偏差bias和方差variance

    寻找最优超参数是一个迭代过程 在今天,应用深度学习是一个典型的迭代过程. 创建高质量的训练数据集.验证集和测试集,有助于提高循环效率. 训练集.验证集和测试集 数据Data分为三部分: 训练集trai ...

  5. AI学习笔记——Bias and Variance tradeoff (方差偏差的平衡)

    上一篇文章介绍了机器学习中需要理解的几个重要概念,这些概念在训练模型的过程中至关重要,尤其是Bias 和 Variance 的分析,关系到在机器学习的过程的实际操作中,如何优化训练模型. 1.Bias ...

  6. 信息论通识教育课程:“幸存者偏差”(survivorship bias)的应用和数学基础

    文章目录 I 幸存者偏差案例 1.1 案例1 1.2 案例2 1.3 案例3 1.4 案例4 1.5 案例5:推荐股票 II 幸存者偏差理论 2.1 幸存者偏差理论的数学基础 2.2 应用:利用幸存者 ...

  7. 台大李宏毅Machine Learning 2017Fall学习笔记 (3)Bias and Variance (v2)

    台大李宏毅Machine Learning 2017Fall学习笔记 (3)Bias and Variance (v2) 这节课主要讲解了训练模型的误差来源及相应的解决方案. 模型的误差主要来源于数据 ...

  8. 吴恩达神经网络和深度学习-学习笔记-24-在不同的划分上进行训练和测试+不匹配数据划分的偏差和方差

    在不同的划分上进行训练和测试 深度学习算法对训练数据的胃口很大,当你收集到足够多的带标签数据构成训练集时,算法效果最好. 这导致很多团队用尽一切方法收集数据,然后把它们堆到训练集里,让训练的数据量更大 ...

  9. 小吴的《机器学习 周志华》学习笔记 第二章 2.4 比较检验、2.5 偏差与方差

    小吴的<机器学习 周志华>学习笔记 第二章 2.4 比较检验. 2.5 偏差与方差 2.4 比较检验 上一周提到了实验的评价方法和性能量度,步骤简单可以看成:先使用某种实验评估方法测得学习 ...

最新文章

  1. CVPR2020论文解读:手绘草图卷积网络语义分割
  2. html中全选按钮代码怎么写,html中的javascript 全选/取消全选操作示例代码
  3. php怎么返回json格式的数据
  4. 【译】Using Machine Learning to Understand the Ethereum Blockchain
  5. 局域网聊天室 -ChatServer
  6. 并发–执行程序和Spring集成
  7. python yield
  8. 在编程中,为何说数据仍占主导地位?
  9. 谈谈对margin的理解
  10. ***git自动化部署总结
  11. java基础语法笔记
  12. fclk if总线_技嘉B550手把手超频指南,光威血影为例
  13. C语言 判断一个数是否为2的若干次幂
  14. 关于Pearson相关性系数、Cosine相似度、欧式距离
  15. qtxlsx编译报错_QtXlsx编译错误*** [Makefile:37: sub-xlsx-qmake_all] Error 2
  16. 01-Redis核心数据结构和高性能原理
  17. 对3800x初步超频总结
  18. 外卖返利系统电影吃喝玩乐团购返利系统外卖探探外卖券儿外卖cps系统saas源码
  19. 计算机二级pptword建立大纲级别,计算机等级考试二级Office考点汇总!(PPT篇)...
  20. 文档标签化的几种方案

热门文章

  1. 豪情-关于生活工作学习之感悟-第二篇
  2. 一、Dell服务器的iDRAC管理卡连接
  3. java 乱码怎么是繁体字_[求助]怎么是乱码,里面好多繁体汉字
  4. 增值税专用发票抬头开错的处理方法
  5. 详解 C++ 对象模型
  6. 【无标题】使用阿里云短信服务发送短信
  7. VBA窗体最大化、最小化、调整大小
  8. 金山卫士界面源码解读及界面库分离(1)
  9. 数据采集模块方案 采集网口TCP主动上传模式,支持域名解析和指定IP模式上传
  10. 手机桌面宠物——星秀伴侣1.0手机版