一、说明

在统计学中,抽样是需要无偏的,抽样过程是需要严格设计的。否则就可能产生与事实完全不同的结论。半篇以历代统计学者的经验,讨论这种偏差背后的逻辑内容。

二、有偏采样

有偏采样是指在样本的选择过程中,某些样本的概率被赋予了更高的权重或优先级,从而导致样本集合不再具有代表性和随机性。这种采样方法会导致所得到的样本集合与总体存在偏差,进而影响到分析和结论的准确性。

举个例子,如果在对一个城市的人口进行调查时,只选择在市中心地区居住的人作为样本,那么这种采样方法就是有偏采样。因为这种采样方法会忽略在郊区或远离市中心的人口,在一定程度上无法代表该城市的整个人口分布。

在数据分析和机器学习中,有偏采样也可能导致算法的精度和泛化能力下降,因此需要采用更为均匀和随机的采样方法来确保结果的准确性和可靠性。

三、何为单方论证

    

        单方论证压制证据,或不完整证据的谬误,是一种非形式谬误,是指向似乎证实特定立场的个别案例或数据,而忽略可能与该立场相矛盾的相关和类似案例或数据的重要部分的行为[1]。采樱桃可能是有意或无意的[2]。

这种谬误也称为采樱桃(Cherry picking),该术语基于收获水果的感知过程,例如采樱桃。挑水果的人把好的水果挑出来,看到的人可能会以为所有水果都是好的,实际上并不是。这也可能会给水果的品质留下错误的印象(因为它只是一个样品而不是一个代表性样品)。 有时与采樱桃相混淆的概念是只收集容易收获的果实,而忽略树上更高因此更难获得的其他果实(见低垂果实low-hanging fruit)。

采樱桃具有负面含义,因为这种做法会忽略、忽视或直接压制可能导致全貌的证据。

采樱桃可以在许多逻辑谬误中找到。 例如,“轶事证据的谬误”倾向于忽略大量有利于个人已知的数据,“选择性使用证据”拒绝不利于论证的材料,而错误的二分法在有更多可用选项时只选择两个选项。一些学者将挑选樱桃归类为选择性注意的谬误,其中最常见的例子是确认偏误[3]。 采樱桃可以指数据或数据集的选择,因此研究或调查将给出期望的、可预测的结果,这可能会产生误导,甚至与现实完全相反[4]。

四、何为生存者佯谬

4.1 定义或概念

        幸存者偏差[1][2]或幸存者偏误(英语:survivorship bias),也称为生存者偏差[3],是一种逻辑谬误,属于选择偏差的一种。当过度关注“幸存”的人事物,从而造成忽略那些没有幸存的(也可能因为无法观察到),便会得出错误的结论。

生存偏见可能导致过度乐观的信念,因为失败被忽略,例如当不再存在的公司被排除在财务业绩分析之外时。它也可能导致他人误认一个群体的成功具有一些特殊属性,而不仅仅是巧合(相关证明了因果关系)。其谬论形式为:幸存过程B的个体A有特性C,因此任何个体幸存过程B需要有特性C。有特性C但无法幸存过程B的个体被忽略不加以讨论。逻辑偏差在于只关注筛选结果做出评估,而忽略筛选条件与筛选机制等资讯。用俗语“死人不会说话”来解释其成因意指当取得资讯之管道,仅来自于幸存者时(因为无从由死者/淘汰者/离场者获得来源),此资讯可能会存在与实际情况不同之偏差。这种偏差可以导致各种错误结论。

4.2 概念之起因

二战期间的1941年,美国哥伦比亚大学统计学亚伯拉罕·沃德教授接受美国海军的要求,运他在统计方面的知识给出关于‘飞机应该如何加强防护,才能降低被炮火击落的几率’的建议。沃德教授针对盟军的轰炸机遭受攻击后的相关数据进行分析和研究后发现:机翼是整个飞机中最容易遭受攻击的位置,而发动机则是最少被攻击的位置。因此美国海军指挥官认为‘应该加强机翼的防护,因为这是最容易被击中的位置’,但是沃德教授给出的结论是‘我们应该强化发动机的防护’。

沃德教授提出以下其加强机身防护意见的依据:

  • 本次统计的样本,仅包含没有因敌火射击而坠毁并安全返航的轰炸机。
  • 沃德教授假设所有中弹的弹著点应该会平均分布在机身各处,而能安全返航的轰炸机机身中弹数量较多的区域,是即使被击中也比较不会导致坠机的部位。
  • 机翼被击中很多次的轰炸机,大多数仍然能够安全返航。
  • 发动机弹孔较少的原因并非真的不容易中弹,而是一旦中弹,其生还并安全返航的可能性就微乎其微。

军方最终采取了教授提出的增加发动机防护的建议,后来证实该决策是完全正确的。这项研究对当时仍在发展初期的作业研究领域具有深远的影响。

【抽样理论】有偏抽样和生存者佯谬相关推荐

  1. 时序数据取样方法_数据科学的抽样方法

    时序数据取样方法 语境 (Context) In most studies, it is pretty hard (or sometimes impossible) to analyse a whol ...

  2. 自由能计算,PMF,伞形抽样,WHAM

    分子模拟计算某一过程的自由能被称分子模拟领域的4大难题之一.大概因为自由能的概念比较令人困惑.下面侃侃我的理解,大家拍砖.. 要说自由能,先说它和它兄弟"能量"的差别.做过模拟都知 ...

  3. 数字信号处理--7.3--基础篇

    老实说,最近有那么点浮躁,急于求成,突然觉得那么没意思,因此,删了之前数字信号处理方面的文章.我决定,重新系统学习. 人生每一次的改变,都更加明确了我的方向... 不要嘲笑,零基础开始... 单位抽样 ...

  4. 朴实无华之一万字统计学知识大梳理

    来源:海豚数据科学实验室 编辑:王萌(深度学习冲鸭公众号) 著作权归作者所有,本文仅作学术分享,若侵权,请联系后台删文处理 道德经云:"道生一,一生二,二生三,三生万物".学习知识 ...

  5. 统计学知识大梳理(附框架图公式)

    来源:PMCAFF,作者:大山里人 前言 道德经云:"道生一,一生二,二生三,三生万物".学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体 ...

  6. 统计建模:数据分析基础

    本文为学习黄晓林老师开设的慕课<探索数据的奥秘>所作笔记 数据科学简介 现时代科学范式正在转变,继实验.理论与计算之后,数据科学已成为人类探索世界的第四科学范式.工业界对数据科学的关注在应 ...

  7. 二维蒙特卡洛模拟居里温度_蒙特卡罗方法计算居里温度(上)

    声明:旨在自学一些物理概念和计算方法后整理的笔记和心得,本文基于Kotze先生的Introduction to Monte Carlo methods for an Ising Model of a ...

  8. 【翻译】Focal Loss for Dense Object Detection(RetinaNet)

    [翻译]Focal Loss for Dense Object Detection(RetinaNet) 目录 摘要 1.介绍 2.相关工作 3.Focal Loss 3.1 平衡的交叉熵损失 3.2 ...

  9. 详尽!统计学知识大梳理

    点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 来源:海豚数据科学实验室 编辑:深度学习冲鸭 著作权归作者所有,文仅分享,侵权 道德经云:"道生 ...

最新文章

  1. 12.MySql关于获取当前时间的三个函数
  2. OpenCV | OpenCV哈里斯 (Harris)角点检测
  3. 【Notes6】ajaxjson,校验用户名,自动提示,CORS,/swagger开发rest,Websocket,DNS
  4. 利剑无意之scala小考核
  5. python email模块详解_python模块之email: 电子邮件编码解码 (一、解码邮件)
  6. LeetCode 2130. 链表最大孪生和(链表快慢指针+反转链表+双指针)
  7. java复杂性_java – 计算Big-O复杂性
  8. 强化学习新方法,让后空翻回旋踢再也难不倒机器人 | 伯克利论文
  9. html数据透视,高级Excel – 数据透视表工具
  10. 封电脑机器码怎么解决_游戏封号解决方法之修改机器码 如何修改机器码
  11. python代码美化工具
  12. 显示图片的html 页面,HTML基础——网站图片显示页面
  13. 基于torch学汪峰写歌词 聊天机器人 图像着色/生成 看图说话 字幕生成
  14. 【CXY】JAVA基础 之 异常
  15. 基于ESP8266的太空人智能时钟
  16. 活动详情页面html代码,折扣活动详情.html
  17. matlab如何看机器人末端坐标,关于RobotStudio中机器人末端位置的MATLAB仿真验证
  18. 项目经理的主要工作内容职责有哪些?
  19. Spring注解定义 bean 的12种方法
  20. [翻译] 第一章 是时候进行远程工作了 (Remote)

热门文章

  1. Java 类加载机制
  2. 云闪付小程序Vue授权组件只兼容Vue2,改造兼容Vue3版本
  3. 轴线图层设置_CAD怎么画建筑轴线,涨知识了
  4. 基于tp5的微信app支付及回调
  5. 如何守住你的年终奖? 1
  6. 设置里首选网络类型由3G改成4G
  7. Arduino ESP32 对NVS数据操作测试
  8. 编译原理系列之十 代码优化
  9. VUE使用VLC插件播放RTSP流
  10. 深入浅出地理解Youtube DNN推荐模型