文章目录

  • 1. 马太效应
  • 2. 辛普森悖论
  • 3. 本福特定律
  • 4. 幸存者偏差
  • 5. 帕累托法则

1. 马太效应


马太效应,一种强者愈强、弱者愈弱的两极分化的现象

缺乏辩证思维

  1. 只看到事物发展的短期趋势,只反映了数量方面的变化,忽视了性质的变化,不能用于分析事物发展的长期趋势;事实上,在客观世界,任何事物都遵循发生-发展-成熟-衰老-灭亡的规律,没有什么是永远不变的。
  2. 不具备普遍意义,只是对短期趋势理论的一种假说,难以证明普遍的真理性。

场景示例:

推荐算法中,被判定为质量较好的用户所得到的资源就越多,这种情况也会形成反馈,得到的资源越多越会被判定为质量较好的用户,从而加剧这种效应。


2. 辛普森悖论


辛普森悖论,是概率和统计中的一种现象,其中趋势出现在几个维度的数据中,但当这些维度被合并后趋势消失或反转。

辛普森悖论更多的时候是从总体拆分到细项维度的时候发现的,而触发辛普森悖论,就是因为你选择了这个维度做拆分。所以,在数据分析中,对决策危害最大的错误就是:在分析的时候遗漏了关键的维度,而触发辛普森悖论的维度,恰恰是最不应该遗漏的!

所以,辛普森悖论的扩展定义可以归纳为:在增加了维度后使得数据结论反转的现象,均可称为是辛普森悖论现象。


场景示例:

在对数据的相关性、甚至因果性的分析时,线性回归分析是一个常用的手段。例如我们想知道客户端某个按钮的用户点击次数与客户端使用时长的关系(基于大家的业务认知,这个按钮对用户的时长是有比较明显的带动作用的)。


**这和业务认知是完全不符的!**问题出在哪儿呢?很简单,在进行相关性分析的时候,遗漏了关键的维度,要知道客户端的用户,活跃度是不一样的,有高活用户、中活用户、低活用户,而不同活跃度的用户,数据表现相差是很远的。所以,如果按照用户的活跃度(全勤、高活、中活、低活、超低活)分别来看的话,其实是这个样子的:


3. 本福特定律


本福德定律(也称为第一位数法或本福特分布)是一种概率分布,以1为首位数字的数(eg:12、135等)的出现概率约为总数的三成,本福特分布公式:
P(d)=log10(1+1/d)P(d)=log_{10}(1+1/d)P(d)=log10​(1+1/d)

本福德定律是一种用途广泛的数据检验方法,通过自然生成的数字中1到9的使用频率对数据进行检验。如果你的数据具备一定规模没有人工设定的最大值和最小值,并且数据本身受人为因素影响较小,那么就可以使用本福德定律对数据进行检验,甄别数据是否经过人为修饰。

在大部分情况下,本福特定律可以适用于具有以下特征的数据:

  • 具有通过来自多个分布的数字的数学组合形成的值的数据。
  • 具有多种数字的数据,如具有数百,数千,数万等数值的数据。
  • 数据集相当大。
  • 数据是右倾斜的,即平均值大于中值,并且分布具有长的右尾而不是对称的。
  • 数据没有预定义的最大值或最小值(最小值为零)

场景示例:

本福特定律应用之甄别数据造假


4. 幸存者偏差


幸存者偏差用统计学的专业术语来解释是——“选择偏倚”,即我们在进行统计的时候忽略了样本的随机性和全面性,用局部样本代替了总体随机样本,从而对总体的描述出现偏倚。

互联网人如何避免幸存者偏差?

  • 判断样本的随机性,即必须知道样本是否是随机的。
  • 判断样本和剩余样本中会不会存在显著差异。
  • 分析剩余样本数据,验证结论。

场景示例——Facebook 视频广告案例

2016 年 9 月年 Facebook 关于视频广告数据偏差的问题变成了该公司广告历史上不大不小的负面新闻,Facebook 在其官方博客中承认:其提交给广告主的数据报告中,视频广告平均播放时长的数字只统计了那些播放时长超过 3 秒的播放行为,也就是说,如果视频播放没超过 3 秒,Facebook 居然就把它舍去了,很显然,广告主的平均播放时长被拉长了,因为播放时间短的压根不统计,而这一偏差居然存在了长达两年之久。


5. 帕累托法则


帕累托法则认为:原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响; 少数,它们造成主要的、重大的影响。


场景示例
帕累托法则(Pareto Principle,80/20法则)

【数分】1. 常用的效应和定律相关推荐

  1. python sns绘制回归线_Python数分实战:员工流失情况预测

    在很久之前,我有写一个Excel数据分析的实战项目,不晓得大家还记不记得,感兴趣的童鞋可以回看: A九姑娘:Excel数分实战:员工流失率分析​zhuanlan.zhihu.com 本次的项目数据依旧 ...

  2. 2015/Province_Java_A/3/九数分三组

    九数分三组 1~9的数字可以组成3个3位数,设为:A,B,C, 现在要求满足如下关系: B = 2 * A C = 3 * A 请你写出A的所有可能答案,数字间用空格分开,数字按升序排列. 注意:只提 ...

  3. 一线数分师天天被喷不值钱,数据分析师如何“刷存在感”?

    在职场论坛里,常常能看到数分人发帖吐槽怀疑岗位的价值:钱少也就算了,天天当取数工具人,忙碌劳累,但产出的价值难以量化,感觉自己在公司没啥存在感. 更让人不理解的是,现在的产品.运营.业务也开始做数据分 ...

  4. mysql view 能和表关联吗_MySQL数分:复杂查询

    此次分享的内容是MySQL的复杂查询. 同样,我们依旧先进入提问环节:如果A九需要经常性的对学生性别对应人数进行汇总,有没有什么便捷的方法? 答案是有的.我们可以使用创建一个"按性别汇总&q ...

  5. 数字基建系列(一)数分如何参与埋点工作

    数字基建系列(一)数分如何参与埋点工作 正如开篇所说,分析师应该协同产研一起进入埋点工作中.由于大部分公司的埋点系统或平台都不太一致,这里也仅以笔者的经验进行简单分享.首先,埋点的整体流程大同小异,产 ...

  6. 数分练习-淘宝用户行为

    一.背景及数据 背景: # 原数据集共有大约1200万条数据,为便于运行随机抽取100万条数据,内容为淘宝APP2014年11月18日至2014年12月18日的用户行为数据,共6列字段,列字段分别是: ...

  7. mysql查询最小分数_MySQL数分:简单查询

    前次文章我们对MySQL的安装和数据库.表的创建进行了介绍.A九姑娘:MySQL数分:安装及入门​zhuanlan.zhihu.com 本次文章中的实例是基于上篇文章的数据库继续更新的内容~ **** ...

  8. 数分学习笔记 vol.1 <游戏数分基本工作内容>

    写作目的 快要脱离学生身份了,但为了在未来的工作中不被淘汰,个人认为继续学习是必须的.因此写下了这个博客,希望自己能在工作中不断积累,总结经验,不断提升. 所有内容仅代表个人的想法和感悟,如有不同意见 ...

  9. 数分-理论-大数据3-HDFS

    数分-理论-大数据3-HDFS(分布式文件系统) (数据分析系列) 文章目录 数分-理论-大数据3-HDFS(分布式文件系统) 1知识点 2具体内容 2.1背景 2.2简介 2.3体系结构 2.4存储 ...

  10. 刷B站学数分Day3|AB试验(上)

    开个系列<刷B站学数分>,总结整理B站上优质的数据分析资源- 目录 0 参考资料 1 AB试验的原理 1.1 来源于假设检验 1.2 一句话概括 2 AB实验中的辛普森悖论 2.1 辛普森 ...

最新文章

  1. 自学笔记——1.Pyhton保留关键字
  2. Meson,用于协调和调度Netflix推荐工作流的架构
  3. 广域网优化产品的5大应用场景—Vecloud
  4. redis订阅执行一段时间自动停止_面试系列 redis 分布式锁amp;数据一致性
  5. Linux 学习重点内容(第二节)
  6. HDFS NameNode内存详解
  7. 位置服务器的操作方法,hpproliantml系列服务器上机架操作方法.doc.docx
  8. 赛锐信息:SAP ABAP 概述
  9. 最近在整理和准备发布
  10. 信息学竞赛中的直觉与证明 - 刘汝佳
  11. 优动漫PAINT软件中混合模式使用实例
  12. 程序员转行做什么工作比较好?
  13. 摩拜app显示未能连接到服务器,摩拜单车又现大面积故障?回应称未接到反馈
  14. 开源H5棋牌 cocos creator微信棋牌小游戏 幼麟棋牌客户端分析笔记
  15. NLP之NER:商品标题属性识别探索与实践
  16. LAMP(CentOS)环境详细配置步骤
  17. iOS:内存优化思路
  18. 江苏大专计算机考试,江苏省教育考试院2020年高职(专科)注册入学申请入口...
  19. python连乘函数_(Python3) 连加 连乘 代码
  20. Muli3D 4 Calculate vertex tangent

热门文章

  1. 利用SPSS随机数轻松实现随机分组
  2. python nltk 8 分析句子结构
  3. html如何制作短信验证码,网站后台短信验证码怎么制作
  4. 【Adobe Premiere Pro 2020】pr2020安装和基本操作【PR安装、新建项目流程、导入及管理素材项目文件、添加标记、创建出入点剪辑视频、快速剪接及自动音乐卡点的方法
  5. Postman Sandbox
  6. 开源SIP服务器OpenSIPS简介
  7. 5类6类7类网线对比_超五类、六类、七类网线竟然有这么多不同之处
  8. 手机上的截图文字识别功能还有多少人不知道!
  9. CorelDRAW入门教程-用CDR制作漂亮小雨伞
  10. java等额本息、等额本金计算Mark