有时候在和技术或者业务交流时,如果对方时不时蹦出个这效应,那定律,自己又恰巧没有听过,这时候只能呵呵假装明白。

其实这些概念也没有什么神秘的,今天整理了一下咱们数分领域常见的效应和定律,用通俗易懂的例子辅助解释,让大家快速理解掌握!

1.辛普森悖论
辛普森悖论指的是,在对比AB两个群体的数据,将数据拆分成多个维度时,A组在各个维度下的表现均好于B,整体A组的表现却并不一定好于B。

没看懂?来,举个例子解释下

最近英国各大高校offer都发了,结果某所高校的两个学院,法学院和文学院,在招生上被怀疑有性别歧视,我们来看一下招生情况,分析分析。

法学院招生情况

文学院招生情况

从表上录取比例数据来看,女生的录取比例都比男生高33.6%>15.1%,91.1%>80.1%

但把两个学院的数据汇总后

法学院、文学院数据汇总

会发现结果女生的录取比例反而比男生低,

这就是经典的辛普森悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

其实,“农村包围城市,武装夺取政权” 也是有类似的思想。

2、马太效应
马太效应出自圣经里的一则寓言:“凡是有的,还要加倍给他,让他多出来;没有的,就把他所有的夺过来,让他一点都没有”。通俗地解释就是 “强的越强,弱的越弱”。

马太效应在业务中非常常见。比如在推荐算法中,被判定为质量较好的用户所得到的资源就越多,这种情况也会形成反馈,得到的资源越多越会被判定为质量较好的用户,从而加剧这种效应(类似于短视频点赞越多曝光越多,曝光越多点赞越多)。

3.本福特定律
本福特定律,是说一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,这个定律至今没有经过一个严格的证明。

他就像是一个监控指标,当一组数据不符合本福特定律时,就有理由怀疑数据是否造假。所以此定律经常用在检测上市公司财报是否造假以及选举中是否有舞弊现象。

需要注意的是,它可用于检查各种数据是否有造假,但要注意使用条件:1.数据至少3000笔以上;2.不能有人为操控。

4、幸存者偏差
幸存者偏差,是优胜劣汰之后自然选择出的一个道理:未幸存者已无法发声。

人们只看到经过某种筛选而产生的结果,而没有意识到忽略了被筛选掉的人。

举个例子,大家肯定都听过这句话:“读书有什么用,我的小学同学他从小成绩一塌糊涂,初中都没念完就退学了,现在生意做得可大了,我本科毕业还不是996租着房吃着泡面。”

但,实际情况是一个班中会读书的那帮孩子日后也有生意做得不错的、也有租房吃泡面的、也有在家啃老的,可平均生活水准高于不读书的。但不读书的孩子中有一些可能欠一屁股债躲起来了、失业没有工作,这些人你看不到,你只能看到那些幸存者,生意做得可大。

5、帕累托定律
这个名字大家可能并不熟悉,但是一定听过二八定律,管理学家帕累托通过研究大量事实发现:社会上20%的人占有80%的社会财富。

比如活跃用户中仅有20%的付费用户,付费用户中20%的用户贡献了80%的收入等等。当然20%与80%只是一个统计数据,其实质讲的是 “在因和果、努力和收获之间,普遍存在着不平衡关系” , 即不平衡关系存在的确定性和可预测性。

二八定律告诉我们要把精力放在更本质的事情上,不经规划地做事情很有可能会浪费80%的精力去产出20%的东西。

在数分工作中,有些同学在做分析的时候,可能经常有这种感受,跑了n个sheet的数据,结果写报告的时候,只用了四五个数据。

所以在分析的习惯是先思考产生问题的原因,并对每个可能的原因赋予相应的权重,然后以最简单方便的方法来验证各个原因,快速排除错误方向,而不是在每个原因上都做详细的解释。

学会5个数据分析常见定律,数据敏感度提升N个度相关推荐

  1. 【MATLAB数据分析】02数据的中位数和分位数

    引言 在[MATLAB数据分析]01数据的均值.变异度.偏度和峰度一文中我们介绍了均值.方差.标准差等数字特征,它们都是总体相应特征值的一种矩估计,更适合来自正态分布的数据的分析.但若总体的分布未知, ...

  2. 如何提升数据敏感度、数据分析思维、数据分析能力?

    有朋友私信我怎么样才能提升自己的数据分析思维.分析能力呢?这个问题比较难回答,是一个很系统性的问题.对于这种很系统性的问题,我们往往就要找到一个切入点进行切入回答,再逐步形成互相有逻辑关联的框架,最后 ...

  3. 数据分析的必备能力:数据敏感度是什么,应该怎样培养?

    也许是看到数据的价值随着信息化.数字化的推行愈发重要,整个社会都对数据的价值有了新的认识.而对数据本身就很关注的商业世界更是如此,各行各业的企业已经看出了数据能够带给公司的价值,开始寻求通过数据分析来 ...

  4. 女生适合做数据分析吗?数据分析师是否是青春饭?

    在当下大数据分析与人工智能火热发展的的浪潮下,数据分析师或大数据分析师已然成为当前炙手可热的热门就业职位之一,就业待遇和发展前景也是被好多人看好,于是乎想进入数据分析行列的人群也日益增加,很多女生也会 ...

  5. 数据分析思维|数据指标异动分析

    这是加薪的第七篇推文,关于数据分析思维-数据指标异动分析.在日常生活工作中,我们经常会遇到"产品XX数据指标出现异常波动,或上升或下跌"的问题,XX指标包括但不限于日活.次日留存率 ...

  6. 优秀的数据敏感度应该如何培养?

    来源:中国统计网 大家有没有特别羡慕和害怕过这种人,他能一眼看出你做的PPT里面的数据异常,随时能提出一个数据证明你的小结论有问题,然后以一个数据问题迅速推翻你整个报告的结论,结果就是你做了整整一个月 ...

  7. 【数据分析】Python数据分析学习路线个人总结

    数据分析人人都有必要掌握一点,哪怕只是思维也行.下面探讨Python数据分析需要学习的知识范畴,结合自己的经历和理解,总结的学习大纲,有些章节带有解释,有些没有.当然,关于学习范畴,可能每个人的理解都 ...

  8. 5招训练你的数据敏感度,数据高手都在用

    真正的数据分析大神是怎样的?有人说能轻松玩转各种分析工具,有人说能从海量数据中找到关联,有人说能一眼识别出报告中的数据异常,还有人说能够撰写一份经典的数据分析报告. 其实对于一个数据大神,这些都是必备 ...

  9. 数据预处理包括哪些内容python_常见的数据预处理--python篇

    做过数据分析的孩子一般都知道:数据预处理很重要,大概会占用整个分析过程50%到80%的时间,良好的数据预处理会让建模结果达到事半功倍的效果.本文简单介绍python中一些常见的数据预处理,包括数据加载 ...

最新文章

  1. Python 输出格式符号
  2. Android Kotlin Exception处理
  3. boost::thread模块实现生产者消费者的测试程序
  4. boost::log模块记录多个线程的示例
  5. 百练 06 股票买卖
  6. 这个大学生开发者用技术解决收入问题,乡亲们都回村了
  7. 【易语言】飞龙の皮肤模块
  8. 快速排序和归并排序的区别,Python代码实现
  9. 6-5 软件测试与测试优先的编程
  10. java form上传图片_js formData图片上传(单图上传、多图上传)后台java
  11. Java支付宝订单查询
  12. Excel的25个知识~边看边操作
  13. 苹果手机语音备忘录在哪_苹果手机备忘录被家里宝宝误删了如何恢复呢?
  14. 芯盾时代:一种会思考的新一代安全身份认证方式
  15. Matlab中fspecial函数 和imfilter函数的用法
  16. 【密码学原理】数字签名(ElGamal签名,Schnorr签名,椭圆曲线签名,RSA-PSS签名)
  17. 基于SpringCloud微服务的Hdfs分布式大数据实现的企业网盘系统
  18. 【案例练习】15—27个网页设计的 HTML 时间线
  19. Linux--1.初识Linux(基本指令)
  20. c#如何合并多个word文档中的内容到一个word中

热门文章

  1. ssis行计数变量_SSIS管道性能计数器指南
  2. 如何在SQL Server Reporting Services中自动创建KPI
  3. Ubuntu14.04安装tomcat-9.0.1的教程
  4. 最短路径算法—Dijkstra(迪杰斯特拉)算法分析与实现(C/C++)
  5. PHP获取6位数随机数,获取redis里面不存在的6位随机数(设置24小时过时)
  6. jsp内置对象*response
  7. C# XML文件操作类XmlHelper
  8. 终于解决了贴吧手机版的一个重大BUG
  9. MVC.Net:压缩/保存图片缩略图
  10. 【Android】eclipse 时常报错java.lang.object cannot be resolved-解决