大家好,我是小z

在讨论数据和业务的过程中,如果对方时不时蹦出个这效应,那定律,自己没有了解的话会感觉一脸懵,其实这些概念也没有什么神秘的,今天整理了一下咱们数分领域常见的效应和规律,希望可以帮大家。

01

马太效应

马太效应出自圣经《新约·马太福音》里有一则寓言:“凡有的,还要加倍给他叫他多余;没有的,连他所有的也要夺过来”。中国也有类似的古语,看过83版射雕英雄传的同学应该对九阴真经里面 “天之道,损有余而补不足” 这句话印象深了,这句话出自老子的《道德经》,完整的古语为“天之道,损有余而补不足;人之道则不然,损不足以奉有余”,意思是:自然的法则,是损减有余来补充不足。人类社会世俗的作法却不然,而是损减贫穷不足来供奉富贵有余。这两句古语比较直观地表述了马太效应,通俗地解释为 “强的越强,弱的越弱”。

马太效应在业务中非常常见。比如在推荐算法中,被判定为质量较好的用户所得到的资源就越多,这种情况也会形成反馈,得到的资源越多越会被判定为质量较好的用户,从而加剧这种效应(类似于短视频点赞越多曝光越多,曝光越多点赞越多)。

02

虹吸效应

有些同学小时候可能做过这样的事情,把一根软管子一头插入水槽里面,用嘴把水吸出来,然后把软管子的另一头放地比水槽里水面低,那么水就能源源不断地流出来,其中的道理就是虹吸效应:液态分子间存在引力与位能差能,使液体会由压力大的一边流向压力小的一边。在业务中的虹吸效应指的是,某一主体将资源吸引过去,从而使得自身相比其他主体更加有吸引力,并导致其他主体营养不良的现象。

这与马太效应有相似之处但是并不相同,如果说马太效应通俗理解为“强者越强,弱者越弱”,那么虹吸效应的通俗解释为“大树地下不长草”。强者越强不一定是以牺牲弱者为代价,而虹吸就像一块干海绵,把周边的资源吸干,导致周边没有资源可用甚至寸草不生。

比如,在劳动力市场,每年985,211毕业的本科研究生数量是有限的,大公司用诱人的薪资待遇吸引人才,导致这部分人才大部分流向大公司,小公司则相对较难招聘到这部分毕业生,这也是一种虹吸现象。

再比如,在渠道投放时,假如渠道投放的总体预算是固定的,假如增加某一厂商渠道A的费用使此渠道的ECPM值(可以理解为厂商对品牌方的一种评价指标,ECPM值越高在投放中将获得更好的资源)上涨,进而导致渠道A的成本下降,渠道投放人员就有可能把其他渠道的预算转移到A,久而久之A渠道的预算占比会越来越高,其他渠道预算占比越来越低,长尾的小渠道可能会停止投放。

03

幸存者偏差

幸存者偏差讲的目光聚焦于“幸存下来”的群体具备的某些特征,但是忽略了“未幸存下来”的群体是否也是具备相同的特征。这里“幸存”的概念,其实更合理的说法应该是“筛选”。

在二战中统计学家沃德教授曾收到美国军方邀请,为降低飞机被击落的概率提出建议。经过观察发现机翼是被击中最多的地方,而机尾被击中概率比较小。当时军方的指挥官认为应该加强机翼的防御,但是沃德教授的结论是要加强机尾的防御。原因在于样本仅统计了返航的飞机,机翼被集中多次依然能够返航说明机翼并非是致命的地方。机尾被打中的飞机,会导致引擎受损而无法返航。

04

辛普森悖论

辛普森悖论指的是,当对比AB两个群体的数据,并将数据拆分成多个维度时,A组在各个维度下的表现均好于B,整体A组的表现却并不一定好于B。

举一个栗子,对比AB两个竞品的留存,将留存拆分成新用户和老用户两部分,竞品A新老用户的留存均高于竞品B,但是竞品A的整体留存却低于竞品B。

出现这种情况的原因在于两点,第一是两个竞品新老用户的占比不一致;第二是竞品A老用户的留存高于竞品B新用户的留存(也可以是竞品A新用户的留存高于竞品B老用户的留存,在此以其中一种情况进行说明)。如果竞品A老用户占比高于竞品B,那么竞品B在老用户留存累计的优势就有可能抹平竞品B新用户留存积累的劣势,使得整体留存高于A。

通俗地讲,就好比两个拳击手X,Y对打,Y在各个方面都比X有优势,如果X采取以牙还牙的策略定是赢不了Y,所以X需要集中优势力量攻打Y的软肋,虽然X自己也会收到攻击,但是如果X对Y造成的伤害远远高于自己可以承受的伤害,就有可能先把Y撂倒。那“农村包围城市,武装夺取政权” 是否也是有类似的思想呢?

05

本福特定律

本福特定律,是说一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成(30.1%),这个定律至今没有经过一个严格的证明,他就像是大自然赋予我们的一个监控指标,当一组数据不符合本福特定律时,就有理由怀疑数据是否造假。所以此定律经常用在检测上市公司财报是否造假以及选举中是否有舞弊现象。

06

帕累托定律

这个名字大家可能并不熟悉,但是一定听过二八定律,管理学家帕累托通过研究大量事实发现:社会上20%的人占有80%的社会财富。后来经过丰富与发展这个定律表述为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。

比如活跃用户中仅有20%的付费用户,付费用户中20%的用户贡献了80%的收入等等。当然20%与80%只是一个统计数据,其实质讲的是 “在因和果、努力和收获之间,普遍存在着不平衡关系” , 即不平衡关系存在的确定性和可预测性。

二八定律告诉我们把精放在更本质的事情上,不经规划地做事情很有可能会浪费80%的精力去产出20%的东西。有些同学在做分析的时候,可能有这种感受,跑了n个sheet的数据,结果写报告的时候,只用了四五个数据。所以在分析的习惯是先思考产生问题的原因,并对每个可能的原因赋予权重,然后以最简单快捷地方式来验证各个原因,快速排除错误方向,而不是在每个原因上都做详细的解释。

以上。

●图解最常用的10大机器学习算法!

●12000+字超详细 SQL 语法速成!

后台回复“入群”即可加入小z干货交流群

数据分析几大常见效应和定律。相关推荐

  1. 政府大数据应用的反思;大数据分析应用常见的困难

    来源:网络大数据 摘要:在智慧城市建设中,以支持政府决策为名的大数据中心建设如火如荼,但利用大数据改进决策的成功案例却鲜有,与大数据中心的投资不成比例,令人质疑大数据中心遍地开花模式的合理性. 一.政 ...

  2. 比较两组数据的差异用什么图更直观_芯片数据分析中常见的一些图的作用

    今天给大家讲讲芯片数据分析中常见的一些图的作用,让大家伙儿知道它们在BB些啥. 箱式图(Box plot) 基因芯片的原始数据是需要进行标准化处理的,主要目的是消除由于实验技术(如荧光标记效率.扫描参 ...

  3. 数据分析中常见的存储方式

    点击上方"大话coding",选择"星标"公众号 重磅干货,第一时间送达 大家好,我是小轩 这两天整理了在数据分析中常见的5种存储格式 内容比较多,只是简要整理 ...

  4. 常见电容器图片_对智能锁的几大常见误区,很多人都中招了!

    如今,智能生活理念越来越得到人们的认可,智能锁也不断普及,越来越多的人享受着智能锁带来的安全与便捷. 然而,也有许多人对智能锁存在一定的误解,今天就列出大家对智能锁的几大常见误区,一起来寻找真相吧! ...

  5. 数据分析中常见标准的参考文献

    做数据分析过程中,有些分析法方法的标准随便一搜就能找到,不管是口口相传还是默认,大家都按那样的标准做了.日常分析不细究出处还可以,但是正式的学术论文你需要为你写下的每一句话负责,每一个判断标准都应该有 ...

  6. 微信营销精髓技巧的效应与定律

    2019独角兽企业重金招聘Python工程师标准>>> 微信和WeChat(微信海外版)合并月活跃用户已达到4.38亿.现在身边的朋友,不用微信的已经少之又少了.很多人研究微信,更多 ...

  7. 大数据分析中常见的错误

    大数据产生的背景是整个社会走向数字化,特别是社交网络和各种传感设备的发展.云计算和搜索引擎的发展,使得对大数据的高效分析成为可能,核心问题是如何在种类繁多.数量庞大的数据中快速获取有价值信息.通过数据 ...

  8. 大数据分析中常见的分析模型

    数据角度的模型一般指的是统计或数据挖掘.机器学习.人工智能等类型的模型,是纯粹从科学角度出发定义的. 1.行为事件分析 行为事件分析法来研究某行为事件的发生对企业组织价值的影响以及影响程度.企业借此来 ...

  9. 数据分析报告常见步骤

    当前数据研究已成常态,不论是企业进行市场调查,或者运营进行数据分析,也或者学术研究等,均会涉及到撰写数据分析报告.那么如何撰写一篇研究报告呢?本篇文章为你解答. 撰写数据报告常见核心点以及过程如下: ...

  10. 数据分析之常见图表类型与应用

    目录: 1.散点图 2.气泡图 3.单轴散点图 4.客户消费维度 5.客户其他消费纬度 6.垂直领域消费纬度 7.折线图 8.面积图 9.柱形图: 10.直方图 11.饼图 12.漏斗图 13.雷达图 ...

最新文章

  1. [导入][转]常用CSS缩写语法总结
  2. 云计算的下一站:Serverless的2020发展前瞻!
  3. php中需要注意的问题
  4. 会计科目登错怎么更正
  5. MYSQL常用函数以及分组操作
  6. windows下mysql中文乱码_windows下mysql中文乱码, 配置解决方法
  7. C#基础加强_泛型的基本原理
  8. (26)FPGA编码器设计(第6天)
  9. php ip操作,ip操作 · PHP 个人常用知识总结 · 看云
  10. 在软件工程中有两件难事
  11. CentOS配置服务开机自启
  12. directx修复工具v3.2增强版_「电脑知识」USBOS 超级PE启动维护工具增强版及标准版...
  13. html5广告的版式设计,页面版式设计
  14. 中介分析(四)- 因果中介分析
  15. 语音端点检测 php,几种语音端点检测方法简介
  16. Java实验:重写equals方法
  17. python中0x3f_单片机中0x3f代表什么意思
  18. HTML中input输入框动态模糊匹配
  19. 下载mysql源码包
  20. 探讨企业即时通讯软件的价值

热门文章

  1. 架构师职位常见面试题
  2. h5php大转盘抽奖,微信公众号H5抽奖幸运大转盘,PHP带后端,微信抽奖大转盘源码可以独立使用...
  3. WIN10在服务器上找不到共享打印机,win10搜索不到共享打印机怎么办
  4. crmeb多商户1.7.3
  5. word中图片为嵌入式格式时显示不全_毕设时,在word中插入图片时,图片的格式改为嵌入式后图片藏于文字下方怎么办?...
  6. 基于Android企业员工绩效考评APP的设计与实现
  7. Android开发常用的模拟器
  8. 2020-09-22回忆一下高中物理的弹性碰撞速度公式推导
  9. 网络 打印机怎么连接?
  10. 大众点评文字反爬破解