有同学问:陈老师,每次被面试都被问“你使用过哪些数据分析的方法”。结果都感觉答不上来。我回答做了相关分析、回归分析、聚类分析、因子分析又经常被人怼。所以到底数据分析有什么方法?为啥我在做数据分析,却感觉没什么方法?

答:首先,相关分析、回归分析、聚类分析、因子分析的名字叫XX分析,但它们是统计学方法,只是数据分析的工具,不是解决问题的全部办法。很多同学一看到名字叫分析,就想当然的以为我只要按这些XX分析的代码跑一遍就算分析了,这种行为经常会被真正懂行人怼。

就举个最简单的例子,所谓相关分析,很多同学就是算了个相关系数。可统计上的相关系数与业务中的相关关系是两码事。我家门前的大树年年都在长,中国GDP也年年在涨,两列数据算个相关系数哇塞0.99,P值小于0.05,所以我家门前的树是我中华龙脉,我要发财啦!——不要笑,脱离了业务意义去做统计模型,做出来的笑果(我没打错)就是这样的。

所以回答这个问题,要回到数据分析到底解决哪些业务问题上去。我们之前分享过,数据分析可以解决的是:

  1. 是多少(数据描述状况)

  2. 是什么(树立数据标准)

  3. 为什么(探索问题原因)

  4. 会怎样(预测业务走势)

  5. 又如何(综合判断状况)

其中问题1是用数据描述问题,把问题量化。问题2345都需要探索-假设-检验-总结的循环性的过程。真正服务于业务的时候,只要熟练掌握了量化-探索-假设-检验-总结的循环,就能完成一个分析。无论是企业里的经营问题,还是个人感情、生活各种疑难杂症莫不如此。

然而,这么说面试官肯定不满意。他们还是期待着你说出一些具体名词的。因此人们总会发明一些新词,比如什么AARRR法,矩阵法,切割法,杜邦分析法等等,甚至还有懒省事的干脆叫业务法(是啊,肯定是业务法啊,不结合业务分析啥)。经常把人都听得头晕了。这里我们结合数据分析能解决的问题,梳理下这些方法。

属于“是多少”的方法

“是多少”指数据描述状况。如果只用1个指标就能描述清楚状况,比如身高、年龄这种,是没有什么分析方法的。但是如果指标很多,就会涉及到选择哪些重点指标,以什么方式展示这些指标。于是,就有了很多描述性方法。比如一些常见的:

AARRR:互联网行业增长黑客理论的五个大指标。需要注意的是,实际用的时候,还有很多二级三级小指标,绝不是五个指标就完事了,切记。而且AARRR都是围绕用户来说的,实际上也只适用于用户运营,不是所有业务都能硬插这五个指标的。

漏斗法:只要一个流程环节数》2,都能摆一个漏斗出来,用来衡量流程转化率的指标。最典型的比如互联网广告(站外页-落地页-促进页-转化页),比如B2B销售的售前流程也很长(销售线索-初次接触-沟通需求-展示demo-议价-竞标-签署合同),也能撸出来一个漏斗。

杜邦分析法:原本是财务分析中用来衡量企业经营效益与财务指标的方法,现在也被推广开,用来拆解经营指标。比如销售金额=用户数*付费率*客单价。然后再层层拆解用户数,客单价构成。有意思的是,杜邦分析法拆出来的逻辑图会很复杂,所以很多人为了提高逼格直接把它叫“分析模型”……

量收利进销存:零售行业,无论线上线下都是这六个关键指标。和AARRR一样,有一堆二级三级小指标。

要注意:以上都是描述问题的方法,并没有解答问题,比如看到用户流失率75%所以呢?所以75%是好还是坏呢?描述+标准才能对问题做判断。所以才有了下边“是什么”的方法。

属于“是什么”的方法

“是多少”指树立数据标准的方法。寻找标准可以基于业务经验,但业务经验也需要数据进行验证才知道是对的错的。因此,产生了“是什么”的两大类方法:探索标准的方法,验证标准的方法。

探索标准的方法,和到底要对几个指标进行探索有关。比如只用1个指标的方法有:二八法、十分位法、切割法。名字听着玄妙,实际上就是切割线摆在哪。当我们没有信心的时候,可以根据二八定律,把切割线摆在20%,也可以先拆10组或者若干组出来,探索下摆在哪里合适。比如用2个指标,就是所谓矩阵法,其实就是把两个指标交叉,分出四个象限,看看四类有没有明显特点。

如果超过3个指标,一般不建议直接交叉。即使只有3个指标,每个指标分3类,也会产生3*3*3=27类出来,在业务上太复杂了。这时候会用一些统计学的方法。在无标注的情况下可以用Kmean聚类进行分类探索,在有标注情况下可以用决策树。是滴,大家看到了,统计学/机器学习的方法只是解决分析问题的工具,就是这个意思。

找出来标准以后要进行验证。好的标准要能清晰区分不同群体。比如女生说要相亲的男生身高180。那意味着179的人她真的不要,181她不会立即拒绝。如果176的她照样接受,就说明画出来标准没有区分度,要么是标准划分出了问题,要么就是做标准的指标压根就找错了。

需要注意的是:有没有用数据找标准,有没有验证过业务部门的标准,是从取数到分析的分水岭。很多同学觉得自己没有做分析,不知道分析的是什么,核心原因就是手上只有数据没有标准。比如跑出来一个:本月底销售额3000万,可3000万又怎样呢?不知道。然而渠道部一看到月底销售额3000万,就大喊一声:肯定是华东大区藏了业绩,下个月头他们至少还要吐500万出来!这就是有没有评价标准的差距。所以平时工作中就得养成强烈的标准意识,这样才能进行真正的分析。

属于“为什么”的方法

 

“为什么”指探索问题原因。一提探索原因,大家脑子自然蹦出来的就是相关分析……往往会以为计算个相关系数,丫就真的相关了。于是产生了开篇的“龙脉梗”。实际上,想仅通过数据分析找原因,是相当困难的。往往要内部数据+外部调研+业务判断+测试,共同努力锁定原因。这一点切记切记,面试的时候经常有同学在这里吹牛吹大了,被怼得体无完肤。

正因为很难仅通过数据锁定原因,所以通过数据分析找原因往往是一个系统的过程。需要做齐量化-探索-假设-检验-总结全套流程。严格来说,这里不是靠某个分析方法得出的结论。但是考虑到面试官还是很想听几个方法的名字的,我们可以这么说:

找原因的方法可以分作经验推断与算法推断两种。经验推断就是经典的归纳法与演绎法,具体到数据操作上,就是分组对比(归纳原因)和趋势推演(演绎判断)。比如问为什么销售额下降,用归纳法就是将每一次销售下降的时候,相关症状指标列出来,然后做分组对比,看哪个因素影响下跌的厉害。用演绎法,就是假设销售下降就是因为人员流失/引流产品不给力/季节因素导致的,那么我做了相应调整:人员调动/上新品/等季节过去,以后应该销售能回升。实际中,当然是两种方法结合,不断逼近真相。

算法推断,不是靠人工智能阿尔法大狗子汪汪一叫就把原因叼回来,而是通过指标的计算发现潜在问题点,然后回归到业务里去验证。你可以简单理解为把上边经验推断的过程,量化为一堆指标的计算。比如相关分析虽然不能证明因果,但是能提供分析假设,拿到假设以后我们就能进一步验证,到底这种关系是真相关还是伪相关。因此,做分类的模型与计算相关系数的统计方法,理论上都能用来做这种探索。

 

属于“会怎样”的方法

 

“会怎样”指预测业务走势。一提到预测,大家脑子里会自然蹦出来很多很多统计学/机器学习的算法。具体的操作展开写内容太多,这里仅帮大家梳理下逻辑。细节可以后边慢慢更,或者大家自己去看相关统计学/机器学习文章。

首先大类上,预测分定性预测和定量预测两种。定性方法是基于业务经验和业务假设,来推测未来走势。有两种推测法,一种是找一个类似的业务场景进行推测。比如马上上一款新产品,根据过往的经验,一般上市后T+N周销售走势应该是XX,所以类似的也该是这样。是所谓经验推断法。

另一种是基于业务假设,比如新产品上市,假设推广部门传播力度为X,假设销售部门配备人员为Y,假设供应链的产品到货率是Z,之后套入杜邦分析法的模型进行计算,综合预测销量。定性预测并不全是拍脑袋,因为定性假设选取的场景和参数可以通过分析来获得,并不是完全没有依据。同时,对业务部门而言,定性预测时责权划分非常清晰,每个部门要做到多少业绩一清二楚,反而容易推动执行。

定量的方法又分为基于时间的时间序列法,与基于因果关系的算法两类。比如预测店铺销量,如果用时间序列法,则根据过往1-3年销量数据来预测未来的销售数据。如果基于因果关系,则要引入与销售结果相关的变量,比如店铺位置、店铺产品线、产品价格、顾客评价、顾客人数等等。定量预测看起来很复杂,很多同学会直观的认为复杂就是牛逼的。可实际操做过几次就会发现,时间序列法对于环境变化不敏感,容易被突发事件冲击。因果关系法可能采集不到足够的数据,导致模型预测精度很难上去。

所以在工作中真正操作的时候,要因地制宜选方法。在面试的时候,要客观陈述建模效果。又有很多同学本能的认为,模型在测试集上跑出来的准确率越高越牛逼。连过拟合这种问题都忘了。结果在面试的时候被面试官怼穿,这都是很常见的哈。说话谨慎不是问题,被怼穿了才是。

属于“又如何”的方法

又如何指综合判断状况,下分析结论。如果判断标准很清晰,判断的指标很少,那下结论是很快速的,不需要复杂的分析。比如女生说我就是不喜欢秃头的男生,那就看照片一票否决,来的非常爽快。这里不需要分析。但当牵扯指标很多,指标形态很复杂的时候,就很难决定了。比如小姐姐说我想要一个男的对我好(行为指标)有上进心(心理指标)有发展潜力(预测值)真心爱我(恋爱原因),这要求一出,就是个非常复杂的判断。所以,“又如何”是分析最后一步,因为往往做判断,需要做一大堆前期工作。需要搞掂了数据、搞掂了标准、了解清楚原因,做了预测以后,才知道怎么下结论。

在复杂判断中,有主观法和客观法两种。主观法就是基于人工判断(专家判断),只不过打分方式有很多种,直接打分再赋权重的往往叫专家法,打一个矩阵评分再计算的叫层次分析法(AHP)客观法可以通过因子分析(用方差解释率做权重)神经网络(算法训练权重),这样不依赖专家打工。

实际工作中,做评估的最大敌人是没标准,或者标准没节操。看到销量下降就试图甩给没有数据的外部因素,或者甩给目标定得太高,这样的话分析就没法做了。做评估第二大敌是所谓“业务常识”,经常有业务部门跳出来“你做过业务吗?老夫从业10年都没见过这样的”。做评估的第三大敌是领导意见,领导就是不想下这个结论,你咋办?只能回来改ppt啊。所以你看,做评估的算法有很多,真正用起来少,还真不能怪我们没本事。

以上就是对常用方法的简单总结。恭喜坚持到这里的同学,上述总结的思维导图如下,大家可以收藏了。不过这里只归纳了文章中提及的一些内容,可能有遗漏,这里也没有结合具体业务场景,大家可以根据自己的实践再加以补充。

全文只是一个概览,如果大家有兴趣的话,让我看到你们点击“在看”的小手,后边陈老师有动力慢慢分享。需注意的是,如果是面试时讲自己用的数据分析方法,一定要和自己简历里的工作内容对的上,不然人家指着简历随口一句:你在哪个工作项目中用的这些方法?具体怎么用的?数据如何?估计就问崩了。面试千万条,真实第一条,瞎编易穿帮,失业两行泪

如果是在实际工作中,则要因地制宜选择方法。遇到事先问三问:

  1. 数据足不足够

  2. 时间允不允许

  3. 业务买不买单

在企业中,不是方法越难越有价值,而是越能帮助到业务才越有价值。同样效果前提下,方法越简单越好。因此真正做工作的时候,往往是在时间、数据、业务需求限制下,选择最短平快的方法。至于复杂的方法,可以在工作有余力的时候自己尝试。想探索数学的奥秘,可以去读个博士做科研。在企业做数据分析是为了助力业务,并不是自己嗨,一定要牢记这点。

更不用说,很多企业的数据化管理程度之低,还停留在“我就要个数,一个数而已”或者“让你的人工智能阿尔法大狗子帮我解决下和这个问题”两个极端上。数据真正发挥价值,靠的是体系化运作,不是某个大数据神人掐指一算,切记切记。

陈老师新课上线,目前正在预售阶段

原价399,预售价199。全部课程将在7月1日左右更新完毕,敬请期待哦。有需要的同学可点击文章末:阅读原文,购买课程。或从提纲的二维码里扫码购买。

你使用过哪些数据分析的方法?相关推荐

  1. 产品经理做市场调研和数据分析的方法

    产品经理,你对用户的需求了解多少呢?你知道用户想要什么样的产品吗?你想知道用户将会如何看待你的产品吗?你想知道你设计的产品在用户中的口碑如何吗?     是的.每一个产品经理都希望在产品开始立项设计前 ...

  2. 大数据分析的方法有几种?

    大数据分析的方法有几种?大数据分析六种方法:数字和趋势.维度分解.用户分群.转化漏斗.行为轨迹.留存分析.看数字及趋势是最基础进行展示相关数据管理信息的方法,对于谁符合一定的行为或背景资料,分类处理用 ...

  3. 数据分析的方法与技术

    数据分析的方法与技术 数据分析是指采用准确适宜的分析方法和工具来分析经过处理的数据,提取有价值的信息,从而形成有效的结论并通过可视化技术展现出来的过程. 数据分析的方法有: 基本分析方法:主要以基础的 ...

  4. 教你用数据分析的方法填报志愿

    今天是2020年7月8日,高考第二天,小编祝各位考生超常发挥,取得好成绩. 对很多人来说,高考都是人生的一次重要转折,但小编觉得,其实应该是高考+志愿填报,才是真正的人生转折点. 高考很重要,好成绩的 ...

  5. 通过客户流失预测案例感悟数据分析设计方法思考——数据驱动、AI驱动

    国际著名的咨询公司Gartner在2013年总结出了一套数据分析的框架,数据分析的四个层次:描述性分析.诊断性分析.预测性分析.处方性分析. Gartner于2020年中给出预测,到2024年底,75 ...

  6. 电商数据分析的方法、流程及场景

    电商数据分析的方法.流程及场景 数据分析流程:分析方向: 战略分析:根据行情.竞对.国家政策等外部因素制定战略. 业务分析:公司正常业务的数据分析. 产品分析:APP.平台.商品等分析. 增长分析:内 ...

  7. 海量数据分析处理方法

    海量数据分析处理方法 一.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数.将hash函数对 ...

  8. 市场调研和数据分析的方法

    市场调研和数据分析的方法 一. 产品经理为什么要做市场调研?调研的目的是什么? PS:我们在做市场调研前,必须有一个自己的调研思路:我们要调研的对象,需要收集的数据,需要达到的效果等.只有有了明确的目 ...

  9. python数据分析实况_机器学习竞赛分享:通用的团队竞技类的数据分析挖掘方法...

    前言 该篇分享来源于NFL竞赛官方的R语言版本,我做的主要是翻译为Python版本: 分享中用到的技巧.构建的特征.展示数据的方式都可以应用到其他领域,比如篮球.足球.LOL.双人羽毛球等等,只要是团 ...

  10. 大数据分析的方法有哪些

    科学技术的更新与互联网的飞速发展,推动着大数据时代的来临,每天各行各业都在产生数量无法预估的数据碎片.只有在合理的时间内撷取.管理.处理.整理这些庞大的数据库,才能帮助企业获得自己想要的数据,从而更好 ...

最新文章

  1. 在游戏中强制关机,不能对关机提示框进行操作
  2. 无竞品可借鉴时,该如何设计产品?
  3. hashmap中的key是有序的么_HashMap?面试?我是谁?我在哪
  4. HTML 中的特殊字符
  5. linux下的C语言开发(进程等待)
  6. .NET Remoting 分布式开发实例思想(转)
  7. 《亿万僵尸》优优卡评测:用你智慧的大脑,制定一套战争策略,把僵尸一举歼......
  8. iommu intel-iommu实现
  9. 黑莓7290无信号问题
  10. “区块链+供应链”的应用案例
  11. 图形点选中的算法应用-点线距离计算
  12. mapgis编辑属性结构编辑不了_在win 7系统中MAPGIS的区属性结构修改不了,而且出现死机...
  13. c语言四个人中有一个人是小偷,、甲,乙,丙,丁四个人中有一个人是小偷,请根据四个人的谈话判断谁是小偷?已知四个人中有一个人说假话...
  14. 服务器名称指示(SNI)是什么东东?
  15. 邮箱手动修改服务器配置,邮箱登录手动修改服务器配置
  16. pytorch中的nn.Unfold()函数和fold(函数详解
  17. 【C/C++】输入一个整数的二目运算式的字符串,如100+20,332-19,200*2333,44/33二目运算取”加减乘除“中的一种输出运算式的整数结果值
  18. 高温定型窗帘值得我们选择吗?-江南爱窗帘十大品牌
  19. 中英文姓名正则表达式
  20. 武汉星起航跨境:跨境电商新蓝海,南非跨境电商市场迸发活力

热门文章

  1. charles抓包工具的使用:手机抓包设置和安装证书
  2. 字节工程师薪资排世界第五,中位数 43 万美元,2021 全球程序员收入报告出炉!...
  3. 10 个牛逼的一行代码就能搞定的编程技巧,你会用吗?
  4. 云智慧获 D 轮数 2500 万美元投资:全力推动智能运维落地
  5. AI,大数据,复杂系统最精25本大书单(建议收藏)
  6. 说说 IT 技术人的职业规划
  7. 计算机知识考试试题及答案,职称计算机考试基础知识章节试题及答案一
  8. 数据结构时间复杂度_数据结构之时间复杂度分析
  9. 算法图解 各部分回忆
  10. java数组基本操作