python数据分析-互联网常见9种数据分析方法

一、对比分析

什么是对比分析？
对比分析就是将两个及以上数据进行比较，通过其中差异揭示业务发展趋势及问题。

优点：简单、直观、量化的特点。
缺点：不易得知问题的严重程度。

对比原则：
1、对比对象要有相似性，如：偏远山区的人均收入和超一线城市的人均收入没有可比性。
2、对比指标同质性，
一是指标口径要一致。如：今天的收入和上个月的收入比，没有可比性。
二是计算方式要一致。如：今天部门总收入和公司人均收入，一个是加法，一个是除法，计算方式不同。
三是计量单位要一致。如：当月收入，不同国家的汇率不同。

问题一：比什么？
（1）绝对值：本身具备价值的数字。如：销售金额、阅读数、DAU、MAU、
（2）比例值：在具体环境中看比例才具备对比价值。如：活跃占比、注册转化率
举例：今日日活下降100人，如果平常日活只有110人，问题就大了，如果平常日活10000人，可能就是正常的数据波动。
缺点：易受到极端值影响
（3）波动对比：通过计算一定时期内标准差、方差、极差、变异系数等指标，比较波动情况。
（4）趋势对比：趋势对比又可从时间、空间维度进行划分。

问题二：怎么比？
环比：连续2个统计周期（比如连续两周）内的量的变化比。
对短期内具备连续性的数据进行分析。
需要根据相邻时间范围的数字对当前时间范围的指标进行设定。
同比：本年第n月与过去某年的第n月比。同比发展速度主要是为了消除季节变动的影响，用以说明本期发展水平与同期发展水平对比而达到
的相对发展速度。
观察更为长期的数据集
观察的时间周期里有较多干扰，希望某种程度上消除这些干扰。

问题三：和谁比？
1、和自己比
（1）从时间维度。如：推送的活动本周和上周活跃人数的比较。
（2）从不同业务线。如：两种方案哪种获得的客户较多。
（3）从过往经验估计（非连续数据）
2、和行业比
（1）是自身因素，还是行业趋势?
（2）都跌，自己跌的幅度和同行怎么样
（3）都涨，自己涨的幅度和同行怎么样

二、多维度拆解

注意：
（1）维度拆解分析是可以叠加的。
（2）辛普森悖论：在某些情况下，如果没有详细拆解内部数据，得出的结论会背离实际情况。
举例：
（1）DAU（Day Active User）用户使用手机的类型看出我们的目标群体。
（2）启动我们app的方式，桌面还是通知栏，看出客户倾向于怎么查看我们的产品。
（3）城市维度，我们主推的城市和其他城市的对比，是否存在地区性的差异。
（4）新老用户的维度，随着这一轮市场推广，日活整体型化不大，但这是因为老用户占比下降、新用户占比不断上升，掩盖了流失。
（5）对业务流程，拆解维度，初期–>中期–>后期，据业务sop看。
（6）设备（ios/android）。
（7）地域维度，省份，城市
（8）性别维度，男，女等
（9）渠道维度，线下，线上，还可以继续具体细分
（10）政策、经济（短期内主要是竞争环境，如对竞争对手的活动）、社会、技术
多维度拆解的适用场景
1、分析单一指标的构成
适用于，计算分栏目的播放量，新老用户比例、转化率、新客户客单价、老客户复购率等。

2、针对流程进行拆解分析
不同渠道的浏览、购买转化率，如：某渠道流量很高但是转化率低，可考虑减少该渠道投放。
不同省份的活动参与漏斗

3、还原行为发生时的场景
打赏主播的等级、性别、频道、直播类型
是否在WiFi或4G环境下
活动时下单还是活动结束

运作原理
指标/业务流程需要按照多维度拆分，来观察变动
适用场景
需要分析单一指标的构成、比例时
需要针对流程进行拆解分析
需要还原行为发生时的场景

数据涨跌异动如何处理
搞明白每一次涨跌背后的业务逻辑：
一般流程：发现问题–>确定问题–>确定原因–>针对性解决问题 -->执行
（1）跌：采取动作，减缓趋势
（2）涨：弄清原因，并放大

案例：对收入减少10%的应对（背景是某电商）
问题严重么?
〔假设〕如果是个例，往期应该没这么大跌幅
〔证明〕周同比、月同比，确实都没有如此跌幅
〔结论〕严重，确实是个问题

猜测：是不是服务挂了?
〔假设〕如果是技术问题，应该存在“断崖式下跌”，且修复后会恢复
〔证明〕按小时查看，符合平时流量规律
〔结论〕服务没有问题

猜测：是不是渠道问题?
〔假设〕如果是渠道问题，应该存在某个渠道远低于平时的流量
〔证明〕按渠道维度拆解，XX渠道明显下降将近20%
〔结论〕XX渠道下跌

猜测：是不是哪里缺货?
〔假设〕如果是发货问题，应该存在某个地区远低于平时的销量
〔证明〕按地域维度拆解流量，XX省低了不少
〔结论〕怀疑与当地动作有关

常见的假设
活动影响：查对应活动页面及对应动作的数据波动，关注活动是否有地域属性
版本发布：将版本号作为维度，区分查看
渠道投放：查看渠道来源变化
策略调整：策略上线时间节点，区分前后关键指标波动
服务故障：明确故障时间，按时间为维度进行小时或者分钟级别的拆分

三、漏斗观察

什么是漏斗观察？
漏斗是一连串向后影响的用户行为，也就是前一步对后一步有限制作用。它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析方法。

漏斗观察法的适用场景
适用场景：一般适用于有明确的业务流程和业务目标需要监控的。
不太适用场景：不太适用于没明确的流程或跳转关系纷繁复杂的业务，比如像新闻类、阅读类的产品等。

漏斗分析流程
第一步：梳理业务流程关键节点与路径。根据业务场景的设定规则或节点的定义，绘制事件的流程；
第二步：收集各关键节点的痕迹数据，进行数据分析。针对整个漏斗形成过程首先要进行指标的定义和数据的收集。
第三步：确定需要优化的节点。通过在关键指标上与同类用户的平均水平、行业平均水平等进行比较，分析差距、找到自身的
薄弱环节；通过与自身历史同期水平进行比较，确定某一流程中需要优化的节点，采取措施进行针对性整改。

建立漏斗时容易掉的坑

【坑1】漏斗一定是有时间窗口的
1、根据业务实际情况，选择对应的时间窗口，太长会包含无用信息，太短会丢失有用的信息，时间窗口没有固定的长度。
2、极端情况：23:59分执行第一步，次日0:01分执行第二步，具体计算到哪一天据业务情况。
3、按天:对用户心智的影响只在短期内有效（如短期活动，红包当日有效)
4、按周:业务本身复杂/决策成本高/多日才能完成（如理财/美股开户）
5、按月:决策周期更长（如装修买房）

【坑2】漏斗一定是有严格顺序的
举例：比如视频点赞，想计算点赞后商品的付费情况，流程应该是点赞–>浏览–>下单–>付费，计算每个环节的转化率，但是，点赞的平台和渠道很多，商家也不会只在一个渠道做推广，就不能把所有的渠道计算在一起，区分不开哪个渠道应该多投入，所以要把每条业务线计算清楚。

【坑3】漏斗的计数单位可以基于「用户」、也可以基于「事件」
基于用户：关注整个业务流程的推动
基于事件：关注某一步具体的转化率
何时基于「用户」，何时基于「事件」?
这个问题主要是取决于关注的点，如果是关注整个业务流程的推动就是基于用户的角度。如果是关注某一步具体的转化率，就是基于事件的角度，但是基于事件可能无法获知事件流转的真实情况。

【坑4】结果指标的数据不符合预期
如果结果指标的数据不符合预期，需要有一个自查的过程，需要考虑是否只有这一个漏斗能够到达最终目标？
举例：业务sop最终目标是客户付款，但是我们只关注了某一条业务流程最后付钱的转化率，结果肯定是不符合我们的预期的，这时候就要考虑是不是少计算了某些业务线，或者忽略了业务流程中的某个重要环节。

如何评估渠道质量确定投放优先级
1、常见的渠道划分方式
（1）来源（source）
具体的流量实体，如：百度、头条、线下
（2）媒介（medium）
实体中承载推广的实体，如：SEM、自然搜索结果、Bannner
（3）其他参数
营销活动名称、广告关键词等
2、渠道质量跟踪
（1）选择关键事件，选取反映你产品目标人群会做的行为的数据，如果完成了关键事件我们认为是目标的用户，关键事件门槛不能太高，也不能太低。比如(电商）购买、（社区）发帖(可衡量各渠道来的用户是否为目标用户)，完成为期三个月的健身课程（门槛太高/流程太深，转化率极低，无区分度)，打开APP/访问首页(门槛太低，同样缺乏区分度)
（2）查看产生关键事件的用户来源是哪

四、分布情况

分布分析用来解释数据的分布特征和分布类型，显示其分布情况。
分布分析主要分为两种:对定量数据的分布分析和对定性数据的分布分析。
运作原理
从事件在不同维度中的分布来观察，以便理解该事件除了累计数量和频次外，更多维度的信息。
适用场景
已经知道一群用户完成了指定事件，但需要对用户群体进行细分，按不同的维度和价值将他们划为不同群体，分别进行后续的维护或分析。
已经知道单个事件的完成次数，希望知道这些次数拆分到不同维度上后的分布情况，以便更清晰地了解该事件的完成情况。

（1）定量分析的指标：
中心位置/集中趋势：均值、中位数、众数、四分位数
分散程度/离中趋势：方差、标准差、极差、变异系数{标准差/平均值}
同一对象不同时间的波动：
方差大：受外界因素影响较大，可以通过特征的贡献度分析析，寻找影响波动的原因。
方差小：波动状况不明显。
同一对象相同时间的波动：
方差大：各个对象间的差异较大，可以寻找差异大的原因，异常值中一般蕴藏着机会。
方差小：各对象之间的差异不大，对象的属性对结果的影响不大。

定性分析：
主要是划分不同的群体，对比不同群体间的差异，或渠道之间的差距。

常见的群体划分
事件频率、一天内的时间分布、消费金额的区间

五、用户留存

适用场景
验证产品长期价值，找出用户流失环节原因，产品、运营、技术、市场每个环节都会对留存造成影响。

一般的计算方式
（1）将某一时间段的用户ID与另一时间段的用户ID做交叉去重
（2）过滤进行过指定行为的用户ID，再计算。
一般行为：
1.某功能频次越高，说明用户越对某功能感兴趣，可以根据使用频次，预判新用户取向；
2.流程转化速度代表商品推送的准确度；
3.分析新用户的实际数据，看绝大多数早期激活行为发生的时间窗口，也就是确定新用户的决策期；
（3）将用户分为不同的群体后，观察其之间留存的区别。

运作原理
大盘留存：将某时间段与另一时间段的用户ID交叉去重
精准留存：针对某指定行为或sop中的某环节过滤用户ID，再将用户分为不同群体后，观察其之间留存的区别。

适用场景
评估产品功能粘性
验证产品长期价值

功能/内容上线后，如何评估其短期效果/长期价值/未来潜力
（1）功能/内容的目标与价值清晰明确
借助漏斗分析对比(转化关系明确时)
借助用户分群对比(转化关系较复杂时)
（2）上线后关注其对产品价值的提升
借助精准留存对比
上线以探索更长期的产品潜力
借助分布情况分析，对比其是否优化了使用频次/场景的分布

六、用户画像

通过给用户各类特征贴上标签，通过这些标签将用户分为不同的群体，以便对不同的群体针对性的进行产品/运营动作。

标签都有啥？
基础属性
年龄、性别、生日、星座、教育、身高、地域、收入、职业、性格、爱好、品牌偏好等
社会关系
婚姻、有无小孩、有无女孩、家有老人、性取向、社交群体
行为特征
（1）基本行为：注册时间
（2）业务行为：买过特惠商品、充值会员（月度、年度、自动续费）
业务相关
胖瘦高矮、体脂率、每日运动时长，运动时间、存货量、天气

标签从哪儿来?
（1）直接填写：注册、外卖、问卷调查、关注的话题、装修计算器、电话访谈、朋友推荐。
（2）通过用户自己的已有特征推得：做活动、简单的个性化运营、业务分析、用户研究。
（3）通过用户身边的人推断：距离相近、某些属性，周围的人都具备，用户大概率也具备。
（4）行为相似、通过协同过滤，找到行为相似的目标用户。

做用户画像作用：
（1）广告投放，对潜在用户进行拉新。
（2）精准营销，刺激消费。
（3）个性化推荐，增加用户粘性，促交。
（4）风控检测，是否发放贷款。
（5）产品设计，针对互联网产品的三大要素，用户，需求，场景，更新迭代产品。
（6）数据分析，更加清晰的刻画用户画像。
（7）从现有用户中找到我们真正的用户：高留存、核心行为频次完成率高。

七、归因查找

含义：找出事件发生的主要原因，哪些渠道或节点的原因导致了这个结果。

归因查找的适用场景
对业务中明确的业务目标（购买、留资料、充值等）归因，便可…
将目标的达成拆分到各个模块，方便统计各模块的贡献
获悉当前指标达成的主要因素，获得如何提升业务指标的洞见

归因方法：
（1）末次归因转化路径短，且事件间关联性强的场景
找出事件最近的一次动作，也称最后点击模型，这种归因模型将功劳100%分配给转化前的最后一个渠道，即不管用户发生什么行为，只关注最后一次。这是最简单、直接，也是应用最为广泛的归因模型。
（2）递减归因转化路径长，非目标事件差异不大，没有完全主导的
比如提供了书写功能、查找功能、闹钟功能然后充钱能去掉广告、目标是去掉广告，不能归因为闹钟
（3）首次归因强流量依赖的业务场景，拉人比后续所有事都重要
也称首次点击模型，这种归因模型将功劳100%分配给第一个触达渠道，即不管用户发生了啥行为，只关注第一次。
（4）线性归因
线性归因是多触点归因模型中的一种，也是最简单的一种，他将功劳平均分配给用户路径中的每一个触点。
（5）时间衰减归因
对于路径上的渠道，距离转化的时间越短的渠道，可以获得越多的功劳权重。时间衰减归因模型基于一种假设，他认为触点越接近转化，对转化的影响力就越大。这种模型基于一个指数衰减的概念，一般默认周期是7天。也就是说，以转化当天相比，转化前7天的渠道，能分配50%权重，前14天的渠道分25%的权重，以此类推。
（6）位置归因
基于位置的归因模型，也叫U型归因模型，是一种重视最初带来线索和最终促成成交渠道的模型，一般它会给首次和末次互动渠道各分配40%的权重，给中间的渠道分配20%的权重，也可以根据实际情况来调整这里的比例。

运作原理
将事件拆解，并根据业务性质，确定影响事件完成的关键部分(首次归因、递减归因、末次归因)

适用场景
将目标的达成拆分到各个模块，方便统计各模块的贡献
获悉当前指标达成的主要因素，获得如何提升业务指标的洞见

精准运营推送

如何盘活运营资源？
如果想盘活运营资源，就要尽可能的把一个资源分成N个资源来用，就是不同人在同一个运营资源位上得到不同的信息。也就是我们常说的千人千面，但是很多公司做到千人千面很难，有时候只能做到千人几面，或者干脆是千人一面。千人一面不可取，千人千面又挺难的，所以我们需要在千人千面和千人一面之间找到ROI（投入和会报）的平衡，千人十面往往就已经解决了80%的问题，7~8个标签往往足矣。

推送内容针对特定用户：
基于用户真实的动作，调整推送内容，使其感到推送是专门为我而推送的，而不是使客户感觉自己是被批量推送的分母之一。

运营资源盘活
【问题】整个公司的内部营销资源存在上限，会出现各个业务线去抢推送资源的问题
（1）常规做法出台一套运营资源使用规则，一天最多只能推5条，同一个类型的营销在一周(一月)内不得重复推送。
（2）推荐做法精细化的用户分群运营，既能提升整个公司的可用资源，也能提升收到推送的用户自己的体验
（3）理想:每个标签都去做不同的推送内容
（4）运营力量有限︰哪怕将用户精确地分成一千个群体，运营团队也很难每天都去编一千条不同的推送文案和页面，但是如果运营策略能自动化地运行，可以实现。

现实:在ROI上找到一个平衡点，先选择容易出成绩的
容易出成绩的标签:如电商的性别标签
容易出成绩的运营位:如首页/每日推送

如何让营销内容与用户更加相关？
向我说话
利用用户之前留下的信息,在推送文案中使用对应名称
由我触发
通过挖掘用户的行为序列,将推送与你的某个行为挂钩
和我有关
这次推送的活动，真正和我的需求有关

八、路径挖掘

适合没有明确的业务流程和业务目标，但是有一个明确的起始落地页，一个明确的结束事件，起始往后面推或者结束往前面推。

运作原理
·逐级展开某一事件的前一级（后一级）事件，观察其流向
适用场景
·有明确的起始场景，希望观察这个场景它之后发生了什么
·有明确的结果目标，希望观察来的用户是如何到达的

九、行为序列

运作原理
将单一用户的所有行为以时间维度的形式进行排列。

适用场景
（1）观察掩盖在统计信息下更细致的信息，还原用户具体的使用场景
（2）通过观察具体的行为特征，找到提升产品价值的机会点
（3）辅助产品设计决策

随着技术的发展，有很多软件刷流量等数据指标的行为存在，那么如何抓作弊？
第一步：发现数据异常
一般通过，流量监控、员工审核、员工举报
第二步：找到方法
（1）异常数据来源分析，机刷、人刷、突增、ip异常、
（2）行为多少，
多：显著与普通用户相异的动作，如通过商家变现、发布特定内容等
少：留存低、非核心业务（如帮助界面)几乎不访问
第三步：确认作弊用户
开发部门爬取并人工审核，我们提供特征，给开发然后取出数据人工审核
第四步：关闭作弊用户权限/封号
封禁/封禁权限/屏蔽/定向屏蔽/…

如何防止用户作弊？
（1）找到作弊用户就封禁
（2）提高关键成本
前：注册7日后方可发帖，然后如果发广告帖就封号
中：减少存在bug的商品的库存
后：提高提现的审核力度/周期
（3）不做处理

本文基于网络教学视频整理发布分享，如果侵犯作者相关权力请联系删除。