数据分析实习-业务题准备

想挑战一下自己能不能做一做数据相关的工作,准备在暑期尝试投一投数据分析相关的实习。

虽然希望不大,但还是要努力准备一下,整理了一部分面试/笔试时可能会考的业务题(来源各处的面经、笔经),尽量考虑面试和自己能掌握的实际,梳理了自己的思维模板,并非是很专业的整理,总结如下:

文章目录

  • 数据分析实习-业务题准备
    • 一、费米(估算)问题
      • (一)确认估算对象
      • (二)拆解估算对象
        • 1. 需求维度
        • 2. 供给维度
      • (三)对比估算结果
      • (四)关注可能的误差
    • 二、A/B测试问题
      • (一)定义
      • (二)应用场景
      • (三)科学依据
      • (四)步骤
        • 1. 分析现状,提出假设
        • 2. 设定目标,制定方案
        • 3. 算样本量,设计投放
        • 4. 分配流量和分流时机
        • 5. 数据收集,定统计量
        • 6. 分析数据,做出决策
    • 三、指标搭建/选取问题
      • (一)业务指标体系搭建
        • 1. 明确产品阶段,定北极星指标
        • 2. 结合业务特征,拆解主要指标
        • 3. 理清逻辑线索,总结归纳指标
        • 4. 落地业务场景,指标数据应用
      • (二)选取预警/预测指标
      • (三)APP分类及其关注指标
        • 1. 交易类APP
        • 2. 内容类APP
    • 四、异常归因问题
      • (一)确认异常发生
        • 1. 背景确认
        • 2. 检查数据
      • (二)定位异常原因
        • 1. 排外
        • 2. 拆内
      • (三)结合具体业务,提出解决方案
    • 小结
      • (三)结合具体业务,提出解决方案
    • 小结

一、费米(估算)问题

总体原则:自上而下拆解,自下而上计算。

涉及分析方法:逻辑树分析、多维度拆解分析。

目标:估算结果上下浮动范围不超过10倍即可。(from《这也能想到?——巧妙解答无厘头问题》)

(一)确认估算对象

确认是否需要 细化对象 or 转换对象

eg1:估算一个星巴克门店的销售额。

eg2:估算芝加哥有多少名钢琴调音师。

对于eg1,可以根据二八原则细化,星巴克的销售产品主要以饮品为主,而饮品主要以咖啡为主,因此估算对象确定为咖啡的销售额;

对于eg2,将芝加哥的钢琴调音师数量转换为:芝加哥每年需要调音的钢琴数量 / 每个调音师每年能调多少台钢琴。

(二)拆解估算对象

需求层 and 供给层 展开考虑。

1. 需求维度

需求值 =市场总需求规模 = 需求单位数 × 单位需求量 × 单位需求频次

需求单位数 = 需求人群 × 人群转化率

eg3:估算北京市一日卖出的油条数量。

需求单位数 = 北京市吃油条的人数 = 需求人群 × 人群转化率 = 北京市人口 × 选择吃油条的比例 = 约2000万人 × 约5% ≈ 100 万人

需求值 = 北京市一日卖出的油条数量 =需求单位数 × 单位需求量 × 单位需求频次 = 北京市吃油条的人数 × 每次吃几根 × 一天吃几次 = 100万人 × 1根/次 × 每天只早餐吃1次 ≈ 100万根油条

2. 供给维度

供给值 = 市场总供给能力 = 供给单位数 × 单位供给量 × 供给时段

供给单位数 = 市场总区域 / 单位平均辐射区域

供给时段 = SUM(不同时段时间,主要用在区分 闲时忙时、淡季旺季 的场景)

eg3:估算北京市一日卖出的油条数量。

供给单位数 = 北京油条店的数目 = 市场总区域 / 单位平均辐射区域 = 北京市面积 / (五环内每1平方千米有2家油条店,五环外每2平方千米有1家油条店) = 约735万平方千米*2 + 约15700平方千米 / 2 ≈ 9320家店

供给时段 = SUM(不同时段时间) = 1天

供给值 = 北京市一日卖出的油条数量 = 供给单位数 × 单位供给量 × 供给时间 = 9320家店 × 100根/天 × 1天 ≈ 93.2万根油条

(三)对比估算结果

因为供需是会动态平衡的,因此若需求层和供给层算出的估计值相差在合理范围内(不要差得太离谱就可以),则可以得出一个大致的估计值or估计范围。

对比可知,北京市一日卖出的油条数量大约在93.2万~100万根油条(or大约96.5万根)。

若相差太离谱,可能需要重新考虑上述计算的过程,或者直接进入下一环节。

(四)关注可能的误差

最后需要列出可能出现误差的影响因素,比如:需求人群可以再进一步细分、供给单位的平均辐射区域大小有待考证……

比如eg3估算过程中的“五环内每1平方千米有2家油条店,五环外每2平方千米有1家油条店”,需要进一步调研,又比如“北京市选择吃油条的比例”也可能需要问卷调查之类。

同时,还可以根据实际情况给出一些未来的改进办法,比如:抽样调查、观测历史数据……

二、A/B测试问题

没有在网上找到很多结合具体场景的A/B测试问题,因此这部分还是好好地把A/B测试的概念都梳理一遍。

涉及分析方法:对比分析、假设检验分析、群组(同期群)分析。

(一)定义

A/B test,又称分组隔离实验,简单来讲,A/B测试是一种比较手段:通过分析同一总体下,由于某些不同的策略导致样本数据表现出的差异,来推断某些策略的效果。

个人理解:为了同一个目标,制定多个方案并行测试,每个方案只有1个变量不同。让相似的用户群组使用各个不同的方案,收集每种方案的数据后,以某种规则选出最优方案。

本质:假设检验的一种实际应用。

(二)应用场景

① 产品迭代:如界面优化(改字体、增弹窗等)、功能增加、流程增加……

② 策略优化:如算法策略、运营策略、营销策略……

科学量化各个方案的效果(如ROI<投资回报率>等),衡量决策收益,避免拍脑袋决定。

不适用的场景:用户体验的制约(如价格调整)、样本数量制约(如防止侵害的安全类事件)、AB组间存在干扰(如滴滴司机间有司机群)。

(三)科学依据

科学的实验设计;科学的采样(随机化);科学的流量分割;科学的统计学原理(假设检验)。

(四)步骤

1. 分析现状,提出假设

分析业务数据,确定当前最关键的改进点/最可能的问题,根据问题提出假设。

假设有A、B两个方案,想确定A、B之间是否客观存在差异,还是这种差异仅由某种误差引起。因此假定:

H0(原假设/零假设):A、B没有本质差异

H1(备择假设):A、B确实存在差异

2. 设定目标,制定方案

设定主要的目标(重点关注的指标),用来衡量各种方案的优劣。

收集了一些经验贴以及相关网站(如华为开发者联盟和字节火山引擎上的A/B测试产品)里提到的指标,然后利用用户生命周期(User Lifetime)梳理如下:

① 引入期:PV(Page View)、UV(Unique Visitor)、点击率

② 成长期:转化率、互动时长(观看时长等);

③ 成熟期:GMV(Gross Merchandise Volume);

④ 休眠期 + ⑤ 流失期:留存率

PS:这么分主要是为了熟悉和巩固下这个周期。

3. 算样本量,设计投放

很重要的一步,需要计算所需样本量,并根据样本量确定投放时长,最后还要确定投放城市。

① 样本量计算公式(通过σ和β确定):
N=2σ2(z1−α/2+z1−β)2Δ2N = \frac{2\sigma^2(z_{1-\alpha/2}+z_{1-\beta})^2}{\Delta^2} N=Δ22σ2(z1−α/2​+z1−β​)2​
N为样本量;

α是第Ⅰ类错误的概率(弃真错误),也称显著性水平,一般取0.05;

β是第Ⅱ类错误的概率(取伪错误),一般取0.2,**(1-β)**是统计功效(power),一般而言设(1-β) ≥ 80%;

Δ是所想要指标预期的变化量(μ₁-μ₂),eg:点击率从5%上升到10%,那么Δ为5%,(在其他样本量计算公式中,此处为预期的抽样误差)。

σ²是指标的样本方差,如果没有可以采用最大值0.5。

注意事项:如果有多个指标,则选用最大的指标所需要的样本量;计算结果是每个分组所需要的样本量,有几个分组就需要乘几;样本量可以是累积一段时间的最终样本量。

样本量的选取,从网上找到了一张图

数据分析实习-业务题准备相关推荐

  1. 零数据分析实习经历如何秋招?

    01 前言 很开心给大家邀请到我去年(2019)秋招的时候在牛客上认识的同求职数分的小伙伴分享她的个人求职经历.记忆中,我的那段求职经历是较难熬的,那时候也遇到了许多志同道合的小伙伴,大家会在一起讨论 ...

  2. 字节跳动 python面试_字节跳动数据分析实习岗面试全经历,竟然也会问这样的问题?...

    临近年底,又有不少人跃跃欲试想跳槽了. 但跳槽这个事说容易也容易,投简历总是有人要的,但说难也难,要进大厂,不光要看能力,更要看项目,看背景. 就怕辛辛苦苦准备半天,面试的时候没表现好,直接被刷掉,面 ...

  3. 字节跳动-数据分析-实习面经

    分享一下字节跳动-数据分析-实习面经 场景题 1.介绍一个最近的数据分析项目,有没有什么结论? 2.一个刚上线的短视频app,应该关注哪三个指标? 3.在短视频信息流app中放广告位,如何确认能否带来 ...

  4. 记录:数据分析在业务中的一些应用

    这两天参加一个短期课程,在群里聊天记录中,大家分享了很多有很多养分的内容,觉得很重要,就整理下来了. 感谢大家的分享,也分享给更多的人- 有些在整理的过程中理解吸收了,有些只是复制粘贴下来了.也分享给 ...

  5. 银行如何借助数据分析提升业务运营效率

    刚刚过去的2020年,对银行业而言是充满挑战的一年.疫情影响下,银行业在经营业绩.业务模式.风控合规等方面遭遇前所未有的压力. 一方面,全球经济受到冲击,风险传导至银行体系,客观上导致银行的不良率和不 ...

  6. 数据分析:业务团队和独立团队的区别

    0x00 前言 本文为之前已发文章的浓缩版,用于视频号的1分钟视频讲解版本的第二段.<业务团队和独立团队的数据分析,哪个更好?> 接着上个视频,今天居士继续和大家聊一下数据分析在业务团队和 ...

  7. 2022全国大学生数据分析大赛A题完整解题教程及代码 医药电商销售数据分析

    题目 A:医药电商销售数据分析 完整解题 随着国家政策的逐步开放,越来越多的药品可以在网络上购买, 医药电商平台蒸蒸日上,受新冠疫情的影响,线下药店购买困难,更 让医药电商进入了更多消费者的视野,各大 ...

  8. [业务题]货拉拉数据分析岗简答题, 评估优惠券促销活动的收益效果,评估哪种优惠券对企业更优

    如题: 货拉拉会经常给用户发放不同的折扣券.假设有三种类型的折扣券A, B, C :这三种折扣券同时通过APP直接发放给玩家们,且每张折扣券的优惠程度,有效日期大致一样.用户可以在一次同时使用多种优惠 ...

  9. 靠一平台构建核心指标系统,数据分析让业务运营效率提升90%

    今天帆软君继续给大家分享企业数据化转型的优秀案例,面临大量的数据难以处理,提取有效信息的难题,西安怡康医药引进帆软的FineReport产品,建立起了完善的指标系统,有效的管理平台. 一.项目背景 随 ...

最新文章

  1. 电脑计算机无法关闭什么意思,笔记本电脑无法关闭是什么问题? (长按以关闭计算机以解决问题)...
  2. c++,当const char*为0时,不能将其直接赋给string
  3. 数据结构实验之栈与队列五:下一较大值(一)
  4. Bootstrap4+MySQL前后端综合实训-Day08-PM【ajax获取表单标签内容、根据“栏目信息”添加“新闻信息”、新闻管理系统-项目展示】
  5. Golang通过syscall调用win32的Api
  6. php swoole websocket vue 实现聊天室案例
  7. vue中富文本编辑器vue-quill-editor在vue中自定义选择视频插入编辑文章中
  8. 广东21个地级市行政区划(2022)
  9. python如何解压zip文件_Python压缩解压zip文件
  10. 怎么批量给文件夹名称加上数字序号前缀?怎么对文件夹名称进行编号排序?
  11. Excel房贷计算表(商贷)1/2
  12. DNS无法解析IP_域名解析错误怎么办?域名解析错误原因有哪些?
  13. 0930 视频边下边播/蓝牙库/阿里博客/afnetworking详细/小程序工具
  14. 使用函数提取姓别和出生日期:
  15. N9K配置Vxlan
  16. 了解一下ISO 8601是什么
  17. solidworks2020绿色精简版
  18. html+css技巧分享和IE6典型BUG分析(重温一下)
  19. 企业信息化系统如何开发?如何沉淀企业数据?
  20. Unity3D网络游戏0.3

热门文章

  1. stm32串口通信最后一字节不对异常
  2. 精准营销、批量提取QQ群成员号码
  3. 可怜的RSA【网络攻防CTF】(保姆级图文)
  4. iGrimace iOS7-Ios8-ios一键新机 系统 NZT NEO 非V8锤子IG基本操作全教程:v3 v8
  5. vue 实现出生日期计算年龄
  6. 滴水中级线上班完整版
  7. 惊闻ci框架要被开发者放弃了 目前正在找下家脱手
  8. 解决Ubuntu18无法进入-显示/dev/nvme0n1p8:recovering Journal
  9. Linux一键安装xrdp,如何在Linux系统Ubuntu 20.04中安装xrdp实现远程桌面连接RDP
  10. js自定义提示框弹窗