什么是数据分析?

数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的一个过程,这些信息正成为很多企业业务增长、迭代更新的关键。

数据分析是让数据变成生产力的一部分,是从海量的数据中窥视背后的业务逻辑,寻找出新的业务增长目标,或者及时发现业务潜在的问题。

数据分析是服务于业务需求的,脱离了业务需求的数据分析就是在“打黑工”。

为什么需要数据分析?

数据分析有助于我们理解数据,否则数据将仍然是一堆没有价值的信息或数字。因为分析有助于人类做出决策,所以对数据的分析是必不可少的。因此,进行分析以产生决策的最佳结果是该过程的重要组成部分,恰当地呈现结果也是如此。 它是由数据分析师执行的一项内部组织职能,不仅仅是向管理层提供数字和信息,它需要更深入的方法来记录、分析和剖析数据,并以易于理解的格式呈现结果。通过数据分析,我们能够为公司提供以下关键领域的决策洞察力:

  • 预测客户趋势和行为
  • 以有意义的方式分析、解释和交付数据
  • 提高企业生产力
  • 推动决策者有效的决策

如何进行数据分析?

1 数据分析流程

数据分析流程是一个思维框架,主要帮助和指导我们如何去做数据分析。整个分析流程分为六个部分:

  • 业务理解(business understanding)
  • 数据理解(data understanding)
  • 数据准备(data preparation)
  • 建立模型(modeling)
  • 评估模型(evaluation)
  • 模型部署(deployment)

1.1 业务理解

业务理解核心是理解业务的背景,并评估分析需求是否可落地为数据分析项目。

1.2 数据理解

  • 数据收集:识别的收集相关数据,收集的数据必须能够正确反映业务需求,否则分析结论会对业务造成误解
  • 数据清洗:原始数据中存在数据缺失和脏数据,如果不处理会导致模型失效,因此对数据通过过滤“去噪”,从而提取出有效数据;

1.3 数据准备

  • 数据探索:借助描述性统计和数据可视化执行数据探索分析,发现数据内部的规律;
  • 数据转换:为达到模型要求,需要对数据进行转换,包括生成衍生变量,对数据进行一致化、标准化等处理;

1.4 建立模型

选择方法、工具、建立模型:综合考虑业务需求精度,数据情况,成本等因素,选择最适合的模型,在实践中对于一个分析目的,往往需要运用多个模型,然后通过后续的模型评估,进行优化、调整,以寻求最合适的模型;如:

  • 分析与回归:svm、线性回归、决策树回归、支持向量机回归、K近邻回归、随机森林回归
  • 聚类分析:k-means,DBSCAN算法
  • 时序模型:AR自回归模型、MA移动平均模型、ARMA自回归移动平均模型

1.5 模型评估

  • 建模过程评估:对模型的精度、准确性、效率和通用性进行评估;
  • 模型结果评估:评估是否有遗漏的业务,模型结果是否解决了业务问题,需要结合业务进行评估;

1.6 应用

  • 分析结果应用:将模型应用于业务实践,才能解决业务问题,并实现数据分析的真正价值
  • 分析模型改进:对模型应用效果的及时跟踪和反馈,以便后期的模型调整和优化;

2 常用名词

  • ROI(return on investment):投资回报率
  • LTV(life time value):用户生命周期价值(用户在使用应用时能贡献多少收入)
  • ARPU(average revenue per user) :每个用户的平均价值
  • CTR(click through rate) :点击通过率(点击/曝光)
  • CPM(cost per mille) : 广告千次曝光成本
  • CPC(cost per click) :点击成本
  • CPA(click per action) :一个动作的点击成本

3 数据指标体系

数据指标体系是指针对一种具体的业务场景,为了完成该场景的分析目标(分析问题和解决问题),搭建的技术体系,将业务的不确定性的描述转化为确定性的数据描述。我们在建立数据指标体系时,最好需要包含一个指标文档,文档里需要有以下内容:

  • 指标:说明这是什么指标,如点击通过率;
  • 指标口径:该指标是怎样统计出来的,数据来源是哪里;
  • 代码计算:核心的sql语句
  • 备注:某些事项的文档化,如指标口径更改等;
  • 责任人:该指标是谁负责的,可包括具体的产品,研发,数据分析的同学;

3.1 互联网常见的指标体系

3.1.1 基础指标

  • 日活 :每日活跃的用户数(设备数),可区分UV 和PV
  • 新增 :每日新增的用户数(设备数);
  • PV (page visit) :用户每浏览一次,则记录为一个PV,同一用户多次浏览会记录多个PV
  • UV (user visit) : 一个用户浏览算一次UV,同一用户多次浏览只会记录一个UV;
  • 时长和次数:如单次访问时长,人均访问时长,人均访问次数
  • 留存率:次日留存、7日留存、30日留存;

3.1.2 内容指标

  • 请求数 : 每天该内容的请求数;
  • 曝光数 :每天该内容的实际曝光数(用户可见)
  • 点击数 :用户对该内容的互动点击数
  • 转发数:单篇内容被转发的次数
  • 评论数 :用户对该内容的互动评论数
  • 分享数  :用户对该内容的互动分享数
  • 点赞数 :用户对该内容的互动点赞数
  • 关注数:用户读完内容手关注账号的人数

3.1.3 渠道指标

  • 有效新增 :各渠道带来的实际用户数;(如通过该渠道进行首次注册,登录等行为)
  • 留存率(次日留存,7日留存,30日留存):主要用来评价该渠道的质量
  • 渠道单价 :各渠道带来平均每个用户的实际支付价格;

4 分析技能

4.1理论知识

  • 统计学:基本统计量-均值、中位数、众数、方差、标准差、分位数等;
  • 概率相关:随机事件、独立事件、相关事件、期望、贝叶斯等
  • 概率分布:几何分布、二项分布、泊松分布、正态分布、指数分布等;
  • 统计推断:置信区间、假设检验;
  • 主流算法:线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、随机森林等;

4.2 分析思维

  • 漏斗思维:通过业务流程进行分析;
  • 分类思维 :分解思维或逻辑树思维,可对数据的分析维度进行不断下钻和拆解;--辛普森悖论
  • 假设思维:大胆假设,小心求证;分为三步:作出假设、收集论点、得出结论;
  • AB test :实验行为;
  • 对比思维:比大小、比相同、比不同、比变化等;
  • 逆向思维:因常规思路难以解决用反向思维寻找解决问题的方法;
  • 演绎思维:最常见的推理判断方法,著名的三段论:大前提、小前提、结论;
  • 相关思维:建立在相关分析的基础上;

5 分析框架与方法

5.1 数据分析方法

  • 结构分析法:按个维度进行分类,如按性别、人群划分;
  • 对比分析:同比,环比,需要有对应的柱状图;
  • 时序序列分析:按照事件时间线分析,对应折线图;
  • 密度分布:数据服从什么分布,对应的分布图;
  • 相关分析法:如用户留存率与产品质量内容相关,对应散点图 + 折线图;

5.2 数据分析模型

5.2.1 RFM模型

RFM(Recency,Frequency,Money)模型一般是用于筛选出需要重点运营的用户:

  • Recency:最近一次消费时间 ,一般以周或双周为单位
  • Frequency :消费频率,固定周期的消费次数,一般以月或者双月为单位;
  • Money:消费的金额,一般以月或者双月为单位

作用:一般可以通过对RFM数据进行标准化,把RFM模型变为打分模型,通过可用户分层进行不同指定不同的运营策略。

5.2.2 AARRR模型

  • Acquistion :获取(渠道分析,用户如何发现你的产品)
  • Activation :激活(启动运营分析,用户第一次使用体验如何)
  • Retention:提高留存:(留存分析,用户是否会重复使用产品)
  • Revenve :收入(商业化分析,怎样赚钱)
  • Reter :自传播(裂变分析,用户是否愿意告诉其他用户)

作用:找到增长的切入点,拉新,提频,赚钱;

5.2.3 用户生命周期模型

  • 导入期 :已完成注册,但还没有深入体验产品功能或服务的用户(可通过登录次数和访问时长等指标是衡量)
  • 成长期:已经较深入体验产品相关的服务或功能,并完成首次关键行为的用户(关键行为可以是一个下载,一个互动,视业务而定);
  • 成熟期:已经发生多次付费行为的用户(每个用户价值的巅峰,能贡献最多的活跃时长和营收)
  • 休眠期:曾经是成熟用户,但一段时间内未产生有价值的行为(有价值的行为也视业务而定,可以是下载,互动,付费等行为);
  • 流失期:超过一段时间未登录和访问的用户(视业务形态而定,需要明确流失定义和关键行为,如超过一个月未登录等)

作用:可以通过对用户行为数据的分析,对用户进行分类,进而视当前产品所处阶段,采用不同的运营手段;

6 数据分析各阶段要求技能

6.1基础:数据分析工具

Excel数据处理分析、Tableau可视化仪表板、SQL数据库基本增删改查操作时基础,后续还可以增加Python/R等编程语言进行数据分析。

6.2进阶:分析方法和模型

在这个阶段,只掌握基本分析工具已不能满足市场需要,需要掌握数据分析方法和模型,要知道埋点、搭建指标体系、梳理分析框架、监控关键指标并进行移动分析等。

6.3价值高地:资深的业务认知

只有抓住业务本质,分析出来的结论和报告,才有建设性和实用性,才能影响决策甚至辅助业务增长。


写在最后:本文参照一些过来人的经验整理可得,可作为数据分析入门学习的参考文章。如果需要深入数据分析领域还需要专门的系统化学习、更多经验的积累、数据思维的不断培养。

数据分析的意义与必备技能相关推荐

  1. 数据分析Excel必备技能有哪些

    老许今日份知识分享来了. 处理数量较大的数据时,一般分为数据获取.数据筛选,以及结果展示几个步骤.在 Excel 中,我们可以利用数据透视表(Pivot Table)方便快捷的实现这些工作. 首先手把 ...

  2. 【学习笔记】产品经理必备技能之数据分析(二)常见数据分析方法(上)

    内容来自小破站<黑马程序员-产品经理必备技能之数据分析>复习自用 [学习笔记]产品经理必备技能之数据分析(二)常见数据分析方法(上) 3 常见数据分析方法 3.1 基础数据分析(日常工作) ...

  3. 数据分析必备技能:数据化可视化日报制作

    很多人都会说电商运营概念很大,不知道如何去做分析"数据",优化"品类",筛选"渠道",觉得做电商运营挺难的! 然而,对于电商运营人员而言,数 ...

  4. 数据分析不再是热门职位,而是必备技能

    很多人会觉得说,数据分析是一门职位,那么最近这几年,这个职位热度很高,所以总有人说,现在学数据分析是不是已经太晚了,没有机会了,竞争太激烈了.如果单纯从数据分析师的职位来说,这么说是对的. 但现实是, ...

  5. pandas提取特征数据的几种必备方法——数据分析必备技能(1)

    pandas可以说是python数据分析工作中的必备工具,在于pandas拥有强大的数据清洗能力,废话不多话,直接跟着小编往下看: 前言 1.比较运算:==. <. >. >=. & ...

  6. 数据时代程序员必备技能:数据可视化

    说到数据可视化,大家可谓耳熟能详,设计师.数据分析师.数据科学家等,都用各种方式各种途径做着数据可视化的工作......实际上,我们每一个人,天生具有可视化思维,甚至经常性地做一些可视化操作. 比如, ...

  7. 零基础学数据分析,需要掌握哪些技能

    这是本文的目录 1. 统计 2. SQL 3. R 4. Python 5. Tableau 6. Excel 7. Forecasting 8. Data Mining and Machine Le ...

  8. 宏基因组数据提交GSA实操手册—发表文章前必备技能

    文章目录 GSA简介 开始前准备:注册/登陆 新建BioProject 数据上传 批量提交样本信息 01 提交者信息 02 基本信息 03 样本类型 04 样本属性 05 元数据信息 实验样品信息 测 ...

  9. sql python tableau_Python+SQL+Tableau神组合,金融/咨询/互联网等抢着要的商业分析必备技能!...

    原标题:Python+SQL+Tableau神组合,金融/咨询/互联网等抢着要的商业分析必备技能! [快求职直推]:提供留学申请,背景提升,工作求职等全方位一体化服务,服务于致力进入券商.基金.互联网 ...

  10. 图像处理算法工程师——1必备技能总结——2面试题大全

    图像算法工程师三重境界 : 一.传统图像算法工程师:  主要涉及图形处理,包括形态学.图像质量.相机成像之3A算法.去雾处理.颜色空间转换.滤镜等,主要在安防公司或者机器视觉领域,包括缺陷检测: 二. ...

最新文章

  1. Python reverse
  2. 学习java的一些笔记(6)
  3. DataSnap如何监控Tcp/IP客户端的连接情况
  4. node创建web服务器代码示例
  5. 动态规划走楼梯_负重爬楼梯、过草地,服贸会六足机械人展示“送水到家”
  6. 河南上oracle客户,解决Oracle监听服务报错
  7. 一个程序员的郁闷吐槽
  8. docker中 system limit for_java中的split函数的坑
  9. 游戏开发经验谈(二):对战类全球服游戏的设计与实现
  10. 时间序列分析:平稳时间序列建模
  11. Win10利用bat文件实现文件与文件夹批量重命名
  12. 【观察】飞象工业互联网平台,阿里云IoT的沉淀与释放
  13. 函数6:lambda 表达式
  14. cesium创建、添加json数据
  15. (二)RFB协议具体通信说明
  16. R语言 diag函数的用法
  17. 安装程序无法更新计算机配置,无法安装某些更新或程序
  18. 计算机毕业设计JavaVue垃圾分类指南平台设计与实现(源码+系统+mysql数据库+lw文档)
  19. 【181222】VC++ StuManage学生档案管理系统Access版源代码
  20. Intellij IDEA 最新旗舰版注册激活破解(亲测,可用)

热门文章

  1. 处理服务器恶意程序 kthreaddi挖矿
  2. t430服务器查看raid状态,dell t430 raid1教程
  3. 英语语法之后缀决定词性
  4. 为什么「计件工资」的管理需要数字化?这家企业用实践解答
  5. ui曲线谁是横坐标_一篇文章讲明白,曲线在摄影修图中的运用
  6. [转载]JTree 编辑、删除、添加节点_-Chaz-_新浪博客
  7. flash debug版本
  8. 免费可商用图片网站整理
  9. GNSS精密轨道产品sp3与精密钟差产品clk批量下载(Linux Shell)
  10. 大学物理实验电学基本参数的测量实验报告_大学物理电学基本实验实验报告