本文提炼自神策数据与 Ping++ 联合举办的沙龙 Growth Workshop 中神策数据创始人 & CEO 桑文锋的分享,主题为《大数据分析的四个关键环节》。PPT 干货获取请点击文末“阅读原文”


▌ 什么是大数据?

随着大数据时代的到来,AI 概念的火热,人们的认知有所提高。为什么说大数据有价值?这是不是只是一个虚的概念?大家怎么考虑数据驱动问题?为什么掌握更多的数据就会更有效?这些问题很难回答,但是,大数据绝不是大而空洞的。

信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论。所以大数据是用来消除不确定性的,掌握更多的有效数据,可以驱动企业进行科学客观的决策。

桑文锋对大数据有着自己的理解,数据采集遵循“大”、“全”、“细”、“时”四字法则。

“大”强调宏观的“大”,而非物理的“大”。大数据不是一味追求数据量的“大”。比如每天各地级市的苹果价格数据统计只有 2MB,但基于此研发出一款苹果智能调度系统,就是一个大数据应用,而有些数据虽然很大,却价值有限;

 “全”强调多种数据源。大数据采集讲求全量,而不是抽样。除了采集客户端数据,还需采集服务端日志、业务数据库,以及第三方服务等数据,全面覆盖,比如美国大选前的民意调查,希拉里有70%以上胜算,但是川普成为了美国总统,因为采样数据有偏差,支持川普的底层人民不会上网回复。

“细”强调多维度数据采集,即把事件的维度、属性、字段等都进行采集。如电商行业“加入购物车”的事件,除了采集用户的 click 数据,还应采集用户点击的是哪个商品、对应的商户等数据,方便后续交叉分析。

“时”强调数据的时效性。显然,具有时效性的数据才有参考价值。如国家指数,CPI 指数,月初收集到信息和月中拿到信息,价值显然不同,数据需要实时拿到,实时分析。

从另一个视角看待数据的价值,可以分为两点,数据驱动决策,数据驱动产品智能。数据的最大价值是产品智能,有了数据基础,再搭建好策略算法,去回灌产品,提升产品本身的学习能力,可以不断迭代。如今日头条的新闻推荐,百度搜索的搜索引擎优化,都是数据驱动产品智能的体现。


▌ 数据分析四个关键环节

桑文锋把数据分析分为四个环节,数据采集、数据建模、数据分析、指标。他提出了一个观点,要想做好数据分析,一定要有自底向上的理念。很多公司的数据分析自顶向下推动,用业务分析指标来决定收集什么数据,这是需求驱动工程师的模式,不利于公司长久的数据采集。而一个健康的自底向上模式,可以帮助公司真正建立符合自己业务的数据流和数据分析体系。

一、数据采集

想要真正做好大数据分析,首先要把数据基础建好,核心就是“全”和“细”。

搜集数据时不能只通过 APP 或客户端收集数据,服务器的数据、数据库数据都要同时收集打通,收集全量数据,而非抽样数据,同时还要记录相关维度,否则分析业务时可能会发现历史数据不够,所以不要在意数据量过大,磁盘存储的成本相比数据积累的价值,非常廉价。

常见的数据采集方式归结为三类,可视化/全埋点、代码埋点、数据导入工具。

第一种是可视化/全埋点,这种方式不需要工程师做太多配合,产品经理、运营经理想做分析直接在界面点选,系统把数据收集起来,比较灵活。但是也有不好的地方,有许多维度信息会丢失,数据不够精准。

第二种是代码埋点,代码埋点不特指前端埋点,后端服务器数据模块、日志,这些深层次的都可以代码埋点,比如电商行业中交易相关的数据可以在后端采集。代码埋点的优势是,数据更加准确,通过前端去采集数据,常会发现数据对不上,跟自己的实际后台数据差异非常大。可能有三个原因:第一个原因是本身统计口径不一样,一定出现丢失;第二点是流量过大,导致数据丢失异常;第三点是SDK兼容,某些客户的某些设备数据发不出去,导致数据不对称。而代码埋点的后台是公司自己的服务器,自己核心的模拟可以做校准,基本进行更准确的数据采集。

第三种是通过导入辅助工具,将后台生成的日志、数据表、线下数据用实时批量方式灌到里面,这是一个很强的耦合。

数据采集需要采集数据和分析数据的人共同参与进来,分析数据的人明确业务指标,并且对于数据的准确性有敏感的判断力,采集数据的人再结合业务进行系统性的采集。

二、数据建模

很多公司都有业务数据库,里面存放着用户注册信息、交易信息等,然后产品经理、运营人员向技术人员寻求帮助,用业务数据库支持业务上的数据分析。但是这样维护成本很高,且几千万、几亿条数据不能很好地操作。所以,数据分析和正常业务运转有两项分析,数据分析单独建模、单独解决问题。

数据建模有两大标准:易理解和性能好。

数据驱动不是数据分析师、数据库管理员的专利,让公司每一个业务人员都能在工作中运用数据进行数据分析,并能在获得秒级响应,验证自己的新点子新思维,尝试新方法,才是全员数据驱动的健康状态。

多维数据分析模型(OLAP)是用户数据分析中最有效的模型,它把用户的访问数据都归类为维度和指标,城市是维度,操作系统也是维度,销售额、用户量是指标。建立好多维数据分析模型,解决的不是某个业务指标分析的问题,使用者可以灵活组合,满足各种需求。

三、数据分析

数据分析支持产品改进

产品经理在改进产品功能时,往往是拍脑袋灵光一现,再对初级的点子进行再加工,这是不科学的。《精益创业》中讲过一个理念,把数据分析引入产品迭代,对已有的功能进行数据采集和数据分析,得出有用的结论引入下一轮迭代,从而改进产品。在这个过程中大数据分析很关键。

Facebook 的创始人曾经介绍过他的公司如何确定产品改进方向。Facebook 采用了一种机制:每一个员工如果有一个点子,可以抽样几十万用户进行尝试,如果结果不行,就放弃这个点子,如果这个效果非常好,就推广到更大范围。这是把数据分析引入产品迭代的科学方法。

桑文锋在 2007 年加入百度时,也发现了一个现象,他打开邮箱会收到几十封报表,将百度知道的访问量、提问量、回答量等一一介绍。当百度的产品经理提出一个需求时,工程师会从数据的角度提出疑问,这个功能为什么好?有什么数据支撑?这个功能上线时如何评估?有什么预期数据?这也是一种数据驱动产品的体现。

数据驱动运营监控

运营监控通常使用海盗模型,所谓的运营就是五件事:触达是怎么吸引用户过来;然后激活用户,让用户真正变成有效的用户;然后留存,提高用户粘性,让用户能停留在你的产品中不断使用;接下来是引荐,获取用户这么困难,能不能发动已有的用户,让已有用户带来新用户,实现自传播;最后是营收,做产品最终要赚钱。要用数据分析,让运营做的更好。

数据分析方法

互联网常见分析方法有几种,多维分析、漏斗分析、留存分析、用户路径、用户分群、点击分析等等,不同的数据分析方法适用于不同的业务场景,需要自主选择。

举个多维分析的例子,神策数据有一个视频行业的客户叫做开眼,他们的软件有一个下载页面,运营人员曾经发现他们的安卓 APP 下载量远低于 iOS,这是不合理的。他们考虑过是不是 iOS 用户更愿意看视频,随后从多个维度进行了分析,否定了这个结论,当他们发现某些安卓版本的下载量为零,分析到屏幕宽高时,看出这个版本下载按钮显示不出来,所以下载比例非常低。就这样通过多维分析,找出了产品改进点。

举个漏斗分析的例子,神策数据的官网访问量很高,但是注册-登录用户的转化率很低,需要进行改进。所以大家就思考如何把转化漏斗激活地更好,后来神策做了小的改变,在提交申请试用后加了一个查看登录页面,这样用户收到账户名密码后可以随手登录,优化了用户体验,转化率也有了可观的提升。

四、指标

如何定义指标?对于创业公司来说,有两种方法非常有效:第一关键指标法和海盗指标法。

第一关键指标法是《精益数据分析》中提出的理论,任何一个产品在某个阶段,都有一个最需要关注的指标,其他指标都是这个指标的衍生,这个指标决定了公司当前的工作重点,对一个初创公司来说,可能开始关注日活,围绕日活又扩展了一些指标,当公司的产品成熟后,变现就会成为关键,净收入(GMV)会变成第一关键指标。

另一个方法是海盗指标法,可以查看这篇文章:周五话分析 | 方法论难落地?来个量身定制版本吧(AARRR模型)

点击“阅读原文”可以获取完整《大数据分析的四个关键环节》及其他三位嘉宾 PPT 内容,了解如何通过四步掌握大数据分析的基本流程。↓↓↓

【干货下载】大数据分析的四个关键环节相关推荐

  1. 大数据分析的四个关键环节

    ▌ 什么是大数据? 随着大数据时代的到来,AI 概念的火热,人们的认知有所提高.为什么说大数据有价值?这是不是只是一个虚的概念?大家怎么考虑数据驱动问题?为什么掌握更多的数据就会更有效?这些问题很难回 ...

  2. 干货丨大数据最核心的关键技术:32个算法

    奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提 ...

  3. Python金融大数据分析——第四章数据类型和结构

    目录 数据类型和结构 4.1.1 整数 4.1.2 浮点数 4.1.3 字符串 4.1.4元祖 4.1.5 列表 4.1.6 控制结构 4.1.7 函数式编程 4.1.8 字典 4.1.9 集合 4. ...

  4. 转:大数据处理与开发课程设计——纽约出租车大数据分析

    ​​​​​​大数据处理与开发课程设计--纽约出租车大数据分析_LHR13的博客-CSDN博客_出租车大数据分析 一.设计目的 综合应用所学的Hadoop/Spark/Storm/Mongdb等技术,设 ...

  5. 什么是大数据分析?定义、优点和类型

    在一个技术已经达到其使用巅峰并完全压倒我们生活的时代,交换的数据量是巨大的. 传统的计算工具无法处理的大量数据集每天都在被收集.我们将这些大量数据称为大数据. 如今,企业严重依赖大数据来更好地了解客户 ...

  6. 大数据分析类型有哪些

    大数据分析类型有哪些?大数据分析是成功开展业务的重要组成部分.有效地使用数据,可以更好地理解企业的先前绩效,并为未来的活动做出更好的决策.在公司运营的各个级别,可以采用多种方式利用数据. 所有行业都使 ...

  7. 大数据分析平台安全问题

    大数据分析平台利用了大数据平台的可扩展性,以及安全分析与SIEM等工具的安全分析能力.因此,用户在部署和采购时需要认清这两者的特征,以及这里所介绍的5个要素.简单地给大数据平台命名为"大数据 ...

  8. 通过Isilon和VMware部署Hadoop大数据分析(上)

    转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese 介绍 随着传统业务和新一代业务流生成大量数据仓库,各种不同机制处理这些数据的需求不 ...

  9. “入门大数据分析:探索海量数据的奥秘“

    随着时代的进步,大数据分析逐渐成为了各个领域中重要的工具之一.它不仅能够帮助企业发掘商业价值,还可以为科学研究提供更精确的数据支持.对于初学者来说,入手大数据分析也不是很难,只需掌握一些基本的概念和工 ...

最新文章

  1. python的数据清理_Python数据清理,清洗
  2. 基于python的界面自动化测试-基于 Python 的接口自动化测试实例
  3. 手把手教你自己写一个js表单验证框架
  4. 互联网1分钟 |1221
  5. 图像分割-基本边缘检测roberts,prewitt,sobel,canny,laplace
  6. 图解算法之排序算法(2)——选择排序
  7. LINUX下载编译libvpx
  8. Makefile教程
  9. 如何通过百度翻译实现整站网页翻译
  10. wifi信号衰减与距离关系_wifi无线信号传输衰减距离计算公式
  11. python绘图设置新罗马字体_更改matplotlib中的字体
  12. HDU 1847 Good Luck in CET-4 Everybody! 尼姆博弈
  13. Iterator的使用
  14. 使用Fairseq微调预训练模型
  15. Git - remove pushed file
  16. 7-130 圆形体体积计算器(有注释)
  17. PHP实现简单的万年历
  18. Dynamics CRM 解决方案操作
  19. Ubuntu18.04无法显示屏扩展、亮度无法调节,只能设置最大亮度,wifi无法联网解决办法
  20. 纳米材料的特点和用途

热门文章

  1. python输入多行字符串_python中怎么输入多行字符串
  2. fsimage文件丢失_hadoop fsimage edits关系
  3. Linux内存中加载二进制,linux – 程序退出后二进制文件会留在内存中吗?
  4. python处理数据库_python操作数据库
  5. matlab 地埋管温度场,地埋管换热器周围土壤冻结温度场的模拟研究
  6. spark集群测试小案例
  7. 小波变换输出变量详解
  8. linux usb init,复制Linux liveUSB导致init.d脚本出错 - 不可能..?
  9. python是一种动态语言、这意味着_【python编程的优点是什么?难怪选择python的人越来越多了】- 环球网校...
  10. crt linux切换用户,不同连接终端通过密钥方式登录 Linux