【干货下载】大数据分析的四个关键环节
本文提炼自神策数据与 Ping++ 联合举办的沙龙 Growth Workshop 中神策数据创始人 & CEO 桑文锋的分享,主题为《大数据分析的四个关键环节》。PPT 干货获取请点击文末“阅读原文”。
▌ 什么是大数据?
随着大数据时代的到来,AI 概念的火热,人们的认知有所提高。为什么说大数据有价值?这是不是只是一个虚的概念?大家怎么考虑数据驱动问题?为什么掌握更多的数据就会更有效?这些问题很难回答,但是,大数据绝不是大而空洞的。
信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论。所以大数据是用来消除不确定性的,掌握更多的有效数据,可以驱动企业进行科学客观的决策。
桑文锋对大数据有着自己的理解,数据采集遵循“大”、“全”、“细”、“时”四字法则。
“大”强调宏观的“大”,而非物理的“大”。大数据不是一味追求数据量的“大”。比如每天各地级市的苹果价格数据统计只有 2MB,但基于此研发出一款苹果智能调度系统,就是一个大数据应用,而有些数据虽然很大,却价值有限;
“全”强调多种数据源。大数据采集讲求全量,而不是抽样。除了采集客户端数据,还需采集服务端日志、业务数据库,以及第三方服务等数据,全面覆盖,比如美国大选前的民意调查,希拉里有70%以上胜算,但是川普成为了美国总统,因为采样数据有偏差,支持川普的底层人民不会上网回复。
“细”强调多维度数据采集,即把事件的维度、属性、字段等都进行采集。如电商行业“加入购物车”的事件,除了采集用户的 click 数据,还应采集用户点击的是哪个商品、对应的商户等数据,方便后续交叉分析。
“时”强调数据的时效性。显然,具有时效性的数据才有参考价值。如国家指数,CPI 指数,月初收集到信息和月中拿到信息,价值显然不同,数据需要实时拿到,实时分析。
从另一个视角看待数据的价值,可以分为两点,数据驱动决策,数据驱动产品智能。数据的最大价值是产品智能,有了数据基础,再搭建好策略算法,去回灌产品,提升产品本身的学习能力,可以不断迭代。如今日头条的新闻推荐,百度搜索的搜索引擎优化,都是数据驱动产品智能的体现。
▌ 数据分析四个关键环节
桑文锋把数据分析分为四个环节,数据采集、数据建模、数据分析、指标。他提出了一个观点,要想做好数据分析,一定要有自底向上的理念。很多公司的数据分析自顶向下推动,用业务分析指标来决定收集什么数据,这是需求驱动工程师的模式,不利于公司长久的数据采集。而一个健康的自底向上模式,可以帮助公司真正建立符合自己业务的数据流和数据分析体系。
一、数据采集
想要真正做好大数据分析,首先要把数据基础建好,核心就是“全”和“细”。
搜集数据时不能只通过 APP 或客户端收集数据,服务器的数据、数据库数据都要同时收集打通,收集全量数据,而非抽样数据,同时还要记录相关维度,否则分析业务时可能会发现历史数据不够,所以不要在意数据量过大,磁盘存储的成本相比数据积累的价值,非常廉价。
常见的数据采集方式归结为三类,可视化/全埋点、代码埋点、数据导入工具。
第一种是可视化/全埋点,这种方式不需要工程师做太多配合,产品经理、运营经理想做分析直接在界面点选,系统把数据收集起来,比较灵活。但是也有不好的地方,有许多维度信息会丢失,数据不够精准。
第二种是代码埋点,代码埋点不特指前端埋点,后端服务器数据模块、日志,这些深层次的都可以代码埋点,比如电商行业中交易相关的数据可以在后端采集。代码埋点的优势是,数据更加准确,通过前端去采集数据,常会发现数据对不上,跟自己的实际后台数据差异非常大。可能有三个原因:第一个原因是本身统计口径不一样,一定出现丢失;第二点是流量过大,导致数据丢失异常;第三点是SDK兼容,某些客户的某些设备数据发不出去,导致数据不对称。而代码埋点的后台是公司自己的服务器,自己核心的模拟可以做校准,基本进行更准确的数据采集。
第三种是通过导入辅助工具,将后台生成的日志、数据表、线下数据用实时批量方式灌到里面,这是一个很强的耦合。
数据采集需要采集数据和分析数据的人共同参与进来,分析数据的人明确业务指标,并且对于数据的准确性有敏感的判断力,采集数据的人再结合业务进行系统性的采集。
二、数据建模
很多公司都有业务数据库,里面存放着用户注册信息、交易信息等,然后产品经理、运营人员向技术人员寻求帮助,用业务数据库支持业务上的数据分析。但是这样维护成本很高,且几千万、几亿条数据不能很好地操作。所以,数据分析和正常业务运转有两项分析,数据分析单独建模、单独解决问题。
数据建模有两大标准:易理解和性能好。
数据驱动不是数据分析师、数据库管理员的专利,让公司每一个业务人员都能在工作中运用数据进行数据分析,并能在获得秒级响应,验证自己的新点子新思维,尝试新方法,才是全员数据驱动的健康状态。
多维数据分析模型(OLAP)是用户数据分析中最有效的模型,它把用户的访问数据都归类为维度和指标,城市是维度,操作系统也是维度,销售额、用户量是指标。建立好多维数据分析模型,解决的不是某个业务指标分析的问题,使用者可以灵活组合,满足各种需求。
三、数据分析
数据分析支持产品改进
产品经理在改进产品功能时,往往是拍脑袋灵光一现,再对初级的点子进行再加工,这是不科学的。《精益创业》中讲过一个理念,把数据分析引入产品迭代,对已有的功能进行数据采集和数据分析,得出有用的结论引入下一轮迭代,从而改进产品。在这个过程中大数据分析很关键。
Facebook 的创始人曾经介绍过他的公司如何确定产品改进方向。Facebook 采用了一种机制:每一个员工如果有一个点子,可以抽样几十万用户进行尝试,如果结果不行,就放弃这个点子,如果这个效果非常好,就推广到更大范围。这是把数据分析引入产品迭代的科学方法。
桑文锋在 2007 年加入百度时,也发现了一个现象,他打开邮箱会收到几十封报表,将百度知道的访问量、提问量、回答量等一一介绍。当百度的产品经理提出一个需求时,工程师会从数据的角度提出疑问,这个功能为什么好?有什么数据支撑?这个功能上线时如何评估?有什么预期数据?这也是一种数据驱动产品的体现。
数据驱动运营监控
运营监控通常使用海盗模型,所谓的运营就是五件事:触达是怎么吸引用户过来;然后激活用户,让用户真正变成有效的用户;然后留存,提高用户粘性,让用户能停留在你的产品中不断使用;接下来是引荐,获取用户这么困难,能不能发动已有的用户,让已有用户带来新用户,实现自传播;最后是营收,做产品最终要赚钱。要用数据分析,让运营做的更好。
数据分析方法
互联网常见分析方法有几种,多维分析、漏斗分析、留存分析、用户路径、用户分群、点击分析等等,不同的数据分析方法适用于不同的业务场景,需要自主选择。
举个多维分析的例子,神策数据有一个视频行业的客户叫做开眼,他们的软件有一个下载页面,运营人员曾经发现他们的安卓 APP 下载量远低于 iOS,这是不合理的。他们考虑过是不是 iOS 用户更愿意看视频,随后从多个维度进行了分析,否定了这个结论,当他们发现某些安卓版本的下载量为零,分析到屏幕宽高时,看出这个版本下载按钮显示不出来,所以下载比例非常低。就这样通过多维分析,找出了产品改进点。
举个漏斗分析的例子,神策数据的官网访问量很高,但是注册-登录用户的转化率很低,需要进行改进。所以大家就思考如何把转化漏斗激活地更好,后来神策做了小的改变,在提交申请试用后加了一个查看登录页面,这样用户收到账户名密码后可以随手登录,优化了用户体验,转化率也有了可观的提升。
四、指标
如何定义指标?对于创业公司来说,有两种方法非常有效:第一关键指标法和海盗指标法。
第一关键指标法是《精益数据分析》中提出的理论,任何一个产品在某个阶段,都有一个最需要关注的指标,其他指标都是这个指标的衍生,这个指标决定了公司当前的工作重点,对一个初创公司来说,可能开始关注日活,围绕日活又扩展了一些指标,当公司的产品成熟后,变现就会成为关键,净收入(GMV)会变成第一关键指标。
另一个方法是海盗指标法,可以查看这篇文章:周五话分析 | 方法论难落地?来个量身定制版本吧(AARRR模型)
点击“阅读原文”可以获取完整《大数据分析的四个关键环节》及其他三位嘉宾 PPT 内容,了解如何通过四步掌握大数据分析的基本流程。↓↓↓
【干货下载】大数据分析的四个关键环节相关推荐
- 大数据分析的四个关键环节
▌ 什么是大数据? 随着大数据时代的到来,AI 概念的火热,人们的认知有所提高.为什么说大数据有价值?这是不是只是一个虚的概念?大家怎么考虑数据驱动问题?为什么掌握更多的数据就会更有效?这些问题很难回 ...
- 干货丨大数据最核心的关键技术:32个算法
奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提 ...
- Python金融大数据分析——第四章数据类型和结构
目录 数据类型和结构 4.1.1 整数 4.1.2 浮点数 4.1.3 字符串 4.1.4元祖 4.1.5 列表 4.1.6 控制结构 4.1.7 函数式编程 4.1.8 字典 4.1.9 集合 4. ...
- 转:大数据处理与开发课程设计——纽约出租车大数据分析
大数据处理与开发课程设计--纽约出租车大数据分析_LHR13的博客-CSDN博客_出租车大数据分析 一.设计目的 综合应用所学的Hadoop/Spark/Storm/Mongdb等技术,设 ...
- 什么是大数据分析?定义、优点和类型
在一个技术已经达到其使用巅峰并完全压倒我们生活的时代,交换的数据量是巨大的. 传统的计算工具无法处理的大量数据集每天都在被收集.我们将这些大量数据称为大数据. 如今,企业严重依赖大数据来更好地了解客户 ...
- 大数据分析类型有哪些
大数据分析类型有哪些?大数据分析是成功开展业务的重要组成部分.有效地使用数据,可以更好地理解企业的先前绩效,并为未来的活动做出更好的决策.在公司运营的各个级别,可以采用多种方式利用数据. 所有行业都使 ...
- 大数据分析平台安全问题
大数据分析平台利用了大数据平台的可扩展性,以及安全分析与SIEM等工具的安全分析能力.因此,用户在部署和采购时需要认清这两者的特征,以及这里所介绍的5个要素.简单地给大数据平台命名为"大数据 ...
- 通过Isilon和VMware部署Hadoop大数据分析(上)
转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese 介绍 随着传统业务和新一代业务流生成大量数据仓库,各种不同机制处理这些数据的需求不 ...
- “入门大数据分析:探索海量数据的奥秘“
随着时代的进步,大数据分析逐渐成为了各个领域中重要的工具之一.它不仅能够帮助企业发掘商业价值,还可以为科学研究提供更精确的数据支持.对于初学者来说,入手大数据分析也不是很难,只需掌握一些基本的概念和工 ...
最新文章
- python的数据清理_Python数据清理,清洗
- 基于python的界面自动化测试-基于 Python 的接口自动化测试实例
- 手把手教你自己写一个js表单验证框架
- 互联网1分钟 |1221
- 图像分割-基本边缘检测roberts,prewitt,sobel,canny,laplace
- 图解算法之排序算法(2)——选择排序
- LINUX下载编译libvpx
- Makefile教程
- 如何通过百度翻译实现整站网页翻译
- wifi信号衰减与距离关系_wifi无线信号传输衰减距离计算公式
- python绘图设置新罗马字体_更改matplotlib中的字体
- HDU 1847 Good Luck in CET-4 Everybody! 尼姆博弈
- Iterator的使用
- 使用Fairseq微调预训练模型
- Git - remove pushed file
- 7-130 圆形体体积计算器(有注释)
- PHP实现简单的万年历
- Dynamics CRM 解决方案操作
- Ubuntu18.04无法显示屏扩展、亮度无法调节,只能设置最大亮度,wifi无法联网解决办法
- 纳米材料的特点和用途
热门文章
- python输入多行字符串_python中怎么输入多行字符串
- fsimage文件丢失_hadoop fsimage edits关系
- Linux内存中加载二进制,linux – 程序退出后二进制文件会留在内存中吗?
- python处理数据库_python操作数据库
- matlab 地埋管温度场,地埋管换热器周围土壤冻结温度场的模拟研究
- spark集群测试小案例
- 小波变换输出变量详解
- linux usb init,复制Linux liveUSB导致init.d脚本出错 - 不可能..?
- python是一种动态语言、这意味着_【python编程的优点是什么?难怪选择python的人越来越多了】- 环球网校...
- crt linux切换用户,不同连接终端通过密钥方式登录 Linux