在过去的一年里,笔者加入了一家移动互联网创业公司,工作之一便是负责数据业务的建设,陆陆续续完成了一些数据系统的实现,来满足公司的数据需求。在创业公司中做数据相关的事情,而且是从零做起,肯定不像很多大公司那样分工明细,所有的工作都要保证在有限的资源下来满足需求。回想起来也蛮有意思,因此想做些总结分享,结合我们的系统来谈一谈如何做数据分析。如果有写的不好的地方,还请网友指正。
作为系列文章的开篇,本文将按照“WHY->WHAT->HOW”的思考方式来阐述下面三个问题:
创业公司为什么需要做数据分析?
创业公司做数据分析,需要做哪些事情?
如何实现这些数据上的需求?
WHY
随着移动互联网的发展和大数据思维的普及,越来越多的创业者、投资人开始重视数据的作用,而不再是随便拍脑袋。“数据驱动决策”、“精准化运营”、“产品快速迭代”这些概念被越来越多的人提出和使用,其背后都离不开精准的数据分析。对于大多数互联网创业公司来说,其背后没有强大的资源与财主支撑,如何在有限的人力、物力下快速摸索、少走弯路是至关重要的,而基于“数据驱动”来做决策、运营与产品将起到一个关键的作用。让我们来看两个例子。
【例一】
微信公众号早已成为各家运营的主战场之一,利用微信的关系链来转发H5海报页面是众多线上活动和拉新的一个重要方式。然而,不管是做某个线上推广活动,还是通过线下某个渠道引导用户分享、注册,我们都需要指标来衡量活动效果,从而摸清运营的方向。数据,便是关键!该活动带来的浏览量、分享量、新注册用户数、用户留存率都是重要的指标,而这一切都离不开有效的数据追踪与分析。如果同时有100个这样的渠道活动,如何统筹各个数据分析也将是一件无法忽视的事情。(下图呈现的是某次活动的传播网络的一部分)
【例二】
每逢节假日,国内各个旅游景点都是人山人海,尽管大家都知道外出游玩会遭遇这种情况,但是还是抱着一丝侥幸心理出行,毕竟好不容易有了假期嘛。在今年十一时,笔者就曾利用百度景区热力分布图来提前观察,从而避开了一些高峰期和人满为患的景区,大家不妨也试一试。
回到正题,对于很多创业公司,特别基于LBS提供服务的企业来说,都期望搞清楚“用户在哪里”、“哪里是用户感兴趣的地方”,从而摸清早期的投入方向,毕竟全面开花、四处征战的方式是不适于创业公司的。通过位置数据,来分析用户集中在哪些区域,主要分布在商业区还是高校,是否受到交通因素影响等等,当然,具体需要结合业务来做了。另一方面,还可以聚合出用户的常驻位置,可以对用户位置与商户位置的距离进行分析等等,从而形成推荐方案,优化产品与服务。
WHAT
对于大多数互联网创业公司,在做数据分析时,一定要结合自己的业务,把握一个度,在投入可控的范围内达到效果即可。数据深度挖掘、机器学习、推荐算法等等,这些技术名词背后都需要投入一定的人力、物力来支撑,即使是大厂来玩,产出也相对有限,而且很多时候实际工程效果不尽人意。举个列子,很多高端的“推荐算法”在投入使用后,其效果远不如“看了又看”来的简单有效。当然,如果你的公司就是做数据这方面的业务,那是另一回事了。
要搞清楚需要做什么,不妨先结合自身业务思考一下,现阶段自己需要什么数据来驱动决策、运营与产品。具体业务方面的数据需求,各家都不一样。从笔者接触的情况来看,早期大部分的数据需求集中在两块:运营数据的统计分析、产品使用情况的统计分析。后期随着产品线的发展,一般会延伸出一些与产品相关的数据业务,比如线上推荐。
从流程上看,需要做的事情集中在三部分:数据采集、数据处理和数据可视化,伴随着数据的变迁:原始数据->分析结果->图表呈现。首先,基础数据源的建设是做好数据分析的关键,因为如果数据源本身出了问题,那么后面做的所有工作都是没有意义的,而且如果没有提前做好数据采集,后期想做分析时也没有数据可做。
其次,数据分析的最终结果是需要呈现给别人看的,可能是公司高层,也可能是市场业务人员,直接将一堆数据丢给他们显然是不现实的,通常都需要转换为图表的形式,这便是数据可视化的工作。而从原始数据源到分析结果的过程,便归纳为数据处理,其涵盖了数据提取、数据建模、数据分析等多个步骤。
HOW
现如今国内的互联网环境发展的越来越好,第三方服务提供商越来越多。所以很多情况下我们都有两个选择:接入第三方、自己做。
数据分析这块,便有很多第三方服务,笔者将其划分为传统数据统计服务与新兴的数据公司。前者以百度统计、google analysis为代表,通过嵌入其SDK在前端采集数据,在后台便可以查看相应的统计数据。这种方式的好处是简单、免费,使用非常普及,是很多初创企业的首选。
缺点也很明显,一是这样的统计只能分析一些基本的访问量、点击率、活跃用户量,满足基本需求,无法结合业务数据来做深度分析;二是需要在前端很多地方埋点上报,耦合性较强;三是数据存储在第三方的服务器中,无法直接获取到数据源。
后者以神策、GrowingIO、诸葛IO为代表,这些公司也正是看到了传统数据统计服务的缺点,从而提出相应的解决方案,各有特色。但是,需要不菲的接入费用,私有部署的费用更多,而这笔费用对于一个初创企业来说,还是蛮多的。另一方面他们更加侧重于电商领域的数据分析,因为这个领域的分析模式已经基本成型,适合做成模板来使用。
选择自己做的话,可以结合自身的业务,做的更灵活,同时也可以尽早摸索数据业务,逐步建立相应的数据系统。当然,自己做并不代表是造轮子,而是要充分利用开源框架来实现相应的功能。
鉴于各家的业务都不同,而抛开业务谈架构都是耍流氓,所以在接下来的文章中,笔者将结合自己接触的业务来探讨一些数据系统的实现。下图所示便是现阶段我们的数据系统架构,主要分为数据采集、数据处理与数据应用三层。
从下往上,数据采集层负责从前端App、H5页面、服务器日志采集数据,通过Kafka接入后存入Elasticsearch与neo4j中,同时业务数据库也是很重要的数据源;数据处理层负责数据的抽取、清洗、建模,然后存入MongoDB与MySQL中,整个过程由Airflow任务调度管理系统来进行管理与监控;产出的数据最终提供给应用层使用。
也许有人要说,连Hadoop都没用到,怎么号称自己在做数据分析呢。笔者曾经也做过考虑和尝试,最终暂时搁置了Hadoop,主要是数据增长相对缓慢并且没有很明显的需求,目前这个架构可以在较长一段时间内应对数据需求了。
作者:Mr-Bruce来源:36大数据

点击查看:
创业公司如何做数据分析(二)运营数据系统
创业公司如何做数据分析(三)用户行为数据采集系统
创业公司如何做数据分析(四)ELK日志系统
创业公司如何做数据分析(五)微信分享追踪系统
创业公司如何做数据分析(六)数据仓库的建设

创业公司如何做数据分析(一)开篇相关推荐

  1. 创业公司如何做数据分析(四)ELK日志系统

    作为系列文章的第四篇,本文将重点探讨数据采集层中的ELK日志系统.日志,指的是后台服务中产生的log信息,通常会输入到不同的文件中,比如Django服务下,一般会有nginx日志和uWSGI日志.这些 ...

  2. 创业公司做数据分析(一)开篇

    了解"认知心理学"的朋友应该知道:人类对事物的认知,总是由浅入深.然而,每个人思考的深度千差万别,关键在于思考的方式.通过提问三部曲:WHAT->HOW->WHY,可以 ...

  3. 创业公司做数据分析(二)运营数据系统

      作为系列文章的第二篇,本文将首先来探讨应用层中的运营数据系统,因为运营数据几乎是所有互联网创业公司开始做数据的起点,也是早期数据服务的主要对象.本文将着重回顾下我们做了哪些工作.遇到过哪些问题.如 ...

  4. 创业公司做数据分析(三)用户行为数据采集系统 (转)

    http://blog.csdn.net/zwgdft/article/details/53542597 作为系列文章的第三篇,本文将重点探讨数据采集层中的用户行为数据采集系统.这里的用户行为,指的是 ...

  5. 创业公司做数据分析(四)ELK日志系统

      作为系列文章的第四篇,本文将重点探讨数据采集层中的ELK日志系统.日志,指的是后台服务中产生的log信息,通常会输入到不同的文件中,比如Django服务下,一般会有nginx日志和uWSGI日志. ...

  6. 听说你立志要做数据分析,不如先听听老司机的建议?

    (点击上方公众号,可快速关注) 作者:黄进然 每年总有很多人,怀揣着对世界的一知半解.满腔似火的热情.还有对美好生活的向往,走出象牙塔,投身社会. 世界很大,诱惑很多.对于未来,甚至在工作多年后,他们 ...

  7. python做数据分析的包_用Python做数据分析,Numpy,Pandas,matp

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 用Python做数据分析,Numpy,Pandas,matplotlib是怎么也绕不开的三个包,我最开始学习pandas是看的<利用Python进行 ...

  8. 一个为制造业而生的AI助手,普通员工向它提问就能做数据分析

    赖可 发自 凹非寺 量子位 报道 | 公众号 QbitAI 制造业正面临着新境遇. 产业链.供应链周期变短,不确定因素增加.数字化转型呼之欲出,AI落地的需求越来越明显. 怎样让AI技术切实创造效益呢 ...

  9. python数据分析的主要流程-用Python语言做数据分析基本思路和流程

    当下用PYTHON做数据分析实在是太火了!大多数招聘信息里都要求应聘者会使用PYTHON做数据分析.PYTHON语言功能确实很强大,俗称"胶水语言".那么我们大多数职场人士真的有机 ...

最新文章

  1. LA2678最短子序列
  2. c++ 无法读取内存_Linux内存机制以及手动释放swap和buffer和cache
  3. c语言中负数_C语言中负数的模数
  4. 中国工程院院士,受聘一流大学院长
  5. 有什么推荐的计算机视觉项目?来自微软亚研院的清单
  6. 关于PHP SESSION
  7. Java对接萤石云平台海康摄像头视频监控
  8. 雷士灯wifi控制方法_一种wifi无线控制的灯具系统的制作方法
  9. linux 中 etc fstab目录,Linux学习— /etc/fstab文件详解
  10. jmail组件 java,分享Jmail发送邮件工具类
  11. C语言之switch语句用法
  12. 「数据架构」什么是实体关系图(ERD)?
  13. C/C++外部链接、内部链接
  14. 【蓝桥杯备考】Acwing周赛 第41场 Java题解
  15. Derby 和 Geronimo 使用感觉
  16. Jekyll 学习笔记
  17. 新手轻松日赚300+搬砖项目详解
  18. OPC教程三:KEPServerEX6的使用
  19. 盘点2019年经典营销案例
  20. 股市第一赌局:百万赌金 侯宁催账叶荣添准备买单

热门文章

  1. C#函数式编程之可选值
  2. 在Horizon Workspace中配置Windows单点登录-进阶篇
  3. 程序员必看 c++笔试题汇总
  4. Python 生产者与消费者(一)
  5. C#三种判断数据库中取出的字段值是否为空(NULL) 的方法
  6. 如何在Eclipse中查看JDK以及JAVA框架的源码(转载)
  7. .NET的资源并“.NET研究”不限于.resx文件,你可以采用任意存储形式 [上篇]
  8. C++中的指针与饮用
  9. Java Lock接口分析之ReentantReadWriteLock
  10. Nginx的upstream目前支持5种分配方式