本文关注点在于“如何入门数据分析”,部分内容和前文数据分析师职业漫谈有所重叠(前文关注点在于数据分析师的职业发展线)。

数据分析需要的能力可以分成专业能力和通用能力两部分,本文主要关注的是专业能力的学习,包括业务知识、数据处理、工具使用3部分。

1. 业务知识

为啥先谈业务知识?因为数据分析是为了解决业务问题,如果你不了解业务背景,就不知道数据分析的目标,甚至无法衡量数据分析的效果。在做某个数据分析需求前,首先要问的应该是——想通过数据分析解决什么问题?——而这个问题必定是和业务有关的,也就是说分析是对应具体的业务场景的。

如何获取业务知识,通常有3种途径:

  • 看书,直接学习他人总结的业务经验;

  • 问人,请教和你合作的业务同事或者同行;

  • 做需求,这里指业务方找分析师做的需求,这也是实际工作中得到的经验。

如果要从获得的经验中“加工”出属于自己的业务知识,还有3个步骤:

  • 解析业务模式,这一层级相对宏观,用来对行业建立比较概括的认识;

  • 拆分产品环节,把产品比作链条,搞清楚每一个环节都发生了什么事情,哪些事情是需要数据分析来支撑的;

  • 业务分析模型,即了解常用的产品、运营、用户分析的模型;

1.1 解析业务模式

可以用两个模型来拆解业务模式:

“人货场”:你的用户是谁(人)以及他们具有什么样的特征,你售卖的商品是什么(货)以及产品上如何盈利,用户的交易场景有哪些、用户通过哪些渠道可以获取到你的产品(场)。“人货场”模型脱胎于零售行业,但对于其他行业的业务同样适用。

商业模式画布:除了上面的人(客户群体)、货(价值服务)、场(渠道通路)外,还考虑成本结构、核心资源、收入来源、关键业务、重要合作这些因素。

关于这部分的内容更多可以参考:

  • 《数据化管理》,黄成明;

  • 《商业模式新生代》,亚历山大·奥斯特瓦德

1.2 拆分业务环节

可以从两条线来拆分业务环节:

  • 买方(顾客)角度,一个新客走完一次完整的交易需要经过哪些环节;

  • 卖方(商家)角度,产品从制作->上架->销售->配送等关键环节有哪些细分的问题。

上述这些环节都对应着一些数据指标或者可以分析的数据专题,比如:

  • 用户在转化过程中为什么流失?

  • 如何对商品定价?

  • 商品的选品和备货策略?

  • 商品要促销的时候,对谁促销?促销哪些商品?可以选哪些促销活动?怎么评估活动效果等。

关于这部分的内容可以参考:

  • 精益数据分析,Alistair Croll & Benjamin Yoskovitz

  • 活用数据,陈哲

1.3 业务分析模型

关于核心分析思路可以分别参考产品、运营、用户3个视角:

产品分析:用户体验5层级

产品分析核心关注点在于“转化”,反过来看,也就是用户为什么“流失”。用户对产品感到“不爽”,可能对应5个层级中的问题:

  • 战略层的问题,产品定位的需求可能是“伪”需求,比如先前火热的“O2O”模式;

  • 范围层的问题,需求存在,但是产品暂时没有提供相应的解决方案,比如早期部分笔记软件不支持MarkDown笔记或者网页剪藏等功能而被用户抛弃;

  • 结构层的问题,比如笔者试用BOSS直聘App时,发现必须先完善简历才能使用App功能,弃之;

  • 框架层的问题,比如腾讯视频对电影的导航对于笔者而言就不那么友好,相对来说爱奇艺则要好很多;

    注:腾讯视频的电影导航栏,第一次的时候笔者的反应是“不科学啊?怎么电影只有这几个分类?”后来才发现“电影片库”才是最全的分类

    注:爱奇艺的电影导航

  • 表现层的问题,比如用户填写信息错误时没有提示具体的错误信息,笔者甚至遇到过填写完页面的多个空格,然后点击“下一步”,结果页面提示某个项目填写有误,顺带还把所有填写的内容都清空了(简直丧心病狂);

运营分析:AARRR模型

用户生命周期的5个关键环节:获客->激活->留存->收入->传播

https://chatbotslife.com/must-have-kpis-for-chat-bots-b75b9efddfb9

用户行为:AIDAS模型

更多可以参考:

  • 用户体验要素,Jesse James Garrett

  • 增长黑客,Sean Ellis & Morgan Brown

  • 如何让他买:改变消费者行为的十大策略,Adam Ferrier

  • 游戏化实战,Yu-kai Chou

  • 上瘾,Nir Eyal & Ryan Hoover

2. 数据处理

在这个维度上需要掌握的知识分为两部分:

  • 数据处理流程,比如采集、清洗、特征(变量)衍生、建模、评估等环节需要怎么操作。

  • 指标计算规则,从输入(input)到输出(output)之间的计算逻辑是啥,这涉及数学公式以及计算逻辑(和编程有点沾边了)。

2.1 数据处理流程

宏观上的数据操作步骤可以参考下(大图请横屏浏览)

注:后台回复CRISPDM,可下载高清PDF文件

这里隆重推荐一本书《IBM SPSS 数据分析与挖掘实战案例精粹》(张文彤&钟云飞),本书就是按上图中的框架来讲解数据分析案例的。分析思路是精髓,书中的操作软件是SPSS,也可以用其他分析软件来操作配套的数据。

另外需要说明下“数据获取”部分,数据获取不仅仅是从数据库把数据捞出来(一般叫数据提取)。数据获取可能会涉及到网络爬虫、产品埋点、用户调研等方法(更多可以参考数据获取)。

2.2 指标计算规则

行业内常用指标的计算规则是需要整理并记住的,比如运营相关的指标可以参考https://www.zhihu.com/question/19903629.

要计算一个指标,你可以写公式,也可以写代码。

计算规则会设计到两类“算法”:

  • 数学“算法”,也就是数学知识。数学算法的表现形式通常是数学公式,一般来说概率统计是最常用的,其他可能还涉及线性代数、机器学习、优化理论等;

  • 计算机算法,通常和数据结构相关联,比如查找、排序、图、树之类的算法,其表现形式是一段“伪代码”或者过计算过程;

如果是入门数学分析,则通常只需要关注数学方面的算法(计算方法)就行。要让数据指标有业务意义,还需要将数学指标映射到业务指标上去,常见的业务指标背后的数学含义都是非常简单的,所以不要怕自己的数学基础太烂。

3. 工具使用

工具可以分为编程和不编程两类:

  • 不编程(相对),Excel/SPSS、Tableau/PowerBI等;

  • 要编程,SQL、R\Python\SAS等;

工具是用来实现分析,也可以提升效率(君子善假于物)。学习工具的时候要注意不要掉进工具思维的陷阱,问题和解决方案的“适配性”是首要考虑的因素。在实际业务中,解决问题是首要目标,工具是否“高大上”基本没人关心(甚至结果是否酷炫也没人会在意);

通常建议必备3种工具:

  • SQL,不管是MSSQL, MySQL, Oracle, Hive等,基本语法大同小异。数据分析中遇到的80%以上的数据都是结构化数据,而结构化数据基本都会用到SQL来进行基础统计。SQL学习的重点可以关注聚合函数和窗口函数(http://lxw1234.com/search/窗口函数);

  • Excel,这应该是世界上应用最广泛的数据分析软件了(不信可以搜一下相关的书籍),另外Excel的使用门槛也很低(会用的人很多)。如果数据量不大(比如<100W行)而要进行一般统计的话,Excel都能搞定,而且还可以做成可以交互的动态图表。Excel主要学习点是函数公式、数据透视表以及作图;

  • Python,你估计听过“Life is short, use Python”(人生苦短,我用Python)——免费软件,语法简单,工具包多,可以覆盖绝大部分的分析场景——这几个理由就足够了。Python常用于分析的工具包有:Numpy, Pandas, scipy, scikit-learn。

如果想在数据分析这条道路上走得更远,编程是必不可少的,毕竟现在编程都已经纳入中小学的课程了。

编程就是将上面提到的“计算规则”用编程语言来实现,除了计算规则之外,你还应该理解“变量->语句->模块->函数->工具包”基本上是每种程序和核心思路。

学习编程的时候需要注意几点:

  • 建立知识体系,可以参考数据分析常用工具中对Python的知识总结;

  • 勤动手,多练习,代码写了上几万行和只写过几百行的人的差距不仅仅是在熟练度方面,在代码的理解程度上也差很多的;

  • 不要只“抄”代码,这样写出来的代码有“形”无“神”,一定要搞清楚代码背后的逻辑,记住逻辑比记住代码更重要。笔者初学代码时就曾掉入此坑,别人的代码复制/粘贴一运行,一看跑出结果来很兴奋(以为自己能写这段代码了),其实事后一点印象都没有。

更多关于数据分析工具可以参考:数据分析常用工具

推荐书籍:

  • SQL必知必会,Ben Forta

  • 谁说菜鸟不会数据分析,张文霖,刘夏璐,狄松 著

  • Python基础教程,Magnus Lie Hetland

  • 利用Python进行数据分析,Wes McKinney

本文提到的能力的优先级:业务知识>数据处理>工具使用

商业上是以业务问题为主导的,数据分析的核心是帮助业务“降本增效”,这可以看做是数据分析的“道”,数据处理中涉及到的数学和计算机知识则是“术”,最后用于实现的工具是“器”,切记不要颠倒方向!

关于数据分析思维的培养

推荐学习材料:

  • Model thinking, Scott E. Page, https://www.coursera.org/learn/model-thinking,课程在B站有翻译版,https://www.bilibili.com/video/av9994383,作者还出了一本书The Model Thinker;

  • 算法之美,Brian Christian & Tom Griffiths,原书Algorithms to Live By;

  • 决战大数据,车品觉;

  • 超级思维,Aaron Santos,构建一个目标数据的预估思维是很有必要的;

  • 解决问题的三大思考工具,吉泽准特;

  • 深度案例思考法,井上达彦;

关于数据分析的学习建议

  • 看书,建议按专题去看(以点带面),也可以按专题去搜索相应的知乎、公众号文章(通常来说这两个平台的文章质量好些);

  • 动手,跟着做一下练习题,代码要自己先想后敲(照着抄很难留下深刻印象),然后再对比别人给到的解决方案;

  • 交流,和同行交流,和业务方交流,可以参与一些数据分析相关的会议或者线下活动;

  • 输出,记笔记,写文章,可以试试“费曼技巧”。

相关文章

数据分析常用工具

数据分析常用思维

一位老司机总结的数据分析入门指南相关推荐

  1. 新手必看一位老司机的十年开车经验

    今天,小编为大家收集整理了一个老司机的十年开车经验,新手们一定要学哦,因为这种宝贵的开车经验是我们以后开车过程中每天都要用到的常识.将来无论在什么时候,这种宝贵经验都会给我们带来更安全的行车时光. 新 ...

  2. 一位老司机谈谈掏心窝子的话

    ^与参赛队员殷汇鹏赛场合影 | 2015年山东大学体育馆^ None 上午我有课,可能下午2:00 之后我会在办公室-中央主楼626A.如果你有空,欢迎到我的办公室来聊聊.应该可以过去,多谢卓老师.^ ...

  3. 老司机普及的c++入门心得!

    算起来,用C++已经有七八年时间,也有点可以分享的东西: 以下推荐的书籍大多有电子版.对于技术类书籍,电子版并不会带来一个好的阅读体验.如果喜欢,最好找纸版(图书馆是个好去处):电子版更适合作为一个参 ...

  4. 产品经理数据分析入门指南

    这篇文章一共会分为四个部分进行讲解.认识数据 通过这部分我们可以知道什么是数据,数据与产品之间的关系等. 获取数据 这里我们可以了解到一些数据指标的含义,获取数据的常用工具以及常见网站的核心数据指标的 ...

  5. python做大数据分析入门_独家|Python数据分析入门指南 - 大数据123 | 大数据导航网...

    有一个朋友最近问到这个问题,我觉得把它公开出来对其他人也会有帮助.这是给完全不了解Python而想找到从零到一的最简单的路径的人的建议: 1. 在这里(https://www.continuum.io ...

  6. Java 老司机总结的代码风格指南(下)

    前言 之前我们讲了代码风格中函数.类多大才合适,一行代码多长最合适和善用空行分割单元块,今天我们继续讲解代码风格. 1. 四格缩进还是两格缩进? "PHP 是世界上最好的编程语言?代码换行应 ...

  7. 中的挂起是什么意思_仪表板亮奇怪指示灯,乌龟晒太阳是什么意思?老司机:不懂别上路...

    随着我国经济的快速发展,人们的收入水平得到很多的提高,越来越多的人都喜欢通过购买一辆小汽车来改善自己的生活质量.现如今越来越多的消费者都喜欢自驾出去游玩,所以消费者在购买汽车的时候通常都会选择高配车型 ...

  8. 网络编程之 哈希表原理讲解 来自老司机的源码

    鉴于博主很久没由跟新过数据结构的内容了,所以博主打算给大家讲解一下哈希表的操作 下面的内容来自于一位老司机 martin的源码,博主在这里借用一下,目的是突出哈希表的原理,明天博主就周末了,也能腾出时 ...

  9. 老司机教你怎样下载电影

    http://dkplus.iteye.com" title="" /> 最近,小编深得一位老司机的真传,学会了一千零一种下载电影的方法,主要用到的工具也不是什么高 ...

最新文章

  1. 【iOS】自定义控件入门:可拖动的环形进度
  2. 关于“编程的本质”的探讨
  3. tensorflowgpu利用率为0_奥普特冲科:曾侵犯竞争对手商业机密,产能利用率或虚高...
  4. Elasticsearch-5.1.2分词器IK+pinyin简单测试
  5. python excel详解_python操作excel详解
  6. sudo dpkg 找不到命令_【干货】Linux中实用但很小众的11个炫酷终端命令
  7. 信息学奥赛一本通(2059:【例3.11】买笔)
  8. BiSeNet V2论文及源码
  9. ES6-Set集合的创建
  10. Matlab图形修饰之色彩处理
  11. Linux性能测试与调优最常用的15条命令
  12. c语言函数库入门,C语言库函数
  13. vb和python语言的区别大吗_vb语言为什么被淘汰
  14. 粒子群算法总结+背包问题
  15. word中审阅和修订、批注
  16. 关于Hystrix整合ribbon调用其他服务时 首次进入回退
  17. 前端工程化----Node.js基础篇
  18. 谷歌搜索引擎_在搜索引擎上击败Google的4种方法
  19. 趋势科技如何卸载?卸载时总提示要输入密码
  20. 观未见,行不止 —— Power BI 两周年技术和方案交流圆桌会议纪实

热门文章

  1. 云计算技术基础【3】
  2. 【建议收藏】靠着这些学习方法,我入职了世界五百强——互联网时代的“奇技淫巧”
  3. matlab三相电路基波图形,毕业设计基于matlab的三相交流调压电路的设计与仿真.doc...
  4. 从django的SECRET_KEY到代码执行
  5. 正元工程资料管理免安装_智能化建筑弱电安装工程管理的研究
  6. SpringCloud子类项目依赖missing或Unknown问题
  7. 中国人工智能学会通讯——人工智能的发展未来与创业
  8. 《傲慢与偏见》伊丽莎白
  9. 堪培拉地理位置经纬度_非洲国家主要城市经纬度
  10. 2015中国闪存峰会:Memblaze联合创始人唐志波畅谈闪存标准化及产品寿命