文章目录

  • 一、数据分析师特点
  • 二、技术要求
    • 2.1 数仓
    • 2.2 SQL
    • 2.3 python数据分析
    • 2.4 数据可视化
    • 2.5 报告呈现
    • 2.6 数据产品化
    • 2.7 小结
  • 三、从业务角度看数分类型
    • 3.1 运营岗
    • 3.2 商业分析岗
    • 3.3 产品分析
    • 3.4 数据挖掘
    • 3.5 实验数据分析
    • 3.6 小结
  • 四、互联网方向
    • 4.1 UGC、PGC、OGC
    • 4.2 TOC-购物
    • 4.3 TOC-出行
    • 4.4 TOC-外卖
    • 4.5 OTA-旅游
    • 4.6 TOB-企业级服务
    • 4.7 TOC-交流
    • 4.8 TOC-娱乐

一、数据分析师特点

根据自己在一年互联网公司的数据分析经验所写,如有不足之处,可以抛出问题,一起讨论。

数据分析师是由业务和技术的结合而衍生出来的一种岗位,随着社会、企业的信息化、数字化的发展,企业对于既了解业务,又懂技术的综合性人才的需求还是比较大的,越来越多的人向这个方向发展。但从招聘者对于应聘者在该岗位的要求来看,应聘者在业务理解、认知等方面的能力要远高于技术方面的能力。这也就是导致,众多职场人从其他岗位(非对口业务岗、非相关业务技术岗)转型做数据分析师时,虽然是学习了excel、python、sql、powerbi/tableau/echarts等多方面的技术能力,但依然很难应聘到心仪的数据分析师岗位,这里主要的原因还是对数据分析的对象,即具体业务,缺乏深入的了解,面试官在面试过程中基本不会考察技术方向,当然,这里要排除包含笔试环节(笔试内容以sql为主)的面试,是否在是笔试通过后,面试过程中就不会在考察技术了,这还有待考证。面试中考察更多的是过往经历中数据分析的实践、对于应聘岗位业务的认知等方面的内容。如何破解该问题?从哪方面入手,我会在后续逐步探索、介绍。我接着说一下对于专业的限制,在国内学科分类中并没有数据分析的专业,所以在招聘要求中对于专业的要求更多是数学、计算机、统计学等相对有关联的专业,整体上来看,在专业上不要有太多的顾虑,理科、工科即可。

二、技术要求

然后的话,从数据采集到数据分析报告的整个流程中,所用到的数仓数据库数据分析数据可视化成果呈现数据产品化等方面技术,我在一一介绍一下。

2.1 数仓

首先是数仓ETL工具,这部分的内容,数据分析师可以了解一些,在高度分工的大厂里,这部分是由数仓团队来完成,而部分公司可能需要由数据分析师来做。ETL是包括数据的抽取、转换、加载等,市面上ETL工具还是比较多的,通过在网络的调研来看,大家普遍推荐的Kettle,现在叫PDI,不过网上论坛等还是以Kettle居多。作业、转换是kettle的两个主要设计组成,其中,转换完成针对数据的基础转换,转换由一个或多个步骤组成,步骤和步骤之间由跳连接,转换是多线程,转换执行时,会把所有的步骤启动,一个步骤对应一个线程;作业完成整个工作流的控制,一个作业包含一个或者多个作业项,并且这些作业项都是以某种顺序进行执行的,也就是说,作业是单线程的。作业执行的顺序由作业项之间的跳(Job Hop)和每个作业项的执行结果决定。跑题一下,这样的设计理念,可以在RPA、图形化编程的设计中借鉴关于kettle的简单介绍就到这里,每个软件的设计、使用都有很多的学问在里面,我个人暂时无法系统的、全面的介绍,需要我们在实践中逐渐摸索、逐渐积累。

2.2 SQL

关于sql,这部分是数据分析师必备的技能,同时也是面试的重点,需要我们熟练的掌握,面试时可能让你共享屏幕,直接面对面写sql,主要以查为主,单行函数、聚合函数都需要熟练应用,另外的话,对于时间函数的使用,时间戳-日期格式互转,提取年、月、日家具,日期、时间加减等也是重点,大多数的数据都包含日期/时间字段。在工作中,函数、过程、视图都需要掌握,会很大程度上帮助我们解决复杂问题。关于数据库类型,现在主流的还是mysql,对于一线的互联网大厂或者一些特殊部门(如,基于流量的a/b测试实验等),会用到的时Hadoop,这块重点需要掌握的是hive 与mysql的区别,另外hive的开窗函数(常有的题目是判断一个用户连续登录天数、连续登录用户等涉及到行和行之间的逻辑关系的统计结果),以及hive调优(我理解这块可能是由于hive的查询性能较差的缘由吧,很多都sql语句都需要优化,不然,可能一条sql执行一天)这些都是比较重要的知识,需要比较熟练掌握。在高阶的hive就是写UDF了,这部分需要有java的基础。

2.3 python数据分析

关于python数据分析,这里主要以pandas模块为主。这部分面试的时候很少考到,但在工作中还是需要熟练掌握。pandas博大精深,之前在网上找的pandas视频教程看,但很多无法把pandas模块讲透彻,更多的是如何创建series、dataframe,索引、切片,读取数据等比较基础、入门的教程。建议大家在这些基础教程学完后去看看pandas的官方文档里面介绍的更加详尽,会对之后的使用有更好的帮助,在数据处理分析能力更上一层楼。如索引会包括label、position、label和position混合索引、布尔索引(这个内容比较多)等,函数的应用包括pipe、apply、agg、aggregation、applymap,这些的差异是什么?groupby的内涵是split、apply、combine。windowing operation 窗口函数等等。

2.4 数据可视化

数据可视化这部分,比较常用的托拉拽类型的有powebi、tableau、finebi等,tableau应该是最主流的,报表美观度最好的,但也是收费的,很多公司不一定有购买。我使用的是powerbi,可以实现我的工作诉求,且是完全免费的。
在做一些更加酷炫的图表的话,可以考虑用echarts来做。(需要基本了解html、css、javascript等一些前端知识)

2.5 报告呈现

领导在汇报的时候,需要的是ppt。这块需要我们掌握比较好的ppt呈现能力。

2.6 数据产品化

在你从0到1做了一段数据分析后,你会发现没有那么多可以创新的工作了,你所建立的分析模型也就那些,基本上满足了日常工作需求。这时候就要考虑到将分析模型产品化了。之前自己也是尝试做了一些数据产品化的工作,当然不是很规范,直接上来就写代码,没有写需求文档,没做好规划,这点是需要在以后开发中避免的。一定有先规划好,然后在开始写,不然会有比较大的返工,且不成体系化。在选择实现技术时,实际上大厂很多后端开发用的语言都是java,但我本人没有java的经验,且也不会往开发方向转型,就没考虑java,而是用的python django web 后端框架做的,前端是直接在网上找的已有的项目,写的项目是前后端不分离的那种,比较简陋。就我个人而言,是完全的开发小白,独立开发一个web网站,哪怕这是一个非常简单的,都是非常困难,期间也是遇到了很多的坑,不过最终也是逐步化解了。

2.7 小结

熟练的掌握了以上技术,在一般的数据分析岗位就足够了。对于一些大数据/算法的处理外还需要掌握spark、hadoop等大数据工具以及算法相关的知识,不过这块会岗位的应用会比较少,一般公司很难达到如此大的数据量。
下面从业务方面来讨论数据分析师岗位,当然不能穷尽,企业和企业之间的业务千差万别。

三、从业务角度看数分类型

具体在各大招聘网站上的招聘信息总结而得,不同类型岗位数分的主要工作内容。

3.1 运营岗

主要的工作内容包括数据监控和分析、报表体系建设、数据支持、数据产品化等方面。
当然因人而异,就我个人来讲, 这类岗位是我最不推荐去的岗位,如果是这种,大家一定要慎重考虑。

3.2 商业分析岗

主要的工作内容是内部的经营分析,以及行业研究、竞争标杆、产品调研等方面的市场研究方法论,对于产品、市场等方面的了解要求较高。
此外,这类岗位需要有比较好的专业契合度,如商业专业等。

3.3 产品分析

主要以用户行为数据分析为主,涉及到a/b测试、漏斗分析、归因分析等分析方法论,同时对于埋点、产品方面有要求。
会有相对大量的数据,如果想往大数据方向发展,这个也是有一定匹配度的。

3.4 数据挖掘

绝大多数岗位要求要了解算法,这类岗位对算法要求更高一些。没有经验的,很难入围。

3.5 实验数据分析

产品的测试数据的分析,像自动驾驶、监测仪器等等类似的。

3.6 小结

总的来讲,主要的数据分析类型是以上的五种,但这些都有一个特点,这些岗位很多都没有一个相对专一的部门在做,往往都是绿叶,需要更加侧重业务。
所以,我希望大家在从事数据分析师的工作时最好能够和自己相关的业务方向入手,以业务为主导,而不是以数据分析为主导。但,如果有算法、大数据的理论、经验等可以侧重数据分析。

四、互联网方向

如果要进军互联网的话,可以看看互联网主要的业务方向。

4.1 UGC、PGC、OGC

像字节、微博、知乎、快手…主流的产品都属于这种类型。

4.2 TOC-购物

购物类型,京东、淘宝、拼多多、聚美优品、Shopee…等

4.3 TOC-出行

现在滴滴、滴答、美团、高德(被阿里收购了)…都在这条赛道上

4.4 TOC-外卖

像美团、饿了么、百度外卖…。现在还是美团的用户比较多。

4.5 OTA-旅游

去哪儿、携程旅行网…

4.6 TOB-企业级服务

用友、易快报、金蝶、腾讯、阿里、字节…

4.7 TOC-交流

腾讯(QQ、微信)…

4.8 TOC-娱乐

  • 音乐:腾讯、网易…
  • 视频(非短视频):爱奇艺、优酷、腾讯视频…
  • 小说:微信读书、番茄小说…

数据分析师的个人感悟相关推荐

  1. 我是如何入门、成长并进阶为数据分析师的?

    前几天和一朋友A聊天,一个在我看来完全可以在大部分行业领域公司独当一面的数据分析师,目前仍谦虚的以"数据猿"自称.从事数据分析的他,半路出家,起初虽然懂一些数据库的知识,但仍然和很 ...

  2. 万字长文 | 数据分析师的机遇与挑战

    作者 | gongyouliu 编辑 | gongyouliu 这是作者的第37篇原创文章,约1w字,阅读约60min 福利:本次赠送3本数据分析相关好书,欢迎参与,参与方式见文末~ 笔者本科.研究生 ...

  3. 入职阿里巴巴数据分析师——我的10个关键转折点

    入职阿里巴巴数据分析师--我的10个关键转折点 概要: 211市场营销本科--985信息管理硕士--阿里巴巴数据分析师,我用了1年时间实现我的目标. 作为一名热爱数据分析.通过努力拿到心仪offer的 ...

  4. 我是如何成为阿里巴巴数据分析师的?

    关注我的人里,应该有不少是大学生,也有很多是喜欢用 Python 做数据分析.这里分享一篇一位毕业生,从211市场营销本科,到985信息管理硕士,最终成为阿里巴巴数据分析师的故事. 他完成这一转变,只 ...

  5. 入职阿里巴巴数据分析师,我用了快1年时间

    作为一名热爱数据分析.通过努力拿到心仪offer的学生,是许许多多通过努力实现目标的学生中的普通一员.一路走来,我把自己的经历按照时间线写下来,中间穿插我的经验,在记录自己工作的同时,希望能给想要进入 ...

  6. 数据团队规划布局感悟(二)

    0x00 前言 这篇内容承接了第一篇文章<数据团队规划布局感悟(一)>. 在前公司的时候,因为同事经验都很丰富,大体都5年+,十年的也不乏其人,所以基本没有所谓管理,而在那个阶段,我更关注 ...

  7. SparkSQL和Hadoop(面向数据科学家和大数据分析师)

    了解HDFS命令.Hadoop.Spark SQL.SQL查询.ETL和数据分析| Spark Hadoop集群虚拟机|完全解决的问题 你会学到什么 作为本课程的一部分,学生将获得在Spark Had ...

  8. 什么是大数据口子_大数据分析师年薪几十万,学什么专业才能从事大数据?

    近几年,大数据为各个领域带来了全新的变革,大数据的重要性越来越被企业和国家所看到,大数据工作者的需求再次被无限放大,他们的薪资和社会地位也在不断上涨.马云在演讲中就提到,未来的时代将不是IT时代,而是 ...

  9. 数据分析师的职业规划之路

    ◆ ◆ ◆ 导 读 "数据分析师作为一个出现时间不长的工种,大数据时代下,成为螺丝钉还是成为龙头,需要尝试新的可能." ◆ ◆ ◆ 数据分析师的职业规划 数据分析师手中拥有一座宝藏 ...

  10. 为什么选择数据分析师这个职业?

    我为什么选择做数据分析师? 我大学专业是物流管理,学习内容偏向于管理学和经济学,但其实最感兴趣的还是心理学,即人在各种刺激下反应的机制以及原理.做数据分析师,某种意义上是对群体行为的研究和量化,两者有 ...

最新文章

  1. ios项目文件结构 目录的整理
  2. SpringMVC如何实现aop
  3. Mysql中having和where的区别
  4. 华为交换机配置DHCP服务器
  5. 测试框架 如何测试私有方法_高效的企业测试–测试框架(5/6)
  6. python获取手机通知栏消息_Python编写简单的通知栏脚本启动工具
  7. SQL server插入数据后,获取自增长字段的值
  8. javamail 解码 base64 html格式邮件_[源码和文档分享]基于JavaMail的邮件收发系统
  9. spark 运行自带python示例的方式
  10. python编程入门-Python编程:从入门到实践 PDF 中文扫描版
  11. 助力社区防疫,百数提供了一款管理系统模板
  12. 三角形外接球万能公式_【光速解题】如何秒定各类外接球的球心
  13. vba数组如何精确筛选_Filter函数和ReDim语句讲解,以及VBA中利用动态数组排重的方法一...
  14. Python输出页面源代码
  15. python京东自动签到_python自动签到领京东《豆豆》
  16. Android(一)
  17. 万兆局域网方案_如何在家庭布设万兆局域网?
  18. 做内网穿透外网远程访问群晖NAS 2-2
  19. vue中beforeupdate意思_VUE的生命周期之beforeMount、mounted、beforeUpdate、updated
  20. java 字符和汉字比较_Java比较汉字字符串排序与C++比较汉字排序

热门文章

  1. 如何做一个基于JAVA的新闻管理系统毕业设计毕设作品(springboot框架)
  2. Codejock Suite Pro 19.3.0 Carck版本
  3. 网络连接正常,IE不能打开网页的全面解决方法
  4. 01-mnist数字识别
  5. 02-最基本的SELECT语句
  6. 《CSS权威指南》.pdf
  7. Eclipse安装教程
  8. 常见设计稿字体对应字重font-weight大小
  9. python加载mnist数据集
  10. din字体是开源字体吗_字体 DIN 与工业标准