数据正在变得越来越常见,而数据分析的价值也越来越凸显。那么数据分析师应该具备哪些技能?

要明确学习的路径,最有效的方式就是看具体的职业、工作岗位对于技能的具体需求。

从各大招聘网站上找了一些最具有代表性的数据分析师职位信息,来看看数据分析师到底需要哪些技能。


其实企业对数据分析师的基础技能需求差别不大,可总结如下:

SQL数据库的基本操作,会基本的数据管理

会用Excel/SQL做基本的数据分析和展示

会用脚本语言进行数据分析,Python or R

有获取外部数据的能力,如爬虫

会基本的数据可视化技能,能撰写数据报告

熟悉常用的数据挖掘算法:回归分析、决策树、随机森林、支持向量机等等


寻找最合适的学习路径

最高效的学习路径是什么样的?

一定要清楚的是,你想要达到的目标是什么?如果你想利用数据分析的方法来支撑工作决策,那么你可能需要知道数据分析的流程是什么,通过数据分析的方法能获得哪些信息,这些信息可以用来支撑什么工作。

然后你需要知道要达到这样的目的,需要哪些必备的技能,哪些是不需要学习的。其实在这个过程中你对知识的框架就有了大概的了解,并知道如何去避免无效的信息。

更重要的是,你需要了解,完成一个数据分析项目,基本的流程是什么。这样你才知道学习的知识,在具体的工作中是如何应用,并能够在学习之后进行针对性的训练,做到有的放矢。


数据分析的工作流程

1. 定义问题

在做具体的分析前,你需要确定要分析的问题是什么?你想得出哪些结论?

比如某地区空气质量变化的趋势是什么?

影响公司销售额增长的关键因素是什么?

生产环节中影响产能和质量的核心指标是什么?

如何对分析用户画像并进行精准营销?

如何基于历史数据预测未来某个阶段用户行为?

问题的定义需要你去了解业务的核心知识,并从中获得一些可以帮助你进行分析的经验。


2. 数据获取

有了具体的问题,你就需要获取相关的数据了。比如你要探究北京空气质量变化的趋势,你可能就需要收集北京最近几年的空气质量数据、天气数据,甚至工厂数据、气体排放数据、重要日程数据等等。

如果你要分析影响公司销售的关键因素,你就需要调用公司的历史销售数据、用户画像数据、广告投放数据等。

数据的获取方式有多种。

一是公司的销售、用户数据。可以直接从企业数据库调取,所以你需要SQL技能去完成数据提取等的数据库管理工作。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。

第二种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些公开数据

第三种是编写网页爬虫。比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,获取知乎点赞排行等。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析,这算是非常靠谱的市场调研、竞品分析的方式了。


3. 数据预处理

原始的数据可能会有很多问题,比如残缺的数据、重复的数据、无效的数据等等。把这些影响分析的数据处理好,才能获得更加精确地分析结果。

比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。

那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。

当然在这里我们还可能会有数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,能够帮助我们掌握数据的分布特征,是进一步深入分析和建模的基础。


4. 数据分析与建模

在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。

比如你发现在一定条件下,销量和价格是正比关系,那么你可以据此建立一个线性回归模型,你发现价格和广告是非线性关系,你可以先建立一个逻辑回归模型来进行分析。

当然你也可以了解一些数据挖掘的算法、特征提取的方法来优化自己的模型,获得更好的结果。


5. 数据可视化及数据报告撰写

分析结果最直接的是统计量的描述和统计量的展示。

比如我们通过数据的分布发现数据分析师工资最高的5个城市,目前各种编程语言的流行度排行榜,近几年北京空气质量的变化趋势商品消费者的地区分布……这些都是我们通过简单数据分析与可视化就可以展现出的结果。

另外一些则需要深入探究内部的关系,比如影响产品质量最关键的几个指标,你需要对不同指标与产品质量进行相关性分析之后才能得出正确结论。又比如你需要预测未来某个时间段的产品销量,则需要你对历史数据进行建模和分析,才能对未来的情况有更精准的预测。

数据分析报告不仅是分析结果的直接呈现,还是对相关情况的一个全面的认识。所以你需要一个讲故事的逻辑,如何从一个宏观的问题,深入、细化到问题内部的方方面面,得出令人信服的结果。

总结:数据分析的一般流程总的来说就是这几个步骤:问题定义、数据获取、数据预处理、数据分析与建模、数据可视化与数据报告的撰写。

数据分析师的岗位要求和工作流程相关推荐

  1. 数据分析师招聘岗位分析

    数据分析师招聘岗位分析 1.本文的目的和内容 1.1.本文的目的: 通过分析能够了解公司对于数据分析岗位的要求及待遇 1.2本文的内容: 主要针对以下几个问题: 1.数据分析岗位不同城市的需求分布: ...

  2. 数据分析师职业规划——数据分析师这个岗位,可能近几年会消亡

    近期成为月入两万的数据分析师的广告遍地都是,可能会对一些未入行的同学造成错觉.我个人感觉数据分析师这个岗位,可能近几年会消亡. 这不意味着这份工作本身不重要,而是说这份工作本身可能会转化为产品运营的一 ...

  3. 为何数据分析师更容易获得高薪工作?

    CDA数据分析研究院原创作品,转载需授权 "人类正从IT时代走向DT时代."4年前马云的这句话已经得到现实的验证. "机器学习"."人工智能" ...

  4. 数据分析师,岗位真相最全解析!

    很多同学希望加入数据之路,很多同学想在数据之路上更上一层楼.可是,你真的知道,企业口中的"数据分析师"是啥玩意吗?有经验的老鸟都切身体会过,在数据分析师的名字下,隐含了大量乱七八糟 ...

  5. python金融大数据分析师工资待遇_三年工作经验大佬带你解读 Python金融大数据分析...

    内容提要: Python凭借其简单.易读.可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析.处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的首选编程语言.本书提供了使用P ...

  6. 人力资源数据分析师前景_人力资源数据分析师——大数据下的精英岗位

    人力资源数据分析师的工作而是通过横截面上数据的整体性分析,和纵向数据的历史演变和未来趋势,对公司人力资源情况有一个宏观的把握. 劳人研究生会,公众号:劳人研究生会劳有所学-职业介绍|人力资源数据分析师 ...

  7. 数据分析师找工作难的原因

    1. 为什么数据分析师找工作这么难 虽然数据分析师的岗位层出不穷,市场对于数据分析师的需求量非常大,但很多人在应聘数据分析师的过程中会发现找工作非常难,这主要是因为:数据分析师竞争大:面试者很多不懂业 ...

  8. 极简效率指南:数据分析师如何高效工作和提升自己

    2019年,你是不是又立了新的 Flag?看了朋友圈的 Flag 清单后,"绝不熬夜"和"少加班"真的是普遍需求 TOP2 了. 很多数据分析师在重复枯燥的工作 ...

  9. 数据分析师岗位热招!你也有希望进大厂~

    数据分析师岗位热招!你也有希望进大厂~ 近日,阿里云表示2020年将扩招5千名员工.值得一提的是,数据分析师等相岗位的招聘,也成为了本次招聘的重头戏. 据介绍,包括阿里巴巴计算平台事业部实时计算部.基 ...

最新文章

  1. Grasp2Vec:通过自我监督式抓取学习物体表征
  2. 牛客 Tree(最小深度总和)(两种方法求重心)难度⭐⭐⭐
  3. Tir-Hi3559AV100镜像烧写
  4. 神策数据杨宁:财富管理转型趋势下的精细化运营
  5. 不要在递归中使用静态容器
  6. 函数在内存中的具体执行
  7. python中坐标怎么表示_如何在Python中以像素表示(有限)平面上的坐标
  8. Docker最全教程——数据库容器化(十一)
  9. Qt学习笔记-web图片爬取器(webKit)Qt5.6以下的版本才有
  10. ConvMLP:你见过长得像CNN的MLP吗?UOUIUC提出了用于视觉任务的层次卷积MLP
  11. 致敬F1七冠王!Redmi K50电竞版邀请函曝光 打造掌上梦幻跑车
  12. 《实时控制软件设计》团队项目第三天工作日志
  13. 计算机二级C语言题库(60套真题+刷题软件)2022年9月份新题第一套
  14. 机器学习深度学习入门学习资料大全(一)
  15. 新版微信语音转发方法 萌妹子变声器手机版 微信语音怎么转发给别人
  16. 数学 二维向量(加法、减法、模、点乘、叉乘)
  17. DDR中的一些知识点说明(ODT,ZQ校准,OCT,TDQS)【转载】
  18. C++ 中如何区分std::endl、std::ends、std::flush的差异性
  19. 设计模式 “之“ 责任链模式
  20. PCL点云库(2) — IO模块

热门文章

  1. sql: expected 0 arguments, got 1
  2. python源代码的后缀名是什么_Python
  3. linux c字符串用0补位,Linux中10个你不知道的命令补齐技巧
  4. 吴恩达机器学习作业8(下)--- 推荐系统
  5. Java笔试题(三)简答题
  6. win10隐藏任务栏_如何隐藏或删除Windows 10任务栏图标
  7. tdm的应用计算机,2021计算机考研备考知识:TDM时分复用技术
  8. 攻防世界 logmein wp
  9. [zz]QuickTime电影(Movie)
  10. 域名抢注时要注意什么?域名抢注要知道什么?