当今世界对信息技术的依赖程度在不断加深,每天都会有大量的数据产生,我们经常会感到数据越来越多,但是要从中发现有价值的信息却越来越难。

这里所说的信息,可以理解为对数据集处理之后的结果,是从数据集中提炼出的可用于其他场合的结论性的东西,而从原始数据中抽取出有价值的信息的这个过程我们就称之为数据分析,它是数据科学工作的一部分。

数据分析师的职责和技能栈

HR在发布招聘需求时,通常将数据工程、数据分析、数据挖掘等岗位都统称为数据分析岗位,但是根据工作性质的不同,又可以分为偏工程的数据治理方向、偏业务的数据分析方向、偏算法的数据挖掘方向、偏开发的数据开发方向、偏产品的数据产品经理。

我们通常所说的数据分析师主要是指业务数据分析师,很多数据分析师的职业生涯都是从这个岗位开始的,而且这个岗位也是招聘数量最多的岗位。

业务数据分析师在公司通常不属于研发部门而属于运营部门,所以这个岗位也称为数据运营或商业分析,这类人员通常也被称为“BI工程师”。通常招聘信息对这个岗位的描述(JD)是:

  • 负责相关报表的输出。
  • 建立和优化指标体系。
  • 监控数据波动和异常,找出问题。
  • 优化和驱动业务,推动数字化运营。
  • 找出潜在的市场和产品的上升空间。

根据上面的描述,作为业务数据分析师,我们的工作不是给领导一个简单浅显的结论,而是结合公司的业务,完成监控数据、揪出异常、找到原因、探索趋势等工作。作为数据分析师,不管是用 Python 语言、Excel、SPSS或其他的商业智能工具,工具只是达成目标的手段,数据思维是核心技能,从实际业务问题出发到最终发现数据中的商业价值是终极目标。

数据分析师在很多公司只是一个基础岗位,精于业务的数据分析师可以向数据分析经理或数据运营总监等管理岗位发展;对于熟悉机器学习算法的数据分析师来说,可以向数据挖掘工程师或算法专家方向发展,而这些岗位除了需要相应的数学和统计学知识,在编程能力方面也比数据分析师有更高的要求,可能还需要有大数据存储和处理的相关经验。

数据治理岗位主要是帮助公司建设数据仓库或数据湖,实现数据从业务系统、埋点系统、日志系统到分析库的转移,为后续的数据分析和挖掘提供基础设施。数据治理岗位对 SQL 和 HiveSQL 有着较高的要求,需要熟练的使用 ETL 工具,此外还需要对 Hadoop 生态圈有一个较好的认知。

作为数据产品经理,除了传统产品经理的技能栈之外,也需要较强的技术能力,例如要了解常用的推荐算法、机器学习模型,能够为算法的改进提供依据,能够制定相关埋点的规范和口径,虽然不需要精通各种算法,但是要站在产品的角度去考虑数据模型、指标、算法等的落地。

以下是我总结的数据分析师的技能栈,仅供参考。

  • 计算机科学(数据分析工具、编程语言、数据库)
  • 数学和统计学(数据思维、统计思维)
  • 人工智能(机器学习中的数据挖掘算法)
  • 业务理解能力(沟通、表达、经验)
  • 总结和表述能力(商业PPT、文字总结)

数据分析的流程

我们提到数分析这个词很多时候可能指的都是狭义的数据分析,这类数据分析主要目标就是生成可视化报表并通过这些报表来洞察业务中的问题。广义的数据分析还包含了数据挖掘的部分,不仅要通过数据实现对业务的监控和分析,还要利用机器学习算法,找出隐藏在数据背后的知识,并利用这些知识为将来的决策提供支撑。简单的说,一个完整的数据分析应该包括基本的数据分析和深入的数据挖掘两个部分。

基本的数据分析工作一般包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。

  • 确定目标(输入):理解业务,确定指标口径
  • 获取数据:数据仓库(SQL 提数)、电子表格、三方接口、网络爬虫、开放数据集等
  • 清洗数据:缺失值/重复值/异常值处理、数据变换(格式化、规范化)、离散化等
  • 数据透视:运算、统计、分组、聚合、可视化
  • 数据报告(输出):数据发布,工作成果总结汇报
  • 分析洞察(后续):解释数据的变化,提出对应的方案

深入的数据挖掘工作通常包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。

  • 确定目标(输入):理解业务,明确挖掘目标
  • 数据准备:数据获取、数据描述、数据探索、质量判定等
  • 数据加工:提取数据、清洗数据、数据变换、特殊编码、降维、特征选择等
  • 数据建模:模型比较、模型选择、算法应用
  • 模型评估:交叉检验、参数调优、结果评价
  • 模型部署(输出):模型落地、业务改进、运营监控、报告撰写

数据分析相关库

使用 Python 从事数据科学相关的工作是一个非常棒的选择,因为 Python 整个生态圈中,有大量的成熟的用于数据科学的软件包(工具库)。而且不同于其他的用于数据科学的编程语言(如:Julia、R),Python 除了可以用于数据科学,能做的事情还很多,可以说 Python 语言几乎是无所不能的

三大神器

1.NumPy:支持常见的数组和矩阵操作,通过ndarray类实现了对多维数组的封装,提供了操作这些数组的方法和函数集。由于 NumPy 内置了并行运算功能,当使用多核 CPU 时,NumPy 会自动做并行计算。

2.Pandas:pandas 的核心是其特有的数据结构DataFrame和Series,这使得 pandas 可以处理包含不同类型的数据表格和时间序列,这一点是 NumPy 的ndarray做不到的。使用 pandas,可以轻松顺利的加载各种形式的数据,然后对数据进行切片、切块、数据清洗、聚合、重塑和可视化等操作。

3.Matplotlib:matplotlib 是一个包含各种绘图模块的库,能够根据我们提供的数据创建高质量的图形。此外,matplotlib 还提供了 pylab 模块,这个模块包含了很多像 MATLAB 一样的绘图组件。

其他相关库

1.SciPy:完善了 NumPy 的功能,封装了大量科学计算的算法,包括线性代数、稀疏矩阵、信号和图像处理、最优化问题、快速傅里叶变换等。

2.Seaborn:seaborn 是基于 matplotlib 的图形可视化工具,直接使用 matplotlib 虽然可以定制出漂亮的统计图表,但是总体来说还不够简单方便,seaborn 相当于是对 matplotlib 做了封装,让用户能够以更简洁有效的方式做出各种有吸引力的统计图表。

3.Scikit-learn:scikit-learn 最初是 SciPy 的一部分,它是 Python 数据科学运算的核心,提供了大量机器学习可能用到的工具,包括:数据预处理、监督学习(分类、回归)、无监督学习(聚类)、模式选择、交叉检验等。

4.Statsmodels:包含了经典统计学和经济计量学算法的库。

最后

在学习python中有任何困难不懂的可以微信扫描下方CSDN官方认证二维码加入python交流学习多多交流问题,互帮互助,这里有不错的学习教程和开发工具。
(python兼职资源+python全套学习资料)

读者福利:知道你可能对Python感兴趣,便准备了这套python学习资料
对于0基础小白入门:

如果你是零基础小白,想快速入门Python是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。

二方面是可以找到适合自己的学习方案

包括:Python永久使用安装包、Python web开发,Python爬虫,Python数据分析,人工智能、软件测试、机器学习等学习教程。带你从零基础系统性的学好Python!

零基础Python学习资源介绍

从零开始学数据分析之数据分析概述相关推荐

  1. 从零开始学python数据分析-【01】从零开始学Python—数据分析与挖掘概述

    马云曾说"中国正迎来从IT时代到DT时代的变革",DT就是大数据时代.数据已成为企业的核心资产和宝贵资源,企业愈加重视和善加利用数据分析与挖掘技术. 1.1什么是数据分析与挖掘 数 ...

  2. 从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版

    给大家带来的一篇关于数据挖掘相关的电子书资源,介绍了关于Python.数据分析.数据挖掘方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小67.8 MB,刘顺祥编写,目前豆瓣.亚马逊.当当 ...

  3. 从零开始用python处理excel视频_从零开始学数据分析,什么程度可以找工作,如何计划学习方案?...

    首先要明确数据分析工作的基本流程,然后再考虑每个流程可能需要掌握的技能.我是一位从事数据分析与挖掘5年的数据小兵,简单回答一下数据各流程下的技能. 数据搜集:它往往是数据分析的第一步,即根据分析或挖掘 ...

  4. 从零开始学python数据分析与挖掘

    目   录 第1章  数据分析与挖掘概述 1.1  什么是数据分析和挖掘 1.2  数据分析与挖掘的应用领域 1.2.1  电商领域--发现破坏规则的"害群之马" 1.2.2  交 ...

  5. 从零开始学Python数据分析-罗攀-专题视频课程

    从零开始学Python数据分析-169人已学习 课程介绍         Python数据分析小分队系列课程开始10讲. 由<从零开始学Python网络爬虫>和<从零开始学Pytho ...

  6. 从零开始学python数据分析pdf_积赞送书啦-《从零开始学Python数据分析与挖掘》...

    前言 随着数据时代的蓬勃发展,越来越多的企事业单位开始认识到数据的重要性,并通过各种手段进行数据的搜集,然后基于数据分析和挖掘的手段实现数据的变现,而Python就是最常用的分析或挖掘工具之一. 写书 ...

  7. 从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 下载

    资料目录: 目 录第1章 数据分析与挖掘概述 11.1 什么是数据分析和挖掘 11.2 数据分析与挖掘的应用领域 21.2.1 电商领域--发现破坏规则的"害群之马" 21.2.2 ...

  8. python数据分析要学什么_python数据分析学什么?python数据分析入门

    有很多没有基础的新手想学习python数据分析,却在纠结python数据分析难不难学?下面万古网校小编给大家整理了资料,为各位分享! 1.python难不难? Python可以说是目前比较主流而且易学 ...

  9. python初学者web还是爬虫-还在纠结学爬虫还是数据分析,不如看看这篇文章

    原标题:还在纠结学爬虫还是数据分析,不如看看这篇文章 身为职场人,收集上万条表格数据做商业分析,裁剪上千张图片,发送数百封邮件...这些都是经常会遇到的场景.我一直期待能有个工具解放我,直到我遇到了P ...

  10. python 数据分析学什么-python数据分析学什么?python数据分析入门

    有很多没有基础的新手想学习python数据分析,却在纠结python数据分析难不难学?下面万古网校小编给大家整理了资料,为各位分享! 1.python难不难? Python可以说是目前比较主流而且易学 ...

最新文章

  1. Javascript中的0,false,null,undefined,空字符串对比
  2. jquery回弹_创意网页DOM元素拖拽弹性反弹和变形动画特效
  3. 上大专是学计算机还是会计,上三本还是上专科 大专学什么专业好
  4. DataKeyNames
  5. 非常有趣的古越及吴语-台州话
  6. git add 文件夹_软件测试学习资源—Git 基础使用
  7. case when then else多个条件_sqlserver条件分支case when使用教程
  8. BOSS直聘发起“逆行者先行”招聘专场:优先录取抗疫志愿者
  9. 在ASP.NET页面中实现数据饼图(转载)
  10. 设置Easyui datagrid的pageNumber导致两次请求的解决方案
  11. tomcat常见漏洞
  12. ISAPI_Rewrite
  13. 通信知识宝典1 -- 如何让无线路由网速最快
  14. Linux查询状态的命令,LINUX常用的系统状态查询命令
  15. android 夜间模式源码,Android Support Library 之 夜间模式
  16. linux 开启 键盘的背光灯
  17. 单元测试、API接口测试、灰盒测试
  18. 企业面临的7大数据分析挑战
  19. 微信小程序之左右布局
  20. 微信点赞功能测试用例

热门文章

  1. 非科班程序员逆袭:一个被称阿里“码神”,另一个颠覆软件生态
  2. 计算机专业助我成长作文600,资助助我成长作文
  3. ERR_HTTP2_PROTOCOL_ERROR分析
  4. ol,li,ul列表
  5. tomcat跨域请求
  6. 《奇特的一生》读书笔记
  7. Java、JSP网上报名系统
  8. HashMap概述与用法总结
  9. 115.n阶方阵求逆
  10. git报错:LibreSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443 解决方法