作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。

01

数据采集

了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。比如:

Omniture中的Prop变量长度只有100个字符,在数据采集部署过程中就不能把含有大量中文描述的文字赋值给Prop变量(超过的字符会被截断)。

在Webtrekk323之前的Pixel版本,单条信息默认最多只能发送不超过2K的数据。当页面含有过多变量或变量长度有超出限定的情况下,在保持数据收集的需求下,通常的解决方案是采用多个sendinfo方法分条发送;而在325之后的Pixel版本,单条信息默认最多可以发送7K数据量,非常方便的解决了代码部署中单条信息过载的问题。(Webtrekk基于请求量付费,请求量越少,费用越低)。

当用户在离线状态下使用APP时,数据由于无法联网而发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间。这就产生了不同时间看相同历史时间的数据时会发生数据有出入。

在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。

02

数据存储

无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。比如:

数据存储系统是MySql、Oracle、SQL Server还是其他系统。

数据仓库结构及各库表如何关联,星型、雪花型还是其他。

生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。

生产数据库面对异常值如何处理,强制转换、留空还是返回错误。

生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。

接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。

数据仓库数据的更新更新机制是什么,全量更新还是增量更新。

不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。

在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。

03

数据提取

数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。

从哪取,数据来源——不同的数据源得到的数据结果未必一致。

何时取,提取时间——不同时间取出来的数据结果未必一致。

如何取,提取规则——不同提取规则下的数据结果很难一致。

在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。

其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。

04

数据挖掘

数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:

没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。

没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。

挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。

在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。

05

数据分析

数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。

06

数据展现

数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。基本素质要求如下:

工具。PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。

形式。图文并茂的基本原则更易于理解,生动、有趣、互动、讲故事都是加分项。

原则。领导层喜欢读图、看趋势、要结论,执行层欢看数、读文字、看过程。

场景。大型会议PPT最合适,汇报说明Word最实用,数据较多时Excel更方便。

最重要一点,数据展现永远辅助于数据内容,有价值的数据报告才是关键。

07

数据应用

数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力。

数据沟通能力。深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。

业务推动能力。在业务理解数据的基础上,推动业务落地实现数据建议。从业务最重要、最紧急、最能产生效果的环节开始是个好方法,同时要考虑到业务落地的客观环境,即好的数据结论需要具备客观落地条件。

项目工作能力。数据项目工作是循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。

大数据---数据分析师的完整流程与知识结构体系相关推荐

  1. 数据科学项目的完整流程介绍

    和那些数据科学比赛不同,在真实的数据科学中,我们可能更多的时间不是在做算法的开发,而是对需求的定义和数据的治理.所以,如何更好的结合现实业务,让数据真正产生价值成了 个更有意义的话题. 数据科学项目的 ...

  2. 【Windows 逆向】使用 CE 工具挖掘关键数据内存真实地址 ( 完整流程演示 | 查找临时内存地址 | 查找真实指针地址 )

    文章目录 前言 一.查找子弹数据临时内存地址 二.查找子弹数据真实地址 前言 在上一篇博客 [Windows 逆向]使用 CE 工具挖掘关键数据内存真实地址 ( CE 找出子弹数据内存地址是临时地址 ...

  3. 【Windows 逆向】使用 CE 工具挖掘关键数据内存真实地址 ( 查找子弹数据的动态地址 | 查找子弹数据的静态地址 | 静态地址分析 | 完整流程 ) ★

    文章目录 前言 一.查找子弹数据临时内存地址 二.查找子弹数据的静态地址 1.调试内存地址 05A59544 获取基址 05A59478 2.通过搜索基址 05A59478 获取内存地址 0E1DC1 ...

  4. **龙战于野大数据MR原理启动hive查询表分区,表结构,完整流程*

    龙战于野大数据MR原理启动hive查询表分区,表结构,完整流程** 如果使用的是mr(原生mapreduce) SET mapreduce.job.queuename=etl;显示表分区: 查看分区 ...

  5. 大数据时代分析师 Splunk助大数据落地

    文章讲的是大数据时代分析师 Splunk助大数据落地,近日,Splunk公司在北京举办了一场"大数据如何落地研讨会",为大数据技术在中国企业的落地带来了诸多的前沿观点.可以参考的实 ...

  6. 阿里年薪80w数据总监分享:一张图了解数据分析完整流程

    最近,老李已经陆陆续续给大家分享了一些数据分析的干货,包括数据分析方法和模型. 但也有粉丝私聊我说,跟着我学这些分析方法和模型一段时间了,是感觉到自己学了挺多,但总感觉自己缺少一套方法论,也就是从0- ...

  7. 掌握大数据数据分析师吗?_要掌握您的数据吗? 这就是为什么您应该关心元数据的原因...

    掌握大数据数据分析师吗? Either you are a data scientist, a data engineer, or someone enthusiastic about data, u ...

  8. SARScape中用sentinel-1数据做SBAS-InSAR完整流程(1/2)

    SARScape中用sentinel-1数据做SBAS-InSAR完整流程 1 SABA-InSAR原理简述 2 数据采集和预设 2.1 SAR数据采集 2.2 DEM数据下载与放置 2.3 精密轨道 ...

  9. 大数据公司数据分析取数流程以及SQL示例

    有效的数据分析,首先需要从庞大的数据库中获取所需的数据,这就涉及到SQL取数的技巧. SQL使用流程 作为一种结构化查询语言,SQL可以对关系型数据库进行增删改查操作.对于数据分析师,最常用的就是查询 ...

最新文章

  1. 笔记本电脑显卡cuda_准大学生必看~千万别乱买,建议不同专业选择不同款式的笔记本电脑!...
  2. html一个层下面两个小层并奇,我是一个奇数是一个两位数,十位数字与个位数字的积是2,猜猜看我是几?——青夏教育精英家教网——...
  3. JavaScript实现Travelling Salesman算法(附完整源码)
  4. windows 命令收集
  5. 客制化键盘编程_客制化键盘如何入坑?
  6. wordpress 通过域名无法访问_VPS主机和宝塔面板搭建WordPress网站教程
  7. 数据可视化:常用图表使用总结
  8. 中兴服务器raid配置_HP服务器RAID配置
  9. 美赛整理之带参数的常微分方程拟合问题研究
  10. Stata+R:一文读懂中介效应
  11. 职称计算机 将计算机broad_1下的e盘映射为k盘网络驱动器,职称计算机考试(网络基础)试题与答案操作.doc...
  12. Python基础:pip的安装与卸载
  13. yml文件和properties文件区别
  14. windows下安装sloth
  15. [转载] 360分布式存储系统Bada的设计和应用
  16. 晨会纪要081110
  17. php网站建设和外包
  18. 使用select2 实现拼音全拼和首字母 搜索
  19. python中新建标签页的三种方法
  20. 今日恐慌与贪婪指数为21 恐慌程度有所缓解

热门文章

  1. 2d Laser 和 camera 标定工具原理及使用方法
  2. 【LeetCode】剑指 Offer 19. 正则表达式匹配
  3. 正则表达式验证账号代码
  4. Show Desktop Pro FAQ
  5. bzoj 1597: [Usaco2008 Mar]土地购买【斜率优化】
  6. Cannot return from outside a function or method.
  7. Java实例练习——基于UDP协议的多客户端通信
  8. SDUT 3399 数据结构实验之排序二:交换排序
  9. 一次问题处理后的处理流程总结
  10. springboot2.x 整合redis集群的几种方式