大数据处理过程的通俗理解

转载声明:

本文系转载自以下文章:

  • 原始数据、数据清洗、数据集市、数据处理、数据可视化的通俗理解
    作者:多智时代

转载仅为方便学习查看,一切权利属于原作者,本人只是做了整理和排版,如果带来不便请联系我删除。

摘要

“大数据分析”这么高大上,怎么讲才能最通俗呢,做饭和大数据有什么关系呢?请听下面分析:

0x01 原始数据

菜地里的毛菜(原始系统的数据,有错误,不精准,毛菜有泥巴,有黄叶子),相当于ERPPDM系统里面的原始数据。

0x02 数据源到ODS

从菜地里采集到家,分门别类的堆在一起(初步去掉泥巴,黄叶子,分类堆放),相当于从原系统到ODS

ODS的意思是操作数据,即原始系统中的操作数据的一个副本,与原始数据是一模一样的,叫贴源,这个过程就叫数据采集、清洗、转换,即ETL干的事情,这个阶段叫初加工。

0x03 ODS到数据仓库

把拿回家的各种菜洗净,去皮,按大小分类,去掉小的、烂的蔬菜,可以卖给超市了。

对BI项目来说,就是从ODS到数据仓库的过程,数据的精加工过程,去伪存真,也要用到ETL来清洗转换,对缺项的数据补充完整,比如合并数据,合并字段,增加主数据描述字段,补充分类等。

0x04 数据仓库到数据集市

从菜农卖到超市,超市还要经过一次加工,比如包装成一小包一小包的,把蔬菜放在一起,水果放在一起,便于顾客直接购买。

这一步就是从数据仓库到数据集市的过程,数据集市就是包好、称好的净菜,价签已经打好的了,顾客直接付款可以拿走了。

从数据仓库到数据集市就是形成一个一个的数据立方体,这个立方体的数据是加工好的,可以单独发布出去,离线使用,相当于一个execl数据文件,你可以用EXECL工具打开,也可以用WPS打开,打开以后,可以用表格表示,也可以用图表表示。

0x05 报表制作

妈妈配菜,妈妈根据家人一天要吃的菜肴规划,挑选各种各样的菜、肉组合在一起,有的直接可以食用,有的需要再加工,即烹调,然后端出来摆到餐桌上,家人只需要带一张嘴即可享用。

对BI项目来说,就是报表的制作过程,业务分析人员,根据领导的要求,按照各个主题需求,从各个数据立方体中、或者一部分从数据仓库中取一些数据组合起来,并且定义展现方式,即把报表做好,发布出来,放到门户上,给与权限控制,哪些人可以享用这桌美味,这就是报表制作这个阶段干的事情。

所以说,业务人员是否可以拖拽制作报表,关键看前面的数据立方体准备好没有。相当于是这样的,不是人人都是烹调高手,但是超市里面有很多配好的菜(葱姜蒜都有了),你只要拿回去放放锅里炒5分钟或者蒸煮10分钟,端出来即可,不难吧。至于加工的工具是微软家的锅还是IBM家的灶,或者oracle家的瓢,有什么关系呢,这些都是报表制作工具(烹调工具而已)。

0x06 管理人员查阅报表

享受美味佳肴,把做好的一桌筵席,放到门户上,当然是给有权限的人享受。

对应到工作就是决策层查阅所有结果报表。

大数据处理过程的通俗理解相关推荐

  1. 大数据处理过程中,如何让Hadoop运行得更快一些?

    在数据处理方面,我们发现数据输入速度一般要比的数据处理速度快很多,这种现象在大数据领域尤为明显.随着数据不断膨胀,相应的响应时间自然要有所增加,数据处理的复杂度也在不断提高.作为一个开发者,我们自然非 ...

  2. 全生命周期大数据处理系列

    全生命周期大数据处理系列 任何一件复杂的事物,简化它的方法就是分而治之,只是这个分法,万变不离其宗,可能会因人因事而大同小异而已.我在车联网大数据的处理实践中不断沉淀,在公司产品的迭代升级中逐步升华, ...

  3. Python大数据处理,应对海量数据挑战

    Python大数据处理,应对海量数据挑战 Python的特点及在大数据处理中的优势 1 Python语言的特点 2 Python在大数据处理中所具备的优势 二.Python常用的大数据处理工具介绍 1 ...

  4. 必备知识:大数据处理应遵循的原则

    简约原则 这是牛顿创设的一条"极简主义"的节约规则.在牛顿看来,神奇的自然界在创设过程中选择的简单性和对繁琐的讨厌,使得人类也形成如下观念:"在用很少的东西就能够解决问题 ...

  5. 通俗理解数学符号 “∫”,“d“,“e”

    积分符号 "∫" 的由来. 通俗理解微分符号d. 通俗解读自然数e. 积分符号 "∫" 的由来 积分符号"∫" 的由来可以追溯到17世纪的德 ...

  6. 转:大数据处理与开发课程设计——纽约出租车大数据分析

    ​​​​​​大数据处理与开发课程设计--纽约出租车大数据分析_LHR13的博客-CSDN博客_出租车大数据分析 一.设计目的 综合应用所学的Hadoop/Spark/Storm/Mongdb等技术,设 ...

  7. 大数据处理需要用到的编程语言开发语言

    你有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针 ...

  8. 通俗理解kaggle比赛大杀器xgboost

    通俗理解kaggle比赛大杀器xgboost 说明:若出现部分图片无法正常显示而影响阅读,请以此处的文章为准:xgboost 题库版. 时间:二零一九年三月二十五日. 0 前言 xgboost一直在竞 ...

  9. 《深入理解大数据:大数据处理与编程实践》一一3.3 HDFS文件存储组织与读写...

    本节书摘来自华章计算机<深入理解大数据:大数据处理与编程实践>一书中的第3章,第3.3节,作者 主 编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司),更多章节内容可以访问云栖社区&quo ...

最新文章

  1. 解决Layui的switch样式显示问题
  2. 机器学习(MACHINE LEARNING)MATLAB求解利润最大化问题【线性规划】
  3. CTO:再写if-else,逮着一个罚款1000!
  4. 上传图片被防火墙拦截_Murus Pro Suite——防火墙软件
  5. nginx配置中proxy_redirect的作用(转)
  6. 开源个.NetCore写的 - 并发请求工具PressureTool
  7. python设计模式有哪些_设计模式教程
  8. 自定义Visual Studio 2010 快捷键
  9. 一键解决 500、502和504 Internal Privoxy Error 问题(图文详解)
  10. java实现分时问候,asp实现语音分时问候_asp实例
  11. pscad调用matlab的模块,PSCAD模块库功能教程(包含与matlab接口).pdf
  12. Spyder使用教程
  13. apollo学习之:如何测试canbus模块
  14. 蜂窝多边形密度图(GIS可视化)
  15. 车金融|金融产品规则引擎的前世今生(中篇)
  16. android 九宫格 拉伸,CAScale9ImageView(九宫格图片拉伸)
  17. 全国计算机二级很难得吗,全国计算机二级考试难吗?
  18. 计算机科学职业位置,计算机专业的职业生涯规划范文
  19. 程序员常用mysql命令
  20. 扫地机器人黑色耐脏吗_扫地机器人这么火?可你真的知道怎么选才不会入坑吗?...

热门文章

  1. QNX系列:二、进程间消息传递
  2. 贴吧二维码防删图制作美图秀秀
  3. LOCAL_PRIVILEGED_MODULE 详解(2)
  4. 一些乱七八糟的概念以及定义
  5. B站左程云算法视频笔记05
  6. Flink 流批一体一站式平台 StreamX 来袭
  7. 如何把已有代码和远程仓库相关联。
  8. linux 常用命令全称
  9. 食物과 學問의 萃聚
  10. Android手机SD卡各文件夹说明