声明
本文仅整理给需要了解的同学,从业人士想要的更多细节,统统没有;
本文以常聊的HADOOP生态纯白话为主,就不扯Postgre、Oracl这些了;
内容整理出视频教程和社区,如有手误,烦请指正哦;

1. 是什么?

目前,大家的意思,主要是指
通过管理大体量数据,更好更快的满足数据查询;

2. 为什么?举几个关键点

2.1 查数据太费劲

主要的原因是,我们平时用MySQL数据库,增加、修改、查询用得更多;
但,已经有很多数据时,用老法子的话,查询一次几天过去了,还会死给你看;

极端例子意会一下:

你问你爸:能不能帮我问问老师,我的同桌小明住哪?然后把我向他借的课本还他?
你爸:好呀宝贝;

你又问:爸爸,我的同桌小明的外婆家,养了只叫小金的金毛狗。
我超喜欢小金,小金今天中午十二点在干什么?前天中午十二点呢?大前天中午十二点呢?
这些天分别吃了哪些品牌的狗粮?
每个牌子分别吃了多少克?
你爸:?

2.2 又要好又要省钱

如果想要那么好的性能,那就需要很好的设备呀,可是好设备好贵好贵好贵啊;
那么,我们用多台廉价设备,来顶一台高配置设备
就是三个臭皮匠顶个诸葛亮,哦不对,这叫 分布式,每个臭皮匠叫一个 节点

2.3 要兼容多种数据结构

3类结构的多种文件格式:
a、结构的,如 excel表里的数据,一行一列特别明;
b、半结构的,如杭州富婆联系方式.csv,行很明显,但是列不明显;
c、完全没结构的,如 老人地铁手机.jpg快速生发洗头法.avi

3. 思路:怎么办?

3.1 ETL

(1打开冰箱,2把大象放进去,3关上冰箱门)

3.1.1 Extract 抽取,拿出来

把需要的数据源汇聚起来;

爸爸:我先直接添加了小明外婆的微信,让她尽快告诉我,小金这一天24小时分别在干什么;
再把小金生活区的摄像头影像找出来;
还要去把小金智能项圈的数据导出来,里面有小金的行程记录;
别的先放放,不够再加;

3.1.2 Transform 转换

把这些聊天记录、视频、行程 用工具,处理成容易查询的表,像excel一样的横平竖直的;

比如
相对细致的1个表:今天,小金7点吃了200g比瑞吉的狗粮,8点出去遛弯,9点和柯基犬 布丁玩了一会儿;

相对笼统的1个表:今年5月,小金一共吃了5kg狗粮,其中包含2个品牌,一共遛弯812个小时,睡觉365小时,和柯基犬布丁玩了18次共27个小时;

对应的是 不同详细程度dwd层表和dws层表

另外:外婆最近做了奇怪的梦,内容是:小金今天19点,在做物理实验,然后发明了电灯。
这是明显的脏数据会被处理掉,不会被整理进去;

3.1.3 Load 加载

爸爸:我把上面处理出来的东西,记录好放起来;

4 思路有了,那有没有合适的工具?

有,不过上面也说了,是分布式的多台设备协同工作,所以也由一群人共同管理。
这里引入Hadoop生态内的所有组件,见图

4.1 mapreduce,MR
外援项目经理:看着活儿,给大伙儿分一下;
只懂小语种,比如德语

4.2 hive
MR的贴身翻译,把 英语 翻译成MR需要的 德语

主要解决海量数据存储与计算的问题;
4.3 hbase
真社畜:可以去拿各种,还会算数的人;人家听项目经理MR的安排;
可以去看看小金每天吃多少狗粮的人;
不仅如此,还能计算 小金每个月吃了多少狗粮;

所以整个过程是:
a、我们写 英语 ,找Hive翻译;
b、Hive把 英语 翻译成 德语,传给项目经理MR;
c、MR get到 德语,安排hbase起床搬砖;

注意:其实还有别的翻译,比如Impala和Presto;

4.4 HDFS
真的很像网管,就是提供硬件支持的那个
网管帮帮忙,我的硬盘咋一直响呢?
网管来帮看看,我的键盘咋输不了中文?

5 总结

其实还有比HADOOP生态更强悍的,比如SPARK生态,但是人家的使用门槛更高些,比如说不能用英语翻译成SPARK用的小语种;

不是专门的从业人员,了解到这就够了吧;
是不是光记得杭州富婆了?

有兴趣的同学可以继续深挖;

如对您的理解有所帮助,感谢点赞、收藏;

本文如有勘误,烦请指出,非常感谢;

越努力越幸运~~;

【知识梳理】白话一下大数据治理、Hadoop生态的事情,给只想浅了解的同学参考下相关推荐

  1. 大数据之Hadoop生态系统概述

    一.什么是大数据         首先,我们来了解一下,什么是大数据?大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...

  2. 大数据与Hadoop有什么关系?大数据Hadoop入门简介

    学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...

  3. 基于Hadoop的高校大数据治理融合系统设计与实现

    本文通过深入分析体验大数据生态圈主流技术,调研分析高校常见信息化系统数据特征,以学生相关数据(如图书数据.一卡通数据.就业数据.医院数据.上网数据)为融合分析研究对象,构建了高校大数据治理融合平台.平 ...

  4. 大数据治理需要具备哪些能力和关键技术?

    在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇文 ...

  5. 大数据治理工程师_大数据治理关键技术解析(转自EAWorld)

    在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断地发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇 ...

  6. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

  7. 证券期货行业监管大数据治理方案研究

    证券期货行业监管大数据治理方案研究 蒋东兴1, 高若楠2, 王浩宇2 1. 中国证券监督管理委员会信息中心,北京 100033: 2. 中证信息技术服务有限责任公司,北京 100033 摘要:为充分发 ...

  8. 大数据治理:那些年,我们一起踩过的坑

    写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考.共分为5篇.分别是: 一.大数据治理:那些年,我们一起踩过的坑 主要讲讲数据治理工作中常见的一些误区. 二.要打仗,你手里先得有张 ...

  9. 66页3万字医疗行业大数据治理解决方案

    [版权声明]本资料来源网络,知识分享,仅供个人学习,请勿商用. [侵删致歉]如有侵权请联系小编,将在收到信息后第一时间删除! 完整资料领取见文末,部分资料内容: 目  录 1. 1.医疗行业大数据管理 ...

最新文章

  1. (C++)1045 快速排序 非满分
  2. Mathematica开始学习,
  3. oracle 11查询sid,oracle 11g 更改sid和dbname
  4. [manacher] hdu 3294 Girls#39; research
  5. tensorflow 函数查找
  6. mongodb 常用操作(转)
  7. 如何用Uber JVM Profiler等可视化工具监控Spark应用程序?
  8. BOW(opencv源码)
  9. jmeter录制脚本(针对谷歌)
  10. SQL Server 置疑修复
  11. 输入输出练习 python
  12. Ubuntu 安装磁盘分区及启动项添加
  13. python中如何用for循环语句1加到100?
  14. 关于fiddle开启https证书协议源码
  15. ASP.NET MVC 上传文件方法
  16. X电容Y电容如何选择与使用
  17. 电子凸轮追剪曲线生成算法 理解后可转成其他品牌PLC或任何一种编程语言
  18. AR大屏互动的原理是什么?可以应用在哪些场景中?
  19. 管理系统菜单父子结构,有parentId,快速获取结构树代码
  20. 怎么给tee7文章增加附加价值

热门文章

  1. PHP短信在订单通知中的应用
  2. 【JAVA】Dozer 介绍及快速入门教程
  3. 虚拟网卡不能用,物理机没有VMnet1、VMnet8(VMware)
  4. Linux Network GSO
  5. Python经典基础习题(文件与文件夹操作)
  6. 3分钟教你学会速卖通开店!干货来了!!!
  7. linux下运行的游戏(持续更新中)
  8. 2021西门子离散本科组东北赛区多部一等奖程序介绍(二)
  9. MySQL性能优化实战
  10. Overview 面板重要监控指标详解