【知识梳理】白话一下大数据治理、Hadoop生态的事情,给只想浅了解的同学参考下
声明
本文仅整理给需要了解的同学,从业人士想要的更多细节,统统没有;
本文以常聊的HADOOP生态纯白话为主,就不扯Postgre、Oracl这些了;
内容整理出视频教程和社区,如有手误,烦请指正哦;
1. 是什么?
目前,大家的意思,主要是指
通过管理大体量数据,更好更快的满足数据查询;
2. 为什么?举几个关键点
2.1 查数据太费劲
主要的原因是,我们平时用MySQL数据库,增加、修改、查询用得更多;
但,已经有很多数据时,用老法子的话,查询一次几天过去了,还会死给你看;
极端例子意会一下:
你问你爸:能不能帮我问问老师,我的同桌小明住哪?然后把我向他借的课本还他?
你爸:好呀宝贝;
你又问:爸爸,我的同桌小明的外婆家,养了只叫小金的金毛狗。
我超喜欢小金,小金今天中午十二点在干什么?前天中午十二点呢?大前天中午十二点呢?
这些天分别吃了哪些品牌的狗粮?
每个牌子分别吃了多少克?
你爸:?
2.2 又要好又要省钱
如果想要那么好的性能,那就需要很好的设备呀,可是好设备好贵好贵好贵啊;
那么,我们用多台廉价设备,来顶一台高配置设备;
就是三个臭皮匠顶个诸葛亮,哦不对,这叫 分布式,每个臭皮匠叫一个 节点;
2.3 要兼容多种数据结构
3类结构的多种文件格式:
a、结构的,如 excel表里的数据,一行一列特别明;
b、半结构的,如杭州富婆联系方式.csv,行很明显,但是列不明显;
c、完全没结构的,如 老人地铁手机.jpg、快速生发洗头法.avi;
3. 思路:怎么办?
3.1 ETL
(1打开冰箱,2把大象放进去,3关上冰箱门)
3.1.1 Extract 抽取,拿出来
把需要的数据源汇聚起来;
爸爸:我先直接添加了小明外婆的微信,让她尽快告诉我,小金这一天24小时分别在干什么;
再把小金生活区的摄像头影像找出来;
还要去把小金智能项圈的数据导出来,里面有小金的行程记录;
别的先放放,不够再加;
3.1.2 Transform 转换
把这些聊天记录、视频、行程 用工具,处理成容易查询的表,像excel一样的横平竖直的;
比如
相对细致的1个表:今天,小金7点吃了200g比瑞吉的狗粮,8点出去遛弯,9点和柯基犬 布丁玩了一会儿;
相对笼统的1个表:今年5月,小金一共吃了5kg狗粮,其中包含2个品牌,一共遛弯812个小时,睡觉365小时,和柯基犬布丁玩了18次共27个小时;
对应的是 不同详细程度的dwd层表和dws层表
另外:外婆最近做了奇怪的梦,内容是:小金今天19点,在做物理实验,然后发明了电灯。
这是明显的脏数据会被处理掉,不会被整理进去;
3.1.3 Load 加载
爸爸:我把上面处理出来的东西,记录好放起来;
4 思路有了,那有没有合适的工具?
有,不过上面也说了,是分布式的多台设备协同工作,所以也由一群人共同管理。
这里引入Hadoop生态内的所有组件,见图
4.1 mapreduce,MR
外援项目经理:看着活儿,给大伙儿分一下;
只懂小语种,比如德语;
4.2 hive
MR的贴身翻译,把 英语 翻译成MR需要的 德语 ;
主要解决海量数据存储与计算的问题;
4.3 hbase
真社畜:可以去拿各种,还会算数的人;人家听项目经理MR的安排;
可以去看看小金每天吃多少狗粮的人;
不仅如此,还能计算 小金每个月吃了多少狗粮;
所以整个过程是:
a、我们写 英语 ,找Hive翻译;
b、Hive把 英语 翻译成 德语,传给项目经理MR;
c、MR get到 德语,安排hbase起床搬砖;
注意:其实还有别的翻译,比如Impala和Presto;
4.4 HDFS
真的很像网管,就是提供硬件支持的那个
网管帮帮忙,我的硬盘咋一直响呢?
网管来帮看看,我的键盘咋输不了中文?
5 总结
其实还有比HADOOP生态更强悍的,比如SPARK生态,但是人家的使用门槛更高些,比如说不能用英语翻译成SPARK用的小语种;
不是专门的从业人员,了解到这就够了吧;
是不是光记得杭州富婆了?
有兴趣的同学可以继续深挖;
如对您的理解有所帮助,感谢点赞、收藏;
本文如有勘误,烦请指出,非常感谢;
越努力越幸运~~;
【知识梳理】白话一下大数据治理、Hadoop生态的事情,给只想浅了解的同学参考下相关推荐
- 大数据之Hadoop生态系统概述
一.什么是大数据 首先,我们来了解一下,什么是大数据?大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...
- 大数据与Hadoop有什么关系?大数据Hadoop入门简介
学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...
- 基于Hadoop的高校大数据治理融合系统设计与实现
本文通过深入分析体验大数据生态圈主流技术,调研分析高校常见信息化系统数据特征,以学生相关数据(如图书数据.一卡通数据.就业数据.医院数据.上网数据)为融合分析研究对象,构建了高校大数据治理融合平台.平 ...
- 大数据治理需要具备哪些能力和关键技术?
在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇文 ...
- 大数据治理工程师_大数据治理关键技术解析(转自EAWorld)
在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断地发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇 ...
- Hadoop专业解决方案-第1章 大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...
- 证券期货行业监管大数据治理方案研究
证券期货行业监管大数据治理方案研究 蒋东兴1, 高若楠2, 王浩宇2 1. 中国证券监督管理委员会信息中心,北京 100033: 2. 中证信息技术服务有限责任公司,北京 100033 摘要:为充分发 ...
- 大数据治理:那些年,我们一起踩过的坑
写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考.共分为5篇.分别是: 一.大数据治理:那些年,我们一起踩过的坑 主要讲讲数据治理工作中常见的一些误区. 二.要打仗,你手里先得有张 ...
- 66页3万字医疗行业大数据治理解决方案
[版权声明]本资料来源网络,知识分享,仅供个人学习,请勿商用. [侵删致歉]如有侵权请联系小编,将在收到信息后第一时间删除! 完整资料领取见文末,部分资料内容: 目 录 1. 1.医疗行业大数据管理 ...
最新文章
- (C++)1045 快速排序 非满分
- Mathematica开始学习,
- oracle 11查询sid,oracle 11g 更改sid和dbname
- [manacher] hdu 3294 Girls#39; research
- tensorflow 函数查找
- mongodb 常用操作(转)
- 如何用Uber JVM Profiler等可视化工具监控Spark应用程序?
- BOW(opencv源码)
- jmeter录制脚本(针对谷歌)
- SQL Server 置疑修复
- 输入输出练习 python
- Ubuntu 安装磁盘分区及启动项添加
- python中如何用for循环语句1加到100?
- 关于fiddle开启https证书协议源码
- ASP.NET MVC 上传文件方法
- X电容Y电容如何选择与使用
- 电子凸轮追剪曲线生成算法 理解后可转成其他品牌PLC或任何一种编程语言
- AR大屏互动的原理是什么?可以应用在哪些场景中?
- 管理系统菜单父子结构,有parentId,快速获取结构树代码
- 怎么给tee7文章增加附加价值