一名数据仓库工程师的自我修养
一名数据仓库工程师的自我修养
- 第一次写文章
- 该学的一些技术框架(注意,是必须要会啊。至于怎么学,之后帖子会写的。)
- 第一部分:首先是工具类的介绍(划重点,要考的!!!!!!!)
- 第二部分:编程语言类
- 第三部分:数据仓库建模理论
- 一、模型设计
- 二、数仓分层
- 第四部分:BI工具类
- 第五部分:数据质量监控和元数据管理
- 第六部分:结合实际的业务进行数据仓库建模(划重点!!!!!!)
- 简单写个总结吧
第一次写文章
首先自我介绍一下吧。本人是一名在上海工作的数据仓库工程师。其他工作单位什么的,就不透露了啊。这也是我第一次写文章。那第一次,也不写很多详细的技术吧。主要还是聊一聊数据仓库要学一些什么东西吧。
该学的一些技术框架(注意,是必须要会啊。至于怎么学,之后帖子会写的。)
那么现在的数据仓库啊,主要是基于Hadoop的hive搭建的。当然还有很多其他的组件,主要要学习的知识点呢,有以下这些:
- 工具类(类似于hadoop那些个组件什么的)
- 语言类(java什么的)
- BI工具(比如tableau什么的)
- 数据仓库建模理论。
- 数据质量监控和元数据管理。
- 结合实际的业务进行数据仓库建模。
第一部分:首先是工具类的介绍(划重点,要考的!!!!!!!)
- Hadoop(不用多说了吧)
- HDFS(分布式文件系统,必须要会的,一切的基石)
- YARN(资源调度框架,这是Hadoop2.X新增的东西,要会掌握)
- HIVE(基于Hadoop的数据仓库框架,重中之重啊,一定要精通!!!!!!!!!!)
- HBASE(基于Hadoop的面向列的开源数据库)
- sqoop(介于关系型数据库和HDFS之间数据传输的ETL工具)
- flume(数据采集工具)
- kafka(消息队列)
- spark(基于内存的分布式计算框架,RDD)
- flink(现在非常火的实时计算框架)
- impala(基于CDH的一种快速查询引擎)
- oozie或者azkaban(任务调度系统)
- MySQL数据库(生产的业务数据几乎都是存MySQL的,工作过的都知道,不多说了)
- elasticsearch(结合ELK使用的,是加分项)
- MongoDB和redis(主流的nosql数据库,也是加分项)
小伙伴们看到上面的那么多东西,是不是已经懵逼了?没事,老哥我刚开始学习的时候也是懵逼的,但是你们要庆幸,因为你们遇到了我。我会给你们做一个非常系统的数据仓库学习。(实时问答的那种的哦!!!!!最后我会贴上我的QQ群,大家一起学习)
顺带送给你们一张大致的架构图
第二部分:编程语言类
- java(最通用,应用最广的语言,没有之一,学好java,走遍天下都不怕)
- Python(现在很火的语言,不管是数据分析,数据处理,写脚本,都是很好的,开发起来也快速,要学的)
- shell(基于Linux的脚本语言,必须要会啊,不然你们连最基础的安装Hadoop都搞不定)
- scala(加分项,会之前三门语言,你已经是大牛了,当然会Scala当然最好啦,不会也没事的。)
- SQL或者说是HQL(这个一定要玩得很溜啊,做离线的数据仓库至少一半时间是在写这个东西啊!!!!!!!!!!)
为啥我说HQL是重中之重呢,因为我们做数仓的,很多时候都在写HQL(当然不是说其他的不重要啊)。而且很多知识点非常重要:
- HQL的优化(也就是mapreduce的优化),数据倾斜了怎么办。一定要会啊!!!!!!
- 窗口函数,row_number rank这种,必须要会的。
- 各种排序,order by ,sort by, distribute by都要会啊。
- 还有很多实际案例,以后我在展开说啊。
第三部分:数据仓库建模理论
这个呢,内容很多了,一时半会也说不清楚啊。我这里呢,给各位简单的说一下,数据仓库建模主要分2块。第一部分是模型设计,第二部分是数仓分层。(当然,这些建模的理论,都是必须基于业务的,不然所有建出来的模型,都是然并卵)
一、模型设计
模型设计呢有很多,主要是以下这几种。
- ER建模。
- 维度建模。(星型模型和雪花模型,工作中用得最多的就是这2中建模方法啊)
- data vault建模。
顺带送上2张星型模型和雪花模型的大致示意图,免得新手小白看的一脸闷逼,不知道我在说啥。
二、数仓分层
一般来说呢,我们最最通用的数据仓库分4层。(当然,也有很多大公司分七八层的也有啊,我这里给的仅仅是最通用的解决方案)
- ODS层(和生产保持一致,不做数据清洗)
- DWD层(进行维度建模,顺便数据清洗)
- DWS层(进行适当的聚合,以满足不同业务的数据需求)
- DM层(数据集市层,也可以理解为大宽表,按照主题划分的。这里所说的主体,可以是根据业务来划分,也可以根据部门来划分)
第四部分:BI工具类
那数据整理完了,是不是要展示了啊。很多人会问,BI是干嘛的,BI就是用来做OLAP分析,还有数据可视化的,非常好用的一个东西。那么一般情况下呢,是买一个BI工具(因为可以省去很多开发人员,算下来还是买一个BI工具省钱)
- tableau
- finebi
- cognos
- powerbi
排名不分先后,市面上用的最多的呢,是前面2个产品,官网都有试用的啊,自己去下载就行。
第五部分:数据质量监控和元数据管理
这个2东西可就麻烦喽。这个2个东西,可以说是数据仓库里面最难,也是最有挑战性的工作。今天我就不多说了啊,怕有人打退堂鼓。以后我会专门写几篇文章,好好说说这一块怎么做。
第六部分:结合实际的业务进行数据仓库建模(划重点!!!!!!)
为什么我说这一部分要划重点。因为所有不基于业务的技术,都是耍流氓。尤其是我们做数据仓库的,你服务不了业务,自己拍脑袋,那完全就是扯淡。而且很多公司面试的时候,可以说50%的面试时间,都会问你的项目经验,所以非常重要啊。要结合实际业务给出切实可行的解决方案。
简单写个总结吧
这也是我第一次写技术文章啊。有很多地方还有不足。但是呢,做数据仓库要回的知识点,我大致都说了,如果有遗漏的,欢迎大家提出啊。因为今天也比较晚了,可能会有漏掉的知识点。
最后呢,我贴上我的QQ群号,大家可以一起讨论Hadoop技术,不光是数据仓库啊,还有很多数据中台开发啊,流计算啊,机器学习啊,数据分析啊。都有。更有很多一线大厂的大佬指点迷津哦,欢迎大家一起来学习讨论。
QQ群号:766742846
一名数据仓库工程师的自我修养相关推荐
- 《一名网络工程师的自我修养》-Console 、VTY 用户界面、SSH访问配置
Console 用户界面配置(console用户就是通过串口连接的用户) 华为(VRP)配置 [LSW1] user-interface console 0 [LSW1-ui-console0] au ...
- 《一名网络工程师的自我修养》--子网划分
判断是否属于同一网络: 方法1: 2进制展开查看网络号是否相同,而不是看十进制. 方法2: 查看范围: 192.168.12.0/22 网络位 | 主机位 11000000.10101000.0000 ...
- oCPC实践录 | 广告算法工程师的自我修养
这是AITBOOK的第31篇原创文章 2019年即将过去,2020年马上到来,在这个时候做一下总结,发一下展望是最合适不过的.2019年互联网广告的发展已有人总结为令人失望,2020年估计也好不到哪 ...
- 持续测试下测试工程师的自我修养
在持续测试不断实施的情况下,测试方法论.测试实践.测试技术都在快速发展和迭代,因此对于每一位测试工程师来说,持续学习就变成一个不得不说的话题.下面将从测试理论基础知识点出发,介绍持续测试下测试工程师的 ...
- 一名校招求职者的自我修养(文字版汇总)
大家好,我是Jerish,网易游戏高级客户端开发工程师.最近借着本科导员找我为学弟学妹们分享找工作经验的这个契机,我把近年来的求职经验做一个非常详细和全面的梳理和总结,以视频的形式给大家分享出来. B ...
- 《Web全栈工程师的自我修养》读书笔记
<Web全栈工程师的自我修养>读书笔记 [声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://w ...
- 一名校招求职者的自我修养(文字版上)
大家好,我是Jerish,网易游戏高级客户端开发工程师.最近借着本科导员找我为学弟学妹们分享找工作经验的这个契机,我把近年来的求职经验做了一个非常详细和全面的梳理和总结,以视频的形式给大家分享出来. ...
- 免费下载!《阿里工程师的自我修养》公开10位阿里大牛解决问题的思维方式
简介: 今天,阿里技术公布一波阿里P8.P9技术大牛的思维模型,将他们的思维模式呈现出来.你可以在阿里资深专家职业生涯的真切感悟中,找到应对危机的最佳方法.<阿里工程师的自我修养>现已正式 ...
- AI工程师的自我修养
原创:晏茜 资料来源:Lee AI 行业如今是一个炙手可热的行业,也许有一些正从事或曾经从事于其他行业的同学,希望能有一个更好的职业选择,而 AI 行业正如火如荼的发展,他们想加入 AI 发展的浪潮, ...
最新文章
- android R文件丢失解决方法
- matplotlib画图
- Linux进程查看与管理
- 设置Windbg符号文件路径
- python读取excle表格数据,将数据编辑到图像上工程
- Tomcat类加载器为何违背双亲委派模型
- HTML批量转换jpg,html转换为图片(html to jpg)
- excel中最常用的30个函数_94个Excel常用函数目录
- 2万字总结《MybatisPlus—为简化开发而生》
- dropdownlist中DataTextfield与DataValue的区别
- 电子罗盘在终端的应用
- 某跳动面试官:说说微信扫码登录背后的实现原理?
- Java整合极光推送
- 求最大公约数,最小公倍数
- Crossbar技术冲破网络容量瓶颈
- JVM 面试 4 连炮,你能顶住么?
- Hololens2项目基础开发
- linux下分区ntfs,简易教程:Linux下NTFS分区的写操作
- StringTokenizer类的用法
- 某我音乐网站JS逆向扣代码+Python一键下载
热门文章
- Android推特图片保存路径,从twitter获取个人资料图片图像使用解析推特登录为Android...
- 计算机如何与机顶盒连接网络连接网络连接,如何将机顶盒连接到计算机
- java 自动识别邮箱服务器类型_Java实现通过smtp服务器验证邮箱的真实有效性
- PHP打包下载zip文件
- 水泵泵宝显示下池缺水但是水池水很满_水泵控制器不能自动怎么办 显示下池缺水如何处...
- 312. 戳气球(区间dp)
- Python--抽奖概率统计测试
- 人心惶惶:利用新西兰特大枪击案进行网络钓鱼攻击的前因后果
- 虚幻4地形怎么增加层_虚幻周报20200114 | 新春快乐!
- 知网下载的PDF论文,如何加目录的方法