大数据主要学些什么?(大数据学习路线图)
在程序员的赛道上,也不只是有Java、Python和前端,大数据也是一个不错的就业方向。
不同于其他赛道,大数据这个岗位因为本身学习有难度,毕竟对学历有一定的要求(本科及以上),所以目前这个岗位的需求大,想尝试的可以了解下。
着重说一下大数据需要学些什么内容:
大数据学习路线图
- 一、Python基础编程
- 主要内容:
- 可掌握的核心能力
- 二、Python编程进阶
- 主要内容:
- 可掌握的核心能力
- 三、SQL基础
- 主要内容
- 可掌握的核心能力
- 四、ETL实战
- 主要内容
- 可掌握的核心能力
- 五、Hadoop技术栈
- 主要内容
- 可掌握的核心能力
- 六、千亿级离线数仓项目
- 主要内容
- 可掌握的核心能力
- 七、千亿级离线数仓项目实战
- 主要内容
- 可掌握的核心能力
- 八、Spark技术栈
- 主要内容
- 可掌握的核心能力
- 九、PB级内存计算项目
- 主要内容
- 可掌握的核心能力
- 十、NoSQL&消息中心
- 主要内容
- 可掌握的核心能力
- 十一、用户画像解决方案
- 主要内容
- 可掌握的核心能力
- 十二、Flink技术栈
- 主要内容
- 可掌握的核心能力
- 十三、亚秒级实时计算项目
- 主要内容
- 可掌握的核心能力
一、Python基础编程
主要内容:
Python基础语法· Python数据处理· 函数· 文件读写· 异常处理· 模块和包
可掌握的核心能力
- 掌握Python开发环境基本配置;
- 掌握运算符、表达式、流程控制语句、数组等的使用;
- 掌握字符串的基本操作;
- 初步建立面向对象的编程思维;
- 熟悉异常捕获的基本流程及使用方式;
- 掌握类和对象的基本使用方式。
二、Python编程进阶
主要内容:
面向对象· 网络编程· 多任务编程· 高级语法· Python编程综合项目
可掌握的核心能力
- 掌握网络编程技术,能够实现网络通讯;
- 知道通讯协议原理;
- 掌握开发中的多任务编程实现方式;
- 知道多进程多线程的原理。
三、SQL基础
主要内容
MySQL与SQL· Kettle与BI工具· Pymysql
可掌握的核心能力
- 掌握MySQL数据库的使用;
- 掌握SQL语法;
- 掌握Kettle数据迁移工具的使用;
- 熟练使用BI可视化工具;
- 对数据开发有一定认知,掌握BI工程师所具备的基本技能。
四、ETL实战
主要内容
ETL概念与工具· Python ETL实战· BI
可掌握的核心能力
- 掌握ETL的相关概念;
- 掌握基于Python语言完成ETL任务开发实战;
- 基于ETL实战锻炼Python编程能力,包括(元数据管理、数据模型、项目配置、单元测试、工具方法抽取等);
- 掌握BI数据分析实战。
五、Hadoop技术栈
主要内容
Linux· 大数据基础和硬件介绍· Zookeeper· HDFS· MapReduce· YARN· Hive基础· Hive高阶
可掌握的核心能力
- 掌握Linux常用命令,为数据开发后续学习打下的良好基础;
- 掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群;
- 掌握Hive的使用和调优;
- 具备Hadoop开发能力、离线数据仓库开发能力;
- 能够完成基本构建企业级数仓。
六、千亿级离线数仓项目
主要内容
大数据部署运维:Cloudera Manager· 分析决策需求:数据仓库· 数据采集:sqoop· 数据分析:Hive· 历史数据快照:拉链表· 数据更新后的统计分析:拉链表· 数据调度:oozie+shell· OLAP系统存储:MySQL· FineBI数据展示
可掌握的核心能力
- 掌握零售行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
- 行业内首个深度使用Presto的项目;
- 包括海量数据场景下如何优化配置;
- 拉链表的具体应用;
- 新增数据和更新数据的抽取和分析;
- 提供新零售大型商超集团的数据存储分析以及服务监控方案。
七、千亿级离线数仓项目实战
主要内容
大数据部署运维:Cloudera Manager· 分析决策需求:数据仓库· 数据采集:sqoop· 数据分析:Hive+presto· 历史数据快照:拉链表· 数据更新后的统计分析:拉链表· 数据调度:ds· OLAP系统存储:MySQL· FineBI数据展示
可掌握的核心能力
- 掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
- 真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力;
- 包括海量数据场景下如何优化配置;
- 拉链表的具体应用;
- 新增数据和更新数据的抽取和分析;
- Hive函数的具体应用;
- ClouderaManager可视化、自动部署和配置、Git、CodeReview功能。
八、Spark技术栈
主要内容
Pandas基础· Pandas数据处理实战· Spark基础· Spark Core· Spark SQL· SparkSQL案例
可掌握的核心能力
- 掌握Spark的RDD、DAG、CheckPoint等设计思想;
- 掌握SparkSQL结构化数据处理,Spark On Hive;
- 掌握Structured Streaming整合多数据源完成实时数据处理;
- 具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。
九、PB级内存计算项目
主要内容
项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化。
可掌握的核心能力
- 快速搭建保险行业大数据平台;
- 基于Hive+Spark SQL搭建离线数据仓库;
- 基于SparkSQL应对轻松应对复杂的迭代计算;
- 完成基于国内头部保险公司大数据项目开发;
- 掌握基于Spark分析12亿报单表和8千万客户等数据;
- 对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。
十、NoSQL&消息中心
主要内容
万亿级NoSQL海量数据存储· Flume实时数据采集· 分布式流处理平台· Spark Structured Streaming· NoSQL社交场景大数据分析实战
可掌握的核心能力
- 掌握Redis原理及架构;
- 掌握Redis命令操作、及数据结构;
- 掌握HBase原理及架构;
- 掌握HBase命令操作、MapReduce编程;
- 掌握Phoneix二级索引优化查询;
- 掌握ELK开发掌握Kafka原理及架构;
- 掌握Flume原理及架构;
- 掌握HBase原理及架构;
- 掌握HBase命令操作、MapReduce编程;
- 掌握Phoneix二级索引优化查询;
- 掌握ELK开发掌握Kafka原理及架构。
十一、用户画像解决方案
主要内容
1SparkSQL整合ES自定义数据源· DS任务界面化调度· 用户画像标签构建规则· 用户画像规则类标签构建· 用户画像统计类标签构建
可掌握的核心能力
- SparkSQL整合ES自定义数据源;
- DS任务界面化调度;
- 用户画像标签构建规则;
- 用户画像规则类标签构建;
- 用户画像统计类标签构建。
十二、Flink技术栈
主要内容
Flink Core· Flink DataStream· Flink SQL· Flink Runtime· Flink高级· Flink电商案例实战
可掌握的核心能力
- 掌握基于Flink进行实时和离线数据处理、分析;
- 掌握基于Flink的多流并行处理技术;
- 掌握千万级高速实时采集技术。
十三、亚秒级实时计算项目
主要内容
Hive· HBase· HDFS数据存储· Kafka数据传输· Flink全栈数据处理· Nginx做反向代理· LSV和Keepalived负载均衡和高可用
可掌握的核心能力
- 掌握基于Flink全栈进行快速OLAP分析;
- 掌握实时高性能海量数据分析与存储;
- 掌握针对HBase调优实现HBase存储调优;
- 掌握数据报表分析;
- 掌握业务数据实时大屏场景实现。
大数据主要学些什么?(大数据学习路线图)相关推荐
- java前沿技术_互联网百强企业架构师告诉你,Java应该这么学!云和数据超全面Java中级程序员学习路线图重磅发布!...
作为常居编程语言排行榜第一名的编程语言,Java语言以其稳定性.健壮性著称,是一门非常成熟的编程语言,多年来一直是国际上众多企业的首选编程语言. Java语言不仅吸收了C++语言的各种优点,还摒弃了C ...
- 分析股票大数据_Python大数据分析量学祖师爷网站数据
本文通过Python抓取股海明灯涨停预报数据进行分析,股海明灯网站涨停预报数据跟踪 功能是需要VIP权限,但这个权限分析数据的功能有限,我们抓取数据后丰富相关功能. 一. 点击涨停预报后打开以下页面. ...
- 暨大计算机研学教育,暨大数学复试线平台,统计学
暨大数学复试线平台 研学长考研是中国大的考研专业课资料平台.拥有覆盖范围考研最广的院校专业数据库以及专业程度最高的考研复习指导服务团队,涵盖考研路上所需的全部专业课相关信息.资料,为考生的考研专业课复 ...
- HTML5大前端全套教程(视频+源码+学习路线图)
在不知不觉中,前端工程师火了.甚至很多人都不知道为什么这样一个职位会这么火,市场的供不应求直接导致前端工程师的待遇提高. 另外一方面就是前端技术的更新迭代,导致大部分技术人员跟不上.因此越来越多的人想 ...
- 零基础学软件测试需要学什么?附全套学习路线图+课程
零基础学软件测试需要学什么?对于初学者应该有一个系统的认知,需要学习测试基础.Linux和数据库.功能测试.Python编程.WEB自动化测试.移动端自动化测试.接口测试.性能测试等相关知识.接下来我 ...
- 零基础大数据应该学什么
大数据应该学什么?如果是有基础就根据个人情况来定,如果是零基础想学习大数据,大数据应该学什么?大数据要学的东西有很多,下面列举了一些学习大数据就该学习的技术,许多想学习大数据不知道大数据应该学什么的, ...
- 大数据培训哪家好?大数据都学什么?
大数据都学什么?大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的 ...
- 计算机大作业论文意义,大学的大作业是什么?
原标题:大学的大作业是什么? 大学里面的大作业一般就是课程设计之类的,一些老师会让学生做些课外实践的作业,作为平时成绩的一部分大作业听起来很高大上,然而好多课程其实只是一篇论文.论文类的就是有点水的了 ...
- 云计算和python学哪个_大数据、云计算该如何学习?
大数据之Linux+大数据开发篇 阶段一.大数据.云计算 - Hadoop大数据开发技术 课程一.大数据运维之Linux基础 本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习H ...
最新文章
- android+tv+自动切换,Android TV 重写GridView,实现焦点放大效果
- 贝叶斯定理核心在后验概率是对先验概率的修正,即后验概率是描述来自先验概率的概率
- day01 js三种导入html的方法、js书写规范、变量的基本使用、变量提升
- python怎么调用文件_python 中如何引用头文件
- 利用JQuery jsonp实现Ajax跨域请求 .Net 的*.handler 和 WebService,返回json数据
- jquery自动点击按钮
- 在N + 1场景中使用@NamedEntityGraph更有选择地加载JPA实体
- mysql的入门基础操作
- centos设置时间时区
- fps游戏 三角函数+模拟
- Delphi中@,^,#,$特殊符号意义
- 如何看懂财务报表:(一)如何下载财报
- 抖音多画面分屏PR分屏预设 横板竖版手机短视频分屏效果PR预设下载
- 微淘客推广技巧,教你如何用微信公众号淘客引流技巧
- UnReal与Unity游戏引擎对比分析
- 阿里数据仓库架构与模型设计
- 《迷途深渊》隐私声明
- Windows编程 Windows程序的生与死(下)
- C#毕业设计——基于C#+asp.net+sqlserver的校园新闻发布系统设计与实现(毕业论文+程序源码)——新闻发布系统
- java process 乱码_Java常见乱码原理及解决方案