大数据 big-data

:white_check_mark: 转载请注明出处与作者信息（如下）

原创作者：王小雷
作品出自：https://github.com/wangxiaoleiAI/big-data
联系邮件：wov@outlook.com

Star
Fork
Follow
评论 issues

最新文章：

[x] “卜算子·大数据”目录——系列文章与源码介绍,目录
[x] 1.1 Virtualbox虚拟机快速入门
[x] 1.2 Linux使用技巧快速入门
[x] 1.3 virtualbox高级应用构建本地大数据集群服务器
[x] 2.1 Hadoop伪分布式部署
[x] 2.2 Hadoop3.1.0完全分布式集群配置与部署
[x] 2.3 基于IDEA开发第一个大数据程序WordCount

项目地址 https://github.com/wangxiaoleiAI/big-data

摘要

“卜算子·大数据”是什么？

“卜算子·大数据”面向大数据生态组件编程、应用、架构，从入门到精通，让后端开发人员成为大数据开发工程师！
文章、源码怎么获取？

https://github.com/wangxiaoleiAI/big-data 该项目源码、文章开源。
努力每周日文章更新进度+1，努力构建大数据生态体系。
你将学到什么？

Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、flink…etc，大数据生态的主流技术，面向大数据（分布式计算）的编程、应用、架构。其他技术体系请关注微信公众号【从入门到精通】。

:pencil2: 该页面其余内容仍在努力构建中…

数据模式

Apache Avro

APache Parquet

存储

理论CAP、OLAP、OLTP、数据仓库

HDFS(CP)

Hbase(CP)

Cassandra(CA)

Phoenix(OLTP)

Kylin(OLAP)

服务器协调

Zookeeper

数据采集

Apcahe Sqoop

Apcahe Kafka

Apcahe Flume

数据分析、批处理系统

Apcahe Hadoop MapReuce

Apache Hive

Apache Pig

Apache Crunch

Oozie

大数据查询系统

ClickHouse

Phoenix

Presto

Impala

Druid

Kylin

Greenplum

流处理系统

Apache Samza

Apache Storm

Apache Spark　Streaming

Amazon Kinesis

Kafka Streams

Apache Flink

大数据架构

Lambda架构

Kappa架构

消息队列系统

NIO

netty

rabitMQ

Srping AMQ
想学习大数据，却不知该如何下手？

关注这个项目就对了，会从入零开始，一步步走入大数据生态，编程、应用、架构。
有不懂的如何交流？

进微信群，有志同道合小伙伴，请关注微信公众号【从入门到精通】，获取微信群。
谁在原创？

关于作者，2014年进入大数据领域,任职某股份公司技术经理，主要从事大数据相关工作。

大数据完整知识体系原创分享，长按关注微信公众号【从入门到精通】，进群交流、获取一手更新资讯。

[x] 摘要

第I部分为大数据做基础准备

第1章开门见山

[x] 1.1 Virtualbox虚拟机快速入门
[x] 1.2 Linux使用技巧快速入门
[x] 1.3 virtualbox高级应用构建本地大数据集群服务器

第II部分分布式计算应用构建与编程

第2章 Hadoop初步入门

[x] 2.1 Hadoop伪分布式部署
[x] 2.2 Hadoop3.1.0完全分布式集群配置与部署
[x] 2.3 基于IDEA开发第一个大数据程序WordCount

第3章 Sqoop从关系型数据库中获取数据

[ ] 3.1 Sqoop快速搭建
[ ] 3.2 实战Sqoop从Mysql中导出数据

第4章 Spark核心组件

[ ] 4.1 Spark超快入门——开发第一个spark应用程序
[ ] 4.2 Spark RDD，Spark SQL应用
[ ] 4.3 实战Spark基于Hadoop yarn发布应用

第5章 Zookeeper了解一下

[ ] 5.1 Zookeeper 了解一下

第6章 Hbase应用

[ ] 6.1 超快入门Hbase
[ ] 6.2 Hbase数据范式

第7章 Kafka应用

第III部分大数据应用架构

第8章批处理——大数据应用架构

第9章实时处理——大数据应用架构

附录

[ ] 附录A Debian/Ubuntu18.04开发环境完美配置

项目起始：2018.06.11-晚

“卜算子·大数据”学习系列原创文章、源码——从入门到精通相关推荐

大数据毕设系列项目说明【源码+论文】
文章目录 1 项目下载步骤 2 项目包含内容 3 样例展示 4 代码样例 1 项目下载步骤 Hi,大家好,这里是学长开发的大数据可视化项目系列,大家可以用于自己的课设或毕设,可以灵活耦合任意数据,为自 ...
大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法
大数据学习系列之八----- Hadoop.Spark.HBase.Hive搭建环境遇到的错误以及解决方法参考文章: (1)大数据学习系列之八----- Hadoop.Spark.HBase.Hiv ...
大数据学习系列：Hadoop3.0苦命学习（五）
传送门: 大数据学习系列:Hadoop3.0苦命学习(一) 大数据学习系列:Hadoop3.0苦命学习(二) 大数据学习系列:Hadoop3.0苦命学习(三) 大数据学习系列:Hadoop3.0苦命学 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习系列----大数据项目的思考
2019独角兽企业重金招聘Python工程师标准>>> 最近做了一个大数据可视化的项目,目前阶段还仅仅对我们关心的指标做一些年度,季度,月度维度的汇总和展示,提供了简单的纵向横向的指 ...
大数据学习系列：Hadoop3.0苦命学习（一）
传送门: 大数据学习系列:Hadoop3.0苦命学习(一) 大数据学习系列:Hadoop3.0苦命学习(二) 大数据学习系列:Hadoop3.0苦命学习(三) 大数据学习系列:Hadoop3.0苦命学 ...
大数据学习系列：Hadoop3.0苦命学习（七）
传送门: 大数据学习系列:Hadoop3.0苦命学习(一) 大数据学习系列:Hadoop3.0苦命学习(二) 大数据学习系列:Hadoop3.0苦命学习(三) 大数据学习系列:Hadoop3.0苦命学 ...
24.大数据学习之旅——spark手把手带你入门
Spark介绍 Apache Spark™ is a fast and general engine for large-scale data processing. Spark Introduce ...
Vue使用ECharts完成2020年全国各地区GDP总量大数据可视化面板（附源码）
就在上周全国各地区GDP总量上了热搜,一时兴起就想写个大数据面板展示既然决定要写,那么就要考虑到图表和图标的使用,这里我是用了我最熟悉的两大框架ECharts和element-ui 一.我的构思步骤 ...

“卜算子·大数据”学习系列原创文章、源码——从入门到精通

大数据 big-data

项目地址 https://github.com/wangxiaoleiAI/big-data

摘要

:pencil2: 该页面其余内容仍在努力构建中…

数据模式

存储

服务器协调

数据采集

数据分析、批处理系统

大数据查询系统

流处理系统

大数据架构

消息队列系统

大数据完整知识体系原创分享，长按关注微信公众号【从入门到精通】，进群交流、获取一手更新资讯。

第I部分 为大数据做基础准备

第1章 开门见山

第II部分 分布式计算应用构建与编程

第2章 Hadoop初步入门

第3章 Sqoop从关系型数据库中获取数据

第4章 Spark核心组件

第5章 Zookeeper了解一下

第6章 Hbase应用

第7章 Kafka应用

第III部分 大数据应用架构

第8章 批处理——大数据应用架构

第9章 实时处理——大数据应用架构

附录

“卜算子·大数据”学习系列原创文章、源码——从入门到精通相关推荐

最新文章

热门文章

第I部分为大数据做基础准备

第1章开门见山

第II部分分布式计算应用构建与编程

第III部分大数据应用架构

第8章批处理——大数据应用架构

第9章实时处理——大数据应用架构