客快物流大数据项目学习框架

前言

利用框架的力量，看懂游戏规则，才是入行的前提

大多数人不懂，不会，不做，才是你的机会，你得行动，不能畏首畏尾

选择才是拉差距关键，风向，比你流的汗水重要一万倍，逆风划船要累死人的

上面这些看似没用，但实际很重要，这里我就不再具体说明，感兴趣的同学可以看看我的大数据学习探讨话题：

学习框架的重要性

我是怎么坚持学习的

怎么确定学习目标

这个栏目为缺少项目的同学全面整理的客快物流大数据项目逻辑，内容是按基础环境搭建到项目架构设计，带你从基础到架构实战，想学会就得自律加坚持，赶快行动吧。

一、项目简介

本项目基于大型物流公司研发的智慧物流大数据平台，该物流公司是国内综合性快递、物流服务商，并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局，拥有大规模的客户群，日订单达上千万，如此规模的业务数据量，传统的数据处理技术已经不能满足企业的经营分析需求。该公司需要基于大数据技术构建数据中心，从而挖掘出隐藏在数据背后的信息价值，为企业提供有益的帮助，带来更大的利润和商机

该大数据项目主要围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据、信息等。通过大数据分析可以提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求，实现快速、高效、经济的物流，并针对数据分析结果，提出具有中观指导意义的解决方案

物流大数据可以根据市场进行数据分析，提高运营管理效率，合理规划分配资源，调整业务结构，确保每个业务均可盈利。根据数据分析结果，规划、预计运输路线和配送路线，缓解运输高峰期的物流行为，提高客户的满意度，提高客户粘度。

二、功能介绍

业务系统数据主要存放到Oracle和Mysql数据库中，比如CRM系统数据在Mysql，OMS系统数据存放在Oracle中
OGG增量同步Oracle数据库的数据，Canal增量同步Mysql数据库的数据
OGG及Canal增量抽取的数据会写入到Kafka集群，供实时分析计算程序消费
实时分析计算程序消费kafka的数据，将消费出来的数据进行ETL操作
为了方便业务部门对各类单据的查询，StructureStreaming流式处理系统将数据经过JOIN处理后，将数据写入到Elastic Search中
StructureStreaming流处理会将数据写入到ClickHouse，Java Web后端直接将数据查询出来进行展示
StructureStreaming将实时ETL处理后的数据同步更新到Kudu中，方便进行数据的准实时分析、查询。Impala对kudu数据进行分析查询
前端应用对数据进行可视化展示

三、项目背景

本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司是国内综合性快递、物流服务商，并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局，拥有大规模的客户群，日订单达上千万。以下列举了国内的几家物流公司某个月份的数据：

如此规模的业务数据量，传统的数据处理技术已经不能满足企业的经营分析需求。该公司需要基于大数据技术构建数据中心，从而挖掘出隐藏在数据背后的信息价值，为企业提供有益的帮助，带来更大的利润和商机。而自2012年，国家已陆续出台相关的产业规划和政策，也从侧面推动了大数据产业的发展。

该大数据项目主要围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据、信息等。通过大数据分析可以提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求，实现快速、高效、经济的物流，并针对数据分析结果，提出具有中观指导意义的解决方案。

物流大数据可以根据市场进行数据分析，提高运营管理效率，合理规划分配资源，调整业务结构，确保每个业务均可盈利。根据数据分析结果，规划、预计运输路线和配送路线，环节运输高峰期的物流行为，提高客户的满意度，提高客户粘度。

四、服务器资源规划

因服务器资源有限，该项目采用两台服务器进行演示，每台服务器配置如下：

用途	主机名	操作系统/版本	IP	内存	硬盘
业务系统服务器	node1	Centos/7.5.1804	192.168.88.10	3GB	40G
大数据服务器	node2	Centos/7.5.1804	192.168.88.20	12GB	60G

使用到的软件信息：

服务器	node1	node2
Docker	√
Oracle（11g）	√
OGG	√
MySql 5.7	√
Canal	√
Hadoop		√
Spark		√
Kafka		√
ClickHouse		√
ElasticSearch		√
Kudu		√
Azkaban		√
Impala		√
HUE		√

五、技术亮点及价值

基于Docker搭建异构数据源，还原企业真实应用场景
以企业主流的Spark生态圈为核心技术，例如：Structure Streaming
Azkaban定时调度主题及指标统计作业
Kudu + Impala准实时分析系统
使用HUE集成Impala进行数据即席查询
ClickHouse实时存储、计算引擎
自定义数据源实现Spark与Clickhouse的整合
ELK全文检索
Spring Cloud搭建数据服务
存储、计算性能调优

六、智慧物流大数据平台

客快物流大数据项目学习框架相关推荐
1. 客快物流大数据项目(四)：大数据项目为什么使用Docker
  目录大数据项目为什么使用Docker 一.场景一二.场景二
2. 客快物流大数据项目(二十八)：大数据服务器环境准备
  目录大数据服务器环境准备一.服务器规划二.Linux虚拟机环境搭建
3. 客快物流大数据项目(五十)：项目框架初始化
  目录项目框架初始化一.搭建工程二.导入依赖 1.父工程依赖
4. 客快物流大数据项目（一百零七）：物流信息查询服务接口开发解决方案
  文章目录物流信息查询服务接口开发解决方案一.业务需求二.系统架构演变 1.集中式架构 2.垂直拆分 3.分布式服务 4.面向服务架构(SO ...
5. 客快物流大数据项目(六十二)：主题及指标开发
  目录主题及指标开发一.主题开发业务流程二.离线模块初始化 1.创建包结构 2.创建时间处理工具 3.定义主题宽表及指标结果表的表名 4.物流字典码表数据 ...
6. 客快物流大数据项目（九十二）：ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解
  文章目录 ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解一.MergeTree系列引擎介绍二.MergeTree深入了解 1.创建MergeTree ...
7. 客快物流大数据项目(二十)：物流管理系统服务器的数据路径配置和软件下载存放位置
  目录物流管理系统服务器一.虚拟机数据路径配置二.软件下载和存放位置
8. 客快物流大数据项目(五十三)：实时ETL模块开发准备
  目录实时ETL模块开发准备一.编写配置文件二.创建包结构三.编写工具类加载配置文件实时ETL模块开发准备一.编写配置文件在公共模块的resources目录创建配置文件:config.pr ...
9. 客快物流大数据项目(四十六)：Spark操作Kudu dataFrame操作kudu
  Spark操作Kudu dataFrame操作kudu 一.DataFrameApi读取kudu表中的数据虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本 ...
最新文章
热门文章

客快物流大数据项目学习框架

客快物流大数据项目学习框架

前言

一、项目简介

二、功能介绍

三、项目背景

四、服务器资源规划

五、技术亮点及价值

六、智慧物流大数据平台

客快物流大数据项目学习框架相关推荐

最新文章

热门文章