10W阅读,万人点赞,这套大数据平台建设方法论,到底有什么干货
今天给大家分享一套方法论,累计10W+阅读,1W+点赞的大数据平台建设方法论。
在数据平台建设的前期来说,做大数据平都是为了日后的数据分析来做基础的。那样就一定要规划出适合企业的方案。根据目前国内大部分企业或者单位的我们可以大致分为几类:
(1)目前企业已经有明确的数据分析需求,对于需要分析的数据有明确的目标。知道自己想要采集哪些应用的数据,也明确出数据分析要达到的最终效果。这样我们就可以与相对应的应用系统做数据的采集,并对采集的数据进行标准化的处理,最后进行存储、分析、建模。
(2)目前企业不清楚自己数据分析的目标,但是想做一些大数据的治理以及规划。
(3)对于一些还没有完整的信息化体制的企业来说,可能只有一两个应用。在规划信息化建设时要规划好自己企业的数据的建设,要统一应用间的数据标准。然后做出数据中台的规划。
整体方案设计时需要考虑的因素:
- 数据量有多少:几百GB?几十TB?
- 数据存储在哪里:存储在MySQL中?Oracle中?或其他数据库中?
- 数据如何从现在的存储系统进入到大数据平台中?如何将结果数据写出到其他存储系统中?
- 分析主题是什么:只有几个简单指标?还是说有很多统计指标,需要专门的人员去梳理,分组,并进行产品设计;
- 是否需要搭建整体数仓?
- 是否需要BI报表:业务人员有无操作BI的能力,或团队组成比较简单,不需要前后端人员投入,使用BI比较方便;
对于一个大数据平台主要分为三部分:
- 数据接入
- 数据处理
- 数据分析
数据接入是将数据写入数据仓储中,也就是数据整合。因为在企业中,数据可能分布在外部和内部,分布在外部的是企业使用第三方系统产生的数据和一些公共数据,分布在企业内部的是企业内部IT系统产生的数据。
这些数据一般都是独立分布的,也就是所说的数据孤岛,此时的这些数据是没有什么意义的,因此数据接入就是将这些内外部的数据整合到一起,将这些数据综合起来进行分析。
对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。
监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。
数据处理是对接入的数据进行数据清洗和ETL建模,将各个数据表之间的关系建立起来,比如关联,聚合,追加等等这些处理。
最后来说说数据分析吧。
数据分析一般包括两个阶段:数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。
在完成了底层业务数据整合工作之后,长久物流在整合业务系统数据的基础上,通过FineReport数据决策系统,有效集成了各个业务系统的实时数据,并根据各个部门的需求搭建了数据分析模板。
总结
首先要有Hadoop集群,在有HDFS与Hive后,才能开展数据接入工作,才能基于集群建设工具链;当工具链部分的OLAP引擎构建好,才有上层BI、报表系统和数据API。
所以弄清了每个部分的相互关系也就容易明白大数据平台的建设流程。
欢迎关注我的公众号“商业智能研究”,私信回复“资料包”,即可领取大数据、数据中台、商业智能、数据仓库等6G精华资料!
10W阅读,万人点赞,这套大数据平台建设方法论,到底有什么干货相关推荐
- 1028万!重庆统计局招标大数据平台,开建统计数据中台
2022年9月15日,重庆市统计大数据平台(CQS22C01140)发布中标(成交)结果公告,如下: 项目编号 CQS22C01140 项目名称 重庆市统计大数据平台 服务范围 大数据已成为新型生产要 ...
- 七牛云大数据平台建设实践
2017 年 1 月 14.15日,为期 2 天的 ECUG Con 十周年大会在深圳圆满结束,会上七牛云 CEO 许式伟做了题为<七牛大数据平台建设实践>的演讲,首次披露七牛云在大数据方 ...
- 中国邮政大数据平台建设之总体架构与实现
摘要:通过对数据处理阶段性发展的解析,分析大数据.人工智能技术的发展趋势.结合实际生产需求,验证了基于容器云架构的新一代大数据与人工智能平台在数据分析.处理.挖掘等方面的强大优势. 关键词:大数据 人 ...
- 多中心临床大数据平台建设及深度应用
多中心临床大数据平台建设及深度应用 朱立峰1,刘淑君1,陈德华1,乐嘉锦2 1. 上海交通大学医学院附属瑞金医院,上海 200025 2. 东华大学计算机科学与技术学院,上海 201620 摘要:多中 ...
- 工商银行实时大数据平台建设历程及展望
摘要:本文整理自中国工商银行大数据平台负责人袁一在 Flink Forward Asia 2021 的分享.主要内容包括: 工行实时大数据平台建设历程 工行实时大数据平台建设思路 展望 Tips: ...
- 大数据平台建设方案_工信部:全国范围内逐步推进反诈大数据平台建设
工信部:全国范围内逐步推进反诈大数据平台建设 信用中山 信用中山 微信号 creditzs 功能介绍 中山市公共信用信息发布平台,由中山市发展和改革局权威发布. 为深入落实国务院打击治理电信网络新型违 ...
- 【硬刚大数据】企业级大数据平台建设参考 | 淘宝滴滴美团360快手京东
欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞.收藏.留言 ,欢迎留言交流! 本文由[王知无]原创,首发于 CSDN博客! 本文首发CSDN论坛,未经过官 ...
- hadloop大数据平台论文_大数据平台建设探讨
2019.03 1 概述 大数据平台通过统一的 大数据库实现全省业务信息 的集中 , 该库数据来源于全省各个业务系统和基础数据 库等应用数据 . 位置数据 . 搜索数据等结构化数据 . 半 结构化数据 ...
- 精益开发——税务大数据平台建设效能提升的倍增器
2020年阿里巴巴的研发效能峰会上,阿里资深技术专家何勉做了"ALPD--阿里创新能力背后的精益产品开发体系"的分享,它是阿里正在实践和持续打造的产品开发方法,目的是帮助组织提升精 ...
最新文章
- 渗透测试集成环境Faraday
- matlab中fdyn,Matlab的用法总结
- Acwing第 20 场周赛【未完结】
- C语言 ,嵌入式 ,数据结构 面试题目(3)
- 二级计算机access押题,全国计算机等级考试标准教程:二级Access
- IE8“开发人员工具”(下)
- namespace命名空间的使用
- 负债越多的人越容易翻身
- 【转】ELK 日志分析系统
- T-SQL高级查询语句
- 菜单响应函数:ON_COMMAND和ON_UPDATE_COMMAND_UI,ON_COMMAND_RANGE和ON_UPDATE_COMMAND_UI_RANGE
- apache2.2+PHP5.2.3+mysql5.0+gd+zend+phpmyadmin
- 修改tableView侧栏索引的背景色
- [译] Commit 提交指南
- 自动驾驶 8-0: 状态估计的重要 The Importance of State Estimation
- 服务器安装动易组件,动易SiteWeaver6.8安装方法
- 矩阵分解 Cholesky分解
- OpenG: 单模型旋转
- Git 详细安装教程(最新保姆级)
- Can‘t exec “autopoint“: No such file or directory at /usr/share/autoconf/Autom4te/FileUtils.pm line
热门文章
- im4java 文档_im4java学习---阅读documentation文档
- 互联网晚报 | 2月11日 星期五 | 小红书月活跃用户超2亿;小鹏汽车宣布拓展欧洲市场;贝壳首个青年公寓项目落地上海...
- 2020哔哩哔哩流量生态白皮书:流量趋势与up主生存状况调研
- 男孩子什么品质最吸引女生?
- mysql begin end 用法_超实用的Mysql动态更新数据库脚本的示例讲解(推荐)
- 新工科背景下的大数据体系建设探析
- 【OJ】华东师范大学Python程序设计OJ题解
- 【软件测试】测试驱动开发
- 【操作系统】实验 生产者-消费者问题解决方案
- 【软件测试】结构化分支和循环语句的白盒测试