原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾

视频回顾:点击这里

课件获取:点击这里

一、离线数仓建设背景

离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般是T+1天处理,也就是说昨天产生的数据至少要今天才能看到计算结果。离线数据一般应用于对数据时效要求不高,需要基于一段时间的历史数据计算才能得到结果的场景,我们大致可以分为离线数据分析及数据应用两类,离线数据计算具备:数据准确度高、吞吐量大、计算成本低等特点。

离线数据应用的场景非常广泛,企业的数据迎来了爆发式的增长,目前企业数据规模巨大、数据类型多样、生成及处理速度极快、数据价值巨大但密度却较低,这些数据增长的场景,带来的是是我们传统的一些数据基础设施建设暴露出来的缺陷,比如自建数仓投入高、周期长、无法弹性扩缩容导致资金和人力成本投入越来越大;传统数仓在存储、搜索和分析挖掘等能力上的瓶颈也越来越突出。传统离线数据建设无法满足数据增长需求,数字化转型迫在眉睫,许多企业已经在转型或者在转型的路上。

但企业在数字化转型过程中并非一帆风顺,还面临着许多问题:

● 数据生产效率低

企业内部数据孤岛现象比较严重,不同部门自行搭建数据仓库,数据重复开发、难以共享,跨部门的数据需求响应周期长。

● 计算存储成本高

数据量增长后计算和存储的资源消耗也越来越大,此时资源利用不合理导致的数据延迟等问题也愈发突出。

● 数据质量问题频繁发生

因开发人员水平参差不齐,数据研发规范不统一等原因导致的质量问题频发且溯源困难。

● 数据安全难以保障

由于数据权限管理粒度粗、数据访问认证欠缺等一系列的问题导致重要数据泄露,数据安全难以保障。

因此在离线数仓数字化转型过程中,我们需要实现以下目标:

● 提升数据生成效率

● 提升数据质量

● 降低计算存储成本

● 保障数据安全

二、离线数仓建设方法论

如何帮助企业建设离线数仓,我们主要从以下五步骤入手:

1、业务调研

企业进行离线数仓建设的第一步是进行业务调研,业务调研的目标是梳理核心的业务流程,包括这个业务流程中涉及到的环节及主要人员,关注的重点数据指标是什么,以及数据来源,和数据量。从企业整体的角度探查数据需求可以帮助架构师进行数据计算存储底座和开发工具的选型。

2、技术选型

第二步技术选型阶段,首先是底座选型,底座选型的目标是确定我们需要把不同来源的数据统一汇集到哪个存储介质里,用什么样的方式进行计算。在工具方面,离线开发比较关注数据同步、数据开发、任务调度相关的一些工具,这些方面无论是开源还是商业版目前市面上都有很多类型的产品可供选择。

3、数仓域划分

第三步是数仓主题域和主题划分,一个主题域对应一个宏观的分析领域,可以理解为一个业务数据大类。主题域的划分方式根据企业内部需要可以按业务系统、需求、部门甚至是行业案例划分。主题域划分完成后可以继续往下划分一级主题二级主题,也就是数据大类下面的小类,直到划分到实体为止,那么整个主题域主题就划分完成了。

4、逻辑建模

第四步是逻辑建模,逻辑建模可分为指标体系梳理、实体关系调研、维度梳理及数仓分层这4个部分。

5、物理建模

在上面的四个步骤中我们已经把数仓框架搭建完成了,那么物理建模阶段就是根据业务需求进行数据开发代码编写和上线的过程。

三、离线开发实施流程

分享完离线数仓的建设方法论,接下来来为大家分享离线开发的实施流程。

● 第一步:数据集成(多源异构数据双向读写)

流程中的第一步数据集成,本质上是把来自一些数据库的数据经过数据的解析、转换后写入到相同或者异构的数据库这样一个过程,我们需要重点关注:

1、数据读写性能,关注工具是否能满足数据同步要求的速率;

2、异常恢复,当同步任务出现各种原因的异常中断时,能否从断点处继续进行数据读写,而不必每次出现异常都全部重新开始;

3、同步方式,关注同步工具能否支持全量、增量、批量的同步方式;

4、脏数据监控,如果源头或数据转换过程出现异常,这些异常数据能否进行记录和分析,帮助数据开发追溯数据质量问题来源。

● 第二步:数据开发

1、SQL数据加工

通过SQL代码实现数据加工逻辑,产出表的过程。需要关注的点是工具对于开发任务类型能否满足要求,开发界面是否友好,任务的调试,数据日志下载等基本功能是否满足。
图片

2、调度配置:编排任务有序按需执行

上一步完成代码开发后,还需要为开发任务进行调度属性配置,让任务根据设置的依赖关系和计划时间有序地运行。需要关注的重点是:稳定性与兼容性、任务依赖、周期调度。

● 第三步:任务发布

完成代码开发调试和调度配置后,我们就可以把数据开发任务从开发环境发布,也就是拷贝到生产环境中,由生产环境任务周期运行产生的数据就可以给业务方使用了。

一般数据开发会有三种环境模式。

**1、单项目模式,**也就是开发测试都在一个项目内完成,经过测试的任务直接跑生产数据,这种模式开发流程短,需求响应快,适合对数据稳定性和要求不高的场景,但大部分情况下我们不建议这么操作;

**2、双项目模式,**数据开发在开发项目中完成任务开发和测试,通过运维发布到生产环境中运行,开发项目和生产项目存在数据隔离,这种模式对数据安全比较有保障;


**3、三项目模式,**用户有两套网络相互隔离的集群,第一个集群用于数据开发和测试,数据开发在开发环境进行编码和自测,发布到测试环境由测试人员进行用例测试,测试完成的任务打包下载至本地,人工拷贝或传输到生产集群的项目下进行运行,这种模式虽然操作流程上多了一个环节,看起来比较麻烦,但由于网络隔离也最大程度上保证了生产数据的安全和稳定。

● 第四步:运维监控

任务运维就是全局掌控任务的运行,对于一些异常或紧急情况进行处理的过程。

● 第五步:数据安全

最后的数据安全其实贯穿在数据开发的整个流程中,数据安全包含数据权限管理、数据生命周期管理和数据访问认证等内容。

以上就是离线开发建设落地的全过程,那么是否有一款产品能满足上述需求呢?袋鼠云自研的数栈离线开发平台就完美符合这个情景。

**云原生一站式离线数据开发平台(BatchWorks),**具备灵活的多集群、多引擎对接能力,覆盖数据采集、数据开发、周期调度、监控告警等全链路功能。上线5年已服务500+客户,专注于提供数据开发解决方案,帮助企业快速完成数据中台离线数仓建设,加速释放数据价值。

同时产品具备以下特点:

● 一站式可视化智能数据开发

一个平台覆盖完整数据开发流程,减少组件运维成本与流程衔接操作,让用户专注于业务本身。全流程可视化操作附带语法提示,智能调度与监控等多种辅助功能,减少上手成本,让更多用户参与数据使用。

● 多集群多引擎弹性兼容

支持输出自研Hadoop集群,同时可对接CDH、HDP、TDH等多集群及Oracle、TiDB等多引擎;节点资源可根据计算存储需求快速弹性伸缩,业务需求稳定响应。

● 全流程多维安全保障

多租户多项目组织结构实现数据权限隔离的同时支持灵活的申请授权;多角色内置权限点实现功能隔离;数据权限全流程校验,关键操作细粒度审计,最大限度减少生产安全事故。

四、离线数仓建设案例

接下来我们分享两个使用数栈离线开发平台完成数仓建设的实际案例,让大家切实感受产品给客户带来的实际价值。

● 某银行客户

● 某高校客户

原文来源:VX公众号“数栈研习社”
袋鼠云开源框架钉钉技术交流群(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack

离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾相关推荐

  1. 数仓 调度_大数据作业调度

    大数据作业调度 云上大数据仓库解决方案 阿里云为企业提供稳定可靠离线数仓和实时数仓的解决方案,包括数据采集.数据存储.数据开发.数据服务.数据运维.数据安全.数据质量.数据地图等完整链路. 离线数仓 ...

  2. 传统数仓如何转型大数据

    大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈--现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据 ...

  3. 离线数仓建设及技术选型

    离线数仓架构设计 1.建设数仓的目的 主要是增加数据计算的复用性.每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成. 2. 数据仓库作用 整合企业业务数据,建立统一的数据中心: ...

  4. 从传统数仓到互联网大数据开发,不走弯路很重要

    1.自我介绍 二本学校毕业5年,在某已倒闭手机厂商做安卓开发3年,到银行外包写SQL1年,现在在某大厂做大数据开发工作即将一年,月处理数据量PB级别. 2.为什么要转型 转型有两个原因,一个是技术相关 ...

  5. 大数据-案例-离线数仓-电商:【MySQL(业务)-ETL(Kettle)】+【前端JS埋点->日志->Flume->HDFS->ETL(SparkRDD)】->Hive数仓->MySQL->可视化

    一.电商行业简介 1.电商行业分析 近年来,中国的电子商务快速发展,交易额连创新高,电子商务在各领域的应用不断拓展和深化.相关服务业蓬勃发展.支撑体系不断健全完善.创新的动力和能力 不断增强.电子商务 ...

  6. 争夺存量用户关键战,助力企业构建完美标签体系丨01期直播回顾

    数字化导读: 上周三是袋鼠云数栈全新数据中台精讲系列--「数智赋能实战六讲」的第一场直播.袋鼠云数栈资深产品专家木研为大家带来了「争夺存量用户关键战,助力企业构建标签体系」的分享,我们将直播精华部分做 ...

  7. 大数据架构师——音乐数据中心平台离线数仓综合项目(四)

    文章目录 音乐数据中心平台离线数仓综合项目 第四个业务:商户营收统计 需求 模型设计 数据处理流程 1. 将数据导入MySQL业务库 2. 执行第二.三个业务 3. 使用Sqoop抽取mysql数据到 ...

  8. 数仓建设保姆级教程,离线和实时理论+实战)

    文档大纲: 一.数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,"架构"是什么?这个问题从来就没有一个准确的答案.这里我们引用一段话:在 ...

  9. 数仓建设(离线和实时)

    文档大纲: 一.数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,"架构"是什么?这个问题从来就没有一个准确的答案.这里我们引用一段话:在 ...

最新文章

  1. 8月精选Python开源项目Top10
  2. [转载] 百科全说——王晓斋:解析中西医应对肝肾问题(10-10-12)
  3. python编码解码的过程_使用Python过程中的编码和解码
  4. 没有必要对着手机的记事本来记录太多的东西:尝试一下许愿墙的模式吧
  5. TFS - Team Foundation Server 的安装记录
  6. mongodb web_MongoDB和Web应用程序
  7. 抽象方法可以有方法体_什么方法可以祛斑?祛斑的方法有哪些?
  8. vm安装diagram
  9. Pytorch中的强化学习
  10. UGUI的Canvas Scaler
  11. 各种激活破解工具一览
  12. 【工作感悟】在一家普通互联网公司实习四个月的总结和感想
  13. AH快递单打印查询软件V3.68
  14. Android 接口的default 方法运行时报错AbstractMethodError
  15. python笔记之1-简单读入+循环、判断+数组+函数调用+题目Resistors in Parallel(18焦作)
  16. 如何防止Access数据库被下载- -
  17. 国家开放大学2021春2129药物化学题目
  18. Raft算法在Curve中的实践
  19. 汇编实现一位数加减乘除
  20. ffmpeg从某站提取视频、音频、详解

热门文章

  1. 2D的RPG游戏人物角色移动代码(以egret游戏引擎、TypeScript语言为例)
  2. codeforces数论专题总结
  3. 汇编 db,dw,dd的区别
  4. 怎么用C语言写程序控制单片机,如何用用C语言编写的单片机来控制流水灯
  5. 15. QML控件拖拽并实现自动吸附功能
  6. 网心科技CEO李浩:边缘计算的当下以及未来
  7. 物价上涨就是货币贬值啊,工资一涨那还得交税,所以不涨工资是为大家着想...
  8. 学Java必看:Java最常用方法总结(ImportNew年度好文)
  9. Solr各种版本下载
  10. IDEA如何删除 Module 项目