DAP数据分析平台是数通畅联自主研发的一款专为企业大数据平台构建的,能够高效存储、计算、分析并处理海量数据的大数据分析产品,能够准确、清晰、有效的将企业内部及行业外部相关数据进行可视化展现,帮助企业提升行业洞察力,加强决策力,从而提升整体竞争力。

数据中台通常是按照主题进行数据分析,不同主题分析的数据各不相同,在分析过程中,需要明确数据的来源,通过获取到的数据将会从ODS到数仓—>数仓中维表和事实表加工汇总—>加工汇总后进行数据模型的创建—>数据模型生成数据集和立方体最终进行可视化展现。下面针对DAP数据的加工流程进行梳理。

1总体概述

DAP数据分析平台主要是为了满足企业数据分析的需要而开发的一款产品,不同于一般的BI平台,DAP数据分析平台更侧重数据的聚合,平台预置有数据源注册、ODS注册与管理、数仓配置与数据聚合,从而实现企业业务数据的统一,构建企业统一的、标准的、完整的数据仓库,而数据展现、数据分析、数据报表,以及外部系统数据交互提供支持。

1.1产品说明

数据分析平台是一款能够高效存储、计算、分析并处理海量数据的数据分析产品,能够真实、准确、清晰、有效的将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力、加强决策力,从而提升整体竞争力

数据分析平台功能有:

1.数据来源(应用系统定义、数据源头配置、ODS数据定义)数仓模型。

2.数仓模型(业务主题、维度配置、事实配置、模型配置、指标管理)。

3.数据调度(规则校验、调度资源、调度任务、调度日志、质量日志、通知日志)。

4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。

5.展现模型(导航管理、组件管理、展现主题、装饰管理)。

6.数据服务(接收服务、查询服务、统计服务、指标服务、业务服务)。

7.算法模型(算法配置、标签管理、算法日志)。

8.统计分析(数据地图、质量分析、血缘分析、影响分析)。

9.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。

1.2数据架构

DAP数据分析平台只进行数据采集,不进行数据生产,所以DAP中的分析数据会从多个业务系统中抽取。

1.源头系统数据提供业务数据,ESB通过数据集成、业务系统接口调用,或者DAP通过读取源库等方式,将源头系统的业务数据抽取到ODS中,其中MDM主数据平台提供基础数据,业务系统提供业务数据;

2.ODS中的基础数据、业务数据,通过ESB的聚合流程将按照类别汇聚到数仓的维表或事实表中;

3.维表与事实表中的数据根据业务主题、业务指标需要再次进行加工汇总,形成数仓中的汇总事实表;

4.DAP的分析模型根据汇总数据进行整合计算;

5.经过分析模型整合计算后的数据,结合DAP预置的展现组件形成直观的图形图表展现,最终配置成各类展现看板、报表等,完成可视化效果的最终呈现。

1.3解决方案

DAP产品主要和ESB、MDM等产品结合形成不同的解决方案,包含方案如下:

1.应用数据集成方案 MDM + ESB + DAP + Portal

2.应用数据集成方案 MDM + ESB + DAP + IDM

3.数据中台方案 MDM + ESB + DAP             (dPaaS方案)

4.全域集成方案 ESB + MDM + DAP + Portal + IDM (ePaaS方案)

2加工流程

DAP数据加工流程分为三步:ODS数据同步、数仓数据同步、汇总事实表加工。其中ODS数据同步包含了源库读取、接口同步、流程同步的三种数据获取方式,数仓数据同步包括ODS到维度表、ODS到基础事实表,最终数据通过维度表和基础事实表进行加工汇总。后续基于维表和事实表进行模型、数据集、立方体的创建。

2.1ODS数据同步

ODS的数据来源于不同的业务系统,通过数据分析模块可以将需要分析的业务数据以表的形式注册到ODS库中,ODS支持源库读取、接口同步、流程同步三种数据抽取方式。

ODS同步方式如下图所示:

2.2数仓数据同步

ODS中的数据分为两种,一种是作为支撑数据分析维度的数据;另一种为相关业务数据,通过维度类数据与业务类数据汇聚计算最终将作为企业数据分析的指标。

2.2.1ODS到维度表

下图是ODS数据同步维度表的过程:

2.2.2ODS到基础事实表

下图是ODS数据同步基础事实表的过程:

2.3汇总事实表加工

汇总事实表是根据基础事实表中的维度横向合并或者纵向汇总生成,基础事实表表中的维度通常包含组织维度、项目维度、日期维度等,汇总事实表汇总计算方式根据业务规则、分析指标、展现方式等进行制定,基于DAP数据分析平台元数据配置自动在ESB生成数据集成流程,实现数据聚合。

3ODS数据同步

ODS的数据来源于不同的业务系统,通过DAP平台可以将需要分析的业务数据以表的形式注册到ODS库中,ODS支持源库读取、接口同步、流程同步三种数据抽取方式。下面介绍ODS数据同步的同步方式、配置方式以及如何创建调度资源。

3.1同步方式

1.源库读取

DAP数据分析平台对于需要分析的业务数据不做数据生产,只会进行存储。所以DAP的数据都是从各个源头系统中抽取获得的。源头系统如果需要通过源库读取的方式提供数据,那么业务系统需要在数据中台中注册。通过这种方式注册的数据表在发生变更后,DAP会实时获取到变更信息。

2.接口同步

当DAP创建了ODS表后将同步方式设置为接口同步,那么在接收服务中生成对应的接口,接口地址如下:

将接口提供至业务系统后,业务系统发生数据变更调用提供的接口将数据写入到对应的ODS表中。

3.流程同步

由源头系统将业务信息表注册至DAP中,DAP通过注册的表信息进行参考表创建,ODS同步方式选择流程同步后,就可以选择调度资源或者生成ESB流程时,自动生成调度并且插入到对应表字段中。

业务系统也可以提供数据查询接口,DAP手动创建ODS表,通过ESB进行数据集成,但是源头系统提供的接口每次调用时需要提供新增或变更的数据,由ESB调用源头系统提供的接口获取变更数据写入ODS表中。

3.2配置方式

1.源库读取

如果选择源库读取的方式获取数据信息,在ODS数据定义页面选择源库读取。

选择源库读取后根据实际需求选择原系统的字段信息。

源库读取的表在源头系统发生数据变更后会实时同步至DAP中。

2.接口同步

如果通过接口同步需要通过参考表创建,并选择接口推送的方式创建数据表。

选择对应的源头表及需要字段后保存。

双击查看ODS表,同步方式为接口推送。

在接收服务中会生成对应的数据写入接口。

3.流程同步

通过参考表创建选择类型为流程同步,通过ESB生成对应的调度流程。

3.3资源调度

在ESB中新建流程,选择流程模板为业务系统到ODS:

点击next后,可以选择刚刚创建好的同步流程:

创建完毕保存后,会生成对应的同步流程:

创建完毕后,会在调度资源中自动生成对应的流程:

4数仓数据同步

DAP通常是按照主题进行数据分析,而在数据分析平台上线过程中,可能会遇到企业上线的业务系统已经具有部分的数据分析功能,这个时候如果需要进行统合的数据分析可以直接进行数据抽取,而更多情况是企业并没有对应的数据分析功能,甚至还停留在线下的报表填写,而这个时候针对于填写的报表和指标需要去划分哪些是标准的维度数据、哪些是可以分析的业务数据。在梳理好后数据同步至ODS中,针对划分和区分同步至对应的维表或事实表中。

4.1ODS到维表

在维表新增页面选择来源表,会从ODS中选择相应的表。

选择对应的数据表后填写相应的名称。

创建完毕后可以看到关联调度中没有关联调度的流程。

切换到ESB后选择ODS转换到EDW,生成对应的流程后会自动将关联调度回写到维表中。

4.2ODS到事实表

在事实配置中选择事实表类型为基础事实表:

有时在获取ODS数据表时,ODS中的数据信息从其他业务系统同步至DAP中,但是没有做维度信息的统一,所以在创建基础事实表时需要选择对应的ODS表或维度表来创建基础事实表:

创建完毕后可以看到关联调度中没有关联调度的流程:

切换到ESB后选择ODS转换到EDW,生成对应的流程后会自动将关联调度回写到基础事实表中。

4.3加工资源

与ODS数据同步不同,维度表、事实表中的资源为加工资源,所以由维表和事实表生成的流程会存储在加工资源中。

其中维度表的加工资源会存储在主题对应的根目录下。

基础事实表的加工资源会存储在对应的主题下。

5汇总事实表加工

汇总事实表是根据基础事实表中的维度横向合并或者纵向汇总生成,横向合并是与时间、组织等维表关联,将基础事实表根据维度信息进行汇总。纵向合并是将基础事实表中的字段合并,如根据基础事实表中的枚举类数据进行字段合并。

5.1汇总方式

数据中台对于需要分析的业务数据不进行数据生产,只进行存储,并根据源头系统提供的指标计算规则进行计算。所以数据的汇总方式一般由源头系统定义,但是有部分客户不清楚自己应该如何进行数据的加工汇总,他们更多地是通过线下方式获取数据,所以在这个过程中需要我们与客户多次沟通,明确如何汇总数据

5.2配置方式

汇总事实表创建也需要到事实配置中新建配置,事实表类型选择为汇总事实表。

保存完毕后可以为来源表配置相应的关联关系。

切换到ESB后选择汇总事实表加工,生成对应的流程后,会自动将关联调度回写到汇总事实表中。

相应的加工资源中也会生成对应的调度资源。

5.3调度任务

在数据通过汇总事实表加工完毕后,就可以构建相关的数据模型,通过数据模型构建模型、数据集、立方体的创建,根据分析指标生成多维报表及业务类报表。结合DAP预置的展现组件形成直观的图形图表,通过这些图形图表配置成各类展现看板、报表等,完成可视化效果的最终呈现。

DAP在ODS数据同步、数仓数据同步、汇总事实表加工的过程中都会生成对应的调度资源。而调度任务可以将一套整体的架构流程作为一个大的任务进行资源调度,通过定时或手动调用的方式进行数据加工汇总。

6心得体会

通过本次的DAP的数据加工流程梳理,使自己明确整体的DAP数据加工过程,提升自己的整体认知能力。

6.1勤于总结

项目是最好的炼钢炉,对产品是考验,对于个人来说,也是一种考验。善于总结,善于记录,把好的经验总结记录下来,把走过的弯路进行反思总结,就会不断提升自己的能力,打磨自己的棱角,让自己逐渐强大起来。

6.2认知收获

对于DAP使用的方式不能仅停留在业务上,只了解相应的皮毛和形式,更多的还要理解认证的原理,从原理出发,才能更好地进行理解,才能对业务的形式更加清楚,而总停留在皮毛上,总会在特殊情况下显露自己的不足,出现问题靠的不仅是经验,还有实力。

6.3积累沉淀

产品来源于项目,用于项目,在项目中打磨,在项目中完善,没有一个功能是闭门造车就可以完成的,都是通过不断使用、完善,逐渐变得强大的。因此,除了我们自己要不断地模拟使用,还要交付给客户不断使用,在使用过程中不断完善,不断修改,直至让客户认可,只有经过洗礼的产品,才能变得越来越强大。

在软件行业,活到老学到老才是王道,不是做研发工作就一定比做项目工作厉害,也不是做项目工作就学不到知识。真正的区别在于发现和积累,只有了解自己的缺点,知道如何弥补完善,不断地提升自己能力,丰富自己的知识,沉淀自己的经验才能取得最终的成功。

DAP数据加工流程梳理相关推荐

  1. 3000字梳理大数据开发流程及规范(建议收藏)

    在大数据时代,规范地进行数据资产管理已成为推动互联网.大数据.人工智能和实体经济深度融合的必要条件.贴近业务属性.兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作.而 ...

  2. 原来大数据工作流程可以这样理解------生米煮成熟饭!

    碎碎念 最近一直在思考作为测试工程师,如何以大数据为方向,提升自己的知识储备,适应接下来的市场需求,于是看了很多大数据相关的前辈们的文章,加上自己的理解,竟然觉着大数据工作处理流程,就好像我们在煮饭! ...

  3. 模型流程梳理和总结v0

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.特征工程 1 构建特征库 - 踩坑大户 1.1 探数据源 1.2 衍生字段 1.3 输出 2 变量筛选 - 踩坑中 ...

  4. 【Binder 机制】AIDL 分析 ( AIDL 通信完整流程梳理 )

    文章目录 AIDL 跨进程通信完整流程梳理 1.AIDL 文件编译 2.注册服务 3.IMyAidlInterface.Stub.asInterface 方法获取远程服务 4.IMyAidlInter ...

  5. Handler消息机制介绍,流程梳理

    文章目录 前言 基本使用 发送和处理Runnable 发送和处理Message 流程梳理 获取消息 发送消息 消息入队 消息出队 理解 源码分析 前言 Handler 是Android 的消息处理机制 ...

  6. 高通SDX12平台:启动流程梳理

    高通SDX12平台 启动流程梳理 1. 高通平台CPU类型介绍 通常我们所说的CPU如高通平台MSM8998.苹果A12, 华为海思平台(麒麟980.990)等,这些我们虽然叫CPU,但并不是只有一个 ...

  7. android wifi连接流程,(九十三) Android O 连接WiFi AP流程梳理续——保存网络-Go语言中文社区...

    前言: 之前在(五十五)Android O 连接WiFi AP流程梳理 梳理连接流程梳理到SupplicantStaNetworkHal 然后没梳理的下去,现在继续梳理下. 之前梳理的时序图 1.流程 ...

  8. (九十三) Android O 连接WiFi AP流程梳理续——保存网络

    前言: 之前在(五十五)Android O 连接WiFi AP流程梳理 梳理连接流程梳理到SupplicantStaNetworkHal 然后没梳理的下去,现在继续梳理下. 之前梳理的时序图 1.流程 ...

  9. UE4智慧城市开发流程梳理

    智慧城市开发流程梳理 (摸索UE智慧城市相关做的总结梳理,并不是很专业,如有差错欢迎指正.) 1.GIS数据获取: 谷歌地图.地理数据网站等中获取,或者使用第三方软件下载(水经注GIS.ESRI有的A ...

  10. 华为MDC310之Can通信流程梳理

    Can通信流程梳理 说明 流程图 说明 最近调试的can通信,接收的代码是没问题的,就是发送端一直不行,通过昨天的讨论,似乎有了一些新的思路,在这里梳理一遍收发流程. 流程图 #mermaid-svg ...

最新文章

  1. Linq to SQL 资源
  2. 喜报!清华社《晓肚知肠:肠菌的小心思》荣获“2018年度中国好书”奖
  3. .NET获取根目录方法
  4. 工作394-注册页面学习
  5. numpy matrix 矩阵对象
  6. CSS 布局 - Overflow
  7. bzoj3255 一个关于序列的游戏
  8. @程序员,夏天来了,你该送心仪女生这个啦
  9. JQuery判断radio是否选中并获取选中值的示例代码
  10. 关于我在安装2.6.9版本bochs虚拟机时遇到的问题以及解决过程
  11. python执行shell脚本、执行mongodb_mongodb如何执行js
  12. 别人回答工作中的问题,要自行判断是否正确
  13. void和void指针解析
  14. C#匿名委托,匿名函数,lambda表达式
  15. 【实验技术笔记】RNA 抽提 + 反转录PCR + PCR引物设计 + RT-qPCR
  16. Delphi可视化精讲视频教程-丁鹏-专题视频课程
  17. linux USB无线网卡(RTL8188EUS)驱动
  18. 网易云音乐 网络错误 linux,Linux版网易云音乐播放音乐时无限显示“网络错误”的解决办法...
  19. 软件工程本科毕业设计题目推荐?软件工程毕设题目大全
  20. u盘推荐知乎_市面上的U盘怎么选择?U盘那个牌子好?

热门文章

  1. 蓝牙扫描startLeScan测试
  2. 2018 10 12 校内模拟 字符串模拟+平面距离+线段树
  3. 二等水准数据平差_二等水准测量方法与步骤
  4. 我们都在过着「抽奖」的人生
  5. 开口式霍尔电流传感器如何助力直流配电改造?
  6. 10827 - Maximum sum on a torus
  7. 刘邦的用人之道!真心服气
  8. 一WAN多拨(一号多拨)实验
  9. JavaScript基于qrcode.js带Logo彩色二维码(艺术二维码)
  10. java 实现工作日计算