典型综合场景数据流转设计

综合场景一 T+1数据加工

图 4 T+1方式数据流转

T+1是数据仓库领域最为常见的数据集成模式,T+1模式下数据仓库会在每天固定时间点采集当天或者前一天交易系统数据。

根据数据类型,结构化数据来源一般为RDB,需要将这些数据通过ETL工具全量或者增量导入到tdh的hdfs中,最后根据实际业务需求通过inceptor将数据写入到对应的表中:

① sqoop/tdt支持全量/增量导入数据,可以装载到hdfs中,tdt可以直接写入orc表中。

② 需要做大量聚合分析的写入orc表或者argodb表,有数据合并、删除、修改操作的写入orc事务表;高并发的精确查询写入hyperbase表;精确查询、模糊查询、多维度灵活组合查询写入Search表;

有时候,结构化数据可以通过原系统导出成文本,放在FTP或者其他文件系统,这种文本可以类似日志、文档等外部数据一样,可以通过flume、Superput工具采集到HDFS,然后通过Inceptor写入合适的存储引擎。

例一:

oracle中的表 tableA,需要一次性的全量抽取全部数据,之后的业务需要对该表做精确查询。这个时候选择Transporter直接将数据录入orc表中,之后根据业务的需求,将数据录入hyperbase中。

例二:

oracle中的表tableA,该表每日有数据录入,需要对该表的数据做统计分析。这个时候可以选择sqoop对该表进行增量数据的抽取,放在HDFS上,之后通过inceptor将数据存入Argodb中,方便之后的统计分析。

例三:

每日的系统日志文件,需要根据日志进行ERROR的分析。选用flume对日志的目录进行数据采集,之后通过将数据存入Search中对日志信息进行分词,方便针对报错信息的排查。

例四:

超大量的离线历史数据文件,需要放入大数据平台存储。选用Superput将数据上传进hdfs进行存储。

综合场景二 准实时数据同步

图 5 准实时同步数据流转

越来越多数据仓库向准实时方向演进。

Oracle/DB2可以通过部署ogg/CDC+Transporter,实现准实时地将数据录入到tdh集群中,mysql特殊一些,可以基于binlog实现。之后根据业务需求参考上文图三选择合适的目标表:数据集市场景可以使用ArgoDB,高并发精确检索使用Hyperbase,综合搜索选择Search。

例一:

Oracle中的数据需要准实时的将数据同步写入大数据平台中。搭建一套ogg+transporter的方式,可以将数据准实时的录入到orc事务表中。

例二:

Mysql中的数据需要准实时的将数据同步写入到大数据平台中。这边有很多的工具都可以直接将mysql数据同步到hdfs中,这边推荐使用CDC或者MySQL Applier for Hadoop。

综合场景三 实时流处理

图 6 实时数据流转

比较多的情况下实时数据通过kakfa接入,数据来源可以是kafka producer/flume等,经过slipstream的处理,之后根据实际业务需求,将数据入库到TDH中

① 处理后的数据再次进入kafka,之后对数据在进一步处理,这样的情况一般是kafka作为数据总线的情况,不同的业务通过slipstream去不断地和kafka进行数据上的交互

② 经过slipstream处理后录入到Search/Hyperbase/Argodb的数据可以继续通过Inceptor将表改变成其他格式,方便其他业务场景的需求,这时候就可以参考上文图三选择合适的目标表了。

例一:

实时数据通过kafka进来,需要在经过处理后把结果实时显示在大屏上。这个时候的kafka担任着数据总线的功能,数据从kafka接入,通过slipstream处理后再输出给kafka。下游大屏显示工具实时消费kafka数据。

例二:

实施数据通过kafka进来,对结果需要进行统计分析和批处理。可以通过Slipstream接入数据到hyperbase表,之后再通过inceptor或者Hyperbase API,将数据流转到Inceptor ORC表中,从而满足业务需求。

上面抽象的三种典型数据流转综合场景,其原理是非常一致的:数据通过工具接入,根据业务需求,选择写入合适的表。

实际项目中的数据流转设计相关负责一些,数据源、客户需求变化很多,但是万变不离其宗,大家充分掌握平台组件的技术特点和原理,并且深入理解客户需求,再加以练习实践,设计数据流转其实并不难。

下面是一个经典的项目数据流转方案,可以做为练习和实践的参考案例:

图 7 经典数据流转方案

基于星环TDH数据仓库典型总和场景数据流转设计相关推荐

  1. CDH迁移 | 教你三步实现CDH迁移到星环TDH

    Transwarp Data Hub(TDH) 是星环科技自主研发的企业级一站式多模型大数据基础平台,其领先的多模型技术架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层,统一的资源调度层 ...

  2. 基于星环科技大数据平台 辽宁城市建设职业技术学院打造智慧校园

    当今世界,发展职业教育已经成为各国应对危机.促进就业.迎接新工业革命挑战的共同行动.同时数字化技术的快速发展,改变着学习和教育,将成为职业教育系统整体改革与创新发展的战略选择. 星环科技与北京点为信息 ...

  3. 【案例】基于星环科技数据云平台TDC为富国基金建设万能的数据湖

    星环科技作为企业级大数据基础软件开发商,通过发挥基础软件硬实力已经成功助力金融.政府.能源.交通.制造业等多个行业的客户实现了数字化转型,积累了丰富的成功经验.[行业案例]旨在定期分享星环科技最新案例 ...

  4. 关于星环TDH产品的Java通过Kerberos安全认证连接hyperbase

    博主是Java实习生最近在做关于星环大数据方面的工作,碰到一些问题,费了很大的劲才搞通,记录一下,希望可以帮到大家. Kerberos 术语 Kerberos 中有以下一些概念需要了解: 1)KDC( ...

  5. 内蒙农信携手星环科技建设农信大数据平台,激活金融业务创新

    背景 内蒙古自治区农村信用社联合社(简称"内蒙农信")经过多年的信息化建设,目前投产使用的信息化系统近100套,产生了大量的数据.该社于2019年采用MPP架构的分布式数据库,实现 ...

  6. 星环TDH数据库批量生成表和存储过程

    环境准备 安装python环境:解压 ,然后设置环境变量.把ETL文件夹放到本地 ETL文件夹以及脚本说明 路径D:\ETL\genproc下是各种运行的Python脚本. 路径D:\ETL\mode ...

  7. Flink1.13.2运行在大数据星环TDH集群的jdk1.7上解决办法

    Flink1.13.2运行在大数据TDH集群的jdk1.7上解决办法 TDH集群的JDK是1.7的,而Flink需要运行在JDK1.8以上,建议261版本以上. 出现问题 1.Flink提交到yarn ...

  8. Oracle典型应用场景--数据迁移到本地测试

    目录 用到的功能点 场景介绍 步骤介绍 准备工作 1.甲方提供的接口 2.测试这个IP和端口 工作开始 1.本地创建表空间和对应用户 表空间的创建 用户的创建 2.创建数据库链接(DBLink) 测试 ...

  9. 星环科技TDH多模型统一架构VS CDH架构

    CDH是Cloudera的开源平台发行版,通过将Hadoop与其他十几个开源项目集成,为企业大数据业务提供服务. 在CDH开源大数据方案中,是通过多个互相独立的组件提供相应的能力,每个场景需要一个组件 ...

最新文章

  1. plt.figure(figsize(x,y))设置后后续程序都跟着改变,如何处理?走破解它!
  2. 陕西信息计算机学校,陕西计算机信息专业学校
  3. java的知识点15——String基础、String类和常量池、String类常用的方法、字符串相等的判断、组合模式
  4. 《C++语言基础》程序阅读——和对象找感觉
  5. 关于html文档,关于HTML的简介
  6. 【用学校抄作业带你走进可持久化线段树(主席树)】可持久化线段树概念+全套模板+例题入门:[福利]可持久化线段树)
  7. 清华大学《操作系统》(十一):处理机调度
  8. python层次聚类_用Python做层次聚类分析
  9. NAPI 方式的实现
  10. 计算机维修 主板 打印机,一台电脑带电拨打印机接口 ,烧坏主板,不能开机
  11. 程序员——知识 [转载]
  12. 【2021山东大学数字逻辑实验7】异步模8加1计数器
  13. Android使用蓝牙录音和播放
  14. 电源管理允许此设备唤醒计算机怎么关掉,电脑如何设置电源管理允许鼠标唤醒计算机...
  15. 一招解决GitHub致命的下载速度(GitHub下载速度慢怎么办)
  16. WooCommerce接入支付宝支付功能(二)——WooCommerce中添加新的支付网关
  17. surface哪些可以升级win11
  18. ENSP中ACL,NAT配置
  19. 【汇正财经】选股有什么策略?如何找到适合自己的选股策略?
  20. 使用Python异序词检测示例_清点法_排序法_蛮力法_计数法

热门文章

  1. 总结:linux笔记-001
  2. Cygwin 下载安装
  3. 使用powerpoint简单的处理图片(用作浏览器背景)
  4. Python数据可视化之matplotlib绘图教程
  5. 解决服务器报错java.nio.file.AccessDeniedException: /opt/jeecg-boot/upload
  6. 分糖果(candy)
  7. C++ Guaranteed Copy Elision
  8. 奥德赛商务车改装哪一些是必要的?
  9. c语言射击类打飞机小游戏感悟
  10. 后端修行 - java中PO、VO、BO、POJO、DAO、DTO、TO、QO的理解