本文主要介绍Transwarp的etl工具——Transporter,本文依托于星环的官方文档,通过一个简单的实例来让大家熟悉Transporter的使用。关注专栏《Transwarp系列》了解更多Transwarp的技术知识~


目录

一、Transporter简介

1.1 简介

1.2 Transporter的特点

二、Transporter实例

2.1 案例一

2.1.1 业务需求

2.1.2 业务实现

2.2 案例二

2.2.1 业务需求

2.2.2 业务实现


一、Transporter简介

1.1 简介

Transporter是一个数据etl工具,支持从不同数据源获取数据,对数据的复杂转换操作,并最终将数据落地成不同格式。Transporter左侧连接数据源,如关系型数据库,右侧连接目标系统,如Inceptor。支持用户将数据从RDBMS迁移到Hadoop,再进行数据分析和挖掘工作。

1.2 Transporter的特点

1、支持丰富的数据源

Transporter支持跨集群的数据导入,并且可直接从Oracle/DB2等传统关系数据库将数据导入至TDH,同Sqoop相比,可以在不失效率的情况下简化繁琐的数据流定义步骤以及复杂的类型转换等问题。支持导入CSV、定长文件、JSON、XML等文件。同时支持导入OGG、Shareplex、DataStage产生的增量文件,实现准实时的数据同步。此外,还支持通过Kafka等方式读入流数据。

2、支持丰富的导出格式

用户可以通过Transporter直接导出数据至传统关系数据库、ElasticSearch,以及实现跨集群导出。Transporter支持多种数据导出格式,如CSV、JSON、XML,并且支持Inceptor中所有类型的表:普通ORC、ORC交易表、Holodesk、Hbase、Hyperdrive。

3、支持多种数据转换操作

提供多种常见的数据转换操作,帮助实现数据的清洗,加工。其中的关键操作有:字段映射功能、数据关联、集合操作、聚合操作、过滤、去重。

4、轻量的应用

采用Web交互的方式,实现数据流的设计。Transporter只是用于数据流设计和调度工作流的服务平台,本身不包含执行引擎,不负责任务实现,而是将工作任务提交到Inceptor或者其他计算引擎来完成,因此是极为轻量的应用。

5、高度并发

利用分布式集群进行数据流的并行计算,自动分析数据流依赖,实现数据流作业中最大可能的并行化。

6、高吞吐

擅长大数据量的同步,峰值数据吞吐率可达到40M/秒/节点。

7、数据质量和安全保障

提供事务级别的数据同步,确保目标表与原表拥有相同的数据一致性。另外还提供了完整的权限控制机制,用于保证数据的安全。

二、Transporter实例

2.1 案例一

2.1.1 业务需求

现在有两份人员名单,需要将其合并后写入Inceptor。

2.1.2 业务实现

1、为了方便测试,首先将两份数据上传到hdfs的目录下,如下所示 :

2、新建数据流,进入设计模式。

3、选择并拖出CSVReader模块并修改Reader参数。

同样的方法将two.csv文件读进来,如下:

4、选中转换模块中的union模块,并连接数据源模块与union模块。

5、拖出TextWriter,并连接转换模块与目标模块

6、修改TextWriter的参数

7、完成后,点击右上角的保存按钮进行保存,并进入调试模式。

如果调试没有问题,此处所有组件图表均为绿色。

查询数据库中的数据可以发现数据已经入库到对应的表中:

8、调试无误后点击下面的图表进行发布。

2.2 案例二

2.2.1 业务需求

查询得到年龄大于24岁的人员名单并将数据导出到csv文件。

2.2.2 业务实现

1、同样的,新建数据源

2、选择CSVWriter模块并修改参数,如下:

3、选择过滤模块并编辑参数

4、选择CSVWriter目标模块并编辑参数

5、保存并调试,发现数据已经导出到对应的目录中

以上就是本文的所有内容了,通过两个简单的实例,大家一定对Transporter有了一个初步的认识,本文到此已经接近尾声了,你们在此过程中遇到了什么问题,欢迎留言,让我看看你们都遇到了哪些问题~

TDH中的Transporter相关推荐

  1. TDH中的Workflow

    本文主要介绍Transwarp的工作流调度框架--Workflow,本文依托于星环的官方文档,通过一个简单的实例来让大家熟悉Workflow的使用.关注专栏<Transwarp系列>了解更 ...

  2. 基于星环TDH数据仓库典型总和场景数据流转设计

    典型综合场景数据流转设计 综合场景一 T+1数据加工 图 4 T+1方式数据流转 T+1是数据仓库领域最为常见的数据集成模式,T+1模式下数据仓库会在每天固定时间点采集当天或者前一天交易系统数据. 根 ...

  3. TDH和CDH的简介和对比

    前言 hadoop是一个开源项目,所以很多公司在这个基础进行商业化,下面简单介绍下应用比较广泛的TDH和CDH两个版本. [TDH] TDH:Transwarp Data Hub 1 Transwar ...

  4. CDH迁移 | 教你三步实现CDH迁移到星环TDH

    Transwarp Data Hub(TDH) 是星环科技自主研发的企业级一站式多模型大数据基础平台,其领先的多模型技术架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层,统一的资源调度层 ...

  5. Transwarp Inceptor中的对象

    1.1. Inceptor中的对象 在Inceptor中,您可以使用常见的数据库对象,包括数据库(database),表(table),视图(view)和函数(function).您可以使用Incep ...

  6. TDH 集群的许可证管理机制及TDH集群的卸载与安装

    目录 一.背景:Tdh集群的许可证管理机制 二.Tdh集群的许可证管理机制的具体技术细节 三.Tdh集群的安装 四.TDH集群的卸载 五.TDH集群卸载过程中的问题说明 一.背景:Tdh集群的许可证管 ...

  7. GNU Make 使用手册(于凤昌中译版)

    GNU Make 使用手册(中译版) 翻译:于凤昌 GNU make Version 3.79 April 2000 Richard M. Stallman and Roland McGrath 1 ...

  8. iOS App构建版本

    打开网址https://appstoreconnect.apple.com/apps,添加App 添加 App 至您的帐户后,您可以选择一个上传工具(macOS 版 Transporter)来上传构建 ...

  9. 星环科技数据中台解决方案,助力某政府机构建设新型智慧城市

    客户背景 城市,是人们工作生活的栖息地,也是展示发展成果的全景图.某政府机构不仅注重城市"中枢大脑"的建设,而且兼顾"神经末梢"的需求,既有技术进步的" ...

最新文章

  1. ubuntu10.10---用Apache+mod_wsgi部署python程序
  2. OCR识别缺点_福利:OCR大全
  3. 教务管理及教材订购系统设计文档
  4. Matlab--Monte Carlo simulation
  5. 使用SQL Coalesce函数查询数据
  6. mysql基础-数据库连接、创建、删除、选择等基本操作详解(一)
  7. Swift实现LRU缓存淘汰算法
  8. 一文读懂软考高项(高级-信息系统项目管理师)+无套路学习资料
  9. JavaScript 学习-42.jQuery 提交表单 submit() 方法
  10. 前端H5面试题Js: 数组的常用方法有哪些?
  11. rtmp/rtsp直播源(真是有效的,网上很多都是失效的)
  12. Ubuntu 安装 bashtop 资源监视器
  13. 安川机器人示教器按键功能介绍
  14. win10非核心版本的计算机上
  15. 对称、群论与魔术(一)——对称性本质探索
  16. k8s-scheduler调度规则
  17. 腾达n318虚拟服务器,腾达N318无线路由器的设置教程
  18. 企业数字化转型saas电商系统(已开源)
  19. python爬取微信制作照片墙
  20. 数字 阅读与创造——读戴德金之三

热门文章

  1. 搜狐Java开发实习生笔试题
  2. 2017计算机考研统考,2017年计算机统考408考研真题.pdf
  3. EDA探索性数据分析 -- 联合国粮农组织: 水资源
  4. 去水印解析API接口分享
  5. HTTP1.0、1.1、2.0的关系和区别以及编码和字符集的解释
  6. 电脑开机了,显示屏无信号怎么办?
  7. Mac 电脑不显示硬盘
  8. 电脑不显示输入密码界面
  9. 走出信任风波阴影后,变保守的积木盒子怎么重新起航?
  10. 在linux下安装配置ssh服务