什么是informatic?
一、总体概述
ETL包括Extract、Transform、Cleaning和Load,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。
其中ETL培训的内容是如何利用Informatic PowerCenter把源数据库的内容提取存放到目标数据库中。主要
Informatic主要包括四个部分:Client,Reposity Server,Reposity Database和Informatic Server 每个部分实现自己的功能。
二、系统体系结构
此部分介绍了Informatic ETL工具包括的主要内容。
1. Client
Informatic Client主要有五个部分。Client可以和Reposity分离,通过TCP/IP连接,连接到远程的Reposity Server。
² Reposity Manager
主要用于进行一个Reposity库的管理,当用户使用Client工具登录一个Reposity服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。
² Designer
主要是进行数据抽取的转换工具的设计,主要是mapping的设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换操作(Transformation)。
同一个Reposity的folder之间可以建立shortcut方式,多个reposity的folder之间只能做拷贝。
² Workflow Manager
主要用于流程任务(workflow Task)的设计。
进行任务流程的设计、每一个Tast针对一个Session,一个session针对一个mapping,其中workflow中的Folder和Designer中的folder相对应的关系。一版来说,用户都是建立自己的Folder。
² Workflow Monitor
主要进行流程运行、及任务运行时的流程运行情况跟踪。可以跟踪日志。包括Session日志和Workflow日志,可以设置生成日志的循环个数。分析session运行是对源数据库的数据抽出信息和对目标数据库的更新信息。
² Reposity Server Application Console
主要进行Reposity的管理,包括Reposity Server的start,shutdown操作。
进行Reposity 库的backup、restore等操作,进行Reposity库级别的管理,级别较高。
2. Reposity Server
Reposity server是为客户端服务的,客户端可以和各种client不在一台服务器上。关于数据抽取的设计成果转换成为XML格式的源数据,都是通过Reposity Server存放到Reposity Database Server上的。
3. Reposity Database Server
用于存放的是进行ETL设计的元数据。可以支持各类的数据库。方式为数据库中用户的一个表目录和用户关系即可。
Reposity Database可以和Reposity server不安装在一台服务器。如果在一台机器上,server通过native方式连接到database,如果不在一台及其上,需要在database上安装一个reposity agent,用户通过agent,以native方式连接到reposity数据库,然后reposity agent再以tcp/ip方式连接到reposity server。
4. Informatic Server
Informatic server 是实际执行数据抽取任务的运行环境。即workflows、task、sessions等。它是根据定义的workflow元数据库,然后在自己的实际环境中,执行数据抽取操作。
三、系统组件功能
Informatic的功能主要体现在Designer 和Workflow Manager上,其中Designer实现的是对数据抽取的数据转换方式设计,以及效率设计目标等。而在Workflow Manager中再把具体的数据转换方式应用到一个具体的工作任务中,包括目标库、源库的选择,以及一条具体的执行任务的属性设置等等。包括任务的insert、truncate、delete、increment insert等。
1. Designer
² 工作区
在Designer中,涉及到的工作区主要包括有Source Analyzer、Warehouse Designer、Transformation Designer、Mapplet Designer和Mapping Designer。
其中每个工作区的功能分别介绍:
Source Analyzer:
Source Analyzer的功能是实现对源数据库表的设计,可以手工的进行源数据库的设计,一般都是通过从Flat File或者Relation DBMS中导入数据库的表结构。XLS文件结构。
Warehouse Designer
用于设计目标数据库库的结构,可以利用手工设计,也可以利用import工具导入导一个warehouse的结构。
Transformation Designer
用户设计可重用的transformation组件,这里的组件,在一个folder里面都是可以重用的,而且以shortcut的方式使用。Transformation组件的修改,会直接反映到使用此transformation的mapping中。
Mpplet
设计可以重用的多个组件,只要有output组件,可以有input组件,也可以没有input组件,实现的功能就和一个expression的功能类似,实现功能。
Mapping Designer
实现的功能是设计具体进行抽取数据的mapping,这些mapping应用到一个workflow中,形成了workflow的一个session(task)。
² 组件功能
ETL支持的组件主要包括两类:Active组件和Passive组件,其中Active组件是对输入记录集在输出时个数有变化的组件,Passive组件,输入的记录集,输出时记录集的个数不发生改变。
Informatic提供的组件包括:
(1) Source Qualifier: reads data from flat file & relational sources
(2) Expression: performs row-level calculations
(3) Filter: drops rows conditionally
(4) Sorter: sorts data
(5) Aggregator: performs aggregate calculations
(6) Joiner: joins heterogeneous sources
(7) Lookup: looks up values and passes them to other objects
(8) Update Strategy: tags rows for insert, update, delete, reject
(9) Router: splits rows conditionally
(10) Sequence Generator: generates unique ID values
(11) Normalizer: normalizes records from relational or VSAM sources
(12) Rank: filters the top or bottom range of records
(13) Union: merges data from multiple pipelines into one pipeline
(14) Transaction Control: allows user-defined commits
(15) Stored Procedure: calls a database stored procedure
(16) External Procedure : calls compiled code for each row
(17) Custom: calls compiled code for multiple rows
(18) Midstream XML Parser: reads XML from database table or message queue
(19) Midstream XML Generator: writes XML to database table or message queue
每一类组件都有自己独特的功能和特点,这里介绍主要的组件包括上述红色的内容。每一种组件的详细功能这里不详细介绍。
2. Workflow
Workflow是对执行任务的执行进行控制,可以在执行时对执行的任务进行传参数进行传入,这样就能在执行的时候把数据库表进行动态的设置。
可以在执行的时候选择参数文件,对mapping、workflow中的Session的参数进行传入。达到动态执行的目的。
Workflow中定义workflow、session等任务,对这些任务的执行进行管理控制。
四、补充说明
(1) Source Qualifier支持同构数据源的连接,衣钩数据源的连接通过N-1个jointer组件实现。
(2) Lookup为passive组件,查出的多条记录集,要么取first,或者last,或者报错。
(3) Lookup可以时动态/静态 ,可以connected/unconnect
什么是informatic?相关推荐
- linux存储库rep 61082,安装informatic过程中的错误
1.Check if the DISPLAY variable is set export DISPLAY=192.168.3.201:0.0 在注销用户并切换到oracle或者infa 用户,就可以 ...
- Informatic 使用过程中的问题
1.database driver error ORA-12154 1)检查监听是否启动 2)是否在tnsnames.ora中配置 转载于:https://www.cnblogs.com/jycjy/ ...
- Informatic PowerCenter 学习记录
由于最近在 学习关于BI的一些东东,所以学习过程中,想记录一些东西,以便自己查找方便. 下面介绍的是在做ETL 过程中用到的关于ETL工具的使用记录 使用PowerCenter Designer一个月 ...
- INFORMATIC 7 server 服务启动后自动关闭
http://wenku.baidu.com/view/1f4b2d3a87c24028915fc3ca.html 按步就班解决了 server 服务启动后自动关闭的现象 具体原因没查明 转载于:ht ...
- sicily 1004 I Conduit!
2019独角兽企业重金招聘Python工程师标准>>> Description Irv Kenneth Diggit works for a company that excavat ...
- 什么是BI?什么是DW?ETL(Extract-Transform-Load)是什么?
什么是BI?什么是DW?ETL(Extract-Transform-Load)是什么? 什么是BI? 即商业智能(Business Intelligence),是指通过对数据的收集.管理.分析以及转化 ...
- 开源大数据引擎:Greenplum 数据库架构分析
Greenplum 数据库是最先进的分布式开源数据库技术,主要用来处理大规模的数据分析任务,包括数据仓库.商务智能(OLAP)和数据挖掘等.自2015年10月正式开源以来,受到国内外业内人士的广泛关注 ...
- 海量数据处理利器greenplum——初识
https://www.cnblogs.com/skyme/p/5779885.html 简介及适用场景 如果想在数据仓库中快速查询结果,可以使用greenplum. Greenplum数据库也简称G ...
- 【ETL】ETL介绍与ETL工具比较
本文转载自:http://blog.csdn.net/u013412535/article/details/43462537 ETL,是英文 Extract-Transform-Load 的缩写,用来 ...
- 【ETL】ETL讲解(很详细!!!)
原文链接:https://blog.csdn.net/yanjiangdi/article/details/78426015 ETL是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是 ...
最新文章
- 励研(LY) CRC16算法
- Manjaro开机黑屏卡住_显卡驱动问题解决及配置源和搜狗输入法安装。
- 微信小程序tabBar不显示的问题描述解决
- oracle job 时间间隔,关于job的时间间隔的一个问题
- 计算两个数之间所有整数的和_汇编语言:输入2个0–99之间的整数,对其做乘法运算,在屏幕上显示出该乘积对应的二进制和十六进制数...
- boost::statechart模块实现终止测试
- java中字符串的操作_java中字符串的操作
- EIGENVECTORS FROM EIGENVALUES论文结论举例验证
- 【Splay】波动值之和(金牌导航 Splay-1)
- 不错的电子书下载网站
- 6.HBase时髦谨慎财会会计
- dateutils 工具类_五金工具泡壳封边机
- mysql 事务_MySQL事务隔离级别
- 简单讲讲SQL注入原理防御
- Java 程序员常用资源工具集合(建议收藏)
- L1-009 N个数求和 (20分)【附测试】
- 弹性小球flash导航菜单源码
- 今日网易邮箱126无法访问
- Apriori算法总结
- 曾经写过得太监小说4《无名》
热门文章
- 电力拖动自动控制系统matlab,基于Matlab的《电力拖动自动控制系统》课程教学改革...
- 计算机文化基础简答题
- 基于matlab的神经网络设计,matlab神经网络应用设计
- 《人人都是产品经理》读书笔记-2020
- vmware安装win7 vmware tools
- 3d工口医Android,3d口工医完整版
- 慧荣SM2246XT主控的固态硬盘修复开卡不识别怎么短接方法
- VMP.Net 3.5 脱壳
- 华硕老毛子(Padavan)——锐捷6.41,静态ip,学生破解过程分享,非专业仅供参考,啰嗦的一批,有耐心能看懂
- 对overflow与zoom”清除浮动”的一些认识