KETTLE数据上传
1. KETTLE简介
一种ETL工具,ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
常见的ETL工具有datastage、informatica、kettle、ODI、Cognos等
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。按项目负责人Matt的说法:就是把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。
2. 安装配置
2.1 版本
绿色安装,解压即可
常用版本:4.1.0,(体积小,易于部署) ,目前最新版本8.2
操作系统:windows,Linux,Unix等
JDK:1.6以上
2.2 设置
打开我的电脑--属性--高级--环境变量
新建系统变量JAVA_HOME和CLASSPATH
变量名:JAVA_HOME
变量值:D:\Program Files\Java\jdk1.8.0_192 (具体路径以自己本机安装目录为准)
变量名:CLASSPATH
变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;
添加到Path变量
变量名:Path
变量值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
确认JDK环境变量是否成功
3. KETTLE主要工具
转换:主要组成部分,完成数据的抽取,转换,装载
作业:定时执行转换
Spoon:图形界面工具,快速设计,维护ETL工作流,Spoon.bat,主要使用此工具
Kitchen:运行作业的命令行工具,Kitchen.bat
Pan:运行转换的命令行工具,Pan.bat
Carte:远程执行转换或作业,Carte.bat
4. 操作流程
4.1 启动
打开Spoon.bat
出现闪退情况时,请查看一下JAVA环境变量配置,JAVA版本是否正确
长时间无反应时,调整一下虚拟机内存分配
编辑Spoon.bat,以下内容
if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xmx512m" "-XX:MaxPermSize=256m"
(-Xms :表示java虚拟机堆区内存初始内存分配的大小
-Xmx: 表示java虚拟机堆区内存可被分配的最大上限
-XX:PermSize:表示非堆区初始内存分配大小
-XX:MaxPermSize:表示对非堆区分配的内存的最大上限)
4.2 主界面
第一次打开时,默认连接资源库,关闭即可,
资源库通常用于需要成员之间分工合作的大型的项目 ,
项目较小时,转换文件存储在本地即可。
4.3 新建转换
文件-新建-转换,快捷键CTL+N
4.4 数据库连接
建立两个系统数据库的连接方式
设置字符集,数据库连接-选项
新增添加参数characterEncoding,设置值为UTF8
4.5 常用控件
4.6 表输入
本地数据输入,数据库连接选择本地数据库,编写完成的SQL语句添加至此
4.7 表输出
插入对方数据库表,注意选择忽略插入错误选项
4.8 错误处理
上传数据出错时,将错误记录写入本地EXCEL,(也可以其他形式,比如数据库表) 操作步骤,如下:
转换界面,空白处,鼠标右键,定义错误处理
定义日志位置,文件名
定义日志内容
定义日志字段
转载于:https://www.cnblogs.com/wchwch/p/11028450.html
KETTLE数据上传相关推荐
- 2020-08-20 将数据上传到 S3 或从S3下载
将数据上传到 S3 在上个 notebook 中,你应该使用给定剽窃/非剽窃文本数据语料库的特征和类别标签创建了两个文件:training.csv 和 test.csv 文件. 以下单元格将加载一些 ...
- 【AllJoyn专题】基于AllJoyn和Yeelink的传感器数据上传与指令下行的研究
接触高通物联网框架AllJoyn不太久,但确是被深深地吸引了.在我看来,促进我深入学习的原因有三点:一.AllJoyn开源,对开源的软硬件总会有种莫名的喜爱,虽然或许不会都深入下去:二.顺应潮流,物联 ...
- MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南
为什么80%的码农都做不了架构师?>>> 摘要: MaxCompute 的数据上传接口(Tunnel)定义了数据 block 的概念:一个 block 对应一个 http re ...
- m5310模组数据上传至onenet_NBIOT模组M5310接入中国移动物联网开放平台示例文档
<time>: -t 设备存活时间,标示终端和 OneNET 平台之间连接的存活周 期,设置范围为 10s~86400s: : -u 设置 PUT 和 POST 指令分片长度,范围 0~6 ...
- 检查文件上传完成_“我的数据上传NCBI又报错了...” “攻略拿去!”
在上一期的内容中,我们分享了NCBI测序数据上传的主要步骤和资料填写的注意事项.今天跟大家分享最后一步:原始测序数据的上传以及上传后项目编号的相关类型和含义. 图1 NCBI测序数据上传步骤 | 原始 ...
- Arduino--ESP8266物联网WIFI模块(贝壳物联)--数据上传服务器(单数据接口)
一.简介 随着移动物联网的发展,各场景下对于物联控制.数据上传.远程控制的诉求也越来越多,基于此乐鑫科技推出了便宜好用性价比极高的wifi物联模块--ESP8266,话不多少我们先来看看这个神奇的模块 ...
- m5310模组数据上传至onenet_硬核干货!基于M5310-A的NB-IoT水表通信模块软件业务逻辑分享...
根据不同的应用场景需求,目前NB-IoT水表主要有以下几种方案: 图1 几种常见NB水表方案 接下来将从NB-IoT水表上电开机.模组初始化.入网判断.业务逻辑四个环节来详细讲述,以下业务流程仅供参考 ...
- 重新想象 Windows 8.1 Store Apps (89) - 通信的新特性: 下载数据, 上传数据, 上传文件...
重新想象 Windows 8.1 Store Apps (89) - 通信的新特性: 下载数据, 上传数据, 上传文件 原文:重新想象 Windows 8.1 Store Apps (89) - 通信 ...
- 10个MySQL加载数据内文件示例以将文本文件数据上传到表
10个MySQL加载数据内文件示例以将文本文件数据上传到表 如果文本文件中有数据,则可以轻松地将它们上载到数据库中的一个或多个表. 在MySQL数据库(或MariaDB)中,使用" load ...
最新文章
- yolo-mask的损失函数l包含三部分_损失函数总结-应用和trick
- nginx的error.log日志常见的几个错误解决方法
- Oracle 存储结构_表空间简介
- Qt鼠标拖动绘制基本几何图形
- tomcat启动报错:Bean name 'XXX' is already used in this beans element
- 防SQL注入的最好实现方式是什么?
- 20%3cx 30 的c语言表达式是,判断题(指令正误)
- 华为三星和解;联想全球首发折叠电脑;苹果回应美高院裁决 | 极客头条
- APK的Mokey测试
- saprk randomSplit方法
- mac os虚拟机镜像_为旧型Mac电脑配置支持OS 9的网络启动
- 锐捷Linux版的下载和使用(福大客户端)
- c语言九宫格的递归算法,九宫格 数独 求解 算法 栈实现
- GPRS 区分2g/3g/4g网络
- excel用图标表示数据增减
- 基于CentOs的docker的安装和简单使用
- 全系列极路由刷不死uboot(breed)教程
- [后台系统模板]优质、整洁的基于Bootstrap 3 Bootstrap 4的响应式后台管理系统模板...
- ipv6 华为交换机 路由配置_利用华为ENSP模拟器实现IPv6与IPv6默认路由与静态路由的配置...
- 带你入门学习Rxjava--上手教程