1.     KETTLE简介

一种ETL工具,ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

常见的ETL工具有datastage、informatica、kettle、ODI、Cognos等

Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。按项目负责人Matt的说法:就是把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。

2.     安装配置

2.1      版本

绿色安装,解压即可

常用版本:4.1.0,(体积小,易于部署) ,目前最新版本8.2

操作系统:windows,Linux,Unix等

JDK:1.6以上

2.2      设置

打开我的电脑--属性--高级--环境变量

新建系统变量JAVA_HOME和CLASSPATH

变量名:JAVA_HOME

变量值:D:\Program Files\Java\jdk1.8.0_192    (具体路径以自己本机安装目录为准)

变量名:CLASSPATH

变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;

添加到Path变量

变量名:Path

变量值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;

确认JDK环境变量是否成功

3.     KETTLE主要工具

转换:主要组成部分,完成数据的抽取,转换,装载

作业:定时执行转换

Spoon:图形界面工具,快速设计,维护ETL工作流,Spoon.bat,主要使用此工具

Kitchen:运行作业的命令行工具,Kitchen.bat

Pan:运行转换的命令行工具,Pan.bat

Carte:远程执行转换或作业,Carte.bat

4.     操作流程

4.1      启动

打开Spoon.bat

出现闪退情况时,请查看一下JAVA环境变量配置,JAVA版本是否正确

长时间无反应时,调整一下虚拟机内存分配

编辑Spoon.bat,以下内容

if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xmx512m" "-XX:MaxPermSize=256m"

(-Xms :表示java虚拟机堆区内存初始内存分配的大小

-Xmx: 表示java虚拟机堆区内存可被分配的最大上限

-XX:PermSize:表示非堆区初始内存分配大小
-XX:MaxPermSize:表示对非堆区分配的内存的最大上限)

4.2      主界面

第一次打开时,默认连接资源库,关闭即可,

资源库通常用于需要成员之间分工合作的大型的项目 ,

项目较小时,转换文件存储在本地即可。

4.3     新建转换

文件-新建-转换,快捷键CTL+N

4.4     数据库连接

建立两个系统数据库的连接方式

设置字符集,数据库连接-选项

新增添加参数characterEncoding,设置值为UTF8

4.5      常用控件

4.6      表输入

本地数据输入,数据库连接选择本地数据库,编写完成的SQL语句添加至此

4.7      表输出

插入对方数据库表,注意选择忽略插入错误选项

4.8      错误处理

上传数据出错时,将错误记录写入本地EXCEL,(也可以其他形式,比如数据库表) 操作步骤,如下:

转换界面,空白处,鼠标右键,定义错误处理

定义日志位置,文件名

定义日志内容

定义日志字段

转载于:https://www.cnblogs.com/wchwch/p/11028450.html

KETTLE数据上传相关推荐

  1. 2020-08-20 将数据上传到 S3 或从S3下载

    将数据上传到 S3 在上个 notebook 中,你应该使用给定剽窃/非剽窃文本数据语料库的特征和类别标签创建了两个文件:training.csv 和 test.csv 文件. 以下单元格将加载一些 ...

  2. 【AllJoyn专题】基于AllJoyn和Yeelink的传感器数据上传与指令下行的研究

    接触高通物联网框架AllJoyn不太久,但确是被深深地吸引了.在我看来,促进我深入学习的原因有三点:一.AllJoyn开源,对开源的软硬件总会有种莫名的喜爱,虽然或许不会都深入下去:二.顺应潮流,物联 ...

  3. MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南

    为什么80%的码农都做不了架构师?>>>    摘要: MaxCompute 的数据上传接口(Tunnel)定义了数据 block 的概念:一个 block 对应一个 http re ...

  4. m5310模组数据上传至onenet_NBIOT模组M5310接入中国移动物联网开放平台示例文档

    <time>: -t 设备存活时间,标示终端和 OneNET 平台之间连接的存活周 期,设置范围为 10s~86400s: : -u 设置 PUT 和 POST 指令分片长度,范围 0~6 ...

  5. 检查文件上传完成_“我的数据上传NCBI又报错了...” “攻略拿去!”

    在上一期的内容中,我们分享了NCBI测序数据上传的主要步骤和资料填写的注意事项.今天跟大家分享最后一步:原始测序数据的上传以及上传后项目编号的相关类型和含义. 图1 NCBI测序数据上传步骤 | 原始 ...

  6. Arduino--ESP8266物联网WIFI模块(贝壳物联)--数据上传服务器(单数据接口)

    一.简介 随着移动物联网的发展,各场景下对于物联控制.数据上传.远程控制的诉求也越来越多,基于此乐鑫科技推出了便宜好用性价比极高的wifi物联模块--ESP8266,话不多少我们先来看看这个神奇的模块 ...

  7. m5310模组数据上传至onenet_硬核干货!基于M5310-A的NB-IoT水表通信模块软件业务逻辑分享...

    根据不同的应用场景需求,目前NB-IoT水表主要有以下几种方案: 图1 几种常见NB水表方案 接下来将从NB-IoT水表上电开机.模组初始化.入网判断.业务逻辑四个环节来详细讲述,以下业务流程仅供参考 ...

  8. 重新想象 Windows 8.1 Store Apps (89) - 通信的新特性: 下载数据, 上传数据, 上传文件...

    重新想象 Windows 8.1 Store Apps (89) - 通信的新特性: 下载数据, 上传数据, 上传文件 原文:重新想象 Windows 8.1 Store Apps (89) - 通信 ...

  9. 10个MySQL加载数据内文件示例以将文本文件数据上传到表

    10个MySQL加载数据内文件示例以将文本文件数据上传到表 如果文本文件中有数据,则可以轻松地将它们上载到数据库中的一个或多个表. 在MySQL数据库(或MariaDB)中,使用" load ...

最新文章

  1. yolo-mask的损失函数l包含三部分_损失函数总结-应用和trick
  2. nginx的error.log日志常见的几个错误解决方法
  3. Oracle 存储结构_表空间简介
  4. Qt鼠标拖动绘制基本几何图形
  5. tomcat启动报错:Bean name 'XXX' is already used in this beans element
  6. 防SQL注入的最好实现方式是什么?
  7. 20%3cx 30 的c语言表达式是,判断题(指令正误)
  8. 华为三星和解;联想全球首发折叠电脑;苹果回应美高院裁决 | 极客头条
  9. APK的Mokey测试
  10. saprk randomSplit方法
  11. mac os虚拟机镜像_为旧型Mac电脑配置支持OS 9的网络启动
  12. 锐捷Linux版的下载和使用(福大客户端)
  13. c语言九宫格的递归算法,九宫格 数独 求解 算法 栈实现
  14. GPRS 区分2g/3g/4g网络
  15. excel用图标表示数据增减
  16. 基于CentOs的docker的安装和简单使用
  17. 全系列极路由刷不死uboot(breed)教程
  18. [后台系统模板]优质、整洁的基于Bootstrap 3 Bootstrap 4的响应式后台管理系统模板...
  19. ipv6 华为交换机 路由配置_利用华为ENSP模拟器实现IPv6与IPv6默认路由与静态路由的配置...
  20. 带你入门学习Rxjava--上手教程

热门文章

  1. maven pom.xml 报错
  2. EMC:欲占企业数据中心市场大半江山
  3. rails3 ajax替换成js
  4. ibatis example Class 使用
  5. ObjectDataSource未能找到带参数的非泛型方法的解决
  6. 从工业云到工业互联网平台演进的五个阶段
  7. mysql原理~undo
  8. Struts2 分割字符串标签s:generator
  9. python文本操作
  10. Spring Boot集成Quartz注入Spring管理的类