1、kettle下载以安装

1)kettle的官网下载地址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net

2)如果需要下载其他版本:

直接点击对应的版本Name(8.0以下的是在Data Integration文件夹里面)进去,再选择client-tools点击进去,最后选择pdi-ce-xxx.zip进行下载。

3)安装

不管是windows和linux环境下安装都是直接解压即可,再配置jdk环境。同步数据时,需要在lib加入对应的数据库驱动包。


2、Kettle的注意点与问题点

【Kettle-201】${Internal.Entry.Current.Directory},该参数要求ktr文件和job文件必须放到同一目录下。

当然,可以给他加后缀设置不一样的路径,或者直接把对应文件的路径放进去

【Kettle-202】 输入和输出的字段格式不一致

以ElasticSearch为输入源,数据库为输出为例,es可能是驼峰命名字段,数据库可能是下划线命名。处理时可以在idea通过camelBar插件进行辅助转换。(快捷键:Alt+Shift+U 或者通过Edit-->camelBar)

【Kettle-203】hive相关问题,如果是同步到hive,默认情况下表输出是比较慢的,需要修改big-data-plugin插件源码。

异常原因:在kettle的big-data-plugin插件的源码中把批量提交的方法关闭了,所以其只能单挑插入,效率就非常低。

解决办法:

1)下载big-data-plugin插件源码(github上面直接搜索),选择与当前kettle版本对应的源码版本,如cdh510;
2)kettle官网下载kettle程序(暂且称为安装版);
3)在Idea上新建一个Java Project,把下载的插件源码解压,src下的文件拷贝到工程目录src下,工程中新建lib目录,把kettle安装版目录/lib下的kettle-core-版本号.jar、kettle-dbdialog-版本号.jar、kettle-engine-版本号.jar、kettle-ui-版本号.jar 四个jar包拷贝到工程lib目录并buildpath;
4)把工程src下除了org.pentaho.di.core.database 包之外的其他包都删除(这里只用hive2数据库连接,所以其他大数据插件就不要了,个人可以根据自身需求而定。);
5)修改Hive2DatabaseMeta类中的 public boolean supportsBatchUpdates()方法,把返回值由false改为true;
6)把工程达成jar包,名称参考安装版 plugins/pentaho-big-data-plugin/下的pentaho-big-data-plugin-版本号.jar的名字,然后替换安装版这个jar包为工程导出的jar包,重启kettle,DB连接的HadoopHive2连接的特征列表的supportsBatchUpdate已经是Y了,实际转换中的表输出速度也提高到几千条每秒。后台spark界面看提交的sql语句也变成batchinsert而不是之前的insert。

参考文章:https://download.csdn.net/download/weixin_43861380/11166617?utm_source=bbsseo

【Kettle-204】kettle连接不上hive

异常原因:如果使用kettle版本过高,hive版本过低,可能会导致连接不上hive。

解决方案:① 可以通过修改源码来解决。

② 也可以直接下载个低版本的kettle,修改plugin.properties配置文件(active.hadoop.configuration=),指定对应的CDH的版本(假设使用使用cdh)

data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations可以看到对应的大数据一些组件版本。

【Kettle-205】Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException: Column 'id' cannot be null

异常原因:① 如果目标表有主键,过来的数据为空,也会报主键不能为空的问题。② 如果是通过REST client就可能是查询条件出问题。

解决方案:① 确保同步同步过来的数据不为空

② 检查查询语句是否有异常

Kettle-206】Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x9A\x80WZ...' for column

异常原因:通常情况,Mysql数据编码格式为“utf-8”,对于汉字来说足够;Mysql中utf8占3个字节,但是,3个字节对于表情符号是不够的,需4个字节;此时使用utf8,会出现‘\xF0\x9F\x8D\x83\xF0\x9F’的问题。

utf8mb4编码是utf8编码的超集,兼容utf8,并且能存储4字节的表情字符。

解决方案:

① 设置kettle的数据库连接的配置(这种设置后可能连接不上数据库,数据库那边可能还要调整)

② 针对字段修改编码格式为utf8mb4(推荐使用)

ALTER TABLE table_name CHANGE field_name field_name VARCHAR(64) CHARACTER SET utf8mb4 ;

③ 修改数据库表的编码格式,修改为utf8mb4;修改Mysql配置文件my.cnf(windows下为my.ini),然后重启数据库 。

[client]
default-character-set = utf8mb4
[mysql]
default-character-set = utf8mb4
[mysqld]
character-set-server = utf8mb4

参考文章:解决Mysql:Incorrect string value: '\xF0\x9F\x8D\x83\xF0\x9F...' for column_春风化作秋雨的博客-CSDN博客_incorrect string value:

Kettle-207】目标表新增字段,kettle同步的时候无法显示的问题

异常原因:主要是kettle缓存问题导致的

解决方案:直接在最后的输出步骤里,点击下方的SQL进行缓存清理。


3、kettle启动停止工具脚本

#!/bin/sh
# @date 2023-01-03
# kettle启动停止工具脚本KJB_NAME=$2
## kettle的父路径
KETTLE_PATH='/opt/module/kettle/pdi-ce-8.2.0.0-342'## 使用说明,用来提示输入参数
usage(){echo "Usage: sh 脚本名.sh [start|stop|restart|status|tail] [KJB_NAME]"exit 1
}## 检查执行的文件是否存在
is_exist(){if [[ ! -e ${KETTLE_PATH}/jobs/${KJB_NAME}.kjb ]]; thenecho "该${KJB_NAME}.kjb在${KETTLE_PATH}/jobs/下不存在!"exit 1fi
}## 检查程序是否在运行
is_running(){pid=`ps -ef|grep ${KJB_NAME}.kjb|grep -v grep|awk '{print $2}'`
}## 启动方法
start(){is_existis_runningecho "pid=${pid}"if [[ -z "${pid}" ]]; thennohup ${KETTLE_PATH}/data-integration/kitchen.sh -file=${KETTLE_PATH}/jobs/${KJB_NAME}.kjb >> ${KETTLE_PATH}/logs/${KJB_NAME}.log 2>&1 &echo "${KJB_NAME} start success!"elseecho "${KJB_NAME} is already running."fi
}## 关闭方法
stop(){is_runningif [[ -z "${pid}" ]]; thenecho "${KJB_NAME} is not running!"elseecho "${KJB_NAME}, Trying to kill the pid=${pid}."kill -9 ${pid}echo "${KJB_NAME} stop success!"fi
}## 重启方法
restart(){stopstart
}## 启动方法
status(){is_existis_runningecho "pid=${pid}"if [[ -z "${pid}" ]]; thennohup ${KETTLE_PATH}/data-integration/kitchen.sh -file=${KETTLE_PATH}/jobs/${KJB_NAME}.kjb >> ${KETTLE_PATH}/logs/${KJB_NAME}.log 2>&1 &echo "${KJB_NAME} start success!"elseecho "${KJB_NAME} is already running."fi
}if [[ $# -lt 2 ]]; thenusage
ficase $1 in"start")echo "=================== start kettle_kjb ==================="start;;"stop")echo "=================== stop kettle_kjb ==================="stop;;"restart")echo "=================== restart kettle_kjb ==================="restart;;"status")echo "=================== status kettle_kjb ==================="ps -ef|grep ${KJB_NAME}.kjb|grep -v grep;;"tail")echo "=================== tail kettle_kjb ==================="tail -60f ${KETTLE_PATH}/logs/${KJB_NAME}.log;;*)echo "Input Args Error...";;
esac

参考文章:https://www.cnblogs.com/hls-code/p/16282329.html

kettle的下载安装以及问题点相关推荐

  1. kettle的下载、安装和初步使用(windows平台下)(图文详解)

    kettle的下载 Kettle可以在http://kettle.pentaho.org/网站下载 http://sourceforge.net/projects/pentaho/files/Data ...

  2. 国产化Kettle、JDK、MySQL下载安装操作步骤

    一.Kettle下载安装 (一).kettle的下载 1.登录https://sourceforge.net/projects/pentaho/ 2.点击"Files",进入Hom ...

  3. kettle工具下载、安装、数据迁移、定时任务详解

    kettle工具下载.安装.数据迁移.定时任务详解 篇幅有点长,将这五个内容放在了一篇文章里,其中最主要的是数据迁移和定时任务 目录 目录 一.简单介绍 二.下载 三.安装 四.数据迁移:包括单表整体 ...

  4. Kettle数据采集 部署安装

    kettle 是一个开源的数据采集的工具,可以把一个数据库表中的数据采集到另一台服务器数据库的表中,不同数据库之间也可相互采集,本地采集和不同服务器采集都行. 安装:(Windows) 设置java- ...

  5. ETL工具Kettle简介和安装配置基本使用

    什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. Kettle 中文名称叫水壶,该项目的主程 ...

  6. 01-PDI(Kettle)简介与安装

    文章目录 01-PDI(Kettle)简介与安装 PDI(Kettle)简介 Kettle安装 Kettle核心知识点 01-PDI(Kettle)简介与安装 最好的学习资料就是官网,附上官网文档地址 ...

  7. ETL工具Kettle的下载和使用

    Kettle 是什么 Kettle最早是一个开源.免费的ETL工具.在2006年,Pentaho公司收购了Kettle项目,从此,Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部 ...

  8. Redis学习之路(一)--下载安装redis

    redis学习之路--下载安装redis windows安装redis 1.下载redis 2.安装 3.查看是否安装成功 windows安装redis 1.下载redis 网址:https://gi ...

  9. git 下载 安装

    1.下载Git,官网地址:https://git-scm.com/,进入官网首页 在右下方的显示器中找到最新的版本下载,点击下载,跳转到下载页面 下载完成 2.安装Git 双击刚刚下载完成的安装文件, ...

最新文章

  1. [转载]CentOS 7安装Gnome GUI 图形界面
  2. 【控制】复杂度定义及计算
  3. 操作系统和Web服务器那点事儿
  4. 2d绘制 c# dx_C# DX 编程
  5. 示例:工具提示对象---享元模式应用
  6. toncat 如何部署 java_tomcat中部署java项目
  7. 代码优化导致的奇葩问题
  8. Simulink之不可控整流电路
  9. JavaScript学习笔记:迷宫游戏
  10. 干什么事都要先定位,再聚焦
  11. 龙飞船再次发射成功!马斯克无缘现场,因疑似感染新冠……
  12. 关于highslide的一点学习
  13. 软件测试经典问题——NextDate函数
  14. python找到两个有序列表的中位数
  15. 大厂面试必问!疯狂Java讲义第五版pdf在线阅读
  16. Python实现股票涨跌预测——随机森林模型
  17. 华为太极magisk安装教程_【极客教程】如何让不支持指纹支付的手机也能用上指纹支付?...
  18. Reservoir Computing简介
  19. 高通骁龙芯片的随身wifi入门刷机教程
  20. 7-2 两个巨大素数(质数)的乘积 (10分)

热门文章

  1. Xv6操作系统导论(第三章)
  2. 软件工程-数据流图+ER图绘制听课笔记
  3. 安卓手机使用什么便签?
  4. 通信原理期末考试试题及答案
  5. 登入验证安全 上(验证码、忘记密码、客户端验证)
  6. 用C语言求已知集合的笛卡儿乘积(离散数学)
  7. 山东大学数据库课程设计火车票系统报告
  8. 考研英语 - word-list-38
  9. .net core 压力测试 web性能工具
  10. android 导出Excel列表