概述

最近用kettle时发现输出到数据表太久,1小时才写了3万条数据,平均每秒速度为8条,基于此,做一下改进。

优化1:优化网络连接属性

mysql表输出的时候出现减速的原因可能是因为网络链接的属性设置

在此处添加参数:

useServerPrepStmts=false rewriteBatchedStatements=true useCompression=true characterEncoding=utf8

优化2:开启多线程

kettle转换在运行时,每个步骤可被看成一个带着输入、输出行队列的工作线程,每个线程是并行运行的,当数据化是有效时即处理。kettle允许针对每个独立步骤手工定义其线程数。如果转换有一个瓶颈步骤,该步骤有多个实例同时运行可以加快处理速度。可以通过检查每个步骤的输入、输出队列及行/秒的处理性能找到候选的瓶颈步骤。如果某步骤有满输入队列,空输出队列,并每秒处理行数低,这些因素往往决定了整个转换的性能,从而找到瓶颈步骤。这些因素的数据在kettle执行“Step Metrics”视图中可以看到。

右击问题步骤,选择“change number of copies to start..”并输入合适的线程数,这时当你运行转换时,你将注意到多个运行的实例,每个实例在视图中有自己的输入、输出队列。

优化3:调整队列大小

KTR是一个流式的处理过程,步骤与步骤之间的数据传递是通过缓存来完成的,调整缓存的大小可以对KTR的运行产生明显的影响。

Edit —> Settings —> Miscellaneous —> Nr of rows in rowset (缓存的记录行数)

这个值的大小需要根据机器的配置来选择,如果可用内存足够,一般的设置是10000,也就是缓存10000行数据,如果内存比较紧张,可以将该值调小一些,保证不会占用过量内存。

优化4:提高每次表输出的提交量

适当加大每次commit的数量。

最后还可以用kettle并发处理job,因为满足需求了,所以就不继续了。

kettle 提交数据量_基于kettle工具提高表输出写入速度(每秒万条记录)相关推荐

  1. kettle优化抽取数据速度_基于kettle工具提高表输出写入速度(每秒万条记录)

    概述 最近用kettle时发现输出到数据表太久,1小时才写了3万条数据,平均每秒速度为8条,基于此,做一下改进. 优化1:优化网络连接属性 mysql表输出的时候出现减速的原因可能是因为网络链接的属性 ...

  2. Kettle提高表输出写入速度(每秒万条记录)

    重点: ETL 优化多数在于表输入和表输出. 转自: https://blog.csdn.net/qq_37124304 https://blog.csdn.net/qq_37124304/artic ...

  3. kettle 提交数据量_Kettle数据同步速度调优记录

    Msyql到Vertica 1.mysql中在openshop 数据库中选择其中一个300W左右数据的表 create table ip_records_tmp_01 AS SELECT * FROM ...

  4. 插入2万调数据耗时_教你如何6秒钟往MySQL插入100万条数据!然后删库跑路!

    一.思路 往MySQL中插入1000000条数据只花了6秒钟! 关键点: 1.使用PreparedStatement对象 2.rewriteBatchedStatements=true 开启批量插入, ...

  5. 【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据

    文章目录 一.前言 1.1 实验内容 二.实验过程 2.1 实验内容一:掌握基于Kettle的字符串数据清洗 2.2 实验内容二:掌握基于Kettle的字段清洗 2.3 实验内容三:掌握基于Kettl ...

  6. get和post方式能提交数据量大小比较

    一般来说,get方式能提交的数据量大小根据浏览器的不同而不同:理论上post方式提交数据量没有大小限制,php中默认的是8M,但是可以在php.ini配置文件中修改其最大值:网上很多地方实测各个浏览器 ...

  7. Java操作百万数据量Excel导入导出工具类(程序代码教程)

    Java操作百万数据量Excel导入导出工具类(程序代码教程): # 功能实现1.自定义导入数据格式,支持配置时间.小数点类型(支持单/多sheet)(2种方式:本地文件路径导入(只支持xls.xls ...

  8. mysql单表最大数据量_你的Mysql库真需要Adaptive Hash Index

    说起AHI(Adaptive Hash Index),有的同学估计很陌生,都没听说,没关系,下面我会详细解释说明的,AHI是什么,mysql库为什么要设计AHI,解决什么问题,只有了解这些原理之后,才 ...

  9. TIA博途_基于SCL语言制作模拟量输入输出全局库的具体方法

    TIA博途_基于SCL语言制作模拟量输入输出全局库的具体方法 一. 模拟量输入块:创建FB,定义块的接口,如下图所示: 程序中包含了高报警,低报警,一般上位机报警需要这个变量. 极性选择,适合更广的应 ...

最新文章

  1. 人工智能行业应用之:为建筑工程提供全新解决方案
  2. AttributeError: module 'tensorflow_core.estimator' has no attribute 'inputs'
  3. CentOS7援救模式下更改密码
  4. 【学习笔记】系统观核心管理理论
  5. Java 斐波那契数列
  6. JAVA设计模式之抽象工厂模式
  7. 在机器学习中为什么要进行 One-Hot 编码?
  8. 主板刷安卓 联发科_魅蓝2—来自2015年的青年良品,在2020刷个安卓9.0,起死回生(附教程及资源)...
  9. 【leetcode】332. Reconstruct Itinerary
  10. python怎么读取txt文件-python怎么读取txt文件内容
  11. ELK详解(二十一)——elastalert介绍与安装
  12. SwiftUI实战三:创建List视图和导航Navigation
  13. 国产操作系统之优麒麟安装
  14. 信息机房服务器搬迁,医院信息机房搬迁的实施与经验总结
  15. python识别图片中数字_使用Python程序识别图像中的数字
  16. AcWing 143. 最大异或对 —— 神奇的二进制
  17. Shiro源码-创建subject
  18. 完整的高性能PHP应用服务器appserver
  19. elo算法c语言,王者荣耀Elo机制?你中招了吗?
  20. 【夏目鬼鬼分享】RabbitMQ路由模式

热门文章

  1. 无忧教学计算机,无忧全国计算机等级考试超级模拟软件第5套(解题全过程)教学内容[汇编].pdf...
  2. Walgreens以myWalgreens重塑美国最大的卫生健康忠诚度计划,为顾客带来更加丰富的福利
  3. ios(ipod touchipadiphone)越狱后的工作
  4. 高通平台抓取WiFi日志
  5. 家用计算机是什么时候开始流行,什么时候电脑在我国开始普及?好象是在近几年的事吧?...
  6. android 使用阿里百川电商SDK的问题
  7. 1 WoWmapview:魔兽世界地形查看器,附带源码!(Author: ufoz)
  8. yolov5使用教程训练our数据——手把手教你训练预测(以阿里天池比赛为例)
  9. rowKey设计原则
  10. 一文读懂哈希时间锁的合约机制、改进方向与应用场景