kettle 提交数据量_基于kettle工具提高表输出写入速度(每秒万条记录)
概述
最近用kettle时发现输出到数据表太久,1小时才写了3万条数据,平均每秒速度为8条,基于此,做一下改进。
优化1:优化网络连接属性
mysql表输出的时候出现减速的原因可能是因为网络链接的属性设置
在此处添加参数:
useServerPrepStmts=false rewriteBatchedStatements=true useCompression=true characterEncoding=utf8
优化2:开启多线程
kettle转换在运行时,每个步骤可被看成一个带着输入、输出行队列的工作线程,每个线程是并行运行的,当数据化是有效时即处理。kettle允许针对每个独立步骤手工定义其线程数。如果转换有一个瓶颈步骤,该步骤有多个实例同时运行可以加快处理速度。可以通过检查每个步骤的输入、输出队列及行/秒的处理性能找到候选的瓶颈步骤。如果某步骤有满输入队列,空输出队列,并每秒处理行数低,这些因素往往决定了整个转换的性能,从而找到瓶颈步骤。这些因素的数据在kettle执行“Step Metrics”视图中可以看到。
右击问题步骤,选择“change number of copies to start..”并输入合适的线程数,这时当你运行转换时,你将注意到多个运行的实例,每个实例在视图中有自己的输入、输出队列。
优化3:调整队列大小
KTR是一个流式的处理过程,步骤与步骤之间的数据传递是通过缓存来完成的,调整缓存的大小可以对KTR的运行产生明显的影响。
Edit —> Settings —> Miscellaneous —> Nr of rows in rowset (缓存的记录行数)
这个值的大小需要根据机器的配置来选择,如果可用内存足够,一般的设置是10000,也就是缓存10000行数据,如果内存比较紧张,可以将该值调小一些,保证不会占用过量内存。
优化4:提高每次表输出的提交量
适当加大每次commit的数量。
最后还可以用kettle并发处理job,因为满足需求了,所以就不继续了。
kettle 提交数据量_基于kettle工具提高表输出写入速度(每秒万条记录)相关推荐
- kettle优化抽取数据速度_基于kettle工具提高表输出写入速度(每秒万条记录)
概述 最近用kettle时发现输出到数据表太久,1小时才写了3万条数据,平均每秒速度为8条,基于此,做一下改进. 优化1:优化网络连接属性 mysql表输出的时候出现减速的原因可能是因为网络链接的属性 ...
- Kettle提高表输出写入速度(每秒万条记录)
重点: ETL 优化多数在于表输入和表输出. 转自: https://blog.csdn.net/qq_37124304 https://blog.csdn.net/qq_37124304/artic ...
- kettle 提交数据量_Kettle数据同步速度调优记录
Msyql到Vertica 1.mysql中在openshop 数据库中选择其中一个300W左右数据的表 create table ip_records_tmp_01 AS SELECT * FROM ...
- 插入2万调数据耗时_教你如何6秒钟往MySQL插入100万条数据!然后删库跑路!
一.思路 往MySQL中插入1000000条数据只花了6秒钟! 关键点: 1.使用PreparedStatement对象 2.rewriteBatchedStatements=true 开启批量插入, ...
- 【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据
文章目录 一.前言 1.1 实验内容 二.实验过程 2.1 实验内容一:掌握基于Kettle的字符串数据清洗 2.2 实验内容二:掌握基于Kettle的字段清洗 2.3 实验内容三:掌握基于Kettl ...
- get和post方式能提交数据量大小比较
一般来说,get方式能提交的数据量大小根据浏览器的不同而不同:理论上post方式提交数据量没有大小限制,php中默认的是8M,但是可以在php.ini配置文件中修改其最大值:网上很多地方实测各个浏览器 ...
- Java操作百万数据量Excel导入导出工具类(程序代码教程)
Java操作百万数据量Excel导入导出工具类(程序代码教程): # 功能实现1.自定义导入数据格式,支持配置时间.小数点类型(支持单/多sheet)(2种方式:本地文件路径导入(只支持xls.xls ...
- mysql单表最大数据量_你的Mysql库真需要Adaptive Hash Index
说起AHI(Adaptive Hash Index),有的同学估计很陌生,都没听说,没关系,下面我会详细解释说明的,AHI是什么,mysql库为什么要设计AHI,解决什么问题,只有了解这些原理之后,才 ...
- TIA博途_基于SCL语言制作模拟量输入输出全局库的具体方法
TIA博途_基于SCL语言制作模拟量输入输出全局库的具体方法 一. 模拟量输入块:创建FB,定义块的接口,如下图所示: 程序中包含了高报警,低报警,一般上位机报警需要这个变量. 极性选择,适合更广的应 ...
最新文章
- 人工智能行业应用之:为建筑工程提供全新解决方案
- AttributeError: module 'tensorflow_core.estimator' has no attribute 'inputs'
- CentOS7援救模式下更改密码
- 【学习笔记】系统观核心管理理论
- Java 斐波那契数列
- JAVA设计模式之抽象工厂模式
- 在机器学习中为什么要进行 One-Hot 编码?
- 主板刷安卓 联发科_魅蓝2—来自2015年的青年良品,在2020刷个安卓9.0,起死回生(附教程及资源)...
- 【leetcode】332. Reconstruct Itinerary
- python怎么读取txt文件-python怎么读取txt文件内容
- ELK详解(二十一)——elastalert介绍与安装
- SwiftUI实战三:创建List视图和导航Navigation
- 国产操作系统之优麒麟安装
- 信息机房服务器搬迁,医院信息机房搬迁的实施与经验总结
- python识别图片中数字_使用Python程序识别图像中的数字
- AcWing 143. 最大异或对 —— 神奇的二进制
- Shiro源码-创建subject
- 完整的高性能PHP应用服务器appserver
- elo算法c语言,王者荣耀Elo机制?你中招了吗?
- 【夏目鬼鬼分享】RabbitMQ路由模式
热门文章
- 无忧教学计算机,无忧全国计算机等级考试超级模拟软件第5套(解题全过程)教学内容[汇编].pdf...
- Walgreens以myWalgreens重塑美国最大的卫生健康忠诚度计划,为顾客带来更加丰富的福利
- ios(ipod touchipadiphone)越狱后的工作
- 高通平台抓取WiFi日志
- 家用计算机是什么时候开始流行,什么时候电脑在我国开始普及?好象是在近几年的事吧?...
- android 使用阿里百川电商SDK的问题
- 1 WoWmapview:魔兽世界地形查看器,附带源码!(Author: ufoz)
- yolov5使用教程训练our数据——手把手教你训练预测(以阿里天池比赛为例)
- rowKey设计原则
- 一文读懂哈希时间锁的合约机制、改进方向与应用场景