kettle分批处理大表数据_Kettle大量数据快速导出的解决方案（利用SQL导出百万级数据，挺快的）...

org.apache.commons

commons-vfs2

2.0

org.scannotation

scannotation

1.0.3

dom4j

1.6.1

pentaho-kettle

kettle-vfs

5.2.0.0

pentaho

pentaho-kettle

kettle-engine

5.2.0.0

pentaho-kettle

kettle-core

5.2.0.0

OK，准备工作完成后开始编写Kettle工具类：

//Source code recreated from a .class file by IntelliJ IDEA//(powered by Fernflower decompiler)//import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.io.PrintWriter;

import java.net.URL;

import java.net.URLDecoder;

import javax.servlet.ServletOutputStream;

import javax.servlet.http.HttpServletResponse;

import org.apache.struts2.ServletActionContext;

import org.pentaho.di.core.KettleEnvironment;

import org.pentaho.di.trans.Trans;

import org.pentaho.di.trans.TransMeta;public classKettle {publicKettle() {

}public staticInputStream export(String sql, String savePath, String hostIp, String dbName, String port, String userName, String password) {

FileInputStreamin = null;try{

HttpServletResponse response=ServletActionContext.getResponse();

URL url= Kettle.class.getResource("/");

String paths= url.getFile().substring(0, url.getFile().indexOf("classes"));

paths=URLDecoder.decode(paths);

Long times=System.currentTimeMillis();

File path= newFile(savePath);if (!path.exists() && !path.isDirectory()) {

path.mkdir();

path.canWrite();

}

KettleEnvironment.init();

TransMeta tm= new TransMeta(paths + "classes/" + "export.ktr");

Trans trans= newTrans(tm);

trans.setVariable("hostIp", hostIp);

trans.setVariable("dbName", dbName);

trans.setVariable("port", port);

trans.setVariable("userName", userName);

trans.setVariable("password", password);

trans.setVariable("sql", sql);

trans.setVariable("savePath", savePath + "/" +times);

trans.prepareExecution((String[])null);

trans.startThreads();

trans.waitUntilFinished();

File file= new File(savePath + "/" + times + ".xlsx");

File file2= new File(savePath + "/" + times + ".xls");

ServletOutputStreamout;if(file.exists()) {in = newFileInputStream(file);

response.reset();

response.setContentType("application/x-download;charset=UTF-8");

response.addHeader("Content-Disposition", "attachment;filename='" + times + ".xlsx'");

response.addHeader("Content-Length", String.valueOf(file.length()));out =response.getOutputStream();

writeFile(out, in);

file.delete();

}else if(file2.exists()) {in = newFileInputStream(file2);

response.reset();

response.setContentType("application/x-download;charset=UTF-8");

response.addHeader("Content-Disposition", "attachment;filename='" + times + ".xls'");

response.addHeader("Content-Length", String.valueOf(file2.length()));out =response.getOutputStream();

writeFile(out, in);

file2.delete();

}else{

response.setContentType("text/html;charset=UTF-8");

PrintWriter writer=response.getWriter();

writer.write("");

}

}catch(Exception var18) {

var18.printStackTrace();

}return in;

}public static voidwriteFile(OutputStream fos, InputStream fis) throws IOException {byte[] buffer = new byte[1024];

boolean var3= false;intlen;while((len = fis.read(buffer)) > 0) {

fos.write(buffer,0, len);

fos.flush();

}

fis.close();

fos.close();

}

以上工具类要读取一个export.ktr的文件，我们把它放在\src\main\java下(当然你也可以放在你想要的路径下，修改以上程序能获取到就是了)，记得打包不要排除了，不然找不到

export.ktr文件内容(拷贝我的就行，如果不能使用自己去网上找个，百度下里面参数意思，数据库我用的mysql)：

export

Normal

ID_BATCH

CHANNEL_ID

TRANSNAME

STATUS

LINES_READ

LINES_WRITTEN

LINES_UPDATED

LINES_INPUT

LINES_OUTPUT

LINES_REJECTED

ERRORS

STARTDATE

ENDDATE

LOGDATE

DEPDATE

REPLAYDATE

LOG_FIELD

EXECUTING_SERVER

EXECUTING_USER

CLIENT

ID_BATCH

SEQ_NR

LOGDATE

TRANSNAME

STEPNAME

STEP_COPY

LINES_READ

LINES_WRITTEN

LINES_UPDATED

LINES_INPUT

LINES_OUTPUT

LINES_REJECTED

ERRORS

INPUT_BUFFER_ROWS

OUTPUT_BUFFER_ROWS

ID_BATCH

CHANNEL_ID

LOG_DATE

LOGGING_OBJECT_TYPE

OBJECT_NAME

OBJECT_COPY

REPOSITORY_DIRECTORY

FILENAME

OBJECT_ID

OBJECT_REVISION

PARENT_CHANNEL_ID

ROOT_CHANNEL_ID

ID_BATCH

CHANNEL_ID

LOG_DATE

TRANSNAME

STEPNAME

STEP_COPY

LINES_READ

LINES_WRITTEN

LINES_UPDATED

LINES_INPUT

LINES_OUTPUT

LINES_REJECTED

ERRORS

LOG_FIELD

ID_BATCH

CHANNEL_ID

LOG_DATE

METRICS_DATE

METRICS_CODE

METRICS_DESCRIPTION

METRICS_SUBJECT

METRICS_TYPE

METRICS_VALUE

0.0

10000

50000

1000

100

2016/03/01 17:21:47.083

2016/09/01 09:29:12.684

H4sIAAAAAAAAAAMAAAAAAAAAAAA=

111

${hostIp}

MYSQL

Native

${dbName}

${port}

${userName}

${password}

EXTRA_OPTION_MYSQL.defaultFetchSize

500

EXTRA_OPTION_MYSQL.useCursorFetch

true

FORCE_IDENTIFIERS_TO_LOWERCASE

FORCE_IDENTIFIERS_TO_UPPERCASE

IS_CLUSTERED

PORT_NUMBER

${port}

PRESERVE_RESERVED_WORD_CASE

QUOTE_ALL_FIELDS

STREAM_RESULTS

SUPPORTS_BOOLEAN_DATA_TYPE

SUPPORTS_TIMESTAMP_DATA_TYPE

USE_POOLING

表输入

Excel输出

ExcelOutput

none

UTF-8

${savePath}

xls

Sheet1

Encrypted

C:\Users\47\Desktop\通用模板.xls

arial

horizontal

white

dark_teal

320

center

arial

black

none

544

176

表输入

TableInput

none

111

${sql}

272

176

主方法里调用：

Kettle.export(sql, SystemConstant.EXPORT_PATH, "数据库IP", "数据库名字", "数据库端口", "数据库账号", "数据库密码");

你也可以用Springboot整合，有对应maven及配置，自行查资料。

效率测试：

*导出10w行记录

执行时间: 1133ms

执行时间: 1082ms

执行时间: 1096ms

* 导出100w行记录

执行时间: 39784ms

执行时间: 8566ms

执行时间: 8622ms

* Excel 2007行数极限 1048575 执行时间: 9686ms

第一次导数据要加载kettle组件运行稍慢，后面几次再导数据速度就飞快了，更多结果有兴趣的可以去试试。

kettle分批处理大表数据_Kettle大量数据快速导出的解决方案（利用SQL导出百万级数据，挺快的）...相关推荐

kettle分批处理大表数据_kettle 分批次拿数据库
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...
kettle分批处理大表数据_采用Kettle分页处理大数据量抽取任务
需求: 将Oracle数据库中某张表历史数据导入MySQL的一张表里面. 源表(Oracle):table1 目标表(MySQL):table2 数据量:20,000,000 思路: 由于服务器内存资 ...
kettle分批处理大表数据_kettle-批量同步表数据
一.实验目标利用kettle实现从mysql数据库中的dbf库批量同步表到dbm库(全量同步) 二.实验环境 dbf 库中表f1.f2.f3 .f1中1条数据,f2中100条数据,f3中2条数据 ...
Java写入大字符串到oracle数据库_java程序如何提高oracle百万级数据的insert效率
业务:需要从一个数据库查询百万级数据,在java程序中插入到另一个oracle数据库中代码: private final int persize = 1000; /** * 推送数据-流程 * @p ...
MYSQL百万级数据，如何优化
MYSQL百万级数据,如何优化首先,数据量大的时候,应尽量避免全表扫描,应考虑在 where 及 order by 涉及的列上建立索引,建索引可以大大加快数据的检索速度.但是,有些情况索引是不会起效 ...
百万级数据量，千万级数据量是多少，海量数据的优化方案
百万级数据量,千万级数据量是多少? 这里的百万级,千万级,针对数据库,指的是表的数据条数.有时也指并发事务量. 海量数据的优化方案 Note: 具体优化要结合自身的业务特性百万级: 这个数据量 ...
php导出1万条数据excel_PHP快速导出百万级数据到CSV或者EXCEL文件
前言: 很多时候,因为数据统计,我们需要将数据库的数据导出到Excel等文件中,以供数据人员进行查看,如果数据集不大,其实很容易:但是如果对于大数集的导出,将要考虑各种性能的问题,这里以导出数据库一百 ...
利用SQl对数据库实行数据拆分与组合
利用SQl对数据库实行数据拆分与组合实现提供以下几种方案: 方法一: WITH CTE AS ( SELECT A.Id,A.[Uid],UserName FROM ( SELECT A.[id], ...
使用POI导出百万级数据到excel的解决方案
使用POI导出百万级数据到excel的解决方案参考文章: (1)使用POI导出百万级数据到excel的解决方案 (2)https://www.cnblogs.com/hxun/p/11419006. ...

kettle分批处理大表数据_Kettle大量数据快速导出的解决方案（利用SQL导出百万级数据，挺快的）...

kettle分批处理大表数据_Kettle大量数据快速导出的解决方案（利用SQL导出百万级数据，挺快的）...相关推荐

最新文章

热门文章