四十二、ETL工具Kettle的转换步骤
1. ETL工具Kettle的转换步骤
1.1 Kettle转换步骤的具体内容:
- 字符串处理
- 字符串的拆分
- 字符串的替换
- 行列变换
- 其他转换步骤
- 闭合距离
- XSL转换
- 数值范围
2 字符串的处理
2.1 字符串的拆分
- 按位置拆分字符串,完成对字符串的剪辑
- 按标志字符一列拆分成多列或多行
- 字符串的合并:
- 多列合并为一列
- 多行合并为一行
2.2 字符串的替换
- 值映射
- 使用正则表达式
2.3 字符串的其他转换
- 使用常量替换一个字段的值。
- 使用一个字段替换另一个字段的值。
- 字符串操作
- 保留/移除字符串里的数字
- 补充指定长度的字符川
- 移去字符串里的特殊字符
3 行列变换及排序和排重
3.1 行转列(反正规化Denormaliser)
1. 功能:把多行的窄表转换成多列的宽表
2. 前提:需要事先按照分组字段排序
3. 特点:规范,便于扩展
3.2 列转行(正规化Normaliser)
- 把多列的宽表转换成多行的窄表
- 特点:方便查询
3.3 排序和排重
- 排序:使用快速排序算法对数据完成排序
- 排重
- Unique Row: 需要事先排序
- Unique Row(Hash):不排序、速度快、占内存
四十二、ETL工具Kettle的转换步骤相关推荐
- 四十、ETL工具的输入步骤
1. ETL工具Kettle的输入步骤 1.1 Kettle输入步骤主要分为以下几类: 生成记录和自定义常量. 获取系统信息 输入方式 2 生成记录和自定义常量 2.1 Kettle组件生成记录 生成 ...
- 四十一、ETL工具kettle输出步骤
1. ETL工具Kettle的输出步骤 Kettle输入步骤主要分为以下几类: 数据库输出 表输出 更新.删除.插入和更新 文件输出 文本文件输出 XML输出 Excel文件输出 其他 报表和应用 2 ...
- 四十三、ETL工具的流程和应用
1. Kettle的流程步骤和应用步骤 Kettle应用步骤的作用:用来转换提供的一些工具类步骤.具体的内容包括: NULL值处理 如何启动其他程序 日志功能 文件处理功能 2. 如何过滤数据 在Ke ...
- 开源ETL工具kettle系列
开源ETL工具kettle系列之常见问题 摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...
- 开源ETL工具kettle系列之常见问题
摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. Join 我得到A 数据流(不管是基于文件或 ...
- OpenCV学习笔记(四十一)——再看基础数据结构core OpenCV学习笔记(四十二)——Mat数据操作之普通青年、文艺青年、暴力青年 OpenCV学习笔记(四十三)——存取像素值操作汇总co
OpenCV学习笔记(四十一)--再看基础数据结构core 记得我在OpenCV学习笔记(四)--新版本的数据结构core里面讲过新版本的数据结构了,可是我再看这部分的时候,我发现我当时实在是看得太马 ...
- maya批量命名插件_教你玩转MAYA的四十二精华造诣(第一期)
最近在整理文档时发现我收藏了一篇关于MAYA应用技巧的文章,突然有兴趣看了看,结果发现老版本MAYA中的某些内容很多已经无法应用于新版本.我又上网查了一下,结果发现网上好多帖子和我收藏的这篇内容基本一 ...
- 【Visual C++】游戏开发笔记四十二 浅墨DirectX教程之十 游戏输入控制利器 DirectInput专场
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 本系列文 ...
- 多麦克风做拾音的波束_乱侃外设 篇四十二:一浪更比一浪强!HyperX Quadcast S 声浪加强版麦克风浅评...
原标题:乱侃外设 篇四十二:一浪更比一浪强!HyperX Quadcast S 声浪加强版麦克风浅评 乱侃外设 篇四十二:一浪更比一浪强!HyperX Quadcast S 声浪加强版麦克风浅评 20 ...
最新文章
- JSP的getRequestDispatcher()与sendRedirect()的区别
- java field, property,variable及getField和getDeclaredField的区别
- 宿舍管理系统设计分析图
- vue项目创建步骤 和 路由router知识点
- ubuntu桌面美化mac_Ubuntu16.04 主题美化
- 图说可视化,报表也能做得如此酷炫!
- 为了解决架构的问题,我们需要先理解敏捷的真谛
- Form窗体点击关闭按钮并未关闭进程的解决方法
- 小波变换 分离影像低频部分_连续小波变换(1)
- 关于GPS信息在谷歌地图上实时更新位置信息的问题
- malloc函数C语言实现
- HDU 5773 (DP)
- 喜讯 | 图扑科技再获厦门数字经济创新创业大赛一等奖
- 人人都是产品经理(善用用户反馈——浅谈用户反馈数据的处理)
- NOIP2015游记
- 深圳中学老师工资单曝光,秒杀程序员,网友:酸了酸了
- 根据特征重要性进行特征选择
- Thinkpad X200 屏幕备案
- ACM-ICPC 2018 南京赛区网络预赛 I Skr (马拉车+hash去重)或(回文树)
- 01集群中软件的安装 共三部分 Aspera下载与安装 centos系统sratoolkit安装并添加到环境变量 wxf晓飞 肖老师 集群安装软件全过程 export tar.gz
热门文章
- 十分钟搞懂JSON(JSON对象---JSON字符串---对象 之间的区别)
- [Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated
- php curl 代理ip访问url
- Illegal mix of collations (utf8_unicode_ci,IMPLICIT) and (utf8_general_ci,IMPLICIT) for operation '=
- PHP的查找stripos strpos strripos strpos
- xml突然变成空白_“侏罗纪中期”出现了型增转变填补食肉性恐龙体型发展当中的空白...
- completablefuture 线程池_SpringBoot中如何优雅的使用多线程
- jquery绑定元素id事件_JQuery绑定click事件的3种写法
- chrome session丢失_一文带你彻底读懂Cookie、Session、Token到底是什么
- Linux进程状态如何切换,Linux系统如何切换前台进程和后台进程(2)