4.1 关键参数

➢ job.setting.speed.channel : channel并发数
➢ job.setting.speed.record : 全局配置channel的record限速
➢ job.setting.speed.byte:全局配置channel的byte限速
➢ core.transport.channel.speed.record:单个channel的record限速
➢ core.transport.channel.speed.byte:单个channel的byte限速

4.2 优化 1 :提升每个channel的速度

在DataX内部对每个Channel会有严格的速度控制,分两种,一种是控制每秒同步的记录数,另外一种是每秒同步的字节数,默认的速度限制是1MB/s,可以根据具体硬件情况设置这个byte速度或者record速度,一般设置byte速度,比如:我们可以把单个Channel的速度上限配置为5MB。
配置文件:datax\conf\core.json

4.3 优化 2 :提升DataX Job内Channel并发数

并发数 = taskGroup的数量 * 每个TaskGroup并发执行的Task数 (默认为5)。
提升job内Channel并发有三种配置方式:

4.3.1 配置全局Byte限速以及单Channel Byte限速

Channel个数 = 全局Byte限速 / 单Channel Byte限速

 {"core": {"transport": {"channel": {"speed": {"byte": 1048576}}}},"job": {"setting": {"speed": {"byte" : 5242880}},...}
}

core.transport.channel.speed.byte=1048576,job.setting.speed.byte=5242880,所以Channel个数 = 全局Byte限速 / 单Channel Byte限速=5242880/1048576=5个

4.3.2 配置全局Record限速以及单Channel Record限速

Channel个数 = 全局Record限速 / 单Channel Record限速


{"core": {"transport": {"channel": {"speed": {"record": 100}}}},"job": {"setting": {"speed": {"record" : 500}},...}
}

core.transport.channel.speed.record=100,job.setting.speed.record=500,所以配置全局Record限速以及单Channel Record限速,Channel个数 = 全局Record限速 / 单ChannelRecord限速=500/100=5

4.3.3 直接配置Channel个数

只有在上面两种未设置才生效,上面两个同时设置是取值小的作为最终的channel数。

{"job": {"setting": {"speed": {"channel" : 5}},...}
}

直接配置job.setting.speed.channel=5,所以job内Channel并发=5个

4.4 优化 3 :提高JVM堆内存

当提升DataX Job内Channel并发数时,内存的占用会显著增加,因为DataX作为数据交换通道,在内存中会缓存较多的数据。例如Channel中会有一个Buffer,作为临时的数据交换的缓冲区,而在部分Reader和Writer的中,也会存在一些Buffer,为了防止OOM等错误,调大JVM的堆内存。建议将内存设置为4G或者8G,这个也可以根据实际情况来调整。调整JVM xms xmx参数的两种方式:一种是直接更改datax.py脚本;另一种是在启动的时候,加上对应的参数,如下:

python datax/bin/datax.py --jvm="-Xms8G -Xmx8G" XXX.json

尚硅谷大数据技术之 DataX—4)DataX使用优化相关推荐

  1. 尚硅谷大数据技术之电商用户行为数据分析

    尚硅谷大数据技术之电商用户行为分析 第1章 项目整体介绍 1.1 电商的用户行为 电商平台中的用户行为频繁且较复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘 ...

  2. 尚硅谷大数据技术Zookeeper教程-笔记01【Zookeeper(入门、本地安装、集群操作)】

    视频地址:[尚硅谷]大数据技术之Zookeeper 3.5.7版本教程_哔哩哔哩_bilibili 尚硅谷大数据技术Zookeeper教程-笔记01[Zookeeper(入门.本地安装.集群操作)] ...

  3. 尚硅谷大数据技术Scala教程-笔记04【集合】

    视频地址:尚硅谷大数据技术之Scala入门到精通教程(小白快速上手scala)_哔哩哔哩_bilibili 尚硅谷大数据技术Scala教程-笔记01[Scala课程简介.Scala入门.变量和数据类型 ...

  4. 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程,map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...

  5. 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...

  6. 尚硅谷大数据技术Spark教程-笔记09【SparkStreaming(概念、入门、DStream入门、案例实操、总结)】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表[课程资料下载] 视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[SparkCore ...

  7. 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】

    视频地址:尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01[大数据概论] 尚硅谷大数据技术Hadoop教程-笔记02[Hadoop-入 ...

  8. 尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】

    视频地址:尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01[大数据概论] 尚硅谷大数据技术Hadoop教程-笔记02[Hadoop-入 ...

  9. 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

    视频地址:尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01[大数据概论] 尚硅谷大数据技术Hadoop教程-笔记02[Hadoop-入 ...

最新文章

  1. Silverlight实用窍门系列:47.Silverlight中元素到元素的绑定,以及ObservableCollection和List的使用区别...
  2. android自定义布局实现优惠券效果
  3. 从前M个字母中取N个的无重复排列(回溯)
  4. dw php获取当前时间,tp5时间戳转日期的方法
  5. MongoDB——客户端Robo 3T v1.4.3 安装
  6. Windows XP_修改登录背景图案
  7. linux apr下载地址,apache apr各版本国内高速下载地址及入门教程
  8. Python 分位数回归
  9. html图片去除边框,CSS去掉图片img边框及如何防止图片撑破DIV
  10. 推荐几个选择时间.日期的免费插件 js
  11. 如何在WordPress中显示链接的实时预览
  12. python:shapely模块
  13. odoo16外部api接口
  14. wifi动不动就断开_WIFI经常自动断网,大多数是因为此原因
  15. pda通用扫描app_智能仓储盘点——PDA扫码盘点APP真正实现“轻松盘点”!
  16. 使用Beautifulsoup解析网页遇到的问题
  17. Verisiondog自动化系统备份
  18. 京东云加速扩展“朋友圈” 火力全开大展生态“云”图
  19. 【科普】“植物神经功能紊乱”如何诊断和治疗呢?
  20. Tushare股票分析【四】-- 通过股票代码获取股票名称

热门文章

  1. 阿里云服务器配置Tomcat
  2. 文件损坏怎么修复回来?
  3. uniapp开发微信小程序腾讯地图功能,生成地点云的sig签名
  4. 人工智能之集束搜索Beam Search Algorithm
  5. 哪个配件最爱坏?电脑配件寿命浅谈
  6. 华为发布海思麒麟950:神兽决斗跑分琅琊榜,麒麟压得过骁龙?---ESM
  7. android 仿微博评论编辑框_android 仿新浪微博开写篇
  8. 信奥中的数学基础:分解质因数
  9. html5 css 渐变背景,css渐变,css渐变色背景
  10. NLP入门开源实践总结