datax(23):dataX调优 您所在的位置:网站首页 字节job datax(23):dataX调优

datax(23):dataX调优

2023-12-18 21:09| 来源: 网络整理| 查看: 265

调优前需要先知道datax任务的执行过程;

一、调优方向 网络本身的带宽等硬件因素造成的影响;DataX本身的参数;

即当觉得DataX传输速度慢时,需要从上述两个个方面着手开始排查。

二、网络本身的带宽等硬件因素造成的影响

此部分主要需要了解网络本身的情况,即从源端到目的端的带宽是多少(实际带宽计算公式),平时使用量和繁忙程度的情况,从而分析是否是本部分造成的速度缓慢。以下提供几个思路。

1,可使用从源端到目的端scp,python http,nethogs等观察实际网络及网卡速度; 2,结合监控观察任务运行时间段时,网络整体的繁忙情况,来判断是否应将任务避开网络高峰运行; 3,观察任务机的负载情况,尤其是网络和磁盘IO,观察其是否成为瓶颈,影响了速度; 三、DataX本身的参数;

全局:提升每个channel的速度

在DataX内部对每个Channel会有严格的速度控制,分两种,一种是控制每秒同步的记录数,另外一种是每秒同步的字节数,默认的速度限制是1MB/s,可以根据具体硬件情况设置这个byte速度或者record速度,一般设置byte速度,比如:我们可以把单个Channel的速度上限配置为5MB

举例 { "core":{ "transport":{ "channel":{ "speed":{ "channel": 2, ## 此处为数据导入的并发度,建议根据服务器硬件进行调优 "record":-1, ##此处解除对读取行数的限制 "byte":-1, ##此处解除对字节的限制 "batchSize":2048 ##每次读取batch的大小 } } } }, "job":{ ... } }

局部:提升DataX Job内Channel并发数

并发数=taskGroup的数量每一个TaskGroup并发执行的Task数 (默认单个任务组的并发数量为5)。

提升job内Channel并发有三种配置方式:

配置全局Byte限速以及单Channel Byte限速,Channel个数 = 全局Byte限速 / 单Channel Byte限速配置全局Record限速以及单Channel Record限速,Channel个数 = 全局Record限速 / 单Channel Record限速直接配置Channel个数. 配置含义: job.setting.speed.channel : channel并发数 job.setting.speed.record : 全局配置channel的record限速 job.setting.speed.byte:全局配置channel的byte限速 core.transport.channel.speed.record:单channel的record限速 core.transport.channel.speed.byte:单channel的byte限速 举例 "setting": { "speed": { "channel": 2, "record":-1, "byte":-1, "batchSize":2048 } } } } # channel增大,为防止OOM,需要修改datax工具的datax.py文件。 # 如下所示,可根据任务机的实际配置,提升-Xms与-Xmx,来防止OOM。 # tunnel并不是越大越好,过分大反而会影响宿主机的性能。 DEFAULT_JVM = "-Xms1g -Xmx1g -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=%s/log" % (DATAX_HOME)

Jvm 调优

python datax.py --jvm="-Xms3G -Xmx3G" ../job/test.json

此处根据服务器配置进行调优,切记不可太大!否则直接Exception 以上为调优,应该是可以针对每个json文件都可以进行调优。

注意事项

1.当提升DataX Job内Channel并发数时,调整JVM堆参数,原因如下:

1. 当一个Job内Channel数变多后,内存的占用会显著增加,因为DataX作为数据交换通道,在内存中会缓存较多的数据。 2. 例如Channel中会有一个Buffer,作为临时的数据交换的缓冲区,而在部分Reader和Writer的中,也会存在一些Buffer,为了防止jvm报内存溢出等错误,调大jvm的堆参数。 3. 通常我们建议将内存设置为4G或者8G,这个也可以根据实际情况来调整 4. 调整JVM xms xmx参数的两种方式:一种是直接更改datax.py;另一种是在启动的时候,加上对应的参数,如下:python datax/bin/datax.py --jvm="-Xms8G -Xmx8G" XXX.json

2.Channel个数并不是越多越好, 原因如下:

1. Channel个数的增加,带来的是更多的CPU消耗以及内存消耗。 2. 如果Channel并发配置过高导致JVM内存不够用,会出现的情况是发生频繁的Full GC,导出速度会骤降,适得其反

注意:

MysqlReader进行数据抽取时,如果指定splitPk,表示用户希望使用splitPk代表的字段进行数据分片,DataX因此会启动并发任务进行数据同步,这样可以大大提供数据同步的效能,splitPk不填写,包括不提供splitPk或者splitPk值为空,DataX视作使用单通道同步该表数据,第三个测试不配置splitPk测试不出来效果

调优没有固定的,先了解原理,再根据原理及执行过程进行局部或者全局的调优,谢谢各位阅读



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有