ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建 您所在的位置:网站首页 centos安装kettle ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建

ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建

2024-05-26 20:23| 来源: 网络整理| 查看: 265

一、Kettle工具简介

        最近做的项目用到了ETL工具Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据。正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器。 

        本教程主要介绍kettle轻量级服务器 Carte的部署与应用,主要记录研究过程中踩的坑。

二、Kettle组件说明

 Kettle里有不同的工具,用于ETL的不同阶段。主要工具如下:

Spoon:图形化工具,用于快速设计和维护复杂的ETL工作流。Kitchen:运行作业的命令行工具。Pan:运行转换的命令行工具。Carte:轻量级的(大概1MB)Web服务器,用来远程执行转换或作业,一个运行有Carte进程的机器可以作为从服务器,从服务器是Kettle集群的一部分。

三、Linux环境Kettle Carte部署搭建

1、首先基于Centos7环境安装Java环境(略),查看java环境安装版本

java -version 

2、Kettle为绿色安装包,下载后解压即可,Linux通windows解压即可。

3、修改Carte 轻量级服务配置文件,kettle安装目录,例如\data-integration\pwd。

修改carte-config-master-8080.xml.

4、启动Carte 服务,启动命令如下。看到日志创建Web监听服务器打印日志,服务启动成功。

./carte.sh ./pwd/carte-config-master-8080.xml

5、webAPI调用接口启动Kettle脚本,使用PostMan调用接口

HTTP请求,支持POST、GET方式

127.0.0.1:7000/kettle/executeJob/?rep=KettleFileRepository&job=/testjob

rep=KettleFileRepository  :  rep kettle资源仓库,KettleFileRepository    为资源仓库ID

job=/testjob                        :job 为需要运行的工作脚本名称,特别注意,此处任务名称是job,任务名称后缀是kjb.

服务器端日志显示执行成功

如果提示  Error 401 Unauthorized错误,是Carte服务默认启用了Base Auth。默认用户名密码为 cluster

四、特别注意要点,Kettle资源仓库的配置

资源仓库为xml配置文件,windows系统默认在当前用户目录C:\Users\abc\.kettle;centos用户目录 /root/.kettle

资源库名称KettleFileRepository,就是http请求的资源库名称

base_directory 资源库物理路径,存放Kettle脚本的路径 

资源库配置文件 repositories.xml

     KettleFileRepository     kettleFileRepository     File repository     false     /JFS/files/kettle/job     N     N     脚本物理地址:

 



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有