ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建 | 您所在的位置:网站首页 › centos安装kettle › ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建 |
一、Kettle工具简介 最近做的项目用到了ETL工具Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据。正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器。 本教程主要介绍kettle轻量级服务器 Carte的部署与应用,主要记录研究过程中踩的坑。 二、Kettle组件说明 Kettle里有不同的工具,用于ETL的不同阶段。主要工具如下: Spoon:图形化工具,用于快速设计和维护复杂的ETL工作流。Kitchen:运行作业的命令行工具。Pan:运行转换的命令行工具。Carte:轻量级的(大概1MB)Web服务器,用来远程执行转换或作业,一个运行有Carte进程的机器可以作为从服务器,从服务器是Kettle集群的一部分。三、Linux环境Kettle Carte部署搭建 1、首先基于Centos7环境安装Java环境(略),查看java环境安装版本 java -version 2、Kettle为绿色安装包,下载后解压即可,Linux通windows解压即可。 3、修改Carte 轻量级服务配置文件,kettle安装目录,例如\data-integration\pwd。 修改carte-config-master-8080.xml. 4、启动Carte 服务,启动命令如下。看到日志创建Web监听服务器打印日志,服务启动成功。 ./carte.sh ./pwd/carte-config-master-8080.xml 5、webAPI调用接口启动Kettle脚本,使用PostMan调用接口 HTTP请求,支持POST、GET方式 127.0.0.1:7000/kettle/executeJob/?rep=KettleFileRepository&job=/testjob rep=KettleFileRepository : rep kettle资源仓库,KettleFileRepository 为资源仓库ID job=/testjob :job 为需要运行的工作脚本名称,特别注意,此处任务名称是job,任务名称后缀是kjb. 服务器端日志显示执行成功 如果提示 Error 401 Unauthorized错误,是Carte服务默认启用了Base Auth。默认用户名密码为 cluster 四、特别注意要点,Kettle资源仓库的配置 资源仓库为xml配置文件,windows系统默认在当前用户目录C:\Users\abc\.kettle;centos用户目录 /root/.kettle 资源库名称KettleFileRepository,就是http请求的资源库名称 base_directory 资源库物理路径,存放Kettle脚本的路径 资源库配置文件 repositories.xml KettleFileRepository kettleFileRepository File repository false /JFS/files/kettle/job N N 脚本物理地址:
|
CopyRight 2018-2019 实验室设备网 版权所有 |