几款开源的 ETL 工具及 ELT 初探 您所在的位置:网站首页 transformation缩写 几款开源的 ETL 工具及 ELT 初探

几款开源的 ETL 工具及 ELT 初探

2023-04-15 03:54| 来源: 网络整理| 查看: 265

主页:

2

Apache Kafka

Apache Kafka 是一个开源的消息系统,用 Scale 和 Java 写成。该项目为处理实时数据提供了一个统一、高通量、低延时的平台。有如下特性:

通过 O(1) 的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

高吞吐量:即使是非常普通的硬件 kafka 也可以支持每秒数十万的消息。

支持通过 kafka 服务器和消费机集群来分区消息。

支持 Hadoop 并行数据加载。

通过 O(1) 的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

高吞吐量:即使是非常普通的硬件 kafka 也可以支持每秒数十万的消息。

支持通过 kafka 服务器和消费机集群来分区消息。

支持 Hadoop 并行数据加载。

主页:

3

Apatar

Apatar 用 Java 编写,是一个开源的数据抽取、转换、 装载(ETL)项目。模块化的架构。提供可视化的 Job 设计器与映射工具,支持所有主流数据源,提供灵活的基于 GUI、服务器和嵌入式的部署选项。它具有符合 Unicode 的功能,可用于跨团队集成数据,填充数据仓库与数据市场,在连接到其他系统时在代码少量或没有代码的情况下进行维护。

主页:

4

Heka

来自 Mozilla 的 Heka 是一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。

主页:

5

Logstash

Logstash 是一个应用程序日志、事件的传输、处理、管理和搜索的平台。你可以用它来统一对应用程序日志进行收集管理,提供 Web 接口用于查询和统计。Logstash 现在是 家族成员之一。

主页:

6

ella

ella 是一个开源的 ETL (抽取-转换-加载)工具和一个脚本执行工具,采用 Java 开发。ella 支持跨数据库的 ETL 脚本,并且可以在单个的 ETL 文件中与多个数据源运行。ella 可与任何 JDBC / ODBC 兼容的驱动程序集成,并提供与非 JDBC 数据源和脚本语言的互操作性的接口。它还可以与 Java EE,Spring,JMX,JNDI 和 JavaMail 集成。

主页:

7

Talend

Talend (踏蓝) 是第一家针对的数据集成工具市场的 ETL(数据的提取 Extract、传输 Transform、载入Load)开源软件供应商。Talend 以它的技术和商业双重模式为 ETL 服务提供了一个全新的远景。它打破了传统的独有封闭服务,提供了一个针对所有规模的公司的公开的,创新的,强大的灵活的软件解决方案。最终,由于 Talend 的出现,数据整合方案不再被大公司所独享。

主页:

ELT 初探

虽然 Stitch 也是一个 ETL 服务企业,但其 CEO 在 TechTarget 杂志的访谈中也称赞了 服务,同时提出了从 ETL 转向 ELT 的需要。

在他看来,“无 ETL”即 ETL 过程由提取(),加载(),变换()代替,其中数据变换根据下游使用的需要而在 SQL 中进行,而不是在加载阶段期间。他承认 ETL 公司来推广 ELT 概念有点让人匪夷所思,但他解释了这么做的好处。

“使用 Athena,你可以从数据源中提取数据,经过少量或不加载预处理后进行加载。 这种风格的 ELT 是大多数使用案例的优秀模型,因为它能产生更简单的架构,使分析人员更好地了解原始数据的变换过程。”。

使用 ELT 方法,在提取完成之后,数据加载会立即开始,而不用等待“恰当的”数据变换操作。 转换还可以在查询时运行,比 ETL 更省时,因为 ETL 需要用户等待转换完成。 ELT 允许 BI 用户和分析人员无限制地访问整个原始数据,为用户提供了更大的灵活性,使之能更好地支持该业务。

更多内容可参阅:

编译自:

责任编辑:-

转载必须在正文中标注并保留原文链接和作者等信息

推荐阅读

点击“阅读原文”查看更多精彩内容返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有