数据提取、转换与加载(ETL,Extract-Transform-Load)工具能够使组织内的不同数据更易于访问、更有意义、也更能被其他数据系统所使用。通常情况下,面对由此产生的自写代码、自建系统的相关成本和复杂性时,企业会直接去选择购置ETL工具。
Information Builders的iWay集成套件具有将应用程序与数据相集成的功能。客户可以使用它们来管理结构化、与非结构化的信息。该套件包括有iWay数据迁移器、iWay服务管理器和iWay通用适配器框架。
Pitney Bowes能够提供大量针对数据集成的工具和解决方案。其Sagent Data Flow是一款灵活的整合引擎,它能够采集不同来源的数据,并提供一套全面的数据转换工具,以增强其核心的业务价值。
以前被称为Business Objects Data Integrator的SAP业务对象数据服务(BODS)是一款可被用于数据集成、质量控制、分析和处理的ETL工具。它能够帮助您将可信的数据整合并转换到各个数据仓库的系统之中, 以产生分析报告。
Sun的ETL与数据集成工具是大型Java复合应用程序平台套件(CAPS)中的一部分。它是Oracle公司的一款标准化企业服务总体套件(Enterprise Service Bus software suite)。Java CAPS的组件能够整合现有应用程序,并能在面向服务的架构环境中提供新的业务服务。
Sybase ETL Development是一款用于创建和设计数据转换项目与作业的GUI工具。该工具提供了一个完整的模拟与调试环境,旨在加速ETL转换流程的开发。Sybase ETL Development包含有一台用于控制实际处理流程的ETL开发服务器,它能够连接到各个数据库,并执行相关过程。
数据批处理与转换工具很难实现跨平台的数据源采集,特别是在涉及到变更数据捕获(CDC,Change Data Capture)的情况时。当上传批量数据出现问题时,您需要跟踪问题、排除故障并尽快重新提交作业。而这种批量处理方式是非常致命的,因为如果在数据仓库中存在着超过24小时的、被API调用与分配的数据;或者需要同时备份传入的数据,那么这些CDC信息就可能因此而丢失或被覆盖,从而造成巨大的问题。
随着对实时数据访问需求的出现,诸如Kafka之类的最新模型,都能够实现基于数据流的处理和分布式的消息队列。以Alooma为代表的公司,通过新的技术提供了基于SaaS平台和本地的解决方案。面对数据流,最新的ETL平台能够在完成加载的数据仓库内部,进行不同级别的转换,并通过Python、Java等代码以实现完全控制。
Alooma是一个为云服务构建的企业数据管道(data pipeline)平台。Alooma能够提供一种现代的、可扩展的、基于云端的ETL解决方案,它可以实时地将来自任何数据源的数据汇集到任何一个数据仓库之中。