ETL工具-kettle(上)

罗的学习笔记 2020-09-25

1565

ETL是什么？

ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)，对于企业或行业应用来说，我们经常会遇到各种数据的处理、转换、迁移，所以了解并掌握一种ETL工具的使用必不可少，这里我要介绍的ETL工具是Kettle。

ETL工具—kettle

Kettle(现在已经更名为PDI，Pentaho Data Integration-Pentaho即数据集成) 是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。

Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

Kettle的结构

Spoon：Spoon是构建ETL Jobs和Transformations的工具。Spoon以拖拽的方式图形化设计，能够通过spoon调用专用的数据集成引擎或者集群。

Data Integration Server：是一个专用的ETL Server，主要功能有

功能	描述
执行	通过Pentaho Data Integration引擎执行ETL的作业或转换
安全性	管理用户、角色或集成的安全性
内容管理	提供一个集中的资源库(包含所有内容和特征的历史版本)，用来管理ETL的作业和转换
时序安排	在Spoon设计者环境中提供管理Data Integration Server上的活动的时序和监控的服务

Enterprise Console：提供了一个小型的客户端，用于管理Pentaho Data

Integration企业版的部署，包括企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动、分析已登记的作业和转换的动态绩效。

Kettle的安装

下载解压即可，设置KETTLE_HOME环境变量（不设置也可以使用，但开启后不会自动在根目录生成.kettle目录），变量值为data-integration目录的路径

Kettle的目录结构

.bat结尾的文件和.sh结尾的文件没什么区别，一个在window运行，一个在Linux运行

Kettle界面

双击运行Spoon.bat运行kettle

Kettle小试

把数据从lld数据库的input_person表复制到test库的output_person表

转换控件

表输入

表输出

运行

运行前表input_person和表output_perosn

运行日志

运行后表input_person和表output_perosn

可以看到，数据已经从lld数据库的input_person表复制到test库的output_person表

总结一下kettle的核心概念

可视化编程

Kettle可以被归类为可视化编程语言(Visula Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流（Kettle里的图就是转换和作业），可视化编程一直是Kettle里的核心概念，它可以让你快速构建复杂的ETL作业和减低维护工作量。它通过隐藏很多技术细节，使IT领域更贴近于商务领域。

转换

转换(transaformation)是ETL解决方案中最主要的部分，它处理抽取、转换、加载各种对数据行的操作。转换包含一个或多个步骤(step)，如读取文件、过滤数据行、数据清洗或将数据加载到数据库。转换里的步骤通过跳(hop)来连接，跳定义一个单向通道，允许数据从一个步骤向另一个步骤流动。

Step步骤

步骤（控件）是转换里的基本的组成部分。在上面的例子中，“表输入”和“表输出”就是其中的两个步骤

一个步骤有如下几个关键特性：

步骤需要有一个名字，这个名字在转换范围内唯一。
每个步骤都会读、写数据行(唯一例外是“生成记录”步骤，该步骤只写数据)。
步骤将数据写到与之相连的一个或多个输出跳，再传送到跳的另一端的步骤。
大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被被设置为分发和复制，分发是目标步骤轮流接收记录，复制是所有的记录被同时发送到所有的目标步骤。

Hop跳

跳就是步骤之间带箭头的连线，跳定义了步骤之间的数据通路。跳实际上是两个步骤之间的被称之为行集的数据行缓存（行集的大小可以在转换的设置里定义）。当行集满了，向行集写数据的步骤将停止写入，直到行集里又有了空间。当行集空了，从行集读取数据的步骤停止读取，直到行集里又有可读的数据行。

数据行

在Kettle里，数据的单位是行，一个数据行是零到多个字段的集合，数据流就是数据行从一个步骤到另一个步骤的移动。

并行

跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行，这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里，我们经常要处理大量数据，所以这种并发低消耗内存的方式也是ETL工具的核心需求。

对于kettle的转换，不可能定义一个执行顺序，因为所有步骤都以并发方式执行：当转换启动后，所有步骤都同时启动，从它们的输入跳中读取数据，并把处理过的数据写到输出跳，直到输入跳里不再有数据，就中止步骤的运行。当所有的步骤都中止了，整个转换就中止了。

如果你想要一个任务沿着指定的顺序执行，那么就要使用下一篇介绍的“作业”！

kettle 数据集成

文章转载自罗的学习笔记，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

ETL工具-kettle(上)

评论