暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

带大家来了解一下ETL数据处理工具Kettle

端木圊囩 2020-09-18
943

Kettle简介:

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少,这里介绍一个ETL工具Kettle,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率。

 

Kettle概念 

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation(.ktr)和job(.kjb),transformation完成针对数据的基础转换,job则完成整个工作流的控制。

 

Kettle:四大家族(核心组件)

Chef(中文:厨师)、Kitchen(中文:厨房)、Spoon(中文:勺子)、Pan(中文:平底锅)

Chef—工作(job)设计工具 (GUI方式)。CHEF 允许你创建任务(Job)。任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

Kitchen—工作(job)执行器 (命令行方式)。KITCHEN 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。

Spoon—转换(transform)设计工具 (GUI方式)。SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。

pan—转换(transform)执行器 (命令行方式)。PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。

Job和Transformation的差别:Transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job。

 

Kettle:部署

安装JDK:由于Kettle是由java语言开发,该软件的允许需要java运行环境的依赖,需要先安装好JDK,准备好运行环境。

安装jdk1.8以上,配置Java环境变量;

java_home C:\Program Files\Java\jdk1.8.0_181

classpath:.;%java_home%\lib\dt.jar;%java_home%\lib\tools.jar

path:在path路径中添加%java_home%\bin;%java_home%\jre\bin;

kettle_home:D:\pdi-ce-7.1.0.0-12\data-integration(安装kettle路径)

kettle需要jre1.8及以上版本,可以通过oracle官网免费下载;kettle无需安装,直接解压zip文件到指定的文件夹。在Lunix操作系统上,需要执行以下脚本:

运行kettle中的一个图形用户界面叫spoon,spoon可以设计和运行转换和作业。

windows中执行spoon.bat,在Lunix系统中执行spoon.sh;

Spoon是一个图形设计工具,用来设计和测试数据交换处理流程,也可以通过命令行(终端)执行处理流程。spoon中设计作业和转换,kettle提供两种方式存储:资源库和文件;如果你选择资源库,spoon第一次启动时需要创建资源库;选择文件方法,作业保存文件的扩展名是KJB,转换文件的扩展名为KTR,下期我们来介绍kellte的使用;

如若运行Spoon出现闪退,请修改Spoon.bat脚本内容:

if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms512m" "-Xmx512m" "-XX:MaxPermSize=256m"  

 

启动后界面:

下期我们了解kellte的使用。


文章转载自端木圊囩,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论