原本计划kettle专题写三五篇应该就够了,梳理的时候才发现功能太多了,精简了精简还是写了不少,但既然是入门就不能太多,今天最后一篇。
之前执行配置的转换都是在spoon图形界面中执行的,但编辑好的转化任务实际都是需要通过定时任务调用的。
本篇就从创建两种类型的资源库开始,讲解pan和kitchen命令行程序的调用方法,掌握了这些知识后就能很容易的在网络中或者单机上通过crontab配置定时执行的任务。
1、数据库类型的资源库

点击上图红框位置,选择Repository Manager进行资源库创建

选择数据库类型的资源库,后续没有难度,只需要配置一个数据库链接,确认后自动创建资源管理需要的表,如图所示:

创建完成后就可以使用admin/admin登陆:

如果需要增加用户或修改密码,需要点击菜单中的搜索资源库,按照下图进行操作。

2、文件类型的资源库

文件资源库设置比较简单,只需要配置名字和路径即可,完成后会在指定的文件下创建.meta元数据文件夹。
转换任务调度:
创建的转化是以ktr为后缀名,如果调用这种转换时需要使用pan程序。
pan程序参数说明可以直接在命令行中运行pan.bat或pan.sh即可显示。

调度的方法如下:
文件资源库:
pan.bat trans 邮件发送 /rep filerep
其中转换任务不需要后缀名
数据库资源库:
pan.bat trans 邮件发送 /rep dbrep user test pass test
资源库的管理用户名和密码按照自己配置的进行填写
作业任务调度:
之前的内容我们主要讲转换任务,实际在spoon中可以创建两种任务,还有一种是作业,对于作业实际上是对转换任务的编排调度,相对比较简单,如图所示为一个简单的作业任务:

我们可以通过转换和作业两种控件进行作业任务制作,其中对于作业可以进行镶嵌调用。
对于作业的调度使用kitchen完成:
文件资源库:
kitchen.bat job 邮件发送作业 /rep filerep
其中作业任务不需要后缀名
数据库资源库:
kitchen.bat job 邮件发送作业 /rep dbrep user test pass test
资源库的管理用户名和密码按照自己配置的进行填写
执行结果如图:

1、任务调度很多时候都是动态的,可以通过/param:name=value进行参数传递。
2、可以在start中配置定时进行调度。
3、对于多台机器进行任务调度,还是建议使用数据库的资源库模式,这样只要能够连接资源库都可以调用资源库中的任务,维护起来相对简单。
其它文档阅读





