Kettle知识库问答系列之七十古稀

以数据之名 2021-08-09

1335

摘要：本文由以数据之名分享，正所谓“醉斩长鲸倚天剑，笑凌骇浪济川舟”。前面的四篇文章“Kettle知识库问答系列之三十而立、四十不惑、五十而耳知天命、六十而耳顺”，叙述了使用Kettle作为ETL开发的常见组件使用说明、业务场景实现逻辑、异常分析及组件性能优化相关内容。今天，我们跟着小编的节奏，继续探讨Kettle知识库问答系列之七十古稀篇，做到理念和实践的生动统一。

第063问：kettle Excel输入读取数据出现OOM？

第063答：由于Kettle Excel输入，表格引擎可以选择Excel 97 2003、Excel 2007 （Apache POI）、Excel 2007 （Apache POI Streaming）和 Open Office ODS四种类型，这里我们常用的一般是Excel 2007的Apache POI和Apache POI Streaming。

首先，一般我们经常默认选择表格引擎为Apache POI，而Apache POI引擎会一次性加载全部数据到内存，所以会占用大量的堆内内存，进而频繁触发OOM
异常。

其次，我们首先可以把表格引擎更改为Apache POI Streaming，该API引擎以串行方式处理Excel数据，即采用流模式分批次加载到内存，而不是将文件完全加载到内存中。极大的降低OOM的风险。

最后，我们还可以考虑一下优化点：

1、减少单批次输入数据量，缩减数据流字段传输（非必要字段提前排除），减少内存资源占用，提高gc回收效率。

2、适当调大jvm参数："-Xmx1024m" "-XX:+HeapDumpOnOutOfMemoryError" 其中mx控制最大内存，另外一个参数打印dump文件

3、参考我的文章“Kettle知识库问答系列之三十而立”、“Kettle知识库问答系列之六十而耳顺”，关于性能优化及OOM说明章节

第064问：kettle SqlServer输出组件写入数据时，出现？

第064答：SqlServer对于表模型带有标识identity属性字段，默认不允许自己插入数据。

但如果需要自己插入数据，可以先对有标识列的字段要设置 set IDENTITY_INSERT 表名 on,然后再执行插入记录操作；插入完毕后恢复为 off 设置。

格式:
  set IDENTITY_INSERT 表名 on
  set IDENTITY_INSERT 表名 off

第065问：Linux Spoon测试Kettle部署情况，报异常Could not load SWT library. Reasons？

java.lang.UnsatisfiedLinkError: Could not load SWT library. Reasons:
no swt-pi-gtk-4335 in java.library.path
no swt-pi-gtk in java.library.path
/home/proot/.swt/lib/linux/x86_64/libswt-pi-gtk-4335.so: libXtst.so.6: cannot open shared object file: No such file or directory
Can't load library: home/proot/.swt/lib/linux/x86_64/libswt-pi-gtk.so

第065答：说明没安装 SWT library ，需要安装 SWT 库

yum -y install gtk2.i686 gtk2-engines.i686 PackageKit-gtk-module.i686it-gtk-module.x86_64 libcanberra-gtk2.x86_64 libcanberra-gtk2.i686 PackageK

第066问：Linux Spoon测试Kettle部署情况，报异常No more handles [gtk_init_check()？

Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0（这里是使用jdk8，但却配置了jdk1.7的jvm参数）
org.eclipse.swt.SWTError: No more handles [gtk_init_check() failed]
at org.eclipse.swt.SWT.error(Unknown Source)
at org.eclipse.swt.widgets.Display.createDisplay(Unknown Source)

第066答：说明操作系统没有安装图形化界面