Kettle 导入文件夹下的多个文件

Posted on Posted in kettle示例

收到的需求是这样的:在一个文件夹下有几百个文本文件,每个文件内容的格式相同,都是有固定分隔符的两列,每个文件有几千行记录。

Kettle的转换处理数据流,其中有一个“文本文件输入”的输入对象,可以使用它在导入文件数据时添加上文件名字段,而且支持正则表达式同时获取多个文件名,正好适用此场景。下面为实现步骤。

1. 新建一个转换,包含“获取文件名”、“拆分字段2”、“拆分字段”、“表输出”四个步骤,如下图所示。

2. “文本文件输入”如下图所示。 正则表达式^test.+   意思是查找以test开头的文件。

3.拆分字段,按照 | 将字段field_1拆成field_000和field_111

4.拆分字段,按照: 将字段field_000拆成field_001和field_002

5.表输出

6.启动运行