carte介绍
Carte是一个简单的web服务器,允许您远程执行转换和作业。它通过接受包含要执行的转换和执行配置的XML(使 […]
Carte是一个简单的web服务器,允许您远程执行转换和作业。它通过接受包含要执行的转换和执行配置的XML(使 […]
一、当输入对象为CSV文件时,将NIO Buffer Size从默认的50000改到最佳的200000。&nb […]
kettle 3.2 以前的版本里只有 variable 和 argument,kettle 3.2 中,又引 […]
摘要:本文主要讨论一些在ETL中设计增量更新的方法和技巧。 ETL中增量更新是一个比较依赖与工具 […]
任何一种编程语言都少不了循环,kettle中的job也一样。那么kettle中的job是怎么通过JavaScr […]
1 Kettle总体步骤 更多数据实时同步方案,请参考笔者的另一篇博文:大数据时代,数据实时同步解决方案的思考 […]
在生产环境中,我们经常会遇到数据定时同步的问题,这里整理出一个通用的FTP上传同步的程序(FTP下载入库的同 […]
这个实验主要思想是在创建数据库表的时候, 通过增加一个额外的字段,也就是时间戳字段, 例如在同步表 tt1 和 […]
1 ubuntu上面安装mysql用户名和密码问题: ubuntu上面安装MySQL的时候,如果是自动安装,没 […]
1 将windows下面创建好的转换,放到Linux某一个文件夹下面。如:把0816_em.ktr文件放到/h […]
果两个表需要进行连接查询筛选出数据,那么可以使用记录集组件。(Merge Join)。 使用之前 […]
排序行的步骤根据您指定的字段和它们是否应该按升序或降序排序当行数超过指定的排序大小(默认为100万行)时候,k […]
1 建立转换,并设置DB连接到mysql 选中DB连接:连接类型选择MySQL,输入主机名称,数据库名称,端口 […]
以下主要来自官网文档,原文:https://wiki.pentaho.com/display/EAI/Mong […]
阅读目录 导读 Excel数据导入Oracle示例 1、准备Excel文件 2、建立转换 3、编辑 […]
下面是一个用Kettle实现数据过滤、生成随机数、改变开始复制数量的连贯示意图。 首先,我们将控件一一建立,通 […]
1.简介 先生成随机数,将生成的2列随机数进行计算,并且格式化计算结果 2.kettle流程图 […]
Kettle在控件中拥有行列转换功能,但是行列转换貌似是弄反了。 一.行转列 1.数据库脚本 (& […]
1. Job机制 一个job项代表ETL控制流中的一项逻辑任务。Job项将会顺序执行,每个jo […]
4. Trans执行 trans类的执行有execute()负责,主要包含两个步骤:转换执行前的准备工作和 […]
2. 步骤间交互通信类 2.1. RowSet 图 6 步骤之间通信机制 […]
转换机制 每个转换步骤都是ETL数据流里面的一个任务。转换步骤包括输入、处理和输出。输入步骤从外部数据源获 […]
1. 插件体系结构 1.1. 插件技术原理 1.1.1. 插件 […]
Pentaho Data Integration(PDI)简介 1. PDI结构简介 图 1‑1 […]
这个功能实际的含义是:设置多少份的拷贝,开多少线程 例如:开20个线程,拷贝20份,那么单击控件“生成随机数” […]
场景:检查服务器异常(hive)服务,就通过http发送一条短信到手机上,内容类似:【通知】${START_D […]
网上有很多的例子,介绍怎样用JS来控制循环,这里我们也简单的测试下 2.1 query_the_result […]
有的时候,我们想要在Kettle中实现这个循环的功能,比如,批量加载数据的时候,我们要对10张表执行同样的操作 […]
概述 Redis作为一个开源免费,高性能的kv数据库,官方称号称能够达到10w+的读写速度;本文讲解Redis […]
新建基本转换控件,这里便于方便,就建了2个 2.鼠标点中你想进行错误处理的控件,右键选择定义错误 […]
一个未预期的错误发生在Spoon: probable cause:在停止Spoon前,请先关闭其它spoon […]
kettle作业在运行一段时间后会报错,原因是mysql会默认每8小时回收一次无用连接。错误日志如下: 记录保 […]
开源免费–最喜欢的四个字没有之一 1.官网下载 https://sourceforge.net/p […]
简述逻辑: 在windows界面打开kettle 进行脚本编写 ,编写好后把kettle的安装压缩包上传到li […]
一、简介 资源库,顾名思义,是存放转换和作业脚本的地方。不是业务数据库。 当然,我们也可以不 […]
之前曾多次使用kettle进行作业监控,当Kettle需要通过邮件发送统计结果时,之前我的做法都是通过邮箱附件 […]
在Kettle里面,我们每天执行完调度之后,想要监控下JOB的执行状态,通常我们可以会发送邮件,可以的话,还可 […]
bug回顾 : 想必大家在用MySQL时都会遇到连接超时的问题,如下图所示: ### Ca […]
关于Kettle数据源连接方式有三种:Native(JDBC)、ODBC、JNDI、(OCI只针对Oracle […]
1、大多数ETL项目都需要完成各种各样的维护工作。例如,如何传送文件;验证数据库表 […]
7、脚本是转换里面的第七个分类。脚本就是直接通过程序代码完成一些复杂的操作。 7.1、Javascript脚本 […]
6、映射是转换里面的第十八个分类。映射是用来定义子转换,便于封装和重用。 &nbs […]
5、统计是转换里面的第十三个分类。统计是提供数据的采样和统计功能。 5.1、分组是按照某一个或某几个进行分组, […]
4、连接是转换里面的第八个分类。连接是结果集通过关键字进行连接。 &n […]
3、查询是转换里面的第七个分类。查询是用来查询数据源里的数据并合并到主数据流中。 3.1、HTTP clien […]
2、流程是转换里面的第六个分类。流程主要用来控制数据流程和数据流向。 […]
1、应用是转换里面的第五个分类。应用都是一些工具类。 1.1、替换NULL值就是把null转换为其它的值。NU […]
1、转换是转换里面的第四个分类。转换属于ETL的T,T就是Transform清洗、转换。ETL三 […]
1、输出是转换里面的第二个分类。输出属于ETL的L,L就是Load加载。微软的Excel目前有两种后缀名的文件 […]
1、kettle里面的输入,就是用来抽取数据或生成数据,是ETL操作的E。 2、CSV文件是一种带有固定格式的 […]
1、什么是ETL? 答:ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过 […]
思考,启动此job,做一个最简单,job实现表输入和表输出,但是实现表输入和表输出要花2个小时。那么这个job […]
1、主要是解决,作为一个数据共享的数据库,存在的数据库统计,然后将计算的数据量输出到自己使用的数据库,进行主页 […]
转自:https://www.cnblogs.com/biehongli/p/9900068.html
转自:https://www.cnblogs.com/biehongli/p/10361342.html
如果您使用其他的数据库,比如:db2、informix等,KettleOnline默认没有带这些驱动,请下载相 […]
KettleOnline默认使用Kettle9.0.0.0-423作为内核引擎。向下兼容kettle8.3/k […]
策略配置列表 策略配置详情 策略表达式生成说明
监控管理-作业监控列表 监控管理-作业监控日志详情 监控管理-转换监控列表 监控管理-转换监控日志详情
任务管理-作业列表 任务管理-资源库作业新增 任务管理-文件作业新增
请务必理解资源库的概念,点击了解 点击【新增数据库资源库】或者编辑,进入资源库编辑界面。 文件资源库,采用文件 […]
点击图片放大 登录后首页显示KettleOnline任务概况
使用Kettle在不同的数据库抽取数据时,有时会出现中文乱码问题:其解决方案如下: 1.查看数据库的字符集是否 […]
在中文语言下,有时候某些组件无法找到,需要将语言改为英文English。
第一步,在数据库中将库、表、字段的编码设置为utf8 第二步,将spoon.bat中链接资源池的 […]
在本地运行时会发现标题中提到的问题:工具-资源库里面的按钮都是灰色的,无法点击。 一个勾选项 & […]
资源配置变为灰色的3种情况 1) JDK版本不对,JDK需求为1.8版本 […]
文本文件输入(text input):读取大量不同的文本文件。大多是通过工具生成的CSV文件。 表输入(tab […]
作业包括一个或多个作业项,作业项以某种顺序来执行。 作业项:与转换中的步骤类似,作业项也以图标的方式图形化展示 […]
转换包括一个或多个步骤,步骤之间通过跳(hop)来连接。跳定义了一个单向通道,允许数据从一个步骤流向另一个步骤 […]
1.资源库的介绍 kettle资源库是用来保存转换任务的,用户通过图形界 […]
批量提交的时候,如果已经有部分数据了,那么其他数据有可能也不提交或更新。把下面的“不执行任何更新”去掉即可。b […]
首先按照前面讲的 如果主键重复会报下面错误 而且会停止抽取数据,碰到这种情况,我们需要使用另一个输出,插入或更 […]
异常提示如下: 共享数据库db链接、ftp链接等后无法保存 说明: 这个是kettle8.3的bug,需要删除 […]
Kettle调优 1、 调整JVM大小进行性能优化,修改Kettle定时任务中的Kitc […]
这个实验主要思想是在创建数据库表的时候, 通过增加一个额外的字段,也就是时间戳字段, 例如在同步表 tt1 和 […]
job如下: 如下转换:获取区服列表,将id列表保存到结果(内存) job: 同构数据库单表抽取(每个输入执行 […]
Kettle 是一款采用纯 Java 实现的开源 ETL工 具,属于开源商务智能软件 Pentaho 的一个重 […]
收到的需求是这样的:在一个文件夹下有几百个文本文件,每个文件内容的格式相同,都是有固定分隔符的两列,每个文件有 […]
一、作业job是多个转换的任务的集合。通过kitchen.sh(厨房)来执行。 例如:./kich […]
最近要对一个系统的数据同步到另一个系统中,要求新系统的数据结果完成之后,实时同步到另一个系统数据表中。 Jav […]
最近需要用到Java代码API来根据数据源规则,动态的创建trans,网上看了好多都是直接生成文件ktr的, […]
kettle默认只能解压zip格式的文件,比如linux里的tar、gz等格式的文件需要用到java代码来解压 […]
kettle调用java代码一步步扩展,本次在Java代码里读取本地文件,然后把数据插入到数据库 本地文件内容 […]
kettle执行简单的java代码,基本流程配置如下 1、生成记录,设置一条记录 2、java代码,双击mai […]
调用存储过程也很简单,首先创建一个存储过程,传入一个boo表记录的id,然后设置status为1,然后返回当前 […]
从FTP下载多个文件,包括zip的,先看图,整个过程如下,中间的节点没有特别复杂的,再前面文章都有例子 &nb […]
本事例演示解压目录下多个zip,unzip控件在作业(job)里面 目录如图 1、新建作业,拖进来文件管理-解 […]
有时候从FTP上下载下来的文件有多个,并且文件格式有可能不同,这时候就要用到条件判断了,比如txt文件通过文本 […]
本事例演示从FTP下载文件,然后在插入到数据库,这次FTP配置信息就通过变量来配置了,全局变量一般配置在ket […]
本配置为从远程FTP下载文件到本地,一般后期应用里应该是定时从别人ftp服务器批量下载文件,然后根据文件类型走 […]
本次例子是从excel导入到数据库,表结构不变,还用上次的表 1、看下excel文件内容,基本没甚特殊的 2、 […]
kettle 从文本文件导入数据库 此文章主要为了对自己最近的摸索做个笔记,记录些坑,有些定义就不再叙述了,都 […]
本地环境是jdk1.7,运行Kettle 7.0 以上版本需要jdk1.8,这样很不方便,下面给Kettle […]
那么如果一些数据值不规则就会产生问题比如:某一个字段值存在换行呢,这样在生成文件的时候就会出现文件错乱,从当前 […]
Kettle — 安装和部署
欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区。 对商业智能BI、大数据 […]
Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比 […]