BI商业智能:Kettle培训文档_第1页
BI商业智能:Kettle培训文档_第2页
BI商业智能:Kettle培训文档_第3页
BI商业智能:Kettle培训文档_第4页
BI商业智能:Kettle培训文档_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

苏州百咨信息技术Kettle使用培训文档什么是ETL&Kettle?Kettle使用-ETL&KettleETL〔Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程〕,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的根底。Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的根底转换,job那么完成整个工作流的控制。Kettle的下载&部署Kettle使用-下载&部署Kettle可以在开源网站:///projects/pentaho/files/进行下载下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可Kettle的运行Kettle使用-运行点击data-integration-3.2文件夹进入到Kettle目录,如果Kettle部署在windows环境下,双击运行可执行文件,出现如下界面菜单区控件区设计区Kettle菜单介绍文件:新建Ktr,Kjb,保存,翻开,打印等编辑:设置环境变量,操作的重做和撤销等视图:可以放大或缩小设计区控件的大小资源库:可以连接和断开资源库转换:可以对转换进行运行、调试、预览作业:可以对作业进行运行、预览向导:可以对创立数据库、复制拷贝进行向导帮助:进行帮助相关操作Kettle使用-菜单介绍新建一个转换&工作Kettle使用-ktr&kjb点击页面左上角的可以创立一个新的转换〔transformation〕,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation文件保存后后缀名为ktr点击页面左上角的创立一个新的工作〔job〕,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjbKettle使用-新建KtrKettle使用-新建KjbTransformation控件介绍Kettle使用-transformationTransformation菜单介绍主对象树菜单列出的是一个transformation中根本的属性,可以通过各个节点来查看。DB连接:显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。Steps:一个transformation中应用到的环节列表Hops:一个transformation中应用到的节点连接列表Kettle使用-transformationTransformation菜单介绍核心对象菜单列出的是transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。常用环节介绍输入:输入环节输出:输出环节查询:查询环节转换:转化环节连接:连接环节脚本:脚本环节数据仓库:数据仓库环节Kettle使用-Transformation每一个环节可以通过鼠标拖动来将环节添加到主窗口中。并可通过shift+鼠标拖动,实现环节之间的连接。类别环节名称功能说明Input文本文件输入从本地文本文件输入数据表输入从数据库表中输入数据获取系统信息读取系统信息输入数据Output文本文件输出将处理结果输出到文本文件表输出将处理结果输出到数据库表插入/更新根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。会根据查询条件中字段进行判断更新根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止删除根据处理结果对数据库记录进行删除,若需要删除的数据在数据库表中无记录,则会报错停止Lookup数据库查询根据设定的查询条件,对目标表进行查询,返回需要的结果字段流查询将目标表读取到内存,通过查询条件对内存中数据集进行查询调用DB存储过程调用数据库存储过程Transform字段选择选择需要的字段,过滤掉不要的字段,也可做数据库字段对应过滤记录根据条件对记录进行分类排序记录将数据根据某以条件,进行排序空操作无操作增加常量增加需要的常量字段ScriptingModifiedJavaScriptValue扩展功能,编写JavaScript脚本,对数据进行相应处理Mapping映射(子转换)数据映射JobSatVariables设置环境变量GetVariables获取环境变量Job菜单介绍Kettle使用-JobJob菜单介绍主对象树菜单列出的是一个Job中根本的属性,可以通过各个节点来查看。DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。作业工程:一个Job中引用的环节列表Kettle使用-Job菜单介绍核心对象菜单列出的是Job中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。每一个环节可以通过鼠标拖动来将环节添加到主窗口中。并可通过shift+鼠标拖动,实现环节之间的连接。Kettle使用-Job类别环节名称功能说明JobentriesSTART开始DUMMY结束Transformation引用Transformation流程Job引用Job流程Shell调用Shell脚本SQL执行sql语句FTP通过FTP下载Tableexists检查目标表是否存在,返回布尔值Fileexists检查文件是否存在,返回布尔值Javascript执行JavaScript脚本Createfile创建文件Deletefile删除文件Waitforfile等待文件,文件出现后继续下一个环节FileCompare文件比较,返回布尔值Waitfor等待时间,设定一段时间,kettle流程处于等待状态Zipfile压缩文件为ZIP包Transformation&Job实例Kettle使用-作业案例背景:找出不同性别,不同年龄,不同职业的用户对于哪类产品比较感兴趣,为建立数据仓库,进行数据挖掘和OLAP分析做准备。作业:根据客户,订单,产品表中的数据,生成对应的数据文件,将数据文件可以导入到对应表中,并且可以用job来调用整个流程。成果:1,提交对应的Kettle文件2,Kettle流程可以正确执行,不报错3,对应的数据文件生成并格式无误,对应表中有数据并格式无误4,通过数据清洗抓取有用数据,作为以后分析的数据根底Kettle使用-作业说明:数据库中存在四张表:表名字段名说明关系USERuserid客户IDusername客户姓名usernsex客户性别userposition客户职位userage客户年龄PRODUCTproductid产品IDproductname产品名称ORDERorderid订单IDuserid用户ID和USER.userid对应productid产品ID和PRODUCT.productid对应buytime购买时间Kettle使用-作业表名字段名说明关系ORDER_ALLorder_idIDuserid客户IDusername客户名usersex客户性别userposition客户职业userage客户年龄orderid订单IDproductid产品IDbuytime购买时间productname产品名称说明:Kettle使用-作业说明:USER表存放客户信息,PRODUCT表存放产品信息,ORDER表存放订单信息一个客户对应多个订单,一个产品对应多个订单ORDER_ALL表存放结果数据,需要从相关的表中获取到字段中的信息,获取不到的信息可以通过相关处理或添加默认值的方式写入。Kettle使用-作业-建立过程准备以上数据库表Kettle使用-作业-建立过程按键盘Ctrl+N新建一个转换,取名为Order.ktrKettle使用-作业-建立过程双击DB连接,建立MYSQL连接并测试成功Kettle使用-作业-建立过程切换到核心对象,拖动表输入到设计区域Kettle使用-作业-建立过程双击表输入控件设置表输入各项属性Kettle使用-作业-建立过程再拖动一个表输入到设计区域并设置各项属性Kettle使用-作业-建立过程拖动一个流查询到设计区域Kettle使用-作业-建立过程设置流查询各项属性并连接2个表输入Kettle使用-作业-建立过程再拖动一个表输入到设计区域并设置各项属性Kettle使用-作业-建立过程拖动一个流查询到设计区域并设置流查询各项属性Kettle使用-作业-建立过程再拖动一个文本输出到设计区域并设置输出属性Kettle使用-作业-建立过程点击运行ktrKettle使用-作业-建立过程如果出现以下界面,就代表运行成功了Kettle使用-作业-建立过程然后我们查看E:\pentaho\KettleDemo\file.txt.代表已经把查询的数据输出在了txt文件里面,这个Ktr就顺利完成了Kettle使用-作业-建立过程接下来我们把生成的txt文件里的字段值再输入到数据库中拖动一个文本文件输入到设计区域,并设置各项属性Kettle使用-作业-建立过程再拖动一个字段选择到设计区域并设置各项属性Kettle使用-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论