商行数据中心建设关键技术方案.pptx_第1页
商行数据中心建设关键技术方案.pptx_第2页
商行数据中心建设关键技术方案.pptx_第3页
商行数据中心建设关键技术方案.pptx_第4页
商行数据中心建设关键技术方案.pptx_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业机密,1,XX商行数据中心建设,宣讲人:xxx 电话:xxx 邮件:xxx,数据模型 数据处理 监控调度 数据管控 应用开发,目 录,目 录,数据模型 数据处理 监控调度 数据管控 应用开发,BI环境中的数据层次,4,A区 结构几乎和源系统一致,B区 面向整合 主题设计 提供规范和共享数据,D区 面向应用 按需定制,C区 初级的数据加工 明细VS汇总,A区(原始区),原始区数据偏向于维持源系统原貌,一般不会对业务数据进行整合加工。,A区( 原始区),服务于数据加载 直接提供基于源系统结构的简单原貌访问,B区( 整合区),面向全局,数据整合 中性设计,灵活可扩展 提供规范和共享,整合区数据整合多个数据源,并按照主题进行划分;在定义主题的过程中,提供相关业务概念的规范定义; 整合区的数据模型并不偏重于面向特定应用,而是站在企业角度统揽全局 偏范式化的设计:最大程度的保持数据一致性和模型的可扩展性 细节信息和历史:由于面对不同的应用和不同的数据需求,因此整合区通常保留最细粒度的业务数据,并保留尽可能长的历史。,长期的,细节的,整合的数据存储 为BI环境中的各类业务需求提供支持,B区( 整合区),面向主题 偏范式化 细节信息 长期保留历史,C区( 通用语义区),提炼应用需求共性 多种数据粒度 更多的业务含义,全局考虑,相对中性 多层次设计 初级数据加工 侧重业务理解,通用语义区的设计更侧重于业务人员理解和使用; 通用语义区的数据模型不面向特定应用,而是提炼多种应用的需求共性,设计相对通用的实体对象; 通用语义区包括多种数据粒度,需要逐层加工、统计、汇总; 通用语义区和整合区的区别在于:通用语义区进行更多的数据加工,而非仅保留原始业务信息;通用语义区的设计通过降范式、预连接、适当冗余等多种方式提供更高的查询效率;,提供相对中性,具有业务意义的初级加工数据 支持上层应用的数据加工,或供业务人员的访问,D区(应用区),面向应用 按需定制,形式各异 各自独立的数据集市 满足特定业务的需求,应用区的数据模型面向特定应用,按需定制,其形态随应用不同而变化,既有可能是为数据挖掘而设计的大宽表、也有可能是为OLAP分析而设计的雪花、星型模型; 应用区相对独立、仅为特定应用服务,各应用间较少共享数据; 应用区同业实例:CRM、反洗钱、风险数据集市、监管报表etc.,提供特定应用使用,数据平台建设重点: AC 层,9,A区 结构几乎和源系统一致,B区 面向整合 主题设计 提供规范和共享数据,D区 面向应用 按需定制,C区 初级的数据加工 明细VS汇总,B区( 整合区)模型客户化实例,10,当事人主题域,当事人:金融机构感兴趣进行分析的各种个人或团体; 当事人实例:账户的持有人、账户的共同持有人、借款人、担保人、联合签名者/共同申请人、员工、竞争对手、交易对手、特约/联名商户、投资者.etc. 该主题存放银行所关心的当事人的各种基本信息;支持基于客户基本信息的分析; 一个当事人可能同时当中许多种角色,例如某个自然人可能是客户、潜在客户、或银行的雇员; 建立银行客户的单一视图; 为进行全面的客户关系管理和市场营销奠定基础;,当事人主题概貌,12,协议主题概貌,13,通用语义区客户汇总视图实例,14,建模工艺产生背景,第15页,数据建模过程贯穿项目建设的始终,历时周期长 项目建设过程中人员变动频繁 客户需求不断变化导致模型不断变化 数据模型的信息输入件样式多样 数据建模过程中会产生多个文档,文档内容需要及时同步 数据建模分工合作,模型后期整合信息频繁冲突 项目前期制定的规范往往难于很好地执行,建模工艺目标,第16页,规范项目管理,提高项目管理水平 节约开发成本,提高开发效率,提高项目ROI 适应客户需求的不断变化 保证项目中信息的同步,便于协同开发 解决模型整合期的冲突 规范项目最终提交件,提高项目开发质量,建模工艺工具支持,第17页,前置条件: 严格按照模板填写各表的表名、字段名、字段数据类型等(字段的数据类型使用自定义数据类型) 功能列表: 自动刷新目录 自动统计表字段数 表分区支持(新增功能) 按照指定数据库类型,批量生成建表脚本 按照指定数据库类型,单独生成单表建表脚本,建模工艺初始建模,第18页,按照模板填写各表的表名、字段名、字段类型等 注意:1.字段类型需使用中间数据类型,在“数据映射”页可以自行维护。 2.分区类型、分区字段等的填写请参照批注。,建模工艺生成目录及统计字段,第19页,在“功能菜单”页,单击“生成目录”后的按钮,将提示“成功生成目录”。,建模工艺批量生成建表脚本,第20页,在“功能菜单”页,选择数据库类型,单击“生成建表脚本”后的按钮,将提示“请到C:SQL目录查看脚本”。,注意: CREATE_TABLE.BAT存储调用各个建表脚本的命令; Create_Table.log存储建表脚本生成过程中出现的错误; CREATE_TABLE_XXX.SQL存储XXX表的建表语句。,建模工艺单表生成建表脚本,第21页,在单表页上,单击“创建脚本”后的按钮,将提示“请到C:SQL目录查看脚本”。 注意:数据库类型为功能菜单页所选择的数据库类型。,注意: XXX.log存储XXX表在建表脚本生成过程中出现的错误; CREATE_TABLE_XXX.SQL存储XXX表的建表语句; 只生成单表的建表语句,不会生成调用建表脚本的命令,即不会向“CREATE_TABLE.BAT”中写入语句。,建模工艺表分区支持(一),第22页,支持两种数据库表分区:ORACLE、DB2 数据库为ORACLE时,支持3种分区方式:RANGE、HASH、LIST 数据库为DB2时,支持2种分区方式:RANGE、HASH,分区类型:RANGE 分区字段必须为DATE类型,分区方式支持月、季、年,可以指定范围的上限和下限,若不指定生成一个默认分区。 例:分区方式“月”,分区下限“2010-5-3”,分区上限“2011-10-5”,分区类型:RANGE 分区字段必须为DATE类型,分区方式支持月、季、年,可以指定范围的上限和下限,若不指定生成一个默认分区。 例:分区方式“季”,分区下限“2010-5-3”,分区上限“2011-10-5”,分区类型:RANGE 分区字段必须为DATE类型,分区方式支持月、季、年,可以指定范围的上限和下限,若不指定生成一个默认分区。 例:分区方式“年”,分区下限“2010-5-3”,分区上限“2011-10-5”,建模工艺表分区支持(二),第23页,分区类型:LIST 数据库为ORACLE时,生成一个默认分区; 数据库为DB2时,不支持LIST分区。,目 录,数据模型 数据处理 监控调度 数据管控 应用开发,ETL概念,ETL(Extract/Transformation/Load)数据抽取、转换、装载。 抽取:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。 转换:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。 装载:将转换完的数据按计划增量或全部导入到数据仓库中。构的数据格式能统一起来。,商业机密,25,ETL概念,商业机密,26,数据处理流程框架,商业机密,27,数据处理目的,数据文件预处理和格式检查 数据清洗、转换,统一各业务系统的数据口径 汇总、整合数据 按业务规则分离规范数据 生成应用数据:固定报表、多维分析、专题分析、数据挖掘,商业机密,28,数据处理工具Kettle,Kettle 是一款开源的数据处理工具集,纯java编写,绿色无需安装,数据抽取高效稳定。 Kettle是“Kettle E.T.T.L.Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据。 支持多样化数据源类型: 基本的文本文件 Access、Excel、XML、Property文件格式 关系型数据库等等,商业机密,29,数据处理工具Kettle,Kettle家族目前包括4个产品:Spoon、Pan、Chef、Kitchen。 Chef工作(job)设计工具 (GUI方式)已经和Spoon集成 Kitchen工作(job)执行器 (命令行方式) Spoon转换(transform)设计工具 (GUI方式) Span转换(transform)执行器 (命令行方式),商业机密,30,Kettle中脚本,Kettle中有两种脚本文件,Transformation(.ktr)和Job(.kjb),Transformation完成针对数据的基础转换,Job则完成整个工作流的控制。 Transformation和Job的差别:Transformation专注于数据处理,而Job的范围比较广,可以是Transformation ,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job 。,商业机密,31,Kettle界面,商业机密,32,Kettle界面,商业机密,33,Kettle转化功能,支持多种查询 调用数据库存储过程 基本的数据库查询 判断表以及列、操作系统文件是否存在 从URL接收查询 使用Web服务查询信息 使用数据流中的值作为参数来执行一个数据库查询 转换功能 值映射、分组、去重、拆分字段、行列转换 复制行,商业机密,34,Kettle转化功能,支持的脚本 JS脚本 SQL脚本 正则表达式 支持渐变维度更新 批量加载: Greenplum Bulk Loader Oracle Bulk Loader MSSQL Bulk Loader MYSQL Bulk Loader PostgreSQL Bulk Loader 支持分区表和集群,商业机密,35,Kettle作业功能介绍,可以执行操作系统命令和操作: Ping 主机 写日志 发送邮件 从POP Server获取邮件并保存在本地 比较文件夹、文件 创建、复制、移动、删除、压缩文件 从HTTP获取或者上传文件 操作延迟等待,商业机密,36,Kettle作业功能介绍,判断文件是否存在 执行JavaScript、SQL、Shell脚本 支持安全FTP获取、上传文件 删除远程文件 支持SSH2上传下载,商业机密,37,Kettle-transformation,菜单介绍,商业机密,38,Main Tree菜单列出的是一个transformation中基本的属性,可以通过各个节点来查看。 DB连接:显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。 Steps:一个transformation中应用到的环节列表。 Hops:一个transformation中应用到的节点连接列表。,Kettle-transformation,商业机密,39,Core Objects菜单列出的是transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。 Input:输入环节 Output:输出环节 Lookup:查询环节 Transform:转化环节 Joins:连接环节 Scripting:脚本环节,Kettle-transformation,每一个环节可以通过鼠标拖动来将环节添加到主窗口中。 并可通过shift+鼠标拖动,实现环节之间的连接。,商业机密,40,Kettle-transformation,常用环节介绍,商业机密,41,Kettle-job,商业机密,42,Main Tree菜单列出的是一个Job中基本的属性,可以通过各个节点来查看。 DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。 Job entries:一个Job中引用的环节列表。,Kettle-job,商业机密,43,Job e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论