XX银行数据仓库建设项目方案.doc_第1页
XX银行数据仓库建设项目方案.doc_第2页
XX银行数据仓库建设项目方案.doc_第3页
XX银行数据仓库建设项目方案.doc_第4页
XX银行数据仓库建设项目方案.doc_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

银行数据仓库建设方案文件 XXXX 银行银行 EDW/EDW/数据仓库项目方案数据仓库项目方案 银行数据仓库建设方案文件 目目 录录 第一章第一章 系统总体架构系统总体架构. 1.1 总体架构设计概述 . 1.1.1 总体架构的设计框架. 1.1.2 总体架构的设计原则. 1.1.3 总体架构的设计特点. 1.2 EDW 执行架构 . 1.2.1 执行架构概述 . 1.2.2 执行架构设计原则 . 1.2.3 执行架构框架 . 1.3 EDW 逻辑架构. 1.3.1 逻辑架构框架. 1.3.2 数据处理流程. 1.4 EDW 运维架构. 1.4.1 运维架构概述. 1.4.2 运维架构的逻辑框架. 1.5 EDW 数据架构. 1.5.1 数据架构设计原则. 1.5.2 数据架构分层设计. 1.6 EDW 应用架构. 1.6.1 应用架构设计原则. 1.6.2 数据服务. 1.6.3 应用服务. 银行数据仓库建设方案文件 第二章第二章 ETLETL 体系建设体系建设. 2.1 ETL 架构概述. 2.2 ETL 设计方案. 2.3 ETL 关键设计环节. 2.3.1 接口层设计策略 . 2.3.2 Staging Area 设计策略. 2.3.3 数据加载策略. 2.3.4 增量 ETL 设计策略. 2.3.5 异常处理. 2.3.6 作业调度和监控 . 2.3.7 元数据管理 . 2.3.8 ETL 模块设计. 2.3.9 ETL 流程设计. 2.3.10 动态资源分配. 2.3.11 数据接口设计. 银行数据仓库建设方案文件 第一章 系统总体架构 1.1 总体架构设计概述 1.1.1 总体架构的设计框架 XX 银行 EDW 项目的总体架构分为基础技术架构、应用架构和数据架构三个 核心部分。这三个部分共同组成了 XX 银行 EDW 系统。 在基础技术架构中,包括执行架构、逻辑架构、功能组件架构和运维架构 四个部分。 执行架构描述系统大的框架和模块区域,以及之间的逻辑关系;是确 定生产环境的建设要求及指导原则。 逻辑架构描述 EDW 各个模块之间的数据的接口、数据流向、工具使用 和采用具体的技术实现手段或方式情况,用于规范本项目最终生产环 境的建立。逻辑架构是建立应用架构、执行架构、运维架构的基础, 也是建立执行架构、应用架构以及运维架构的原型系统。 功能组件架构描述确定系统各个大的组件组件区域的功能模块框架, 以及提供的某种服务类型。 运维架构是描述 EDW 项目的运维架构标准,包括运维架构设计的内容、 设计原则、各构成组件的设计考虑因素、约束、要求等。运维架构通 过相应的流程和工具实现对逻辑架构、功能组件架构、执行架构、数 据架构以及应用架构的运维和管理。 而数据架构和应用架构的主要描述: 应用架构是 EDW 为满足业务需求所提供的系统应用功能及其蓝图设计, 其中业务需求是应用架构设计的基础,最终的应用架构将以应用系统 的形式体现在执行架构中,主要包括:应用服务和数据服务。 数据架构描述于 EDW 系统相关的数据流动策略,即数据在 EDW 系统的 执行架构下的抽取、转换、储存策略以及应采用的流程,包括数据层 银行数据仓库建设方案文件 次和总分行之间的数据分部情况等。数据架构是建立执行架构标准的 需求定义。 下图是 EDW 项目总体架构的框架: 1.1.2 总体架构的设计原则 总体架构在着重考虑实施要求的同时,需要为后续阶段进行规划,以 保证项目最终能够达到目标架构的设计; 总体架构的设计要基于包括 XX 银行数据现状分析、实施阶段数据源情 况分析、第一阶段实施 EDW 设计建议做为参考; 总体架构设计架构时充分考虑与现有系统兼容,充分利用已有成果, 避免重复开发和建设。 总体架构设计过程中应遵守 XX 银行的 IT 管理规程,保证最终的系统 可以顺利的部署并移交给 XX 银行的运行维护部门。 1.1.3 总体架构的设计特点 权衡功能、性能、可扩展性、易用性、可管理性和性价比。 银行数据仓库建设方案文件 根据 XX 银行的数据情况和分析需求,采用多层次的企业 EDW 系统架构 来保证在存在复杂的数据种类和关系的海量数据上进行业务分析和查 询在业务支持能力和性能等方面的要求。 多级自动的增量 ETL 加载机制,有效提高 ETL 并发度、加载效率,降 低错误处理的复杂性。 通过用户入口支持用户采用 Web 浏览器使用查询和分析工具,统一的信 息服务界面,提高系统易用性,减少技术支持工作量。 利用企业信息集成和 Web 数据服务,提高系统的数据支持能力和接口的 一致性。统一的数据增强平台也减少数据增强的复杂度。 1.2 EDW 执行架构 执行架构的主要内容是描述 EDW 项目执行架构的建设要求及指导原则,用 于规范本项目最终生产环境的建设。EDW 项目的生产环境的建立需要参考并遵 循执行架构部分提出的要求。 1.2.1 执行架构概述 执行架构是 EDW 的概念环境,主要包含:源数据、数据落地区、ETL、数据 准备区、数据存储区 EDW、业务应用、用户环境、数据管控、系统安全性以及 EDW 基础设施平台(包括:服务器、存储、网络)等功能组件。从技术层面上 来说,EDW 系统的执行架构应实现多种技术平台及应用之间的无缝集成。 1.2.2 执行架构设计原则 在 EDW 项目实施的过程中,系统执行架构的建设应遵循以下技术原则: 开放性原则开放性原则:EDW 项目的生产环境的建设应基于业界开放标准,对系统 中使用的网络协议、硬件接口、数据接口等应进行统一规划,EDW 系统 应支持主流的应用软件包及其部署的各种硬件平台。 灵活性与可扩展性灵活性与可扩展性:EDW 系统的基础设施平台应能够根据未来系统的发 展需要以及应用需求,方便的扩展设备容量和提升设备性能;具备支 银行数据仓库建设方案文件 持多种组件模块、多种物理接口的能力;具备技术升级、设备更新的 灵活性;具备支持业务功能的扩展与重构的灵活性。如:系统容量可 以随着 ETL 系统数据量的扩展以及应用系统的不断扩展、用户量不断 扩展而进行平滑的扩展。 高性能原则高性能原则:系统应达到数据处理时间窗口的要求,用户定义的查询 效率、响应时间的要求,满足业务系统的要求;对现有业务系统影响 小。 自动化原则自动化原则:EDW 项目建设的核心任务之一是数据抽取、转换、清洗和 加载(ETL) ,在这个过程中应采用自动化的设计原则,避免手工操作。 同时对于元数据管理过程应采用元数据管理平台来实现对元数据集中、 自动化的管理。 安全性原则安全性原则:EDW 项目建设中的数据迁移过程都必须保证数据的安全性, 例如:在系统建设过程中应对数据中敏感字段进行安全处理、同时整 个系统还应采用网络隔离、用户身份认证及访问控制、数据库安全、 操作系统安全以及完善的安全审计机制。 1.2.3 执行架构框架 业业务务数数据据源源ETL 数数据据 抽抽取取 转转换换 加加载载 数数据据准准备备区区操操作作型型存存储储业业务务应应用用ETL 数数据据 抽抽取取 转转换换 加加载载 元元数数据据管管理理 系系统统安安全全 基基础础设设施施平平台台(服服务务器器、网网络络、存存储储) 数数据据 落落地地区区 数数据据落落地地区区 渠渠道道系系统统 核核心心系系统统 其其他他系系统统 分分析析环环境境 报报表表环环境境 应应用用环环境境 操操作作型型数数据据/ 标标准准化化数数据据 用用户户环环境境ETL 数数据据 抽抽取取 转转换换 加加载载 报报表表/KPI 灵灵活活查查询询 其其他他集集市市 数数据据准准备备区区 对对公公信信贷贷 个个贷贷系系统统 国国结结系系统统 人人力力系系统统 EDW 数数据据仓仓库库 (EDW) 企企业业级级数数据据模模型型 财财务务系系统统 数数据据 分分发发环环境境 报报表表 分分发发环环境境 通通用用 展展现现平平台台 银行数据仓库建设方案文件 上图是 EDW 系统执行架构,其中包含 EDW 系统中涵盖的功能框架以及框架之间 的逻辑关系。在以下的内容中将对执行架构中的功能框架以及框架之间的关系 进行详细描述,具体内容包括: 数据源:数据源:包括 XX 银行的多个业务系统,主要有核心系统、个贷系统、信贷 系统、国际业务系统、财务系统和各类渠道系统等。 数据落地区数据落地区:此部分内容说明数据落地的用途,同时对数据落地区应具备 的功能进行了标准定义以及数据落地区与其他功能组件之间的关联关系; ETLETL:此部分内容描述 ETL 系统中数据抽取、转换、加载等功能的需求,同 时定义了 ETL 系统建设的标准以及 ETL 与系统中其他功能组件之间的关系; 数据准备区数据准备区:此部分描述数据准备区应具备的功能,以及数据准备区在建 设过程中的标准需求。 操作型存储区操作型存储区:此部分内容描述 EDW 系统在建设的过程中操作型存储区应 遵循的标准以及系统建设过程中应满足的需求; 数据仓库存储区数据仓库存储区:此部分内容描述 EDW 系统的数据仓库存储区应遵循的标 准以及系统建设过程中应满足的需求; 业务应用业务应用:此部分内容描述 BI 应用系统建设的系统需求,包含对应用环境、 分析环境、静态报表环境; 用户环境用户环境:此部分的内容描述用户在 EDW 系统中应具备运用的能力,包括: 利用通用展现平台进行信息展现、驾驶舱应用、报表应用等; 时间窗口和性能的定义时间窗口和性能的定义:此部分描述整个 EDW 项目中关于时间窗口的定义 以及相关系统的性能指标要求; 元数据管理元数据管理:此部分描述在系统执行架构中元数据管理的内容以及元数据 管理系统的建设的标准定义; 系统安全性系统安全性:此部分内容主要描述 EDW 系统中的安全性管理内容,包括应 用安全、网络安全、数据安全、系统安全等,同时描述系统安全在建立过 程中遵循的原则; 银行数据仓库建设方案文件 基础设施平台基础设施平台(服务器 、网络、存储):此部分内容主要描述生产系统中 的硬件资源,包括:服务器,网络以及存储的资源需求,容量规划应满足 的系统指标等内容; 数据源 源数据系统是报表、关键指标、灵活查询、主题分析等应用系统的基础数 据来源。在系统建设初期,源数据系统应提供能满足初始业务需要的数据以及 业务系统需要提供完整数据的时间窗口,在 EDW 系统扩展的过程中,各个源数 据系统中的数据将逐渐的加载到 EDW 系统当中。源数据无法满足应用需求时, 系统应提供手工方式通过手工数据补入平台将需要的数据补入到 EDW 系统中。 目前数据源包括 XX 银行的多个业务系统,主要有核心系统、个贷系统、对 公信贷系统、国际业务系统、财务系统和各类渠道系统等。 数据落地区 数据落地区是为了保证多系统对源系统数据抽取的需求,在数据从源数据 系统抽取后在统一的数据集成环境中整合。数据落地区应建立与各相关源数据 系统的接口,将这些系统定期卸载的数据以固定的格式接收、存放到落地区, 考虑数据传输和加载的速度,源数据系统应以文本文件格式将数据定期传输给 数据落地区进行处理。 数据落地区的数据存储格式原则上是与数据源的存储格式保持一致 数据 ETL 架构 ETL 是数据的抽取、转换、加载的全部过程,它是数据从数据落地区到 ETL 服务器以及从 ETL 服务器到 EDW 的数据迁移过程以及数据从 EDW 向数据集市的 数据迁移过程中必须使用的过程和方法, ETL 系统应包括以下三个主要功能: 数据抽取数据抽取:从数据落地区系统抽取 EDW 中需要的数据; 数据转换数据转换:将从源数据系统获取的数据转换成 EDW 要求的形式,同时按 照业务需求对数据进行转换; 数据加载数据加载:将助转换后的数据装载到 EDW 的物理模型中; 银行数据仓库建设方案文件 数据准备区 数据准备区是数据存储的临时存储区域,数据在其中只作暂时性保存,数 据经转换后导入到 EDW 的物理模型中。 数据准备区的功能包括:格式转换、排序去重/筛选、通用基础清洗、连接 /合并/分割、业务转换等 操作型存储区 操作型存储区是数据仓库系统一个重要的环节。该区有着承上启下的作用, 从数据形态来看,该区的数据定义贴近业务源系统;从数据标准来看,该区的数 据标准是遵循数据仓库系统的标准。所以该区一般分为两个层次,第一个层次 称之为良好质量的、统一格式的数据贴源层,第二个层次为统一的、规范的、 遵循数据仓库系统标准的数据标准层。 数据贴源层可以继续为行内现有的一些报表系统或者分析系统提供数据, 而数据标准层为数据仓库中的企业数据模型的落地扫清了道路。 所以该存储区在整个 EDW 系统起到了一个承上启下的关键作用。 EDW 存储区 EDW 存储区是面向主题的、集成的、面向企业的、最明细的数据存储,其 内容是依据最终用户应用和分析需求来进行组织。数据存储区中的数据模型对 标准层数据、基础整合数据、汇总数据和面向应用的集市数据按数据层次进行 管理,每个数据层有自己的数据管理重点。对于每个数据层次,再按主题进行 分类组织。这样就可以有效的将银行企业的操作型数据、汇总型数据和分析型 数据以清晰的架构组织、管理起来,并相辅相成。数据层的内容相互促进发展, 组成银行完善的数据集合,为各种主题管理应用的构建提供良好的数据架构基 础。 业务应用 业务应用是 EDW 系统向业务用户提供应用功能支持,根据应用服务提供的 形式和所采用的应用系统的不同,业务应用主要定义在以下几个技术环境。 数据集市数据集市:在业务应用层中包含了应用系统中需要的应用集市、OLAP、静 银行数据仓库建设方案文件 态报表等数据集市。数据集市是一组特定的、针对某个主题域、部门或用户分 类的数据集合。这些数据需要针对用户的快速访问和数据输出进行优化,优化 的方式可以通过对数据结构进行汇总和索引。通过数据集市可以保障 EDW 的高 可用性、可扩展性和高性能。 应用环境应用环境:应用环境是为满足业务需要在数据 EDW 环境中配置的应用软件 包。 分析环境分析环境:数据分析环境为 EDW 的高端用户提供即时的数据分析功能等。 报表环境报表环境:报表环境是于来产生和发布静态报表的环境,包括:产生的静 态报表、OLAP 产生的报表、KPI 指标展现以及其他系统产生的报表。 用户环境 用户环境是 EDW 系统最终向用户提供的某种应用服务的集合,主要有三种 应用服务的表现形式: 通用展现平台:通用展现平台:通过此平台将报表、KPI 展现、灵活查询、分析等多个应 用集成到一个平台中,进行统一的展现和信息的管理,包括如:报表生命周期 的管理等。 数据分发环境数据分发环境:在数据分发的过程中应提供大容量数据批量分发的能力。 给其他需要某个系统的数据提供数据交换功能。 报表分发环境:报表分发环境:报表的分发应可以满足系统定义的安全性,如按照不同的 用户类型、不同的组织进行分发,不同的用户和组织只能看到属于自己的报表 的数据,数据的分发将通过数据传输平台进行。 元数据管理 元数据管理是对数据信息的收集和发布的集成管理,数据信息包括:数据 的业务含义和技术特性。数据仓库系统架构中的各个部分中都含有元数据信息, 应对其进行主动式管理,以保证它正确的定义、收集和使用。元数据是“关于 数据的数据” 。应包括文件结构定义,数据库字段名称,数据模型中的长度和标 准,以及在域-域或域-报表对应关系中的计算和公式等内容。 元数据管理的架构如下图所示,系统的最终架构应实现对元数据的集中的 管理方式: 银行数据仓库建设方案文件 0 系统安全性 EDW 系统中的数据和报表信息均为敏感信息。因此必须采用适当的安全策 略以保证其系统和数据的安全性。数据仓库系统的安全性应涵盖如下四个方面: 验证验证:系统应对用户进行访问控制,保证只有合法的用户才能进入到系 统中; 授权授权:系统应根据用户角色对其进行授权,包括对数据的访问权限,对 功能的使用权限等。 机密性机密性:所有的敏感数据必须被严格控制,禁止未授权访问,并保障其 安全性。 一致性一致性:数据和程序只能在授权模式下进行修改。 针对上述 6 个方面,数据仓库分系统应按照以下的 6 个方面的标准进行建 设: 应用层应用层 EDW 应用系统是建立在 OLAP 软件平台的基础上,应用层应实现用户访问控 制的功能,针对不同的用户访问不同的系统资源来保证整个应用系统的安全性 控制。对于未来的数据仓库系统来说,应与统一门户平台整合,实现整体安全 银行数据仓库建设方案文件 性管理的策略; 数据库层数据库层 只有被授权用户才能访问和修改数据库中的信息并且数据在传输过程中应 对敏感信息进行加密处理来保证数据的安全。 数据库管理员应按照角色对数据库用户进行划分,并且通过赋予角色权限 的方式实现对用户安全性访问控制的管理,如:针对用户组或耽搁用户分配特 定数据表访问权限。 系统层系统层 系统应防止未授权访问和系统调用,及时进行系统安全补丁的更新。对于 系统主机应采用服务器加固的方法,来保证整个系统的安全性。 网络层网络层 网络层安全是保证网络节点之间数据传递的安全性,以及网络环境不受恶 意攻击。 XX 银行数据仓库环境建立在企业内部网络中,不同功能的服务器应部署在 不同网段中,网段之间相互隔离,对网段之间的访问应通过防火墙并定义严格 的访问控制策略。整个系统的网络环境应得到实时监控,对入侵进行检测和处 理,并在发生入侵时通知系统管理员。 物理层物理层 物理层安全保障物理设备(主机、路由器等)不受非法用户攻击。目前物 理设备的安全性由运行中心负责。 管理管理 管理部分与上述的所有安全问题相关,对安全问题的管理必须由多个部门 共同协作完成。管理层面包括: 安全资源安全资源:实现各种安全使用的资源,如:防火墙,入侵检测和处理设 备,反病毒软件等; 安全策略和规划安全策略和规划:各种安全规则,组织和责任人; 突发事件处理突发事件处理:在发生安全威胁时的应急处理流程,包括:事件记录、 时间报告制度等流程; 安全审计安全审计:对安全策略的审核和检查; 银行数据仓库建设方案文件 灾难恢复计划灾难恢复计划:发生问题后的系统和数据恢复; 1.3 EDW 逻辑架构 1.3.1 逻辑架构框架 仓仓库库存存储储区区 固固 定定 报报 表表 灵灵 活活 查查 询询 数数据据访访问问 B/S 管理 决策人员 高级 分析人员 业务 分析人员 多多 维维 分分 析析 K P I Web 服服务务器器 用用户户层层 访访问问控控制制层层 系系 统统 管管 理理 财财务务系系统统 数据落地区 ETL开开发发 ETL load export 集集市市应应用用 Export 国国结结系系统统 其其他他系系统统 渠渠道道系系统统 人人力力系系统统 系统管理 维护人员 数数据据平平台台层层 汇汇总总模模型型层层 File ETL开开发发 多多维维模模型型层层 操操 作作 型型 功功 能能 一线业务 使用人员 ETL JDBC EDW 灵灵活活查查询询/KPI 驾驾驶驶舱舱系系统统 个个贷贷系系统统 核核心心系系统统 对对公公信信贷贷 手手工工数数据据 PageBean SessionBean App;ocationBean RequestBean JSP PageBean JSP PageBean JSP RequestBean AJAX AJAX AJAX AJAX AJAX File Bean Bean 通通用用展展现现平平台台 报报表表/复复杂杂 报报表表 灵灵活活查查询询 系系统统管管理理 仪仪表表盘盘 数数据据集集市市层层 DAO DAO DAO ConnectionPool 框架 引擎 BO BO BO 数数据据分分发发 权权限限统统一一管管理理 统统 一一 用用 户户 门门 户户 ( 支支 持持 多多 种种 中中 间间 件件 ) 仪仪 表表 盘盘 基基础础模模型型层层 操操作作型型存存储储 其其他他集集市市应应用用 供数 服务 应应用用服服务务层层 目的系统 JDBC 数数据据源源层层 技技术术元元数数据据 操操作作元元数数据据业业务务元元数数据据 安安全全管管理理体体系系 应应用用安安全全 数数据据安安全全 操操作作系系统统安安全全网网络络安安全全 数数据据消消费费传传输输通通道道 export File 任务 执行 代理 日志管 理引擎 任务调 度引擎 任务 执行 代理 任务 执行 代理 任 务 执 行 代 理 任 务 执 行 代 理 侦 测 器 ETL 调调度度管管理理和和监监控控器器 依赖和触发规 则库 数据质量规 则库 ETL流流程程调调度度 ETL Automation 资资 料料库库 任任务务 日日志志 单单元元 1 1单单元元 2 2 单单元元 n n 单单元元 1 1单单元元 2 2 单单元元 n n导导出出 数数据据文文 件件 贴贴源源层层 标标准准化化层层 如上图所示的 XX 银行 EDW 的逻辑体系架构,这一架构是在联科可扩展的 EDW 系统框架的基础上,结合 XX 银行信息系统建设的实际情况而设计出来的多 层、可扩展框架结构。架构的核心上包括源数据层、ETL 流程调度、数据平台 层、数据集市层、应用服务层、访问控制层、用户层和数据消费传输通道七个 大部分,另外,元数据管理和安全管理也是系统必不可少的部分,这 2 部分会 涉及到所有核心层次。 在明确定义各层之间的接口后,多层框架结构具有高度的扩展能力和方便 的系统开发和维护性能,符合目前流行的多层应用结构,适合 EDW 系统多阶段、 多层次的应用特点。 源数据层 【功能与作用】 总行的各个业务系统为整个 EDW 系统提供原始数据支持,首先作为 ETL 层 银行数据仓库建设方案文件 的数据抽取源。 【组成部分】 目前总行的数据源包括 XX 银行的多个业务系统,主要有核心系统、个贷系 统、对公信贷系统、国际业务系统、财务系统和各类渠道系统等。 ETL 流程调度层 【功能与作用】 该层为 EDW 数据流向的主要环节,EDW 系统数据流动的流程调度核心层, 流程调度主要针对下面几个方面: EDW 系统将数据源的数据抽取到数据落地区 EDW 系统对数据执行格式转换、排序去重、通用数据清洗、业务转换后 等操作,最终完成数据准备区加载。 EDW 系统再将数据准备区的数据按照 EDW 数据模型的方式加载到数据存 储区中。 在数据存储区中进行基础数据层、加工汇总层和应用集市层的数据加载。 EDW 中的数据准备区和数据存储区可以为为其它系统提供数据服务。 总行 EDW 可以为分行 EDW 提供数据服务。 【组成部分】 上面的逻辑架构图淡绿色色矩形部分为 ETL 调度管理技术架构图,其作用 是让许多的任务在作业的执行条件满足时自动地执行。ETL 调度管里最基本的 可执行元素是单元,每个单元是完成某一特定功能的程序,相关单元组合在一 起构成了可以调度的最小组件任务。由上面的技术架构图可知,ETL 调度 管里包含下列组件: 知识库 建立在 DB 中的一个数据库,包含了与流程调度相关的一组表,保存 ETL 流 程调度服务器、任务、任务之间的依赖触发关系、任务组、调度计划等多种类 型的信息。 侦测器 银行数据仓库建设方案文件 驻留在后台的服务,基于定义的触发规则和调度计划监测是否触发任务的 执行。 任务调度引擎 接受侦测器的信息调度任务执行(可以使本服务器任务也可以是其它服务 器的任务) 。 任务执行代理 调用任务包含的每个单元执行的服务,同一服务器上可以有多个任务执行 代理同时运行。 任务 封装在 Perl 程序中,执行数据加载、整合、立方体生成等工作的一组程序。 日志管理引擎 记录 ETL 调度管理各个服务器组件以及每个任务的执行日志,日志按天保 存,可以定期清理。 管理监控器 Java 应用程序,用于定义任务、任务组合触发关系等信息,同时可以实时 监控任务执行情况查看日志。 作为专门为数据仓库系统设计的流程调度管理具有如下特点: 任务执行代理可分布在多台服务器上。 结构简单、伸缩性强。 支持多种执行任务。 1) 加载数据 2) 整合数据 3) 数据质量检查和清洗 4) 数据转换 5) OLAP 数据生成 6) 数据挖掘模型的执行 7) 定制报表的产生 银行数据仓库建设方案文件 8) 定制页面的产生 9) 数据库备份、告警等系统作业 10) 调用其他 ETL/ELT 工具产生的任务 11) 数据导出到指定的渠道系统 执行的任务可以是另一个任务调度引擎触发(如:EDW) 。 可以启动其它的 ETL 引擎的任务。 数据平台层 【功能与作用】 作为本系统的数据核心部分,它负责存储和管理来自各种源数据系统的数 据,并为访问用户提供数据服务。 这些数据是按照在逻辑数据模型分主题存放的。 【组成部分】 本层由操作型存储区、仓库存储区和集市应用层四个部分组成。详细内容 参见“EDW 数据架构” 数据集市层 【功能与作用】 数据集市是一组特定的、针对某个主题域、部门或用户分类的数据集合。 这些数据需要针对用户的快速访问和数据输出进行优化,优化的方式可以通过 对数据结构进行汇总和索引。通过数据集市可以保障 EDW 的高可用性、可扩展 性和高性能。 【组成部分】 包括:驾驶舱报表系统和灵活查询以及其他应用集市系统。 应用服务层 【功能与作用】 通过对数据平台层中的数据进行适当的提炼、汇总,利用通用展现平台向 银行数据仓库建设方案文件 用户提供包括报表服务、查询服务、决策仪表盘等相关服务。该层为用户对中 央数据的访问提供各种方式的服务(C/S、B/S) ,从而实现访问方式的多样化和 信息存取的透明化。 【组成部分】 通用展现平台主要包括的功能模块有: 第一个层次是核心模块包括:框架、引擎,核心模块作为报表集成开发环 境的基础、核心和框架存在。报表集成开发环境核心功能和模块组装由核心模 块统一提供,只暴露给开发人员; 第二个层次是管理模块包括:报表信息、基本管理、代理、信息推送、连 接信息,管理模块为报表集成开发环境提供管理服务,它提供报表集成开发环 境的用户、权限等的统一管理,管理模块也是报表集成开发环境必选模块,它 的很多功能调用由核心模块提供,管理模块包括 5 个子模块; 第三个层次是应用模块包括:仪表盘、灵活查询、数据录入、报表、复杂 报表,应用模块提供报表集成开发环境最终用户(非管理人员)的用户体验, 可以和管理模块相结合有选择地灵活部署。 访问控制层 【功能与作用】 访问控制层主要包括 WEB、认证、安全、门户四方面的服务。该层位于用 户层和中间服务层之间,为用户层成提供 HTTP 服务、门户的单点登录、用户统 一认证、提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报 表、查询文档,提供个性化定制等。 用户层 由上面的逻辑架构图可知用户层包括各种最终用户。按照用户使用 EDW 系 统的方式和特点,可以划分为业务分析人员、高级分析人员和管理决策人员。 所有用户统一通过用户门户访问 EDW 系统各类应用,从而实现了 EDW 系统的应 用界面、安全管理统一,同时用户可以对门户进行个性化定制以方便自己使用。 实际上,EDW 系统还包括进行系统建设的开发人员、系统运行人员和系统 管理人员,这里所指的用户层主要针对业务用户进行描述。 银行数据仓库建设方案文件 业务分析人员 主要指总行各业务部门、各分行的业务用户,如:客户经理。该类人员直 接使用模块化的应用界面访问 EDW 系统,生成或预览预定义报表,进行相对固 定的查询以及多维分析。这类用户会使用 B/S 和 C/S 两种客户端访问 EDW 系统。 高级分析人员 是指总行各业务部门、各分行的较为高级的用户。除能够执行一般业务分 析人员进行的操作外,可以对指定的主题、指标进行自定义的灵活分析和比较。 分析的方式包括自定义查询、自定义报表、多维旋转和穿透钻取等等。这类用 户会使用 B/S 和 C/S 两种客户端访问 EDW 系统。 管理决策人员 主要包括各部门的领导、分行领导和总行领导。EDW 系统为管理决策人员 分配专门的系统资源,建立最为直观和方便的存取界面,为决策人员赋予最大 的信息访问权限,实现决策人员对信息的自由访问。同时,EDW 系统将决策人 员最为关心的信息主动发布到决策人员的访问界面上,简化信息访问的方式, 使得决策人员在第一时间获得经营管理的各种重要信息和指标。这类用户只会 使用 B/S 客户端访问 EDW 系统。 消费数据传输通道 在数据仓库系统建立以后,会有很长一段时间旧有的报表系统和分析系统 需要逐步迁移,在此期间,需要有一个消费数据传输通道来支持旧有系统的良 好运转。 安全管理体系 安全管理体系主要包括以下四个方面: 网络安全 主要包括在不同网络层次设置不同级别的防火墙及 IDS 系统,同时在每 一个安全层次下通过部署不同的安全原则,这完全符合 XX 银行的安全 级别规定。 操作系统安全 银行数据仓库建设方案文件 系统所有应用或数据库服务器均采用 Unix 操作系统,操作系统本身有 着严密的系统安全认证与用户权限管理体系,并具备登录、审核以及资 源访问的审计与跟踪。 数据安全 提供各种基于数据库的安全保护机制。 应用安全 应用是直接面对用户的,虽然应用系统能够持续提供服务是涉及到系统 安全的问题,但是因为这些问题更多的是由系统的安全问题来保证的。 所以就应用级的安全策略更多的是保证对数据访问的合法性。 0 元数据管理体系 在机构内关于数据的信息称为“元数据(Metadata)” 。清楚地区分数据库中 的数据和元数据是很重要的,所谓元数据,是指关于数据的数据,即用来描述 数据的类型、来源、定义、存储位置,使得可以正确地使用数据仓库。 元数据仓库(Meta Data Repository)对业务人员来说是很重要的,是业务 人员与数据仓库的数据交流的传达手段。IT 人员可能已经拥有许多有效的工具 进行数据存取。但对业务人员,他们需要一种手段和工具来理解他们存取的数 据。 在本期 EDW 系统的建设中,包括技术元数据和业务元数据两类,其数据源 涵盖了 EDW 系统的各个环节,包括:数据源系统、EDW 数据库、EDW 逻辑数据模 型、ETL 系统、业务应用系统等,同时,还将涉及数据的业务含义和业务规则 等相关业务文档。在架构上,元数据系统包括:元数据应用、元数据报表、元 数据分析、元数据集成系统、元数据展现系统、元数据管理系统、元数据维护 系统。 1.3.2 数据处理流程 各业务数据源系统通过多种方式(如:ETL 工具直接从源系统获取、源系统 数据批量导出)将数据获取过来,由数据落地区区进行集中管理。 后续的数据加工、转换通过 ETL Server 来完成,中间采取不落地的方式,将 加工完毕后的数据放在数据准备区域。ETL Server 可通过 ds job,FTP,NFS 等 方式从数据落地区获取数据,将处理后的结果放在数据准备区域。再将数据准 银行数据仓库建设方案文件 备区的数据加载到数据存储区中。 根据目标系统的不同,采用灵活的方式向外提供数据,可使用 ETL 工具直接 向目标系统加载或者通过 FTP 方式向其他目标传输。为支持其他的业务需求, 将近期(30-60 天)的明细数据、流水数据集中存放在数据库系统中,日常增量数 据刷新数据库系统。 整个过程通过调度工具进行统一调度,集中管理,确保各项任务有序完成。 1.4 EDW 运维架构 1.4.1 运维架构概述 下图中给出了 EDW 的运维架构,是在 EDW 系统上线后,为了保持系统良好 的稳定性而定义的相关的管理需求。运维架构主要是针对执行架构的数据导入 层、数据服务层、中间服务层和访问控制层服务器进行管理,面向的最终用户 是 IT 人员。 图 1 运维逻辑体系架构 运维架构中包含了如下组件:系统监控管理组件、系统维护管理组件、备 份恢复管理组件、故障切换管理组件、性能容量规划组件和运维安全管理组件。 各个组件的主要功能如下: 系统监控管理组件:系统监控管理组件:监控网络/系统性能、运行,以及诊断和报告故障。管 银行数据仓库建设方案文件 理的硬件和软件包括所有开发、测试和生产环境中的硬件和软件。 系统维护管理组件:系统维护管理组件:系统维护是指系统在运行过程中,为了系统的正常服 务而进行的配置、参数管理,以及启/停机、清理过期数据等日常操作,以 及数据、系统发生变更的维护等。 备份恢复管理组件:备份恢复管理组件:备份/恢复管理组件处理系统中所有必须的备份和恢复 操作。这个组件根据备份策略,通过对数据的冗余存储来保证系统可以从 各种服务中断中恢复。 故障切换管理组件:故障切换管理组件:故障切换管理提供了管理和控制应用切换的机制。故 障切换组件使用冗余系统和数据来保证关键任务数据流不间断。当发生故 障或失败时,该切换发生在主系统和备份系统之间。 性能容量规划组件:性能容量规划组件:性能及容量规划从环境中的不同元素收集利用数据, 并规划硬件和软件能力需求。 运维安全管理组件:运维安全管理组件:运维安全管理组件通过制定和管理运维安全策略,并 利用安全工具,维护信息系统资产(包括硬件、软件、用户数据、信息/数 据)的机密性、一致性和可用性。 运维环境管理组件:运维环境管理组件:运维环境管理用于确保物理环境和系统环境的妥善管 理和保护,不受故障和灾难的侵害,以及不受人为因素的干扰和破坏。 整个运维架构通过一些标准的流程实现生产环境运行管理,包括的流程主 要是日常操作流程和特殊操作流程。日常操作流程是指 IT 用户在日常为维护生 产环境正常运转需要做的工作,如:数据仓库管理、系统监控、备份恢复、容 量规划。特殊操作流程不会每天发生,这一流程的启动通常是由于系统软硬件 升级、数据变更、新增应用等需求引起的。 1.4.2 运维架构的逻辑框架 系统监控管理 在 EDW 系统中,需要监控管理的系统元素可以分为如下五类: 网络/主机管理:用于监控、控制和报告网络及主机状态。 银行数据仓库建设方案文件 数据库/数据仓库管理:提供相关监控信息源,控制各个独立的服务器或数 据库/数据仓库。应监控所有的关键数据库/数据仓库性能比例,以保证高 可用性和性能。 应用管理:处理客户应用中发生的事件。应用本身包括了衡量内部应用响 应时间和性能的工具,应搜集这些工具产生的信息(如日志、运行报告等) 用于监控。 生产调度:生产调度组件包括了一套应用,用于调度和自动化网络、系统 和应用管理(如 ETL)特有的任务。 安全管理:运维架构中涉及的安全管理内容主要包括身份管理、系统级密 钥和证书管理、安全策略管理。 系统监控管理的主要任务及工具支持如下图所示: 银行数据仓库建设方案文件 系统维护管理 系统维护是指系统在运行过程中,为了系统的正常服务而进行的配置、参 数管理,以及启/停机、清理过期数据等日常操作,以及数据、系统发生变更的 维护等。 系统维护管理包括两方面的管理内容:系统维护和变更管理。 系统维护是指系统在运行过程中,为了系统的正常服务而进行的配置、参 数管理,以及启/停机、清理过期数据等日常操作。 变更管理允许对技术架构组件进行变更的控制管理。在 EDW 系统运行过程 中,有两种典型的变更需要进行管理:数据变更和系统升级。变更控制组 件可以协助运维团队、开发团队和业务部门之间的沟通,保障系统的变更 平滑进行。 系统维护管理的主要任务及工具支持如下图所示: 银行数据仓库建设方案文件 备份恢复管理 备份与恢复的目标在于: 保证在任何时点对数据的完全恢复。 最低程度地降低数据丢失。 尽量提高数据备份过程的效率。 备份恢复管理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论