(计算机软件与理论专业论文)数据仓库基于模型设计层面的性能设计.pdf_第1页
(计算机软件与理论专业论文)数据仓库基于模型设计层面的性能设计.pdf_第2页
(计算机软件与理论专业论文)数据仓库基于模型设计层面的性能设计.pdf_第3页
(计算机软件与理论专业论文)数据仓库基于模型设计层面的性能设计.pdf_第4页
(计算机软件与理论专业论文)数据仓库基于模型设计层面的性能设计.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库基于模型设计层面的性能设计 北京邮电大学通信软件工程中心尹珩 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 李堕约 日期: 鲨堡:圣:三z 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以 公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇 编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 本人签名:翌哟日期:2 塑笸:兰:主2 导师签名: 毯驾 日期: 2 芝三i :! :兰z 北京邮电大学硕士研究生学位论文第2 页共7 l 页 数据仓库基于模型设计层面的性能设计 北京邮电大学通信软件工程中心尹珩 数据仓库基于模型设计层面的性能设计 摘要 一个软件系统的特性表现在它的功能性和非功能性( 如性能、可靠 性、安全等) 两个方面。在许多软件系统;尤其是大型软件系统中,非 功能甚至是强制的要求,例如电信领域数据仓库中的性能。 性能属性在保证数据仓库模型建设和数据仓库系统建设的质量中扮 演关键角色。但是,我们目前针对数据仓库性能的研究中,大多数是被 动的获得可认可的查询性能指标、可用性指标和数据质量指标,缺乏系 统设计,并且方法结构比较松散,很多情况下对性能的设计都是依赖于 开发人员的自身素质,很容易使得功能需求实现之后而无法满足用户对 性能的要求,最终必将导致模型的重复设计和系统设计的失败。因此, 通过对数据仓库性能因素的仔细研究,找到一条能明确的捕捉性能需求、 进行性能设计的途径,利用相应的支持工具和平台实现性能优化,对数 据仓库系统的成功开发和应用具有重要的意义。 本文的研究目标正是,通过研究数据仓库性能属性需求的基本特征, 分析并归纳电信领域数据仓库建设过程中现已掌握的性能优化设计的方 法,提取其基本特征作为性能属性元信息,使用u m l 扩展语言来为性 能建模,最终以知识库的形式,形成对数据仓库性能的整体需求描述和 设计。 关键字:数据仓库,数据仓库性能,模型驱动 北京邮电大学硕士研究生学位论文第3 页共7 1 页 d e s i g n0 nd a t a a r e h o u s ep e r f o r m a n c e b a s e do nm o d e l d r i v e n a b s t r a c t t h ec h a r a c t e r i s t i co fas o f t w a r es y s t e mi se x h i b i t e db yi t sf u n c t i o n a la n d n o n - f u n c t i o n a lp r o p e r t i e ss u c ha sp e r f o r m a n c e ,r e l i a b i l i t ya n ds e c u r i t y , e t c i n m a n ys o f t w a r es y s t e m s ,e s p e c i a l l y t h e l a r g e - s c a l eo n e ,n o n - f u n c t i o n a l p r o p e r t i e ss u c ha sd a t aw a r e h o u s ep e r f o r m a n c e a r ef o r c e dt od o p e r f o r m a n c ep r o p e r t yp l a y sav i t a lr o l ei ng u a r a n t e e i n gt h eq u a l i t yo f d a t aw a r e h o u s ei n f o r m a t i o nm o d e la n ds y s t e md e s i g n b u tc u r r e n t l yt h e r e s e a r c h e so nd a t aw a r e h o u s ep e r f o r m a n c em o s t l yf o c u s o np a s s i v e l y a c q u i r i n gq u e r yp e r f o r m a n c et a r g e t 、u s a b i l i t yt a r g e t 、a n dd a t aq u a l i t yt a r g e t , a tt h es a m et i m e ,t h ed e s i g nm e t h o d sa r eo r g a n i z e dd i s o r d e r l yi ns y s t e m a r c h i t e c t u r e i nm o s tp r o je c td e v e l o p m e n t s ,p e r f o r m a n c ed e s i g na b s o l u t e l y d e p e n d so nt h ee x p e r i e n c ea n da b i l i t yo fas o f t w a r ee n g i n e e r , w h i c hp o s s i b l y r e s u l t si nf a i l u r eo fd a t aw a r e h o u s ed e v e l o p m e n t t h e r e f o r e ,r e s e a r c h i n g s y s t e m i c a l l yt h ed a t aw a r e h o u s ep e r f o r m a n c ea n dg i v i n gt h em e t h o d sa n d g u i d a n c eo fp e r f o r m a n c er e q u i r e m e n t sd e s c r i p t i o n ,p e r f o r m a n c ed e s i g na n d i m p l e m e n t a t i o na r ev e r yi m p o r t a n tt os u c c e s s f u l l yd e v e l o pa n da p p l y t h ed a t a w a r e h o u s es y s t e mw i t hh i g hq u a l i t y i nt h ew o r k ,p e r f o r m a n c ed e s i g nb a s e do nm o d e ld r i v e n i sp r o p o s e d , w h i c hi sam e t l l o do fd e s c r i b i n gt h ep e r f o r m a n c er e q u i r e m e n ta n dd e s i g n u s i n gu m lp r o f i l e t h e m e t a i n f o r m a t i o no fp e r f o r m a n c ep r o p e r t yi s a c q u i r e db yr e s e a r c h i n g t h eb a s i cc h a r a c t e r i s t i co fd a t a w a r e h o u s e p e r f o r m a n c e t h ed e s i g np r i n c i p l e sa r e a b s t r a c t e df r o mm a n yo p t i m i z a t i o n m e t h o do fp e r f o r m a n c e t h ep e r f o r m a n c er e f m e m e n t k b s p r o v i d e k n o w l e d g ea c c u m u l a t i o no np e r f o r m a n c ed e s i g n f o rm o s td a t aw a r e h o u s e s o f t w a r ee n g i n e e r s k e yw o r d s :d a t aw a r e h o u s e ,d a t a w a r e h o u s ep e r f o r m a n c e ,m o d e ld r i v e n 北京邮电大学硕士研究生学位论文 第4 页共7 1 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 图表目录 图2 1 数据仓库系统体系结构15 图3 1 “数据驱动”方法图3 2 “需求驱动”方法2 8 图3 3 “数据驱动”和“需求驱动”相结合的方法2 9 图3 - 4 数据仓库的开发设计步骤2 9 图3 5 性能在数据仓库开发步骤中的体现3 4 图3 6 “紧偶合”的开发方法3 5 图3 7 基于“分离”的性能设计3 5 图3 8 ( a ) o m g 的四层元模型体系结构:_ :。3 7 图3 8 ( b ) o m g 的四层元模型体系结构3 7 图3 - 9p dp r o f i l e 在o m g 四层元模型体系结构中的位置3 8 图3 1 0 模型驱动的性能设计框架3 9 图4 1p g 、d e c i s i o n 以c l a s s i f i e r 作为基类4 3 图4 2d e c o m p o s i t i o n 、c o r r e l a t i o n 及其基类4 4 图4 3p dp r o f i l e 4 5 图4 4i s o9 1 2 6 性能求精知识库5 2 图4 5 性能“目标”求精5 2 图4 6 性能“决定”求精5 4 图5 1e t l 处理示意图:。6 1 图5 2e t l 处理模块的功能结构:。j 6 2 图5 3e t l 性能目标。6 4 图5 - 4e t l 性能“决定”。6 5 表格目录 表3 1 源数据业务特征分析表3 l 表4 1 各衍型标记值说明4 7 表4 2p dp r o f i l e 各衍型总结一览表5 0 表4 3 使用p dp r o f i l e 和其他辅助手段保证“好的需求”6 0 表5 1e t l 性能“决定”的“t a g g e dv a l u e ”描述6 7 北京邮电大学硕士研究生学位论文 第8 页共7 1 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心 尹珩 1 1 研究背景 1 1 1 数据仓库建设的背景 第1 章绪论 对一个企业或组织,尤其是对电信企业来说,业务子系统的运行积累了大量的历 史数据。但各系统的建立主要针对不同的业务目标,系统间相对独立,具有各自的体 系结构,数据格式不统一,不利于信息的集中共享及分析。如何有效的利用业务系统 积累的大量历史数据提炼出面向不同管理主题的、面向分析的、有利于决策支持的信 息,给企业信息使用者和决策者提供经济而快捷的业务信息访问途经,是分析与决策 系统所要解决的问题。海量数据分析与决策是当前国内外研究与应用的热点。而数据 仓库技术则是实现海量数据分析与决策的关键技术。 数据仓库性能是一个关系到数据仓库中数据库理论,数据仓库设计和管理等方面 的主题。数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,它更偏向于 工程,具有强烈的工程性,它的难点在于如何科学合理的设计和实现。所以,我们在 设计任何业务系统的数据仓库时,不仅仅要考虑设计的本身是否能满足业务的实际需 求,更重要的是,如何通过对数据仓库系统的良好的性能设计,为数据仓库的应用实 现提供科学合理的保证。 1 1 2 数据仓库性能研究的必要性 一个软件系统的特性表现在它的功能性和非功能性( 如性能、可靠性、安全等) 两个方面。在许多软件系统,尤其是大型软件系统中,非功能甚至是强制的要求,例 如电信领域数据仓库中的性能。 性能属性在保证数据仓库模型建设和数据仓库系统建设的质量中扮演关键角色。 但是,我们目前针对数据仓库性能的研究中,大多数是被动的获得可认可的查询性能 指标、可用性指标和数据质量指标,缺乏系统设计,并且方法结构比较松散,很容易 使得功能需求实现之后而无法满足用户对性能的要求,最终必将导致模型的重复设计 和系统设计的失败。因此j 通过对数据仓库性能的仔细研究,找到一条能明确的捕捉 性能需求、进行性能设计的途径,利用相应的支持工具和平台实现性能优化,对数据 仓库系统的成功开发和应用具有重要的意义。 北京邮电大学硕士研究生学位论文第9 页共7 1 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 1 2 论文工作以及研究成果 1 2 1 研究目标 本文的研究目标是,通过研究数据仓库性能属性需求的基本特征,分析并归纳电 信领域数据仓库建设过程中现已掌握的性能优化设计的方法,找到一条能明确捕获性 能需求、进行性能设计的方法和途径,使用u m lp r o f i l e 来为性能建模,最终以知识 库的形式,形成对数据仓库性能的整体需求描述和设计。 1 2 2 工作内容 作者在硕士研究生的学习期间,实际参与了某电信企业数据仓库项目u b i s p ( u n i f i e db u s i n e s si n f o r m a t i o ns e r v i c es y s t e mp l a t f o r m 一统一经营信息服务 平台) ,承担并掌握了从需求调研、信息模型的构建、e t l 操作和o l a p 分析应用,以 及工程现场实施等一系列工作任务和知识。在对数据仓库的概念和设计过程有了一定 的了解的同时,本人也发现了系统性能设计存在的问题:如没有明确的需求描述,没 有基于体系结构的系统的性能设计,数据仓库的构建完全凭借于开发人员对性能设计 知识的掌握程度等等。所有存在的一切问题必将使得数据仓库的开发只能建立在对性 能属性要求的主观判断上,很容易造成系统开发后性能无法满足需求的情况。所以, 经过考虑,作者把这些问题作为自己的研究内容和课题。 本人的研究内容主要包括: 1 数据仓库系统性能的全面分析:明确性能、数据仓库性能的概念和特征,性 能与数据仓库体系结构的关系,影响数据仓库系统性能的因素,以及对性能 的研究现状; 2 通过对数据仓库开发过程中性能设计的开发方法的讨论,找出目前性能设计 的问题所在,提出基于分离的、模型驱动的数据仓库性能的设计框架; 3 使用u m lp r o f i l e 创建性能设计的原模型p dp r o f i l e ,并依赖元模型对数据仓 库的性能需求和设计方法进行建模; 4 e t l 性能设计实例; 1 3 本文组织结构 以上简单介绍了本课题的研究背景、研究目标和研究内容。本文其余部分将依次 展开对数据仓库理论、软件。i f , 工, , - i - - 厶匕丹匕理论、数据仓库系统性能的分析、模型驱动的性能框 北京邮电大学硕士研究生学位论文第1 0 页共7 l 页 数据仓库基于模型设计层面的性能设计 北京邮电大学通信软件工程中心尹珩 架、p dp r o f i l e 、使用p dp r o f i l e 设计数据仓库性能、e t l 性能设计实例等几个方面的 论述。 本文具体组织结构如下: 第2 章,数据仓库性能研究综述。分别就数据仓库理论、软件性能理论进行了介 绍和总结,并重点分析了数据仓库系统性能特征、决定因素、在数据仓库体系结构中 的位置和影响、以及性能的研究现状。 第3 章,模型驱动的性能设计概述。作者通过分析数据仓库“螺旋式开发方法”, 总结在数据仓库系统的开发中,性能设计中的不足和原因,提出一种基于模型驱动的 性能设计框架。 第4 章,数据仓库性能的u m l 建模。本章是全文的核心和重点,作者通过分析 性能需求的基本特征,使用u m lp r o f i l e 为其建立了元模型p dp r o f i l e ;然后,使用 p dp r o f i l e 对性能需求和性能设计进行详细的分析描述,并给出了使用p dp r o f i l e 满 足“好的需求”的指导。 第5 章,e t l 性能设计实例。作者以数据仓库体系结构中三个关键问题之一的 e t l 抽取转换功能为例,使用p dp r o f i l e 对其性能目标进行了详细的描述和性能设计, 并且最终通过p g 与p g 之间、p g 与d e c i s i o n 之间的相关性判断,性能需求的权衡 评价,确定了哪些d e c i s i o n 被采纳,以及是否满足e t l 性能的需求。 文章最后总结了本文成果和不足,及面临的主要问题和困难,并对今后工作进行 了展望。 北京邮电大学硕士研究生学位论文第1 1 页共7 l 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 第2 章数据仓库性能研究综述 计算环境中的性能往往同典型的在线高性能系统紧密相连。在操作型在线事务处 理系统中,人们都期望每一个事务交易能在两三秒中处理完成,终端用户更是绝对依 赖于计算机系统的响应时间。当响应时间显著变慢时,终端用户群体将无法完成工作。 基于这个原因,操作型在线处理系统环境中的性能将体现为至关重要。 性能问题在数据仓库系统中同样令人关注。同线高性能处理系统相比,虽然数据 仓库系统的用户数量相对比较少,系统响应速度的要求不如o l t p 系统来得严格,但 是由于数据仓库对于操作型数据到分析型数据的抽取转换过程,和基于分析型数据进 行的业务分析和决策过程,都涉及到大量的数据操作,以及复杂的数据运算,因此, 性能在数据仓库系统中至始至终都扮演着及其重要的角色。本章将对数据仓库的系统 性能进行详细的分析和理解。 2 1 数据仓库 被称为“数据仓库之父”的w h i n m o n 3 在( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一 书中把数据仓库定义为“数据仓库是一个面向主体的、集成的、非易失的且随时间变 化的数据集合,用于支持管理人员的决策 。 2 1 1 数据仓库特征 根据定义,我们可以知道,数据仓库中的数据是面向主题的、集成的、不可更新 ( 稳定的) 并随时间不断变化的,建立数据仓库的目的是为了更好地支持决策分析。 2 1 1 1 面向主题 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归并后 进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分 析对象,是针对某一决策问题而设置的。 面向主题的数据组织方式,就是在较高层次上分析对象数据的一个完整、统一并 一致的描述,能完整及统一地刻画各个分析对象所涉及的有关企业的各项数据,以及 数据间的联系。业务系统是以优化事务处理的方式来构建数据结构的,对于某个主题 的数据常常分布在不同的业务数据库中。这对于决策支持来说是极为不利的,因为意 味着访问某个主题的数据实际上需要去访问多个分布在不同数据库中的数据集合。这 北京邮电大学硕士研究生学位论文第1 2 页共7 1 页 1 一 数据仓库基于模型设计层面的性能设计 北京邮电大学通信软件工程中心尹珩 样将极大的浪费系统处理的时间和效率,并且数据之间的不一致性和不同步问题,将 极大影响决策的可靠性。基于上述原因,数据仓库将这些数据集中于一个地方,在这 种结构下,对应某个主题的全部数据被存放在统一数据表中,这样决策者可以非常方 便地在数据仓库中的一个位置检索包含某个主题的所有数据。通过这种按照主题的数 据组织方式,数据仓库极大地方便了数据分析的过程。 2 1 1 2 集成性 数据仓库中存储的数据从原来分散的各个子系统中提取出来,但并不是原有数据 的简单拷贝,而是经过统一和综合。这是因为: 数据仓库的数据不能直接从原有数据库系统中得到,原有数据库系统记录的是每 一项业务处理的流水帐,这些数据是不适合于分析处理。在进入数据仓库之前必须经 过综合、计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。 数据仓库每个主题所对应的源数据在原分散数据库中有许多重复或不一致之处, 必须将这些数据转换成全局统一定义,消除不一致和错误之处,以保证数据的质量; 显然,对不准确、甚至不正确的数据分析的结果将不能用于指导企业做出科学的决策。 对于源数据的集成是数据仓库建设中最关键,也是最复杂的一步。 2 1 1 3 历史性 从数据的使用方式上看。数据仓库的数据是不可更新。即数据保存到数据仓库中 后,最终用户只能通过分析工具进行查询和分析,而不能修改,即数据仓库的数据对 最终用户而言是只读的。由于数据仓库的查询数据量往往很大,并且查询分析的用户 多是企业的高层领导,他们是所在领域的专家,但却不一定是计算机专家,所以对数 据查询、查询界面的友好和数据的表示提出了更高的要求。 从数据的内容上看,数据仓库存储的是企业当前和历史的数据,在一定时间间隔 以后,当前数据需要按一定的方法转换成历史数据。年代久远且查询效率低的数据需 要从数据仓库脱离到廉价慢速设备( 如磁盘) 上,并从数据仓库中删除分析处理不再 有用的数据,这些工作是由系统管理员或系统自动完成,因此也可以说数据仓库在一 定时间间隔内是稳定的。 2 1 1 4 时变性 ;j 数据仓库数据的不可更新是针对应用而言,即用户分析处理时不更新数据。但不 是说,数据从进入数据仓库以后就永远不变,这些数据随时间变化而定期更新。每隔 北京邮电大学硕士研究生学位论文第1 3 页共7 l 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 一段固定的时间间隔后,抽取运行数据库系统中产生的数据,转换后集成到数据仓库 中。而数据的过去版本仍被保留在数据仓库中。随着时间的变化,数据以更高的综合 层次被不断综合,以适应趋势分析的要求。当数据超过数据仓库的存储期限,或对分 析无用时,从数据仓库中删除这些数据。 2 1 2 关键应用要素 此外,r a l p hk i m b a l l 4 从应用的角度提出了数据仓库关键的6 个应用要素: 数据仓库的数据必须有一致性; 数据必须完整可靠; 高质量的数据仓库必须有高质量的数据收集过程; 数据检索必须迅速; 用户可以对数据仓库的数据进行分块或分片; 必须具有简单易用的浏览工具; 其中,前面三个要素反映了数据仓库本身对数据的完整性、可靠性以及一致性的 要求,数据处理质量的好坏将直接影响到数据仓库的性能;后面三个要素则反映出用 户对数据仓库中数据操作以及性能的要求。可见j 从应用角度反映出的数据仓库6 个关键要素中,都对性能属性提出了严格的要求,性能保障是数据仓库建设成功的关 键。 2 1 3 系统体系结构 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数 据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改 善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和 重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界 的角度看,数据仓库建设是一个工程,是一个过程。 在数据仓库工程中,设计数据仓库的体系结构是一个关键的环节,数据仓库工程 所要达到的诸多目标,如改善服务质量:降低运营成本、加快新产品和新服务品种的 开发速度、加强企业对竞争环境的响应效率等,都要落实体现到合理可行的数据仓库 体系结构设计中。 整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。 北京邮电大学硕士研究生学位论文第1 4 页共7 l 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心 尹珩 图2 - 1 数据仓库系统体系结构 1 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和 各类文档数据。外部信息包括各类市场信息、竞争对手信息和各种手工收集 的信息等等。 2 数据的存储与管理:是整个数据仓库系统的核心。针对现有各业务系统的数 据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据 的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集 市) 。 3 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以 便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中; m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放 于r d b m s 之中,聚合数据存放于多维数据库中。 4 前端工具与应用:主要包括各种报表工具、查询工具、数据分析工具、数据 挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。 2 1 4 数据仓库应用遇到的问题 今天,越来越多的企业把数据仓库看做他们的业务解决方案之一,这是因为:数 据仓库能够最大地发挥隐藏在每一个企业数据后面的决策力量。数据仓库合理构建 北京邮电大学硕士研究生学位论文第1 5 页共7 l 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 时,可以从数据中提取有价值的信息,把信息转变为一种容易理解和说明的形式,以 便人们用以制定决策。 数据仓库不是一个仅仅存储数据的简单信息库,因为那样实际上与传统数据库没 有两样。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数 据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些 综合数据为用户提供经过处理后的有用信息的应用系统”。数据仓库的重点与要求就 是:能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后, 再提供给管理人员进行分析使用。 数据仓库的应用是企业迈向新生代的一个尝试,建设高质量的可满足的数据仓库 的最终目的,就是通过数据定位j 数据呈现( 报表和图表) 、检验假设、知识发现、 共享分析等应用手段,为企业获得分析型的决策支持和应用支持。但是,根据开发经 验,人们在使用数据仓库的应用中却又面临着各种各样的困难和问题: 1 ) 数据质量不高,导致分析结果不可信 数据仓库中存在着大量的数据,这些数据来源大致分为两大类:操作型数据和外 部数据。操作型数据是来自于o l t p 系统,外部数据的来源相当广泛。数据是分析的 基础,只有高度可靠的数据,才能产生正确的信息。因此,数据质量不高,必然导致 用户对数据仓库产生的信息没有信心,可能会导致对系统失去信任,从而最终停止使 用它。 2 ) 数据仓库查询响应速度慢 即使数据质量有保障,分析结果真实可靠,但是,令人忍无可忍的查询访问时间, 也必然会影响最终用户的使用信心。数据仓库中查询响应的速度,直接体现了用户对 数据仓库性能的高要求。影响数据仓库查询性能的因素有很多,比如数据粒度的选择、 数据的分别,索引策略的选择、数据的存储方式等等。数据粒度的选择直接影响查询 的程度,索引的策略对查询的结果访问有很大的影响。建立良好的性能保障,是数据 仓库建设的基础,更是用户的直接需求。 3 )由于需求不可预期,可能导致建立的数据仓库不可用 ! 企业的一部分信息需求是可以估计的,但相当大的另一部分则无法估计。业务环 境在不断地变化,同样那些需要制定的决策类型和影响决策的信息也在变化。因为一 直有许多无法预料的信息需求,所以数据仓库在建立前不可能被完全设计和定义。要 提高数据仓库的性能,必须对不断变化的业务信息需求做出回应。如果它不随组织的 发展而进步,它将无法提供用于战略决策和为取得竞争优势所需的信息。这个系统会 迅速地衰老,分析不可靠,最后一无是处。所以,数据仓库开发不能看作一个有开始、 中间和结尾的项目,而应视为一个持续不断的过程。 北京邮电大学硕士研究生学位论文第1 6 页共7 l 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 2 2 软件性能概述 软件性能是软件产品的一项重要指标。早期通常采用“过后处理”的性能管理方 法,使得软件的性能管理被推迟到软件生命周期的后期才进行考虑,这种“过后处理” 的方法不仅需要很高的代价,而且对于软件体系结构和设计时存在的性能问题可能无 法解决,导致了许多软件最后由于性能问题而无法使用。“过后处理”这种方法的弊 端导致了软件性能工程( s o f t w a r ep e r f o r m a n c ee n g i n e e r i n g s p e ) 的出现。 2 2 1 性能的概念 性能具有很多内涵。软件工程术语的i e e e 标准术语表 i e e e 6 1 0 1 2 给出的定义 是:性能是系统或组件在给定约束中实现的指定功能的程度,诸如速度、正确性、内 存使用等。s m i t h 2 的定义:性能是软件非功能需求,描述了软件系统行为的实时性; 性能表示响应性,或者是对特殊事件的响应时间要求,或是在给定的时间间隔内处理 事件的数量:性能描述了系统传递服务的实时性,是计算机系统的一个质量属性。 性能与速度不能等同,典型的一个性能的错误概念是将其等同于速度,也就是, 认为低性能可以简单的通过使用强大的处理器或是高带宽的通信连接来弥补,较快可 能较好。但是对于很多系统,较快并不能保证得到好的性能,尤其是在实时系统中, “快计算”的目标将降低一些服务组合的平均响应时间j 而实时计算的目标是每个服 务的个别时间要求。同时,硬件机制诸如高速缓冲,管道和多线程,能够降低平均响 。应时间,使最坏的响应时间不能预知。“可预测的,而不是速度,是实时系统设计中 的最重要目标”。一般而言,性能管理涉及可预测性能不管它是最坏情况和平均 情况性能,执行速度只是其中的一个方面。 一l j - 2 2 2 软件性z 月比匕口j 佃4 4 - 述 系统的性能由系统的结构、设计和用于实现系统的资源性质来决定,资源的性质 包括资源的类型、性能参数以及共享资源在请求同一设备时的资源分配策略。这种类 型问题被视作调度问题已研究了很多年,例如,c o n w a y 1 将性能调度问题描述为以 下四种类型: 1 ) 要处理的工作和操作 。: 2 ) 机器的数量和类型 。 3 ) 限制做出配置方式的原则 4 ) 评估调度的标准 “ 当性能管理被上升到从工程的角度进行管理以后,s m i t h 2 描述了五种数据类型 北京邮电大学硕士研究生学位论文 第1 7 页共7 1 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 来构造和评估软件性能的工程模型: 1 ) 性能目标 2 ) 关键性能场景 3 ) 软件描述 4 ) 执行环境 5 ) 资源使用估计 c o n w a y 和s m i t h 的观点有所不同,不过两种观点都要求性能管理必须包括以下 的信息: 1 ) 性能参数:诸如评估调度的标准,以及事件响应的时间约束。 2 ) 性能因素:例如性能场景,资源使用,软件描述,以及描述系统要求的工作 和操作,执行环境和机器的数量和类型以及它们的描述参数。 3 ) 性能方法:用来获取和分析系统性能的方法。 2 3 数据仓库系统性能 在数据仓库中只有少量数据时,可以通过控制硬件资源让用户群获得非常好的查 询相应时间;当大量数据开始在数据仓库中堆积时,数据仓库环境的性能就开始上升 为一个关键问题。只有对问题的根源进行深入的分析,才能找到合理的解决方法,来 提高数据仓库系统建设应用水平。这一节将重点分析数据仓库系统性能。 2 3 1 性能特征分析 性能是系统或组件在给定约束中实现的指定功能的程度;数据仓库性能体现了前 端用户对分析型数据的查询访问能力,以及数据的抽取、转换、装载和存储能力。 数据仓库系统性能是贯穿整个数据仓库体系结构的内在特性i 也是保障数据仓库 系统构建和应用成功的主要属性。 性能需求的概念抽象,主观成分较多,不同的人会有不同的理解。 性能因素复杂;性能优化是通过特定的机制和原理来实现的。 2 3 1 1 数据库和数据仓库 传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批 处理到决策分析等各种类型的数据处理工作。 数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。经过数 十年的发展,在这些数据库中已经保存了大量的日常业务数据,一般而言,决策分析 系统并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的 北京邮电大学硕士研究生学位论文 第1 8 页共7 1 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心 尹珩 综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为 是一种数据冗余而加以限制。要提高分析和决策的效率和有效性,分析型处理及其数 据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出 来,按照d s s 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正式 为了构建这种新的分析处理环境而出现的一种数据存储和组织形式。 所以说,数据库技术主要应用于在线事务处理系统,而数据仓库则是基于联机分 析应用系统的整体解决方案。 对数据库性能和数据仓库性能的对比,要从在线事务处理系统和联机分析应用系 统对性能特性的要求不同开始:联机事务处理应用要求数据的存取操作频率高、操作 处理时间短,强调数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快 捷;在联机事务分析处理环境中,因为数据量的庞大和分析应用需求的复杂,决策支 持和应用程序可能需要连续工作数小时,所以,实时性并不是联机分析处理系统所关 心的重点。数据仓库系统的重点在于有效查询处理以及对装载和存取工作的处理。 2 3 1 2 数据仓库性能标准 经过2 3 1 1 的比较和讨论可知,管理数据仓库的技术需求与在操作型环境中管 理数据和处理过程的技术需求和考虑因素是非常不同的对性能标准的需求也不尽相 同。本文得出数据仓库系统在设计建设过程中所必须达到的技术能力标准: 管理大数据量数据的能力; 进行灵活数据存取的能力: 根据数据模型重组数据的能力; 透明的数据发送和接收能力; v ,周期性成批装载数据的能力; 可设定完成时间的作业管理能力; 在没有明确性能需求定义的情况下,我们可以把上述的技术能力标准理解为数据 仓库系统对性能的要求。 2 3 2 性能与数据仓库体系结构 爹:。数据仓库体系结构中的三个关键问题:数据的存储和管理、e t l 抽取转换、前端 应用的访问。而性能属性更多的也体现在这三个关键模块的设计和实现中。 北京邮电大学硕士研究生学位论文第1 9 页共7 l 页 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 2 3 2 1e t l 抽取转换 从数据仓库的系统构架可以看出,e t l 是数据仓库中的非常重要的一环。它是承 前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础, 它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加 载数据并对数据进行一系列处理,处理过程与经验直接相关,同时这部分的工作直接 关系数据仓库中数据的质量,从而影响到在线分析处理( o l a p ) 和前端工具处理的 结果的质量。 e t l 抽取转换是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它 需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中 导入数据仓库,形成基于分析的数据。数据抽取在技术上主要涉及互连、复制、增量、 转换、调度和监控等几个方面。在数据抽取方面,未来的技术发展将集中在系统功能 集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。数据 仓库的数据并不要求与联机事务处理系统保持实时的同步,因此e t l 可以定时进行, 但多个e t l 操作执行的时间、相互的顺序、性能优化、以及成败对数据仓库中信息 的有效性则至关重要。 2 3 2 2 数据的存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部 数据表现形式。 在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处 理大量的数据、如何优化查询等问题。 管理大量数据:。 在数据仓库技术以前,t b ( t e r a b y t e s ) 和p b ( p e t a b y t e s ) 这样的术语是不为人 所知的。数据的容量是以m b 和g b 来度量的。在数据仓库技术出现以后,所有的概 念都改变了。因为数据仓库要求在同一环境中要混合存储细节和历史数据,所以数据 量急剧地膨胀,大量的数据已经影响到数据仓库技术的各个方面。所以,我们需要用 许多方法,如通过存储在处理器和存储在磁盘中的数据灵活的寻址能力、通过建立索 引、通过数据的外延、通过有效管理溢出数据等等方法,来管理大量的数据。 然而,不论如何管理数据,很明显有两个基本要求:能管理大量数据的能力并且 能够将其管理好的能力。有一些方法是可以用来管理大量的数据但很笨拙。另外有一 些方法则能以一种有效而精巧的方法来管理大量的数据。要是管理方法有效,所使用 的技术一定要同时满足容量和效率的要求。由此可见,性能属性的优良是管理大量数 据的前提和必要条件。 北京邮电大学硕士研究生学位论文 第2 0 页共7 l 页 111|illj_l_-_lillllillillllliiiiiill 数据仓库基于模型设计层面的性能设计北京邮电大学通信软件工程中心尹珩 v 并行处理大量的数据 数据仓库中数据管理的最重要的特征之一是数据的并行存储管理。当数据被并 行存储和管理时,可以极大提高性能。通常,假定对数据的访问模式是等概率的话, 性能的提高与数据所分布的物理设备的多少成反比。 2 3 2 3 前端应用的访问 作为数据仓库系统三要素之一的信息访问部分,是最终用户赖以从数据仓库中提 取信息、分析数据、实施决策的必经途径。我们知道数据仓库建立的最终目的是面向 高层的决策支持,数据仓库为前端应用提供分析型的数据基础,同时也为应用者提供 高性能的信息访问和查询处理手段。因此,性能特性是直接面向最终用户的需求的。 数据仓库系统建设中对性能属性的合理处理,是前端应用访问对性能需求的基础,也 决定了前端访问的有效性。 2 3 3 影响数据仓库系统性能的因素 数据仓库中的性能与o l t p 环境中的性能不同,作者在2 3 1 节中已做了详细的 讨论。影响数据仓库性能的因素有很多,例如:必须有适当的过程来提高、监控并调 节性能;必须建立适当的设计体系结构、优化网络和c p u 的效用,等等。造成数据 仓库性能不好的原因有:硬件瓶颈、数据体系结构僵硬、物理设计有问题、用户期望 太高或者是查询工具的问题等等。 下面就从影响数据仓库性能的几个关键因素进行分析。 2 3 3 1 数据质量 数据质量是数据仓库项目和整个智能计划成功的基础和关键因素;数据质量制约 着最终用户能否获得有效的数据分析信息,并通过这些数据预知企业发展趋势,以制 定良好的决策。 具有较高质量的数据,无疑是企业的一种资产,但如果数据质量差,那么查询数 据仓库的知识工作人员和接收信息的决策者将对访问结果产生疑问,必然干扰了最终 用户的分析和决策。同时,当大量的劣质数据进入数据仓库,或通过很多方式产生的 数据仓库系统脏数据时,清理数据就将称为一项麻烦而长期的工作。因此,数据质量 是性能的一个关键尺度。 。 数据质量的评估应从数据的完整性、准确性、一致性三个纬度来进行评估。 北京邮电大学硕士研究生学位论文第2 l 页共7 l 页 数据仓库基于模型设计层面的性能设计 北京邮电大学通信软件工程中心尹珩 2 3 3 2 数据组织 数据仓库的数据组织体现了系统所建立维护的数据结构。在对应用源系统的数据 特征和数据质量进行有效分析的情况下,明确数据仓库系统的粒度划分和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论