(计算机应用技术专业论文)数据立方体生成技术研究.pdf_第1页
(计算机应用技术专业论文)数据立方体生成技术研究.pdf_第2页
(计算机应用技术专业论文)数据立方体生成技术研究.pdf_第3页
(计算机应用技术专业论文)数据立方体生成技术研究.pdf_第4页
(计算机应用技术专业论文)数据立方体生成技术研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据立方体生成技术研究 摘要 随着企业联机事务处理系统的建立、运行和发展,业务数据大量积累,数据源分散异 构,人们发现仅依赖联机事务处理系统已经不足以获得市场竞争的优势,数据仓库的思想、 技术和产品开始形成并迅速发展,为科学决策提供了良好的技术解决方案。 数据立方体是数据仓库中多维数据模型的核心,业界对多维数据模型以及数据立方体 的生成和维护己经做了大量的研究工作。物化视图的选择和视图的生成算法是立方体生成 中的两个重点。 数据立方体生成技术的研究在如何减少其存储代价、查询时间和维护( 更新) 时间上, 以及如何在这几者之间达到较佳的平衡还没有找到很好的算法。 针对上述问题,在全面系统学习和总结了国内外立方体生成技术的最新成果的基础 上,本论文主要做了以下工作: 1 ) 通过把数据立方体中的维分为划分维和非划分维,定义了一个等价关系,使得具 有相同划分维的视图构成了一个等价类。把等价类组织成主流水线,等价类中的视图组织 成次流水线,给出了两层流水线数据立方体串行算法,可以充分的利用物理内存,大大减 少读原始数据的次数和处理机之间的通讯开销,缩短了计算时间。 2 ) c u b e 算子的计算在o l a p 应用中起着极为重要的作用。本论文分析了在高维c u b e 算子计算中传统流水线方法的不足之处,提出了通过有选择地实例化c u b e 中的部分节点 以提高o l a p 性能的解决方案,并给出了一个获取需要实例化节点的算法。 3 ) 立方体生成过程中,总受到系统资源的限制,本论文通过采用一种关系和多维数 组混合存储结构来存储数据立方体,它结合了流水线聚集方法和多维数组聚集方法的优 点,大大减少了流水线的条数和所需要的存储空间,加快了计算速度。 关键词:联机分析处理,数据仓库,多维数据模型,数据立方体 r e s e a r c ho nt e c h n oio g yo fd a t e c u b eg e n e r a tio n l i u h o n g m i n ,h a n x i e a b s t r a c t w i t ht h ef o u n d a t i o na n dr u n n i n ga n dd e v e l o p i n go ft h ee n t e r p r i s e so n l i n e t r a n s a c t i o np r o c e s s i o n ( o l t p ) s y s t e m ,m o r ea n dm o r ed a t aw e r ec r e a t e d ,d a t as o u r c e w e r ef o u n d e da n dd i s t r i b u t e da l lo ft h ew o r l d p e o p l ef o u n dt h a to n l yd e p e n d i n g o nt h eo l t ps y s t e mc o u l d n tg e tt h ef u l lp r i v il e g ei nt h ec o m p e t i t i o n t h et h i n k i n g o nd wb e g i n st oc o m eo u ta n dt h et e c h n o l o g ya n dp r o d u c t so fd wd e v e l o pr a p i d l y w a r e h o u s et e c h n o l o g yp r o v i d e sag o o dt e c h n o l o g i c a ls o l u t i o nf o rt h et e c h n o l o g y d e c i s i o n d a t ac u b ei st h ec o r eo ft h em u l t id i m e n s i o n a ld a t am o d e li nt h ed a t aw a r e h o u s e t e c h n 0 1 0 9 i s t sh a v ea l r e a d yd o n eal a r g ea m o u n to fr e s e a r c hw o r ko n t h e m u l t i d i m e n s i o n a ld a t am o d e la n dt h ed a t ac u b e t h ec h o i c eo ft h em a t e r i a l i z e d v i e w sa n dt h ef o r m u l a t i o na l g o r i t h mo ft h ev i e wa r et w of o c u sp o i n t si nt h et o u r s e o ft h ec u b ep r o d u c i n g t h e r ei sn ob e t t e ra r i t h m e t i co nh o wt or e d u c es p a c ec o s t ,q u e r yr e s p o n s et i m e , m a i n t e n a n c ec o s to fd a t ac u b e s ,a sw e l la st oa c h i e v i n gab e t t e rt r a d e o f fa m o n g t h e s et h r e eb a s i cf e a t u r e s i na c c o r dw i t ht h eq u e s t i o n sa b o v e ,b a s e do nt h es y s t e m a t i cs u m m a r i z a t i o no f t h em o s tr e c e n tw o r ko nd a t ec u b e ,t h r o u g ht h ea u t h o r se f f o r t ,s o m ei n n o v a t i o n s a n da c h i e v e m e n t sa r em a d eb yt h ea u t h o r ,w h i c hw i i ib ei l l u s t r a t e di nd e t a i la s f o ll o w s 1 ) b yd i v i d i n gt h ed i m e n s i o n si nd a t a c u b ei n t op a r t i t i o nd i m e n s i o n sa n d n o n p a r t i t i o nd i m e n s i o n s ,t h et h e s i sd e f i n e sa ne q u i v a l e n tr e l a t i o nt h a tm a k e s t h ev i e w sw i t ht h es a m ep a r t i t i o nd i m e n s i o n sc o m p o s ea ne q u i v a l e n tc l a s s b y o r g a n i z i n ge q u i v a l e n tc l a s s e si n t om a j o rp i p e l i n e sa n dt h ev i e w si na ne q u i v a l e n t c l a s si n t om i n o rp i p e l i n e s ,t h et h e s i sp r e s e n t sas e r i a lo ft w ot i e r sp i p e l i n e a l g o r i t h mf o rc o m p u t i n gd a t ac u b e t h ea l g o r i t h mc a nm a k eu s eo fp h y s i c a lm e m o r y e f f i c i e n t l ya n dd r a m a t i c a l l yt or e d u c et h et i m e so fr e a d i n gr a wd a t aa n dt h e c o m m u n ic a t io nc o s tb e t w e e np r o c e s s o r 2 ) t h ec u b eo p e r a t o rc o m p u t a t i o np l a y sa v e r yi m p o r t a n tr o l ei no l a p ( o n l i n e a n a l y t i c a lp r o c e s s i n g ) a p p l i c a t i o n s t h et h e s i sa n a l y z e dt h ed r a w b a c k so ft h e t r a d it i o n a lp i p e l i n em e t h o di n c o m p u t i n gc u b eo p e r a t o r sa n dp r e s e n t st h e p r i n c i p l e st om a t e r i a l i z ead a t ac u b ew i t hm u l t i p l ed i m e n s i o n s ,a n da i s op r o y i d e s a na l g o r it h mt od e t e r m i n et h en o d e si nt h es e a r c h l a t t i c et h a t s h o u i db e 。 m a t e r i a l i z e d 3 ) t h e r ea r es o m el i m i t a t i o n so fs y s t e mr e s o u r c e sw i t ht h ep r o c e s so fd a t a c u b ec r e a t e d ,t h et h e s i sa d o p t st h eh y b r i dd a t as t r u c t u r eb a s eo no n ei s s t o r e d i nar e l a t i o na n dt h eo t h e ri ss t o r e di na m u l t i - d i m e n s i o na r r a y i ta d o p t st h e m e r i t so fp i p e l i n ea g g r e g a t i o nm e t h o da n da r r a ya g g r e g a t i o nm e t h o d i tr e d u c e s t h ea m o u n to fp i p e l i n e sa n ds t o r a g es p a c e d r a m a t i c a l l ya n da c c e l e r a t e st h e c o m p u t a t i o no fd a t ac t l b e k e yw o r d s :o l a f , d a t aw a r e h o u s e 。m u l t i d i m e n s i o n a ld a t am o d e l ,d a t ac u b e 中北大学学位论文 1 1 国内外研究现状和进展 第一章综述 在当今日益激烈的竞争环境下,企业要生存、发展,就必须具有能对不断变化的商 业环境进行分析、预测并做出快速反应的能力。要做到这一点,企业的决策分析人员能 否及时地从大量的原始数据中提取更多、更准确、更有效的信息是关键。企业传统的业 务系统中所使用的对数据库进行查询、增删、修改操作和报表功能的联机事务处理系统 ( o l t p ,o n l i n et r a n s a c t i o np r o c e s s i n g ) 面向例行的事务数据处理,不能满足人们 对数据作深层次分析的要求,数据仓库与o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 技术便 应运而生了。数据仓库的目的在于管理和使用大规模的数据,顺应了时代的发展趋势。 建立数据仓库能够带来巨大的社会和经济效益,所以数据仓库技术不论在研究上,还是 在应用上都成为一大热点并取得了丰硕的成果。各大数据库厂商,以及许多软件公司都 推出了各自的数据仓库解决方案和相应产品。同时,国内外的许多研究者和机构也在对 数据仓库中的一些关键技术进行深入的研究。 尽管经过十年的发展,数据仓库技术得到了长足的进步,但如何对大规模数据进行 有效的处理仍然是数据仓库技术研究和应用的重点。 o l a p 系统是一种支持多维分析的决策支持工具,侧重对高层管理人员的决策过程 提供信息支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂分析处理,并 以一种直观易懂的形式将查询结果提供给决策人员。o l a p 通常建立在数据仓库之上, 是数据仓库上最重要的应用之一。虽然国内有很多大学和研究机构从事数据仓库和 o l a p 技术的研究,但到目前为止,国内基本上没有成熟的o l a p 产品和解决方案,随 着信息化建设的深入,国内企事业单位对数据仓库和o l a p 的需求越来越迫切。 在o l a p 中,数据通常以数据立方体( d a t ac u b e ) 形式存储,通过数据聚集技术和高 性能的存储结构,组织和汇总了大量的聚集数据。专家学者先后在c u b e 聚集计算、c u b e 压缩存储等方面取得了一些成果,提高了c u b e 的数据查询性能。但o l a p 常常需要在超 大规模的数据仓库上执行复杂的查询,而查询响应时间必须很快满足交互环境的需要。 为了解决这个问题,除了传统的查询优化和索引技术以外,又引入了视图实例化c u b e , 中北大学学位论文 1 个n 维的d a t a c u b e 可以生成2 1 个聚集c u b o i d s 。因此,在实际应用中,c u b e 中的元组 个数往往是基表( b a s et a b l e ) 的几百倍或几千倍,要占用g b 甚至是p b 级的存储空间 花费很长的计算和维护时间。随着c u b e 在大量多维数据仓库中的o l a p 快速聚集查询 中起到越来越重要的作用,在生物计算、科学实验、环境气象等应用领域中,存在着大量 的高维数据集合,维数一般高达几十个,甚至上百个,一般记录数也超过1 0 6 条,这与一般 只有l o 个维左右的传统数据仓库的聚集数据的操作不一样,其聚集c u b e 中的数据单元 将随着维数的增加呈指数增长,以致实体化整个高维数据立方体c u b e ,不论在计算时问 还是在存储空间上的代价都十分昂贵。其中数据立方体计算是一个复杂耗时的操作,如 何高效地计算数据立方体一直是o l a p 领域的一个研究重点。 一个普遍采用的提高o l a p 系统响应速度的技术便是视图物化技术圆。它是一种将 视图所对应数据加以实际物理存储的技术。其目的是通过预计算来加快o l a p 系统的响 应速度。然而把视图进行物化存储既需要占用可观的磁盘空间,又需要耗费大量的系统 资源以对其进行维护,+ 所以如何选择一组合适的视图集加以物化,使其在满足存储空间 限制的条件下,各查询的综合响应时间最小,是一个极为重要的问题。这就是物化视图 选择问题。 目前的数据立方体生成算法的视图物化选择算法有以下两类: 第一类适用于已知系统所需要处理的查询类型以及可能对系统中数据进行更新的 类型的情况。有了这些信息就比较容易有针对性地找出一个合适的物化视图方案。 第二类适用于完全不了解这个0 l a p 系统将来的查询分布的情况,因此其适用范围最 广,但这样的算法往往复杂度过高,因此对于较为复杂的多维数据集没有太大实用价值。 在上述的计算数据立方体的方法中,都是针对整个数据立方体来说的,这也意味着 要耗费大量的存储空间。如果不预先计算任何立方体,那么我们的o l a p 操作消耗的时 间将是无法估计的。事实上某些立方体能直接回答的查询也可以由其它立方体做聚集计 算来回答。因此,出于对时间和空间性能的综合考虑,我们选择预先计算( 物化) 部分 立方体,然而,选择怎样的物化算法、物化哪些立方体,同样是我们在物化过程中需要 解决的问题。 2 中北大学学位论文 1 2 课题目的和意义 联机分析处理( o nl i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 是数据仓库的一种基本的 数据分析服务。它通过对信息的多种可能的观察形式进行快速、稳定、一致和交互性的 存取,允许管理决策人员对数据进行深入的观察和分析。数据立方体( d a t ac u b e ) 是实 现o l a p 的主要手段,在数据立方体中维( d i m e n s i o n ) 规定数据的性质,度量表明数据的 量。不同维的组合构成了子立方体( c u b o i d ) ,或称视图。每个子立方体代表数据的一种 粒度。不同维值的组合构成了c e l l 。从结构上来看,数据立方体由多个子立方体构成, 每个子立方体由相应粒度的多个c e l l 构成。 对数据的稳定丽快速的存取是联机分析处理的基本特征,也是对数据立方体的基本 要求。从逻辑上来说,仅仅使用数据立方体中粒度最小的视图( 基视图) 就足以聚集计 算出其它所有的视图,从而回答对立方体数据的查询。 然而,数据立方体中一般数据量较大,进行聚集的代价通常很高,严重影响了查询 的响应时间。为了提高数据立方体的查询速度,一个普遍使用的方法是物化( m a t e r i a l i z e ,或称预聚集) ,即预先计算并存储较粗粒度数据的值,查询到来时直接将相应数据 取出丽不是临时计算。 预聚集所带来的问题是对存储空间需求的急剧增大和数据更新效率的大幅降低。因 为预聚集的结果需要空间来存放,而且其空间需求可能远远大于基数据。而基数据发生 改变时,由它聚集生成的预聚集结果也必须进行相应修改。 由于必须存储预聚集数据,数据立方体所占用的存储空问一般都很大。在完全预先 聚集的情况下,在r o l a p 中直接存储数据的表( 或物化视图) 所占用的存储空间将令人难 以承受。在m o l a p 中,这种现象更严重。如果使用未经压缩的多维数组进行存储,其占 用空间将是所有维的秩的乘积。对数据立方体使用部分物化或压缩方法减少对空间的占 用是势在必行。然而,这些方法往往又是以其它性能( 查询响应时间、更新时间) 的下降 为代价的。我们需要对如何减少数据存储空间作更深入的研究。 在设计数据仓库时,其中一个最重要的步骤就是选择哪些视图进行物化,使其在满 足磁盘空问限制或者维护代价限制条件下,o l a p 系统查询的综合响应时间最小。 因此,本文研究的内容是在存储空间、查询响应时间、更新时间几者之间进行更合 3 中北大学学位论文 理椤衡的数据立方体存储结构及数据立方体生成算法。论文通过改进s t a rc u b e 的非划 分维度思想,将传统的流水线算法进行了改进,并实现了视图中数据的混合存储。同时, 提出有选择地实例化c u b e d ? 的部分节点能够提高o l a p 性能,并给出一个获取需要实例化 节点的算法。 1 3 论文各部分的主要内容 论文的主要研究方向是数据立方体的生成方法,不涉及立方体的查询分析和立方体 的维护算法。 论文的章节分配: 第一章分析了目前关于数据立方体国内外的研究现状及进展,提出本文目标是在存储 空间、查询响应、更新时间几者之间进行更合理权衡的数据立方体的存储结构 及数据立方体生成算法。 第二章讲述了有关数据仓库的产生定义、概念特点与数据模式,包括数据模型的些 第三章 第四章 第五章 第六章 基本概念如维、数据立方体、视图等;对o l a p 的特点、分类比较、多维数据概 念和典型操作等进行了介绍。 讲述了多维数据模型的基本概念,详细介绍了数据立方体的定义、计算、存储。 比较详细地介绍了多个常用的数据立方体生成算法,并对各个算法进行了分析 比较。 讲述了多维数据模型的存储结构,介绍了维、维层次和事实的存储结构。 。 提出基于混合存储结构的数据立方体预计算,给出混合存储结构、两层流水线 以及获取需要实例化节点的算法,并用实际数据对算法进行测试。 第七章总结本文的研究内容,表明了后续的研究工作。 附录:参考文献、致谢 4 中北大学学位论文 第二章数据仓库与0 l a p 技术综述 2 。1 数搭仓痒技术“1 2 1 1 数据仓库的产生及定义 数据痒系统干蠡为数据管理煎簪段,瓢它静诞生开始,藏主要用于零务处理。经避数 十年的发展,在这魑数据库中融积累了大量的日常业务数据。传统的业务系统一般熙巍 接建立在这种事务匙瑾琢境上豹。随着各行菇垃对计算枫废愆嚣求豹多榉亿、深入化j 需要蕊大量事务数据中归纳出照务活动的溉樽性及其发展趋势。扶本馓纪7 0 年代勰, 为满足管理决策的濡要,人们在管理信息系统的基础上,发展了以数据分析和建模定量 分析为基础的决繁支持系统( d s s ,d e c i s i o ns u p p o r ts y s t e m ) 。瑟数攥艨技末也一纛力 图使爵已能胜任从露务处理、舷楚理到分析处理的各种类型的信息处璎任务。后来人们 逐渐认识到,由于攀务处理和分析处理具有不同的性质,岚接使用事务处理环境来支持 决策楚行不通的。臻务处理蕊壤不适合分熹蓐楚毽痤赐的缀瓣主要畜以下死条: 1 ) 事务型处理和分析型处璃的性能特憔不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时 翔短,嚣在分辑型环境孛,菜令d s s 应廷糕净霹麓嚣要逶续处理见令j 、辩,扶瑟漤耧 大量的系统资源,瞪此将两种不阍处理性能的应用放在同环境中是不道当的。 2 ) 数据集成问题 全面正确的数摆是有效的分析和决策的首要前提,而当前绝大多数企业内数据的真 正状况是分散的、非集成的,造成数据分散的原因有很多,主要有事务处理应用分散、 蜘蛛网问题、数据不一致问题、外部数据和非结构化问题。 3 ) 历史数据阀题 事务处理一般只需要当前数据,在数据库中一般也只存储短期的数据,且不同数据 的保有期限也不一样。但对于决策分析而言,历史数据是相当重要的,没有对历史数据 的详尽分析,是难以把握企业的发展趋势的。d s s 对数据在空问和时阉的广度上都有 5 中北大学学位论文 了更高的要求,而事务处理环境难以满足这些要求。 4 1 数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言,分析型处理并不对这些细节 数据进行分析,这主要有两个原因;一是细节数据数量太大,会严重影响分析的效率; 二是太多的细节数据不利于分析人员将注意力集中于有用的信息上。因此,在分析前, 往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力。根据 规范化理论,这种综合还往往因为是一种数据冗余而被加以限制。 为了提高分析和决策的效率和有效性,就要把分析型处理及其数据与操作型处理及 其数据相分离,把分析型数据从事务处理环境中提取出来,然后按照分析处理的需要进 行重新组织,建立单独的分析处理环境。而数据仓库技术正是为了构建这种新的分析处 理环境而出现的一种数据存贮和组织技术。概括地说,数据仓库是一种面向决策主题, 由多数据源集成,拥有当前及历史的总结数据,以读为主的数据库系统。 2 1 2 数据仓库的特征 关于数据仓库的定义有很多,数据仓库除了传统d b m s 的共享性、完整性、数据 独立性外,还有自己的一些特征,可概括为如下四个方面: 1 ) 数据仓库是面向主题的 传统的数据库是面向应用设计的。它的数据只是为处理具体应用而组织在一起的。 应用是客观世界既定的东西,它对于数据内容的划分未必适用于各种动态分析。而数据 仓库是面向主题设计的,主题是一个在较高层次将数据归类的标准,每一个主题对应一 个客观领域,基于主题组织的数据都被划分为各自独立的领域,每个领域都有自己的逻 辑内容而互不交叉,面向应用经常会随着各种经营环境的变化而发生变化,而面向主题 则比较稳定。 2 ) 数据仓库是集成的 数据仓库是一致的数据集合,在数据仓库中,使用一致的命名规定、度量、物理属 性和语义来统一来自异构数据源的业务数据。在数据仓库中存储的数据需要以一种单一 的、可以由企业分析人员接受的格式存储。这种统一性允许数据来自不同的企业和不同 的部门,例如公司以前保存的数据、各种报表中的数据、i n t e m e t 上的数据等。 6 中北大学学位论文 3 ) 数据仓库是随时间变化的 事务系统的数据库通常只包含最近的数据,一般不超过一年,不同时刻的查询一般 会得到不同的查询结果。数据仓库中的数据则保存了一段比较长的时间的数据,一般是 5 到l o 年。数据仓库按照每日、每周或者每月的频率从操作型数据库中导入数据,随 着时间的变化,数据以更高的综合层次被不断综合,以适应分析的要求。 4 ) 数据仓库是稳定的 数据被导入至u 数据仓库中后,一般不允许进行修改、插入或者删除之类的操作。数 据仓库存储的数据包含当前的数据和历史的数据。在一定的时间间隔以后,当前的数据 需要按一定的规则转换综合成历史数据,年代久远的对分析处理不再有用的数据需要从 数据仓库中删除。因此,数据仓库在一定时间间隔内是稳定的。因为数据仓库在加载之 后不再修改,所以对数据仓库的设计可以通过索引、顸聚集和数据库的正规化来优化查 询性能。 2 1 3 数据仓库的数据模式 星型模式和雪花型模式是最常用的数据仓库结构模式。 1 ) 星型模式:数据库中包括一个“事实表”,对于每一维都有一个“维表”。事实 表中的每条元组都包含有指向各个维表的外键和一些相应的测量数据,维表中记录的是 有关这一维的属性。 星型模式使数据仓库的复杂查询可以直接通过各维的层次比较上钻及下钻等操作 完成。在数据仓库中除了维表和事实表的数据外,还包含些已预处理的综合数据。预 处理的综合数据可以通过创建一些“概括表”进行存储,以提高查询数据的速度。 2 ) 雪花模式 “雪花模式”是对星型模式的扩展。如果某个顶点有多个归类层次,就形成雪花型 模式。它对星型模式的维表迸一步层次化,原有的各维表可能被扩展为小的事实表,形 成些局部的“层次”区域。它的优点是:通过最大限度地减少数据存储量以及联合较 小的维表来改善查询性能。雪花模式增加了用户必须处理的表数量,增加了某些查询的 复杂性。但这种方式可以使系统进一步专业化和实用化,同时降低了系统的通用程度。 7 中北大学学位论文 2 1 4 数据仓库的关键技术 由于数据仓库与数据库构建的目的、数据的组织方式不同,因此,构建、管理和使 用数据仓库的技术也不同于数据库技术。数据仓库系统的技术主要包括:数据预处理技 术、0 l a p 技术和数据挖掘技术。 1 ) 数据预处理技术 由于数据仓库中要存贮的数据包含各种类型,要对其进行统一管理,必须经过预处 理,处理的过程包括以下步骤: ( 1 ) 数据提取:从原操作数据库中提取数据仓库所需的数据。 ( 2 ) 数据净化:这是一个过滤出无效记录或把缺少的记录修补到数据仓库中的过程。 ( 3 ) 数据的转化:把不统一的数据转化为统一的格式后装入数据仓库。 ( 4 ) 数据的合成:数据仓库中的数据必须进行一定的预先综合,并按不同的等级存贮, 这样可提高系统的查询效率。 ( 5 ) 数据的装载:将经过统一处理后的数据装入数据仓库中的过程。 2 ) 联机分析处理技术 联机分析处理技术( o n l i n ea n a l y t i c a lp r o c e s s i n g ) ,即o l a p 技术,是数据仓库系统 中最重要的技术,将在后面重点介绍。 3 ) 数据挖掘技术 数据仓库系统中的另一种分析工具是数据挖掘工具,数据挖掘一般包括以下四个步 骤,数据集成、挖掘、表述和评价,它的基本分析过程是: ( 1 ) 提取数据库和数据仓库及其它信息源中的各类数据: ( 2 ) 数据挖掘器( d a t am i n i n gp r o c e s s o r ) 利用各种方法及已有的各种知识分析数据仓 库中的数据; ( 3 ) 将挖掘的结果以用户能理解的方式表达出来; ( 4 ) 用户对各种结果进行评价,如不满意可返回原系统,重新执行挖掘过程,直到 得到满意结果。 8 中北大学学位论文 2 1 5 数据仓库基本概念 1 ) 多维分析 多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动作, 以求剖析数据,使屉终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地 了解包含在数据中的信息、内涵。 2 ) 数据立方体 数据立方体是定义于主题多维数据模型上的多维视图的集合体。数据立方体是对某 一主题下的所有视图进行组织的一种数据结构“1 。一般而言,一个主题对应一个数据立 方体。 数据立方体将数据仓库中的数据分为两部分:维( d i m e n s i o n ) 和度量( m e a s u r e ) 。维 规定数据的性质,度量表明数据的量。如果将维作为坐标,将度量作为坐标系中点的值, 当有两个维时,就形成了一个平面;当有三个维时就形成了立方体:维有三个以上时,形 成了超级立方体。 3 ) 视图 视图存放着聚集过的数据。它本身也可以看成是一个超级立方体:视图中的数据也 可分为维和度量值,当维作为坐标轴、度量作为空间中点的值时,就构成了超级立方体。 与数据立方体不同的是,坐标轴的取值是维在该层次中的值域。 在传统的关系型数据库管理系统中也有视图的概念,它是指根据其他源数据引出的 一种关系的定义,源数据可以是表也可以是已经定义好的视图。在关系型数据库中,虽 然从用户的角度看来视图与普通表没有差别,但视图中并不实际存放数据。 在数据仓库中,视图也可以看成是从基事实表中引出的关系的定义。为了提高查询 性能,可以事先计算出视图中的聚集数据并存储在视图中。我们将实际存放数据的视图 称为物化视图。由于数据仓库中的数据量通常十分庞大,对物化视图进行存取的时间将 远远小于对视图进行重新计算的时间。 数据立方体的实现有三种策略。: ( 1 ) 全部物化 数据立方体中的视图全部是物化视图。当数据立方体的视图都是物化视图时,其查 9 中北大学学位论文 询性能达到最佳。然而,当数据源发生变化时,为保持数据的一致性,要对数据立方体 进行更新操作。在全部物化的情况下,系统要重新计算出所有视图的数据并将其写入视 图。当数据立方体的视图的数量较多时,对全部物化策略的数据立方体进行维护将耗费 大量的时间和系统资源。 ( 2 ) 全部不物化 数据立方体中的视图全部是非物化视图即虚视图。当数据立方体的视图都是虚视图 时,由于虚视图中不存储数据,不需要进行维护。 但由于当用户对虚视图中数据提出请求时,必须根据虚视图的定义计算出视图的数 据返回给用户,因此查询等待时间较长。如果基事实表中的记录数很多,那么整个数据 立方体中的视图都是虚视图时,查询性能必然会相当差。鉴于数据仓库的数据量通常很 大,该策略是不现实的。 ( 3 ) 部分物化 为了达到查询性能和维护性能的平衡,我们通常采取部分物化的策略。部分物化是 指根据一定算法选择一部分视图进行物化,使得数据立方体的整体数据查询性能和数据 维护性能达到一种平衡。物化视图的选择有很多种算法。 2 2 联机分析处理( 0 l a p ) 技术 2 2 10 l i p 与0 l k p 早在上个世纪六十年代,人们为了收集,存储和处理大量的业务数据而开发了数据 库管理系统( d b m s ) 。在过去的几十年中,数据库系统得到了迅速的发展和广泛应用, 这些系统成为联机事务处理( o l t p ,o n l i n et r a n s a c t i o np r o c e s s i n g ) ,它是为在机构的业 务事务发生时进行记录而设计的数据处理系统,旨在处理同时输入的成百上千的事务。 o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,联机分析处理) 的概念最早由关系数据库之父 e e c o d d 于1 9 9 3 年提出的。当时,c o d d 认为联机事务处理( o l t p ) 已不能满足终 端用户对数据库查询分析的要求,s q l 对大数据库的简单查询也不能满足用户分析的 需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并 不能满足决策者提出的需求。因此,c o d d 提出了多维数据库和多维分析的概念,即 l o 中北大学学位论文 o l a p 。o l a p 最终的数据来源与o l a p 一样,均来自底层的数据库系统,但二者厦对 的用户群不同,数据内容的特点也不同。两者的区别概述如下表2 i : 表2 1o l a p 数据与o l t p 数据的区别 o l t p 数据o l a p 数据 原始数据导出数据 细节性数据综合性和提炼性数据 当前值数据历史数据 可更新不可更新,但周期性刷新 一次处理的数据量小次处理的数据量大 面向应用,事务驱动面向分析,分析驱动 面向操作人员,支持日常操作面向决策人员,支持管理需要 2 2 2o l a p 的特点和评价准则: o l a p 的特点可以用五个关键字来代表:f a s ta n a l y s i so fs h a r e dm u l t i d i m e n s i o n a l i n f o r m a t i o n ( f a s m i ,共享多维信息的快速分析) 。这也是设计人员或管理人员用来判断一 个o l a p 设计是否成功的准则。 f a s t :系统响应用户的时间要相当快捷,要达到这个目标,数据库的模式应该朝着 更广泛的技术发展,包括特殊的数据存储格式,预先计算和硬件配置等。 a n a l y s i s :系统应能处理与应用有关的任何逻辑分析和统计分析,用户无需编程就 可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可 以在o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,同时应提供灵活 开放的报表处理功能,以保存分析结果。 s h a r e d :这意味着系统要能够符合数据保密的安全要求,即使多个用户同时使用, 也能够根据用户所属的安全级别,让他们只能看到他们应该看到的信息。 m u l t i d i m e n s i o n a l :0 l a p 的显著特征就是它能提供数据的多维视图系统必须提供对 数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。 i n f o r m a t i o n :不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得 中北大学学位论文 信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁 盘空间、o l a p 产品的性能及与数据仓库的结合度等。 o l a p 的一个重要特点是多维数据分析,o l a p 技术中比较典型的应用是对多维数据的 切片和切块、钻取、旋转等操作,使用户从不同角度和不同层次提取和分析数据,还能 利用分析过程对数据进行深入分析和加工。 2 2 3o l p 的分类及比较 0 l a p 按存储方式和特点主要分为三种方式:m o l a p 、r o l a p 、h o l a p 。 1 ) m o l a p m o l a p ( m u l t i d i m e n s i o n a l0 l j 垤) 是将按照主题定义的o l a p 分析所用到的数据, 生成并存储为多维数据库的形式,形成“超立方体”的结构。生成的多维立方体己经计 算生成了一些汇总值,当用户发出分析请求时,从多维立方体中取得数据,而不是从数 据仓库中取数据。这种方式对用户的相应速度较快,但由于多维立方体通常是稀疏的, 存储的利用率很低,造成存储空间的浪费。因此多维立方体中,不可能存储大量的细节 数据,综合数据较多,分析的粒度比较粗。 2 、r o l a p r o l a p ( r e l a t i o n a lo l a p ) 以关系型结构存储和表示多维数据,而不生成多维立 方体。只是存储数据模型和数据仓库数据之间的映射关系,真正的数据物理存储在数 据仓库中。在进行多维分析时,o l a p 服务器根据定义的模型和映射关系,从数据仓库 中取得数据,进行实时分析。由于数据仓库中保存了大量的细节数据和描述性的数据, 因而数据集比较大,且响应用户的分析请求是要进行大量的关系表之间的连接操作,这 就增加了对用户的响应时间,但数据只存储一次,相对于m o l a p ,节省了空间,且分 析可以得到较细节的数据,即分析的粒度可以比较细。 3 ) h o l a p h o l a p ( h y b r i do l a p ) 是将m o l a p 和r o l a p 结合起来,综合两者优点,得 到折中方案,对一些用户经常用到的维度和度量值( 通常是一些聚集数据) ,保存维为 多维数据库,两与这些维度和度量值相关的详细数据,仍然以关系型数据的形式保存在 数据仓库中。这样既解决了o l a p 分析的速度问题和存储问题,也解决了对详细数据的 1 2 中北大学学位论文 分析问题。 2 2 4o l a p 的多维数据概念和典型操作 1 ) 0 l a p 的多维数据概念有维( d i m e n s i o n ) 、维的层次( l e v e l ) 、维的成员( m e m b e r ) 和度量( m e a s u r e ) 等。 维( d i m e m i o n ) 维是人们观察数据的特定角度,是视图的分组属性。例如,当人们从时间的角度来 观察个企业的产品销售数据时,数据可以分为1 9 9 9 年的销售额、2 0 0 0 年的销售额 和2 0 0 1 年的销售额等;当人们从地区的角度来观察一个企业的产品销售数据时数据就又 可以看成是北京市的销售额、上海市的销售额和广州市的销售额等。数据的维往往有多 个。这里时间、地区都各是一个维。假设该销售数据只有时间维和地区维,那么如果我 们在时间维上取一个值“2 0 0 0 年”,地区维上取一个值“北京”,就唯一确定了销售额 的一个值。又如铁路货运数据仓库中的发送方、接收方、时间等都是维。维是具有层次 性的,如发送方和接收方维有站一分局一局三个层次,时间维有日一月一季一年四个层 次。维中层次之间依箭头顺序一层比一层更加概括。在数据仓库中维及维层次是一个很 重要的概念它对应两个重要的查询操作:钻取( d r i l ld o w n ) 和卷取( r o l lu p ) 所谓钻取是指 对应于某一维逐步向更细节层方向观察数据,而卷取则反之。 函发谨站 d b 发送分局 d n 发送局 市 治区 蟊口 南月 如季 d 2 , 盔! 巾 ( a ) 发送方维 f b ) 时间维 图2 i 维格示例 维的层次 入们通过某个特定角度观察数据即“维”时,对数据进行描述的细节程度可能是不 1 3 中北大学学位论文 同的,这些细节程度不同的描述形成了维的层次。就时闯维来说可以从日期、月份、季 度、年等不同层次来描述;地区维也可以有城市、省、国家等不同层次。 例如,时间维的层次可以是:日,月,季,年。其中日是最细节层,月为次细节层。 这些层次可以组织成层次图,图2 1 ( b ) 给出了时间维的层次图,d 2 1 ,d 2 2 ,d 2 3 和d 2 4 分别表示年,季,月,日。在维层次图的最低层,加入了最高抽象层元素表示为o ,对 于时间维而言它表示对所有日期的数据进行聚集,即分组属性集中不包含日期维。 在o l a p 系统中,维层次是相当重要的,它对应于“向下钻取”和“卷起”两个 操作。向下钻取对应于沿某一维逐步地向更细节层的方向观察数据。例如按从所有日期 到年到季到月到日的方向钻取用户看到的数据就越来越详细。而卷取则正好相反。 同时维内层次也带来维内查询依赖问题。例如仅考虑按时间维进行聚集的查询如果 我们用图2 1 ( b ) 给的时间维层次进行聚集可以得到五种聚集视图分别为按日、月、季、 年和全部日期进行聚集的视图,这些视图对应于时间维上的不同粒度级的数据。用前面 所提的表示方法可以表示为:( d a y ) ,( m o n t h ) ,( q u a r t e r ) ,( y e a r ) 和巾。显然这些聚集 视图问存在如下查询依赖关系: 中一( y e a r ) ( q u a r t e r ) 一( m o n t h ) 一( d a y ) 我们这里采用的日期维属性间的层次关系为全序。实际上有些维的属性间层次关系 并不是全序,而是偏序。例如在货运量主题中,货物发送者维需要考虑按省市自治区进 行分析统计,而铁路局和分局的设爱是跨省区的,同属于某一分局的不同货运站可能属 于不同的省份。这样发送方维具有如图2 1 ( a ) 所示的层次关系。这些元素间的关系是偏 序。 维的成员( m e m b e r ) :维的一个取值,是数据项在某维中位置的描述。如“某 年某月某日”就时间维的一个维成员。 度量( m e a s u r e ) :多维数组的取值。如( 2 0 0 0 年1 月,上海,笔记本电脑, $ 1 0 0 0 0 0 ) 就是一个度量。 2 ) o l a p 的基本多维分析操作有钻取( d r i l l u p 和d r i l l d o w n ) 、切片( s l i c e ) 和切块( d i c e ) 、以及旋转( p i v o t ) 等。 钻取:是改变维的层次,变换分析的粒度。它包括向下钻取( d r i l l d o w n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论