(农业机械化工程专业论文)数据仓库前端工具的研究与开发.pdf_第1页
(农业机械化工程专业论文)数据仓库前端工具的研究与开发.pdf_第2页
(农业机械化工程专业论文)数据仓库前端工具的研究与开发.pdf_第3页
(农业机械化工程专业论文)数据仓库前端工具的研究与开发.pdf_第4页
(农业机械化工程专业论文)数据仓库前端工具的研究与开发.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 计算机网络与数据库技术的迅速发展和广泛应用,使得企业管理进入一个 崭新的时代。面对当今竞争激烈与瞬息万变的市场经济,各级管理人员迫切需 要面对不同层次的大量信息作出抉择,及时作出正确、有效的判断和决策。数 据仓库就是针对上述问题所产生的一种技术方案。而数据仓库前端工具是直接 面向用户的部分。数据仓库前端工具是否有效、全面和易于操作,直接影响到 用户所获得的信息是否正确和全面,影响数据仓库的使用和推广。 当前的数据仓库系统中主要有三类前端工具:联机分析查询( o l a p ) 的分 析查询型工具、决策支持系统( d s s ) 的分析预测型工具、数据挖掘( d m ) 的挖 掘型工具。具备了这三种工具的数据仓库系统,才能真正高效地利用数据仓库 中蕴藏的大量宝贵的信息。但目前还没有这样一种统一三种技术的前端工具系 统。 针对这种现实,1 本文提出了将现有的、相互独立的由决策支持系统、数据 挖掘系统和在线分析系统三种系统构成的数据仓库前端工具综合在一起的解决 方案,该方案首先澄清了这样一个认识:决策支持系统( d s s ) 和数据挖掘( d m ) 系统的使用者不仅仅是企业高层决策者,各个层次的决策者都有权使用决策支 持系统和数据挖掘系统为决策进行服务;其次本文设计了一个廉价的、基于 w i n d o w s + s q ls e r v e r 平台的开放式的前端工具系统,将o l a p 、d s s 、d m 技术 综合在同一个用户界面下使用。 ,一( 为了提高本系统的扩展性,在设计中一方面采用了m i c r o s o f t 公司的组件 对象模型( c o m ) 技术标准,将系统中的一些关键组件封装在不同的a c t i v e x d l l 中。另方面提供了可以出用户进行扩充的接口,以及相应的接口规范, 使用户或者第三方的开发者可以对系统进行独立的升级。 本文基于w i n d o w s + s q ls e r v e r 平台的解决方案使得各个层次上的决策制 订者都可以充分利用企业数据仓库带来的好处,同时也提高了数据仓库中数据, 的利用率,另外全中文的操作界面也便于广大国内的中小企业用户操作和掌握r 关键词:数据仓库;前端工具:o l a p r e s e a r c ha n d d e v e l o p m e n t o f f o r e g r o u n d t o o lo fd a t aw a r e h o u s e a b s t r a c t t h e r a p i dd e v e l o p m e n t a n dw i d eu s eo fc o m p u t e rn e t w o r ka n dd a t a b a s e t e c h n o l o g yh a v eb r o u g h te n t e r p r i s em a n a g e m e n ti n t oan e we p o c h i n v o l v i n gt h e f i e r c e l yc o m p e t i n ga n dd i v e r s i f i e dm a r k e te c o n o m y , m a n a g e r sa td i f f e r e ml e v e l s h a v et om a k et h e i rd e c i s i o n si nt i m ea n di n p l a c e d a t aw a r e h o u s ei s s u c ha t e c h n o l o g y t h a th e l p st h em a n a g e r sm a k et h e i rd e c i s i o n s a m o n gt h ed a t aw a r e h o u s e s y s t e m ,t h ef o r e g r o u n dt o o lf a c e su s e r sd i r e c t l y h e n c ei t sv a l i d i t y , c o m p r e h e n s i v e c a p a b i l i t y a n d o p e r a t i n gc a p a b i l i t y d o g r e a t i n f l u e n c eo n r e l i a b i l i t y a n d c o m p r e h e n s i v ec a p a b i l i t yo fi n f o r m a t i o n ,a n da l s oo nt h eu s ea n dp o p u l a r i z a t i o no f d a t aw a r e h o u s e g e n e r a l l y , t h e r ea r et h r e ek i n d so ff o r e g r o u n dt o o l s ,0 l a p ,d s sa n dd m n l e v a l u a b l ei n f o r m a t i o nt h a tj sc o n t a i n e di nt h ed a t aw a r e h o u s ec a nb eo b t a i n e db ya f o r e g r o u n d t o o lo n l yw h e ni ti n c l u d e sa l lo ft h e s et h r e ek i n d so ft o o l s b u tt h e r es t i u h a sn o tb e e ns u c hak i n do f t 0 0 1 a i m e da tc h a n g i n gt h i ss i t u a t i o n ,t h ep a p e rp r o v i d e sas o l u t i o nt h a ti n t e g r a t e s t h eo l a p , d s sa n dd m s y s t e mi n t oas i n g l es y s t e m ,w h i c a ba r ei n d e p e n d e n tb e f o r e f i r s t l y , i tc l a r i f i e ss u c hc o g n i t i o na sf o l l o w :t h eu s e r so f d s sa n dd ms h o u l dn o t o n l yi n c l u d em et o pd e c i s i o n - m a k e r sb u ta l s oi n c l u d et h eb a s ee x e c u t i v e s s e c o n d l y , i t g i v e sa l lo p e n i n gf o r e g r o u n dt o o lb a s e do nw i n d o w s + s q ls e r v e rp l a t f o r m , w h i c hc a nu s et h eo l a p , d s sa n dd mi nas i n g l ei n t e r f a c e f o rt h es a k eo fi m p r o v i n gt h es e a l a b i l i t yo ft h i ss y s t e m ,t w ow a y sh a v eb e e n t a k e n d u r i n gd e s i g n i n g ;o n ei st h a ta l lo f t h ek e y c o m p o n e n t sa r ee n c a p s u l a t e di n t o s e p a r a t ea c t i v e xd l lc o m p o n e n t s w h i c ha r ed e s i g n e dw i t l lt h ec o m s t a n d a r d m a d e b ym i c r o s o f tc o a n o t h e r o n ei st h a ta n o p e n i n g i n t e r f a c ea n d c o r r e s p o n d i n g i n t e r f a c es t a n d a r dh a v eb e e no f f e r e dt om a k et h ef u n c t i o ne x p a n s i o nb yu s e r so rt h e t h i r dp a r t se n a b l e d b e c a u s et h es y s t e mg i v e nh e r e b yi sb a s e do nr e l a t i v e l y c h e a p e rm i c r o s o f t p l a t f o r m ,m a n a g e r sa te v e r yl e v e lc a ne n j o yt h ea d v a n t a g e sb r o u g h tb yt h ed a t a w a r e h o u s e a tt h es a m et i m ei ti n c r e a s e st h eu t i l i t yo fd a t aw a r e h o u s e ,a n di ti sa l s o c o n v e n i e n tf o r t h ev a s tu s e r so f m e d i u ma n ds m a l le n t e r p r i s e si nc h i n a k e yw o r d s :d a t aw a r e h o u s e ;f o r e g r o u n dt o o l ;o l a p 第一部分文献综述 计算机网络与数据库技术的迅速发展和广泛应用,使得企业管理进入了一 个崭新的时代。广大基层管理人员摆脱了繁重的制表业务和数据处理工作,管 理工作得到进一步规范化,许多业务得到了联机事务处理信息系统的支持。然 而,面对当今竞争日趋激烈与瞬息万变的市场经济,各级管理人员迫切需要面 对不同层次的大量信息作出抉择,及时把握市场变化的脉搏,作出正确、有效 的判断和决策。数据仓库就是针对上述问题所产生的一种技术方案。而数据仓 库前端工具是直接面向用户的部分。数据仓库前端工具是否有效、全面和易于 操作,直接影响到用户所获褥的信息是否正确和全面,影响数据仓库的使用和 推广。 l 数据仓库 1 1 数据仓库的发展历史 如何有效地管理公司、企业在运营过程中产生的大量数据和信息一直是 i t 人员面临的重要问题。7 0 年代出现并被广泛应用的关系型数据库技术为解 决这一问题提供了强有力的工具。然而,从8 0 年代中期开始,随着市场竞争 的加剧,信息系统用户已经不满足于用计算机仅仅去管理日复一日的运营数 据,他们更需要的是从这些数据中得到有用的信息以便于进行决策支持,这 种需求使得在8 0 年代中后期出现了数据仓库思想的萌芽,为数据仓库概念的 最终提出和发展打下了基础。1 9 9 2 年,w i i r u u o n 在其里程碑式的建立数 据仓库中提出了“数据仓库”的概念,数据仓库的研究和应用得到了广泛的 关注。 n i n o n 提出:“一个数据仓库通常是一个面向主题的、集成的及随时间 变化的,但信息本身又相对稳定的数据集合,它用于对管理决策过程的支持。” 所谓主题,在这里是指用户使用数据仓库进行决策时所关心的重点方面,如银 行存款情况、贷款情况、客户群情况、利润情况等;面向主题是指数据仓库内 的信息是按主题进行组织的,为按主题进行决策的过程提供信息;集成是指数 据仓库中的信息不是从各个业务处理系统简单抽取出来的,而是经过系统加 工、汇总和整理的,保证数据仓库内的信息是关于整个企业的一致的全局信息; 随时间变化则是指数据仓库内的信息并不只是关于企业当时或某一时刻的信 息,而是系统记录了企业从过去某一时刻到目前的各个阶段的信息,通过这 些信息,可以对企业的发展历程和未来趋势作出定量分析和预测。所谓信息本 身相对稳定是指一旦某个数据进入数据仓库后,一般情况下将被长期保留,也 就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。 总之,数据仓库和数据库是不一样的概念。数据仓库是一个综合的解决方 案,而数据库只是一个现成的产品而已。数据仓库中需要一个功能十分强大的 数据库引擎来驱动它。 1 2 数据仓库的体系结构及分类 典型的数据仓库体系结构如图l “。 :仃点1 节点2 图1 数据仓库体系结构 数据从多个操作型数据库和外部文件中抽取,抽取出来的数据要进行清 理、转换和集成,然后装入数据仓库中。装入仓库的数据形式取决于数据仓库 里数据库的设计。一般的数据仓库设计方法是多维数据模型,具体表现为星形 模式或雪花模式。仓库的数据要定期更新以反映源数据的变化。最后使用前端 的报表、查询、分析和数据挖掘等工具来操作和使用数据仓库。 数据仓库按规模分为两种基本类型:企业级数据仓库和数据集市。 企业数据仓库包括企业范围内的信息,这些用于集中地进行数据分析的信 息来自多个业务系统源数据。典型地,这些信息包括几个主题领域,如客户、 产品和销售,并用于制定企业战略上和战术上的决策。企业数据仓库包括详细 的某一时问点的数据和经过概括总结的信息,数据大小从5 0 g b 到超过1 t b 。 数据集市包含企业范围数据的一个子集,这个子集是为组织机构的个别部 门或公司使用而刨建的。数据集市包含经过汇总的和有关某一主题领域的详细 数据。数据集市的信息可能是企业数据仓库的子集( 依赖性的数据集市) ,也 可能直接来自业务系统源数据( 独立的数据集市) 。 数据集市与数据仓库的关系如图2 所示。图2 左边表示的是企业数据仓库 的逻辑结构,其中的数据来自于各生产系统,把它们的操作数据按照企业数据 仓库物理模型结构的定义转换过来。采用这种中央数据仓库的做法,可以保证 数据的一致性。 中问表示的是从属数据集市的逻辑结构。所谓从属,是指它的数据直接来 自于中央数据仓库。显然,这种结构仍能保持数据的一致性。一般为那些访问 数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高 查询的反应速度。 生产系统生产系统生产系统 图2 数据集市与数据仓库的关系 右边描述了独立数据集市的逻辑结构,它的数据直接来源于各生产系统。 许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成的就是 这种结构的独立数据集市,用来解决个别部门比较迫切的决策问题。从这个意 义上讲,它和企业数据仓库除了在数据量大小和服务对象上有所区别外,逻辑 结构并无多大区别,这也是把数据集市称为部门数据仓库的主要原因。 2 数据仓库的前端工具 数据仓库系统主要有三类前端工具”:联机分析查询( o l a p ) 的分析查询 型工具、决策支持系统( d s s ) 的分析预测型工具、数据挖掘的挖掘型工具。 2 1 联机分析处理( o l a p ) 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,0 l a p ) 主要通过多维的 方式来对数据进行分析、查询和生成报表。o l a p 应用主要是对用户当前及历 史数据进行分析,辅助领导决策。 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的。“。当时,c o d d 认为联机事务处理( 0 l t p ) 已不能满足终端用户对 数据库查询分析的需要,s q l 对大数据库进行的简单查询也不能满足用户分析 的需求。用户的决策分析需要对关系数据库进行大量计算y j 一能得到结果,而查 询的结果并不能满足决策者提出的需求。因此c o d d 提出了多维数据库和多维 分析的概念,即o l a p 。 2 1 io l a p 的特点 ( 1 ) 快速性 用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内对用户的 大部分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会变 得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要 达到这个速度并不容易,因此就更需要一些技术上的支持,如专门的数据存储 格式、大量的事先运算、特别的硬件设计等。 ( 2 ) 可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需 要事先编程,但并不意味着系统己定义好了所有的应用。用户无需编程就可以 定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。 用户可以在o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上, 如时间序列分析工具、成本分配工具、意外报警、数据开采等。 ( 3 ) 多维性 多维性是o l a p 的关键属性。系统必须提供对数据分析的多维视图和分析, 包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最 有效的方法,是o l a p 的灵魂。 ( 4 ) 信息性 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信 息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可 利用的磁盘空问、o l a p 产品的性能及与数据仓库的结合度等。 2 1 2o l a p 产品对数据仓库中数据的操作 2 1 2 1 立方结构 数据仓库的立方结构其实是一种超立方结构( h y p e r c u b e ) ,指用三维或更 多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点 上,数据空间的各个部分都有相同的维属性。这种结构可应用在多维数据库和 面向关系数据库的o l a p 系统中,其主要特点是简化终端用户的操作。超立方 结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数 更少,并可加入额外的分析维。立方结构中又包含以下结构: ( 1 ) 度量需要考察的事实,可以理解为因变量例如每个学生的成绩、每 个系的科研论文数量等。 ( 2 ) 维维就是相同类数据的集合,也可以理解为变量。例如:每个学生、 每段时间、每门课程都可以是某一维的个成员。每个销售事实由一个特定的 商店、特定的时间和特定的商品组成。 ( 3 ) 层次结构层次结构是维自己固有的属性。一个维可以用不同的方法 表示精确度。例如代表时间的维是小时、天数、星期、年或季度,时间的这些 不同表示方法是相互关联的( 一年等于1 2 个月,一个月等于2 8 3 1 天等) 。 这些相互关联的表示方法定义为层次结构。 2 1 2 20 l j i p 的多维数据分析 ( 1 ) 切片和切块在三维数据结构中,如果保持立方体的两个坐标轴的值 一样而第三个轴不同,便可以看到度量在不同维上的变化。这种通过三维立方 体的一个轴线移动通常称之为“切片”。在多维( 高于三维) 数据结构中通过 立方体的一个轴线移动通常称之为“切块”。按二维进行切片,按三维进行切 块,可得到所需要的数据。 ( 2 ) 钻取钻取包含向下钻取和向上钻取操作,它是通过对维的层次属性 操作来获取数据,钻取的深度与维所划分的层次相对应。 ( 3 ) 旋转通过旋转可以得到不同视角的数据。 总的来说,计算机界使用了o l a p 技术操作数据仓库中的数据,为了更快 地从数据仓库中获取数据,o l a p 技术使用多维结构来组织数据仓库中的数据。 2 1 30 l a p 与o l t p 的关系 o l t p ( 联机事务处理) 系统也称为生产系统,它是由事件驱动、面向应用 的。o l t p 一般对响应时间要求非常高;用户数量非常庞大,且主要是操作人 员;数据库的各种操作基于索引进行;对数据库的事务均己预先定义,查询简 单;每次返回的数据量很小。 o l a p 是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。 o l a p 是跨部门、面向主题的,其基本特点是:基础数据来源于o l t p 系统中的 操作数据:响应时间合理;用户数量相对较小,主要是业务决策与管理人员: 数据库的事务以查询为主,除了预定义查询外,还有动态查询,且查询大都非 常复杂。数据仓库中的查询由于其复杂性,会经常使用多表的连接、累计、分 类、排序等操作,这些大都要对整个表进行搜索。每次查询返回的数据量一般 很大。 数据库系统中的o l t p 系统与数据仓库系统中o l a p 系统之间的相互关系如 图3 所示。图3 左边是一个数据库系统,用户通过o l t p 系统对数据库系统进 行访问:图3 的右边是一个数据仓库系统,用户通过o l a p 系统对数据仓库系 统进行访问。 图3o l t p 与o l a p 的相互关系 2 1 4o l a p 数据的处理方式 o l a p 有三种数据处理方法。 ( 1 ) 关系数据库 6 使活动的o l a f 数据存储在关系数据库中,采用关系数据库完成复杂的多 维计算。这并不是较好的选择。因为s q l 的单语句并不具备完成多维计算的能 力,要获得哪怕是最普通的多维计算功能也需要多重s q l 。在许多情况下,一 些o l a p 工具用s q l 做一些计算,然后将计算结果作为多维引擎输入。多维引 擎在客户机或中层服务器上做大部分的计算工作,这样就可以利用r a m 来存储 数据,提高响应速度。 ( 2 ) 多维服务引擎 大部分o l a p 应用在多维服务引擎上完成多维计算,并且具有良好的性能。 因为这种方式可以同时优化引擎和数据库,而服务器上充分的内存为有效地计 算大量数组提供了保证。 ( 3 ) 客户机 在客户机上进行计算,要求用户具备性能良好的p c 机,以此完成部分或 大部分的多维计算。对于日益增多的瘦型客户机,o l a p 产品将把基于客户机 的处理移到新的w e b 应用服务器上。 o l a p 产品取得关系数据后。将它放入一个非常简单的表格中,使之很容 易分析。数据仓库和一个o l a p 产品可被看做一个多维表格。 2 1 6 数据仓库和o l a p 决策支持技术的关系 数据仓库的逻辑结构可分为近期基本数据层、历史数据层和综合数据层 ( 其中综合数据是为决策服务的) 。数据仓库的物理结构一般采用星型结构的 关系数据库。星型结构由事实表和维表组成,多个维表之间形成多维数据结构。 星型结构的数据体现了空间的多维立方体。这种高度集中的数据为各种不同决 策需求提供了有用的分析基础。 而o l a p 则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。 o l a f 的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形 成相互结合、相互补充的关系。o l a p 技术中比较典型的应用是对多维数据的 切片和切块、钻取、旋转等,它便于用户从不同角度提取有关数据。o l a p 技 术还能够利用分析过程对数据进行深入分析和加工。例如,关键指标数据常常 用代数方程进行处理,更复杂的分析则需要建立模型进行计算。 2 2 决策支持系统( d s s ) 决策支持系统( d s s ) 和数据仓库的目标用户相同,都是面向企业的中高 层领导,它们执行的都是决策和趋势分析类的应用。d s s 中的一些技术可以很 好地集成到数据仓库中,并使数据仓库的分析能力更加强大。例如:d s s 中的 传统统计分析模型可以帮助用户对数据仓库中的数据进行更加有效、更加深入 的分析,从而更好地掌握和利用信息。而一些智能决策技术,如人工神经网络 在发现顾客行为模式、预测金融市场行为等方面显示了强大的功能。这些d s s 的核心技术在数据仓库中的应用不但会大大提高数据仓库的决策支持能力,同 时也使d s s 的应用范围更加广泛。 自7 0 年代提出决策支持系统( d s s ) 以来,d s s 已经得到了很大发展。它 是在管理信息系统( m 1 8 ) 基础上发展起来的。m i s 是利用数据库技术实现各 级管理者的管理业务,在计算机上进行各种事务处理工作。d s s 则是要为各级 管理者提供辅助决策的能力。 1 9 8 0 年s p r a g u e 提出了决策支持系统三部件结构,即对话部件、数据部 件( 数据库d b 和数据库管理系统d b m s ) 、模型部件( 模型库m b 和模型库管理 系统m b m s ) 。该结构明确了d s s 的组成,也间接地反映了d s s 的关键技术,即 模型库管理系统、部件接口、系统综合集成。它为d s s 的发展起到了很大的推 动作用。 1 9 8 1 年b o n c z a k 等提出了d s s 三系统结构,即语言系统( l s ) 、问题处理 系统( p p s ) 、知识系统( k s ) 。该结构在“问题处理系统”和“知识系统”上 具有特色,并在一定范围内有其影响,但它与人工智能的专家系统( e s ) 容易 混淆。 决策支持系统主要是以模型库系统为主体,通过定量分析进行辅助决策。 其模型库中的模型已经由数学模型扩大到数据处理模型、图形模型等多种形 式,可以概括为广义模型。决策支持系统的本质是将多个广义模型有机组合起 来,对数据库中的数据进行处理而形成决策问题大模型。决策支持系统的辅助 决策能力从运筹学、管理科学的单模型辅助决策发展到多模型综合决策,使辅 助决策能力上了一个新台阶。 8 0 年代末9 0 年代初,决策支持系统与专家系统结合起来,形成了智能决 策支持系统( i d s 8 ) 。专家系统是定性分析辅助决策,它和以定量分析辅助决 策的决策支持系统结合,进一步提高了辅助决策能力。智能决策支持系统是决 策支持系统发展的一个新阶段”。 2 2 1o l a p 比o l t p 更适合d s s 传统的d s s 系统是同数据库的o l t p ( 在线事务处理) 服务相结合的,曾 8 经在一定程度上发挥了作用,但是随着数据量的增加,0 l t p 技术对d s 5 的支 持显得力不从心,主要表现在以下五个方面: ( 1 ) 事务处理和分析处理的性能特性不同。 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作 处理的时问短;在分析处理环境中,用户的行为模式与此完全不同,某个d s s 应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不同 处理性能的两种应用放在同一个环境中运行显然是不适当的。 ( 2 ) 数据集成问题。 d s s 需要集成的数据。全面而正确的数据是有效的分析和决策的首要前 提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内部数 据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要由于事务 处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据 引起。 ( 3 ) 数据动态集成问题。 静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化, 这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必 须以一定的周期( 例如2 4 小时) 进行刷新,我们称其为动态集成。显然,事 务处理系统不具备动态集成的能力。 ( 4 ) 历史数据问题。 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,且不 同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁, 未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方 法必须以大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业 的发展趋势的。d s s 对数据在空间和时间的广度上都有了更高的要求,而事 务处理环境难以满足这些要求。 ( 5 ) 数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些 细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而 事务处理系统不具备这种综合能力。 所以,要提高分析和决策的效率和有效性,分析型处理及其数据必须与操 作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按 9 照d s s 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是 为了构建这种新的分析处理环境而出现的一种数据存储和组织技术,而o l a p 是一种访问数据仓库中数掘的方便、快捷的技术。 2 3 数据挖掘技术 数据挖掘在理论上也称作知识发现( k d d ) ,1 9 8 9 年8 月在美国底特律召 开的第1 1 届国际人工智能联合会议的专题讨论会上首次出现k d d 这个术语。 随后在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举行k d d 专题讨论会,汇集来自各个领 域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表 示、知识运用等问题。 从1 9 8 9 年到现在,k d d 的定义随着人们研究的不断深入也在不断完善, 目前比较公认的定义是f a y y a d 等给出的:k d d 是从数据集中识别出有效的、 新颖的、潜在有用的以及最终可理解模式的高级处理过程。 从定义中可以看出,k d d 是一个高级的处理过程,它从数据集中识别出以 模式来表示的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之间 相互影响、反复调整,形成一种螺旋式上升过程,l ( d d 包括以下步骤: ( 1 ) 数据准备 ( 2 ) 数据挖掘 ( 3 ) 评估、解释模式模型 ( 4 ) 巩固知识 ( 5 ) 运用知识 数据挖掘是当前业界的热门技术,已经在多个应用领域产生了巨大的效 益。数据挖掘不一定需要建立在数据仓库的基础上,但是如果将数据挖掘和数 据仓库协同工作,则可以简化数据挖掘过程的某些步骤,从而大大提高数据挖 掘的工作效率。并且因为数据仓库的数据来源于整个企业,保证了数据挖掘中 数据来源的广泛性和完整性。数据挖掘技术是数据仓库应用中比较重要也是相 对独立的部分。目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统 计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度 较大。此外,数据挖掘技术还同可视化技术、地理信息系统、统计分析系统相 结合,丰富了数据挖掘技术及工具的功能。 目前,国外有许多研究机构、公司和学术组织从事数据挖掘工具的研制和 丌发。这些工具主要采用基于人工智能的技术,包括决策树、规则归纳、神经 1 0 元网络、可视化、模糊建模、簇聚等,另外也采用了传统的统计方法。这些数 据挖掘工具差别很大,不仅体现在关键技术上,还体现在运行平台、数据存取、 价格等方面。 数据挖掘工具可根据应用领域分为三类”: ( 1 ) 通用单任务类:仅支持k d d 的数据挖掘步骤,并且需要大量的预处理 和善后处理工作。主要采用决策树、神经网络、基于例子和规则的方法,发现 任务大多属于分类范畴。 ( 2 ) 通用多任务类:可执行多个领域的知识发现任务,集成了分类、可视 化、聚集、概括等多种策略。 ( 3 ) 专用领域类:现有的许多数据挖掘系统是专为特定目的开发的,用于 专用领域的知识发现,对挖掘的数据库有语义要求,发现的知识也较单一。 2 3 1 数据挖掘与o l p 的关系 作为决策支持的两种技术。两者的主要差异和互补的特性如下: 2 3 1 1 数据挖掘与o l a p 的差异性 o l a p 是由使用者所主导。使用者先有一些假设,然后利用o l a p 的工具 来查证这些假设:而数据挖掘是用来帮使用者产生假设。在使用o l a p 或其他 查询工具时,使用者是自己在做探索,但是如果使用数据挖掘工具,则是数据 挖掘工具在帮助你做探索。 举例来说,财务分析师可能会认为一个负债多而收入少的人信用风险高, 这是他的假设,他可以使用o l a p 工具来查询各种数据,从各方面来确认或是 推翻这个假设。而数据挖掘则是可以用来帮你找到各种信用风险高的因素,例 如它可能会帮分析师发现负债多而收入少的人信用风险较高,它也可能帮分析 师找到一些他从来不晓得的事实,例如收入负债比以及年龄与信用风险也有关 系。 2 3 1 2 数据挖掘与o l a p 的互补性 o l a p 与数据挖掘是可以互补的,数据挖掘先帮我们从数据中找到一些特 征,然后利用o l a p 去确认这些特征的价值,最后再根据这些信息作决策。o l a p 还可以在知识发现的初期帮助用户了解自己的数据,它让用户更注意到一些变 因,找出一些例外情形以及一些互相影响的因素。这种过程非常重要,因为你 越了解数据,就越能从数据中找出信息,也就是知识发现就越有效率。 3 目前数据仓库前端工具的状况 由于数据仓库技术是从传统数据库技术发展而来的,因此传统的数据库厂 商借助其现有的数据库产品在数据仓库前端工具市场仍然占据主导地位。 i b m 公司的商业智能解决方案融汇了众多合作伙伴和第三方开发商的产 品,是产品线最全的企业。 o l a f 工具:有a r b o rs o f t w a r e 的e s s b a s e 、i b m 的d b 2 0 l a p 服务器( 与 a r b o r 联合开发) 。 查询工具:有c o g n o s 的i m p r o m p t u 、b u s i n e s so b j e c t s 的b u s i n e s s o b j e c t s 、l o t u s 的a p p r o a c h 和i b m 的q u e r ym a n a g e m e n tf a c i l i t y 。 数据挖掘工具及统计分析工具有:s a s 公司的s a s 系统,i b m 的智能挖掘 机( i n t e l l i g e n tm i n e r ) 。 针对特定行业用户提供的d s s 方案:包括专门为金融行业设计的d e c i s i o n e d g ef o rf i n a n c e 、端到端的保险业解决方案d e c i s i o ne d g ef o ri n s u r a n c e 、 为满足银行业保留客户需求而设计的应用程序套件i b md i s c o v e r ys e r i e sf o r b a n k i n g 、用于分析w e b 站点利用率的数据采集应用程序s u r f - a i d 等。 o r a c l e 公司的工具主要由e x p r e s s 系列组成。 o l a p 工具:o r a c l ee x p r e s ss e r v e r 提供全面的o l a p 能力,数据可以存 放在e x p r e s ss e r v e r 内,也可直接在r d b 上使用有内建的分析函数和4 g l 来 定制查询。 数据挖掘工具有:o r a c l e r e p o r t s ,o r a c l e d i s c o v e r e r ,o r a c l ee x p r e s s a n a l y z e r 。 d s s 方案:o r a c l e 的决策支持产品包括数据仓库和o l a f 商业智能工具。 s y b a s e 的o l a p 工具:p o w e r d i m e n s i o n s 是快速、可扩展的联机分析工具。 这是业界中最新的o l a f 解决方案,对建立于a s i q 和a s w 数据库的数据可以 提供快速灵活的多维模型建立和分析( 区别于多维数据库) 。 d s s 方案:用于保险、医疗、电信和零售金融业的:p r o p e r t y c a s u a l t y i n s u r a n c e w a r e h o u s e s t u d i 0 2 o 、t e l c o w a r e h o u s e s t u d i 0 2 0 t t e a l t h c a r e w a r e h o u s e s t u d i 0 2 0 、和r e t a i l b a n k i n g w a r e h o u s e s t u d i o2 0 。 微软公司的数据中心数据仓库选中p l a t i n u m 技术公司的软件i n f o b e a c o n 和i n f op u m p 作为其数据分析和数据转移解决方案的工具。p l a t i n u m 的i n f ob e a c o n 是关系型o l a p 工具,用于直接访问并优化微软的s q ls e r v e r , 2 另外,它在s q ls e r v e r2 0 0 0 中也提供了数据挖掘的功能。 此外,还有一些比较著名的产品,如由s g i 公司和美国s t a n d f o r d 大学 联合丌发的多任务数据挖掘系统m i n e s e t 等。 4 现有的主流技术平台 近年来各大数据库厂商在数据仓库领域投入了巨大的人力、物力,使支持 数据仓库的构建成为数据库系统的一个基本功能。他们的方法各有不同:i b m 是在一个通用的数据库系统中实现o l t p 和o l a p 。相比之下,o r a c l e 采取了类 似的方法:i n f o r m i x 也是类似,在其动态服务器i d s 中提供一系列相关选件, 如高级决策支持选件a d v a n c e dd e c i s i o ns u p p o r to p t i o n 、o l a p 选件m e t a c u b e r o l a po p t i o n 等,并认为这种体系结构严谨,管理方便,索引机制完善,并 行处理的效率更高,其中数据仓库和数据库查询的s q l 语句的一致使用户开发 更加简便。 s y b a s e 则采用与上述公司不同的技术,提供了专门的o l a p 服务器s y b a s e i q ,并将其与数据仓库相关工具打包成w a r e h o u s es t u d i o 。 而微软的解决方案则是在其s q ls e r v e r7 0 中集成了代号为p l a t o ( 柏 拉图) 的o l a p 服务器,并且在s q ls e r v e r2 0 0 0 中全面提升了此系统。该解 决方案可以使得更加广泛的观众都可以获得多维分析,并且是在成本明显更低 的水平上获得的。 第二部分引言 从1 9 9 2 年数据仓库之父i n m o n 正式提出数据仓库的概念到现在已经有了 近十年的时间。传统的各大数据库公司都推出了其新的数据仓库产品和技术, 然而这些产品和技术在国内的使用并不普及,一方面在于其高昂的售价,另一 方面在于数据仓库前端工具集相互分离,功能比较杂乱,同时很多产品采用英 文界面也使国内用户使用起来不太方便。 由于建立数据仓库的主要目的是提供决策支持,因此在整个数据仓库系统 中,数据仓库虽然居于核心地位,但它只是进一步信息开采的基础。这样一来, 位于数据仓库前端、帮助决策者方便地获取数据并且提供决策支持信息的数据 仓库的前端工具是否强大将对整个系统的能力起着非常重要的作用。 为了满足决策支持的要求数据仓库的前端工具主要采用了三种技术:一种 是在线分析处理( o l a p ) 技术;第二种是传统决策支持系统( d s s ) 技术;第 三种是数据挖掘( 啪) 技术。目前在数据仓库中采用这三种技术的工具是分离 的,面向不同种类的最终用户,由数据仓库工具集中不同的工具( 这些工具可 能来自不同的厂家) 来完成相应的功能。这种分离虽然提高了数据仓库的效率 但增加了数据仓库的使用难度,结果工具者的使用者常常是技术人员而非决策 者自身。大家普遍认为这些工具是给专家用的,不能大众化,不能大家用。 造成这种情况的主要原因是数据仓库前端工具( 包括多维分析工具、决策 支持系统工具和数据挖掘工具) 的分离导致操作人员需要有更多的知识积累, 使决策者把时间浪费在查询数据等细节问题上,而不是集中精力进行企业内部 事务的决策上。 从技术角度讲数据仓库前端工具的三个主体( 0 l a p ,d s s ,嗍) 都可以找 到一些相同的技术来源,因而它们存在着天然的联系,既可以相互补充又可以 相互结合。因此,本文提出将数据仓库前端工具的三个主体整合在同一个操作 界面下,以单一产品提供给用户,使数据仓库前端工具操作简单,分析决策更 方便。 第三部分数据仓库前端工具的研究与开发 l 现有前端分析工具的比较 出于企业信息化的推广,公司一般都拥有或正在积累大量信息,但由于缺 乏知识管理技术,要想在浩繁的信息中找到自己需要的准确信息,是相当困难 的,影响了决策者有效、及时使用各种准确信息以辅助决策。因此,数据仓库 以及数据库的前端工具成为目前计算机界研究的一个热点。s y b a s e 、o r a c l e 、 i b m 等大型数据库厂商在各自的数据库产品的基础上开发了各种数据仓库前 端工具,却普遍存在工具集各自分离,分别出售,使用户在承受高昂的售价时 仅获得其中的一部分功能,不利于用户全面分析数据。 m i c r o s o f t 进入数据仓库的时间相对较晚,因此它更有时间仔细考虑它 的产品定位及开发。m i c r o s o f t 公司提供的访问数据仓库的工具是封装在 m i c r o s o f to f f i c e2 0 0 0 工具集中的e x c e l9 ,随着o f f i c e 工具集的日益普 及,e x c e l 几乎成为每一个公司的必备软件工具,m i c r o s o f t 公司把它作为数 据仓库的前端访问工具,不能不说具有商业眼光。e x c e l 除了完成电子表格功 能外,还可以作为o l a f 分析工具,它可以创建、查询立方体,进行立方体的 切片,切块,钻取等操作,是一款价格适中。功能较全面的前端工具。 但是e x c e l 作为数据分析工具的功能非常弱。它对数据分析只提供简单的 方差分析及检验、简单的一元回归等不多的几项功能。当决策者需要使用多元 线性回归,逐步回归等方法时不得不使用另外的软件工具。另外e x c e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论