(计算机应用技术专业论文)面向校园网的高校数据集成方案的研究与应用.pdf_第1页
(计算机应用技术专业论文)面向校园网的高校数据集成方案的研究与应用.pdf_第2页
(计算机应用技术专业论文)面向校园网的高校数据集成方案的研究与应用.pdf_第3页
(计算机应用技术专业论文)面向校园网的高校数据集成方案的研究与应用.pdf_第4页
(计算机应用技术专业论文)面向校园网的高校数据集成方案的研究与应用.pdf_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

t h er e s e a r c ha n da p p l i c a t i o no fc o l l e g ed a t ai n t e g r a t i o nf o rc a m p u sn e t w o r k sb yl ij i a n h u au n d e rt h es u p e r v i s i o no fp r o f q us h o u n i n gat h e s i ss u b m i t t e dt ot h eu n i v e r s i t yo fj i n a ni np a r t i a lf u l f i l l m e n to fr e q u i r e m e n tf o rt h ed e g r e eo fm a s t e ro fe n g i n e e r i n gu n i v e r s i t yo fj i n a nj i n a n ,s h a n d o n g ,er c h i n am a y , 2 0 1 1原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。论文作者签名:奎建盏日期:2 旦! ! :6 :7关于学位论文使用授权的声明本人完全了解济南大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借鉴;本人授权济南大学町以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。口公开口保密(年,解密后应遵守此规定)论文作者签名:奎建也导师签名:日期:济南大学硕卜学位论文目录摘要va b s t r a c t v i i第一章绪论11 1 研究背景11 2 研究现状21 3 论文的主要工作、创新点及研究意义41 3 1 论文的主要工作41 3 2 论文的研究点及创新点41 3 3 论文的研究意义51 4 论文组织结构6第二章数据集成相关技术介绍92 1 数据复制技术92 2 数据转换技术92 3e t l 技术92 3 1 数据抽取1 02 3 2 数据清洗转换l l2 3 3 数据装载1 l2 3 4e t l 工具1 12 3 5o d i l l2 4 数据存储技术1 52 4 1 数据仓库技术1 52 4 2o d s 技术1 52 5 本章小结1 6第三章面向校园网的集成方案的整体设计1 93 1 高校信息化现状概述1 93 1 1 基础设施建设现状分析1 93 1 2 应用系统现状分析2 0面向校园网的数据集成方案的研究0 声用3 2 数据集成总体方案的设计2 23 2 1 数据集成目标2 23 2 2 数据集成规则2 33 2 3 数据集成方案的架构设计2 43 2 4 数据集成方案的总体框架设计2 73 2 5 数据集成方案的数据流程设计2 93 3 本章小结2 9第四章基于o d s 的数据存储层设计3 l4 1 元数据3 14 1 1 数据标准的制定3 24 1 2 元数据标准的制定3 74 2 集成中心数据库4 34 2 1 集成中心数据库存储的数据4 34 2 2 集成中心数据库建设规范4 44 2 3 数据模型设计4 54 2 4 数据载入4 54 3 本章小结4 6第五章基于o d i 的数据集成平台的设计4 75 1 数据集成平台的设计4 75 1 1 数据抽取4 95 1 2 数据清洗5 25 1 3 映射转换和加载5 35 2 数据集成周期设置5 45 3 数据同步及共享5 45 3 1 全量同步5 55 3 2 增量同步5 55 4 本章小结5 7第六章基于数据集成方案的实现5 96 1 集成开发5 9i i济南大学硕卜学位论文6 1 1 总体设计阶段6 06 1 2 集成需求准备6 06 1 3 开发实施阶段6 06 2 性能测试6 66 2 1 测试范围6 66 2 2 测试用例6 66 2 3 测试结论6 86 3 性能优化6 86 3 1 数据集成接口开发阶段的优化6 86 3 2 数据集成运行期间的优化6 96 4 本章小结7 0第七章总结与展望7 17 1 总结7 17 2 展望7 1参考文献7 3致谢7 7附录7 9一、在校期间发表的学术论文7 9二、在校期间参加的项目7 9i i i面向校园网的数据集成方案的研究与戌用济南大学硕上学位论文摘要随着高校信息化进程的不断推进,各种应用系统在高校业务部门涌现。由于数据出处不同和大量数据的重复,导致了大量数据冗余和数据不准确等问题。随着对数据质量和信息共享需求的日益提高,迫切需要一套高效、准确、可行性高的数据集成方案来实现高校信息的集成和共享。本文通过对某大学实际情况进行的调查统计,并结合其它高校在信息化过程中的实际需求和具体特点,找出了目前存在的主要问题。针对这些主要问题,本文提出了一套面向校园网的数据集成方案:( 1 ) 通过提出一种总线型架构,从根本上解决了传统数据集成过程中紧密耦合的问题;( 2 ) 通过提出和制定了学校通用标准,解决了学校内数据不一致的问题,保证了数据的准确性。( 3 )通过引进o d s 作为数据集成中心库,既满足了数据库的基本需求,又可以对决策分析等提供数据依据。( 4 )通过o d i 技术对数据集成平台进行的设计,完成了数据集成过程中最为重要的e x t r a c t t r a n s f o r m l o a d ( e t l ) 环节。本文将e t l 模式改成了e l t 过程,提高了数据转换抽取效率和稳定性,并且在此平台上通过发布订阅模式完成了数据的集成和共享。对本文提出的数据集成模型方案进行了模拟和性能测试,证明了该方案能够从根本上解决数据不一致、冗余等问题,并且可以做到性能稳定、高效。关键词:数据集成;数据标准;o d s ;e t l ;o d i ;v面向校园网的数据集成方案的研究0 府用v l济南大学硕卜学位沦文a b s t r a c ta l lk i n d so fa p p l i c a t i o ns y s t e m sa r i s ei nc o l l e g e s 、析t ht h er o a r i n gd e v e l o p m e n to fn e t w o r kt e c h n o l o g i e sa n dt h eu n i v e r s i t yi n f o r m a t i z a t i o n h o w e v e r , t h en e g a t i v ee f f e c ti st h a ti tc a u s e sm a n yp r o b l e m ss u c ha sd a t ar e d u n d a n c yo rd a t ai n a c c u r a c y t oh a v eaf u r t h e rd e v e l o p m e n tf o rc o l l e g e s ,i ts h a l ln e e da ne f f e c t i v ea c c u r a t ea n dh i g hf e a s i b l ec o l l e g ed a t ai n t e g r a t i o ni m m e d i a t e l yt or e a l i z et h ei n t e g r a t i o na n ds h a r eo fu n i v e r s i t yi n f o r m a t i o n i no r d e rt of i n dt h ep r o b l e m so fc o l l e g ed a t ai n t e g r a t i o n ,t h i sp a p e rh a sad e e pa n db r o a di n v e s t i g a t i o nf o ro n eu n i v e r s i t yc o m b i n i n g 、析t ht h ea c t u a li n f o r m a t i z a t i o nr e q u i r e m e n t sa n df e a t u r e so fm a n yc o l l e g e s t os o l v et h e s ep r o b l e m s ,t h i sp a p e rr e s e a r c h e st h em a i nt e c h n o l o g i e so fd a t ai n t e g r a t i o n sa n do f f e r sad a t ai n t e g r a t i o ns c h e m e t h em a i nf e a t u r e so ft h i ss c h e m ea r e 嬲f o l l o w i n g :( 1 ) o f f e r i n gb u sa r c h i t e c t u r e t o d e a lw i t ht h e c l o s e dl i n k a g ep r o b l e mf u n d a m e n t a l l yi nt h ep r o c e s so fd a t ai n t e g r a t i o n ( 2 ) o f f e r i n ga n dr u l i n gt h eg e n e r a ld a t as t a n d a r do fj i n a nu n i v e r s i t yt od e a lw i t ht h ei n c o n s i s t e n tp r o b l e mo fd a t ai na nu n i v e r s i t ya n dt og u a r a n t e et h ea c c u r a c yo fd a t a ( 3 ) i n t r o d u c i n go d sf i t st h ec e n t e ro fd a t ai n t e g r a t i o n ,n o to n l yt os a t i s f yt h eb a s i cd a t a b a s er e q u i r e m e n t s ,b u ta l s ot oo f f e rd a t ao fd e c i s i o na n a l y s i s ( 4 ) d e s i g n i n gt h ed a t ai n t e g r a t i o np l a t f o r mb yt h eo d st e c h n o l o g yt oc o m p l e t et h ed a t ai n t e g r a t i o na n ds h a r i n ga n dt os o l v eas e r i e so fp r o b l e m ss u c ha st h el o n gd e v e l o p m e n tt i m ea n di n s t a b i l i t yf o rd a t ai n t e g r a t i o np l a t f o r m f i n a l l y , t oa r g u et h a tt h ea c t i o no f f e r e db yt h i sp a p e rc a ns o l v et h es e r i e sp r o b l e m ss u c ha sd a t ai n c o n s i s t e n c yd a t ar e d u n d a n c y t h i sp a p e rs i m u l a t e st h ed a t ai n t e g r a t i o na n dh a st h ep e r f o r m a n c et e s t k e y w o r d s :d a t ai n t e g r a t i o n ;s t a n d a r do fd a t a ;o d s ;e t l ;o d i ;v l i面向校园网的数据集成方案的研究与应用v i i i济南大学硕七学位沦文1 1 研究背景第一章绪论随着高校网络的快速发展和信息化进程的不断推进,高校各个职能部门正在采用各种应用系统来满足各自工作的需要。在这个过程中,由于各个系统相对独立,随着时间的推移和技术的不断更新和进步,就形成了一个个不同体系的应用系统。然而这螳信息孤岛并不是毫无关系的,系统之间又需要相互的数据交换和联系。如何有效的利用和实现各个应用系统的信息共享,成了高校数据集成要解决的核心问题。目前数据集成在高校行业尚处在建设初期,大部分情况只是自发地按照自身需求做一些简单地集成工作,或仅在单个组织系统内考虑集成问题,或仅从技术实现角度上考虑集成问题。久而久之,就形成了一个错综复杂的信息网,但是由于各个信息孤岛的异构性使得数据交互和共享的效率较低,数据准确性差,数据共享极度困难。这些问题- t 要体现在以下几个方面:( 1 ) 缺乏数据标准,业务系统之间数据难以共享由于没有统一的数据标准,现有业务系统无法进行数据交换。这使得部门之间有数据交互需求时不得不以来传统的介质进行拷贝或者邮件等方式进行传递。这种信息共享方式无法满足各业务部门及时高效获取其他部门信息的需求,同时也无法进行跨业务部门的业务流程系统建设。( 2 ) 系统异构问题严重,不利于信息互换共享学校各部门的应用系统由于开发时期不同,他们的数据库系统、运行环境、运行平台也各不相同,没有统一的规范。然而随着校园网上应用系统和资源越来越多,各种各样的异构不仅不利于信息共享,技术升级也很困难,随着业务系统的不断增多,造成了维护成本不断增加和大量的资源浪费。更有一些业务部门的业务系统技术已经比较落后甚至被淘汰,根本无法进行升级。为改善各种异构,规范学校应用系统更新迫在眉睫。面向校园网的数据集成方案的研究与应用( 3 ) 数据冗余,造成资源浪费和工作效率低下行政办公人员在多套系统中需要对相同的数据进行重复管理,造成了极大地人力资源成本的浪费。同时,由于数据多源头管理,权责不清,造成数据的混乱和错误,当需要进行数据统计时,则需要进行大量的数据校对和整理工作,严重影响了业务人员的工作效率,对上层应用造成了障碍。( 4 ) 缺少统一的技术标准和整体建设规划在信息化建设过程中,业务系统由各个部门主导完成,仅是用于解决当前问题,只能满足局部需求。这些应用系统由各部门独立建设和维护,没有形成统一管理和技术及功能的长期规划,有的甚至造成系统的重复建设,不利于高校信息化的长期发展,造成了严蘑的资源浪费。( 5 )已有数据质量差,给全局性的数据统计与查询造成障碍对同一数据,由不同系统重复录入由于标准不统一系统之间不会同步更新,就会造成不同系统提供的同一数据不完全一致,数据质最低下,使得高校无法通过现有的系统获取真实的全局统计数据,例如学生生源情况、学费缴纳情况、全校教职工比例情况、各部门科研经费隋况等,部分部处之间虽实现了系统对接,但是数据并没有实时传递。( 6 ) 对历史数据的收集、整理和保存工作做得不够,无法指导学校领导进行科学的决策随着系统间关系的复杂和集成需求的日益复杂化,迫切需要从整体高度来规划整个高校范围内的数据集成工作,对整体集成从体系和架构的高度上做一定的方案就显得尤为重要。数据集成方案,解决了数据标准不一致、数题。库和人l i 智能领域已经仃了多年的研究历,提供需要的数抛l 引。在过上的2 0q - i n ,关济雨丈字坝上掌位论文于数据集成方面的论文,大多是基于全局数据模型1 4 1 或者通过直接将需要的数据通过数据复制或迁移手段存储到数据仓库的方式完成数据集成的。目前成熟的模型主要有:( 1 ) 虚拟数据模式虚拟数据模式,通过提供异构统一的全局逻辑视图【5 1 来屏蔽底层的细节数据 6 1 ,使得用户可以像对待一个数据源那样对多个数据源实时查询和处理,同时保持数据源各自的独立性和完整性 7 1 ,这种方式被很多开发商利用,比较知名的开发商有i b mw e b s p h e r ei n f o r m a t i o ni n t e g r a t o r 等。( 2 ) 数据仓库模式数据仓库模式通过建进一个数据仓库来存储来自多个业务系统的数据【8 1 。在这种模式f 由f 数据源业务系统拥有自己的数据模式,抽取的数据需要转换成数据仓库模式才叮以存储剑数据仓库。目前数据抽取的工具有数据库自带的数据迁移复制工具,如o r a c l e 的m i g r a t i o nw 6 r k b e n c _ 1 9 1 _ 也有专门的数据集成工具,例如开源的j i t t e r b i t ,非开源的o r a c l e 公司的o r a c l ed a t ai n t e g r a t o r ,i n f o r m a t i c a公司的i n f o r m a t i c a9 等集成工具。在高校领域的数据集成大多数部是采用以上两种模型进行的数据集成。这两种模式各有优缺点,如表1 1 所示:表1 1 数据仓库模犁和虚拟视图模型对比表特点模型数据仓库模式虚拟视图模式稳定性稳定性好不确定因素较多查询效率高相对较低数据分析能力支持数据分析,速度快数据慢实时性取决于集成周期高灵活性一般较好性能要求中等非常高特点进行数据迁移存储形成全局视图通过对数据仓库模式和虚拟视图模式不同方面进;f j :对比,可以看到数据仓库3面向校园网的数据集成方案的研究与声用模式稳定性比较好能够支持数据分析等数据应用。而虚拟视图模式实时性比较好,而查询效率相对比较低,受网络传输等多方面因素影响。1 3 论文的主要工作、创新点及研究意义本文以某高校为研究对象,通过深入研究该高校信息化的状况,并且结合国内其他高校信息化现状找出面临的主要问题。通过研究数据集成相关技术、构架和方案,设计了一套适合高校发展现状的数据集成方案,主要包括:数据集成方案的详细设计、数据标准的定制、全局共享数据库的设计,及数据集成平台的实现。最后在某高校校园网信息化建设现状的基础上进行了模拟测试。本方案本着尽量保留原有应用系统的原则,在这唑应用系统的数据资源的基础上为学校提供数据共享、决策分析的公共基础数据平台,从而达到校园网上资源的共享利用,实现真正意义一l 的数字化校园,使某高校的信息化进程能够向前推进,并更够为其他高校信息化建设提供借鉴依据。1 3 1 论文的主要工作济南大学硕士学位论文本文在在传统数据仓库模式集成方案的基础上,提出并设计了一种解决方案,本方案对传统的数据仓库模式进行了改进,并对传统的e t l 进行了改造,其主要研究点和创新点有以下3 点:( 1 ) 将总线型架构引入到集成方案,形成即插即拔模式,所谓即插即拔模式就是指在新的应用系统加入的时候,只需要连接到共享总线,对其他应用系统或数据库不会造成影响,从而降低了数据耦合度。( 2 ) 引入o d s 存储方式到集成方案。将传统的数据仓库模式的d b d w模式,改成d b o d s 模式。由于数据仓库本身具有数据量大,灵活性差,只存历史数据,不支持实时数据操作等特点,无法满足高校数据集成的需求。所以本文在传统模式上进行改造,引入o d s 存储模式替代数据仓库,充分利用了o d s既具有数据库数据的及时性,又可以为数据仓库提供数据的特性。这种模式既避免了系统过于庞大难于操作,又可以满足o l t p 的需求,进一步增强了系统的稳定性。( 3 ) 将传统的e t l 模式改造成e l t 模式,传统的e t l 模式是在数据传输过程中进行数据装换,本文采用先将数据加载到目标数据库临时区再对数据进行转化的方式进行。这种e l t 模式减少了数据的移动,提高了集成效率和系统性能。1 3 3 论文的研究意义本文研究的主要目的是实现高校数据的准确性和共享性。主要的研究意义有:( 1 )提供了全局数据支持,能够为决策分析提供准确的数据依据。( 2 )统一了数据标准,规范了数据格式,为学校进一步的信息化发展奠定了基础。( 3 )拟定了数据集成规则,明确了数据归属,很好的保证了数据质最,减少了数据冗余,去除了数据的不准确因素。( 4 )共享数据库的建屯,在保证了数据质量的同时,还提高了各个部面向校园网的数据集成方案的研究应用门的工作效率和质量。本文的工作将进一步推动高校数字化、信息化进程的发展,并且可以为某高校的数字化校园建设提供数据支持和经验积累。1 4 论文组织结构本文的主要内容主要通过七个章节进行介绍,其组织结构如图1 1 所示。第一章绪论第二章数据集成相关技术介绍矗v第二三章面向校园网的数据集成方案整体设计兰第第四五星童数集据成存平储厶口层的没设计计与与实实现现忑t第六章集成方案应用毒第七章总结与展龌图1 1论文组织结构图 第一章绪论。主要介绍了论文的研究背景、意义、研究现状,课题的主要工作和内容。 第二章数据集成相关技术。对数据集成的理论进行了概述。并对相关技术、集成方案、集成架构进行了介绍。 第三章面向校园网的数据集成方案的整体设计。主要从现在调查、架构6济雨大学碘上学位论文设量t - n 整体方案的详细设计进行了介绍。在第四章和第五章分别对整体方案中数据存储层和集成层进行详细介绍。 第四章基于o d s 的数据存储层设计与实现。这一章主要从元数据和数据存储两部分的设计进行说明。在元数据部分又对高校数据标准建设和元数据标准的制定两部分进行了设计。集成中心库设计,从存储规范到数据载入分部进行了说明。 第五章基于o d i 的数据集成平台设计与实现。从e t l 的三个方面、集成周期设计、数据共享方式、数据同步方式等几个方面进行了说明。 第六章集成方案。基于设计方案的实例,并进行了平台处理性能测试最后给出性能优化的一些建议。 第七章总结和展望。对全文进行总结和展望。7面向校园网的数据集成方案的研究与府用8济南犬学硕 学位论文第二章数据集成相关技术介绍本文通过设计一个基于数据仓库模式的数据集成方案来解决高校信息化过程中遇到的一系列问题,主要涉及到的技术有数据集成技术( 例如数据复制技术) 、e t l 技术( 例如o d i 工具) 、数据仓库技术( o d s 数据存储技术) 等。本章将分别对相关技术进行介绍。2 1 数据复制技术复制就是由两个或多个数据库系统构成的一个分布式数据库环境中拷贝数据的过程【l o 】。复制技术要求源数据库和目标数据库要有完全一致的数据模型、表、字段、约束条件等。数据复制又分为同步复制和异步复制,这两种复制方式只是对实时性要求不同,最终都要保持数据源和目标数据库之间数据完全一致。2 2 数据转换技术数据转换技术才真正使得数据源和目标数据库之间可以有数据模型差异 2 8 1 。这种数据模型的差异主要包括( 1 ) 模型类型不同( 例如星型模型、雪花型模型、实体关系型等) ;( 2 ) 实体完整性不同;( 3 ) 存储技术不同( 例如文件存储、关系数据库等) 。目前主要的数据转换方法有:( 1 ) 映射,通过一定规则将数据源的一列数据和目标数据库的数据对应。( 2 ) 过滤,过滤掉目标数据源不需要的数据。可以通过s q l 语g j 模式实现。( 3 ) 人工编写代码:通过手写代码的模式处理数据,使之满足具体数据需求。2 3e t l 技术e x t r a c tt r a n s f o r ml o a d ( e t l ) 1 1 1 1 指的是数据的抽取、转换、加载。在数据仓库中,e t l 负责从数据源从源数据库抽取需要的数据,通过转换加工也就是数据清洗,通过清洗去除错误的数据,转换格式不一致的数据,然后将满足条件的数据加载到目标数据库中【1 2 1 。在进行数据集成的过程中,由于数据来自不同的应用系统,不论是数据内容、数据格式还足数据质量都存在着很大的区别。所以9面向校园网的数据集成方案的研究与应用e t l 在实现数据集成的过程中显得尤为重要。e t l 被认为是数据仓库系统的核心组件【1 3 1 。在本文中e t l 也是集成方案的关键环节。下面从e t l 生命周期的三个阶段【1 4 】:数据抽取、转换和加载进行详细介绍。e t l 的体系结构如图2 1 所示:- _ ,图2 1e t l 体系结构图2 3 1 数据抽取数据抽取【1 5 】是e t l 生命周期的第一阶段,负责从数据源中抽取目标数据库所需要的数据。目前主要的数据抽取方式有两种。( 1 ) 全量抽取【1 6 】全量抽取指将数据源所有的表或视图的数据一次性集成到目标数据库。虽然这种模式能够保证数据源的数据和目标数据完全一致,但是由于这种抽取模式牵扯数据量大对服务器性能要求比较高,一般在建立数据仓库初期使用。( 2 ) 增量抽取【17 1增量抽取是指每次将业务系统上发生了改变的数据( 如新增或更新了的数据) 抽取到目标数据库。这种模式可以减轻数据库服务器和网络传输的负担。在数据仓库搭建成功之后,数据仓库中的数据都是从源系统中提取数据来更新,但是在提取和传输海量数据是会消耗大量的资源和时间。为了节省资源,一般都会采取增量抽取的方式来实时或异步的更新变动数据。由于这种方式能够大大提高效率,目前得到了广泛应用。l o济南大学硕上学t :! 论史2 3 2 数据清洗转换数据清洗转换阶段将数据源抽取过来的数据按照一定规则转换成可以装载入目标数据库的数据n 引。数据从多个业务系统中抽取而来的数据,不可避免的不完整数据、有冲突的数据、错误的数据、不一致的数据n9 1 。而数据清洗转换阶段的任务就是过滤掉那些不符合要求的数据。并按照需求将部分格式不对应的数据转换成相应格式的数据。经过转换加工之后可以加载到目标数据库。2 3 3 数据装载数据装载是将抽取转换后的数据加载到目的数据库中( 通常为数据仓库) 【2 0 j 。数据装载的方法也有多种,其一,对于数据量比较小的数据可以通过s q l 插入、更新等基本的语句来完成:其二,对于海量数据可以采用批量装载的方式,采用专用的数据装载工具或者数据库自带的数据装载组件( 例! t u o r a c l e 数据库的s q l * l o a d e r l 2 1 】) 。另外装载又分为初期装载、周期性的增量装载和不定期的完全更别2 2 1 。可以根据具体情况来决定数据的装载模式。2 3 4e t l 工具通过对e t l 过程的介绍,我们了解至i e t l 在数据仓库项目或者是数据集成项目中起到关键的作用。所i 胃e t l 工具就是一款负责抽取、清洗并插入到数据仓库的软件【1 3 】。e t l i 具以各种业务系统为基础,把业务数据通过一系列处理迁移到目标数据库。目前主流的e t l i 具【2 2 。2 3 1 包括微软s s i s 、i n f o r m a t i c a 、o r a c l e 的o w b 和o d i 等。开源的工具有e c l i p s 的e t l 插件【2 4 1 。本文t 要对o r a c l e 公司的o d i ( o r a c l ed a t ai n t e g r a t o r ) 集成工具进行了研究和应用。下文对o d i 进行介绍。2 3 5o dio d i ( o r a c l ed a t ai n t e g r a t o r ) 是o r a c l e 公司通过对整合s u n o p s i sa c t i v ei n t e g r a t i o np l a t f o h i l 而推出的一款e t l 工具【2 7 1 。o d i 叮以为异构系统提供高性能的面向校园网的数据集成方案的研究与应用数据移动和转换【2 8 l 。可以用于构建数据仓库的e t l 阶段、数据迁移、数据复制、s o a 应用等。o d i 是基于元数据管理的。o d i 模型设计、数据转换过程中的元数据信息、数据库信息都存在元数据存储库中【2 9 1 。o d i 架构如图2 2 所示,主要围绕存储库设计,每个客户端都通过自己的图形化软件和a g e n t 来访问存储库。e l t模式,它本身不执行数据整合处理,所有的数据处理都在目标或源数据库中运行。o d i 资料库数据源目标数据库。瀚“灞瀚? 瀚o 。j 与s o ? 。l 。? 。爿请求犍叠髫:曼。岛二! o d 。图形化软件气。芸箩图2 2o d i 体系架构【3 0 12 3 5 10 d l 主要组成o d i 最主要的部件有以下四个【3 1 。3 3 】:( 1 ) o d i 图形化软件a g e n t4 ”o请求在开发环境中,o d i 图形化软件实现了集成项目的创建、设计和编辑,也通过图形化界面实现对源、目标数据库的连接,以及对a g e n t 的定义。图形化软件主要由以下四个组件组成如图2 2 所示: d e s i g n e r :是整个o d i 的核心组件,用于定义数据映射、包、接口的设计等。 o p e r a t o r 用于对数据转换任务执行情况的管理和监控。开发过程为我们提供d e b u g 的功能,为开发调试服务。 t o p o l o g ym a n a g e r 用f 定义源数据库和目标数据库的物理架构和逻辑架1 2j。幺孙尹济南大学硕士学位论文构。 s e c u r i t ym a n a g e r 用于用户权限管理。( 2 ) o d ia g e n t :a g e n t 属于运行时组件,它功能是调度执行创建好的项目和集成服务等e t l 任务。( 3 ) 存储库:o d i 存储库由一个主存储库和几个工作存储库组成。存储了i t 架构的配置信息、所有应用、项目、情景和执行日志的元数据。存储库可以安装在一个r d b m s 上。 主存储库:主存储库主要存储安全信息( 用户信息和权限) 、拓扑信息( 技术和服务器的定义等) 和对象的版本信息。对业务系统的数据库连接信息、创建的数据库连接架构以及构建的a g e n t 信息。 工作存储库:工作存储库主要用于保存项目信息、模型和运行阶段信息。( 例如数据存储、接口信息、包信息、方案、调度信息等) 。( 4 ) 知识模块:o d i 知识模块在o d i 集成中替代了传统的手写代码的方式。所谓的知识模块就是一个个封装好的代码集合,o d i 自身包含了上百个常用的知识模块。在数据集成过程中可以根据实际需求自定义知识模块,也可以通过脚本扩展已有的知识模块满足需求。这种模式保证了代码的重复利用,具有很好的灵活性和可扩展性。o d i 知识模块主要有下面6 种【3 0 1 : r k m ( r e v e r s ek n o w l e d g em o d u l e s ) :用于为不同数据模型提供反向工程。 l k m ( l o a d i n gk n o w l e d g em o d u l e s ) :用于从不同数据库或系统抽取数据。 j k m ( j o u m a l i z i n gk n o w l e d g em o d u l e s ) :用于为不同数据源变化数据创建标示,以便可以追踪变化数据。 i k m ( i n t e g r a t i o nk n o w l e d g em o d u l e s ) :用于把数据装载到目标数据库。 c k m ( c h e c kk n o w l e d g em o d u l e s ) :用于数据质量检测。 s k m ( s e r v i c ek n o w l e d g em o d u l e s ) :为w e b 服务提供数据。面向校园网的数据集成方案的研究与应用2 3 5 20 di 技术优势通过对o d i 的介绍,已经对o d i 有了一定的了解。下面从对数据源的支持、数据源的获取、清洗转换、数据加载等多个方面对现在主流的o d i 、w i i 、o w b三种e t l 工具进行对比。如表2 1 所示:表2 1 主流0 d i 性能对比表:功能说明m io i do w b主流r d b m s 如:o r a c l e 、s q ls e r v e r 等支持支持支持非主流r d b m s 如:m y s q l 、d e r b y 等不支持支持数据源o d b c 数据源( :作r d b m s ) f o x p r o 、支持支持支持a c c e s s 、e x c e l类型消息如:j m sq u e u e 、j m st o p i c支持支持不支持文件如:t a b l e dt x t 、x m l支持不支持w e b s e r v i c e支持不支持数据源l o b 字段不支持支持不支持扩展数据源创建触发器( 增量数据获取)支持支持不支持数据源直接读取原表支持支持支持获取时间设置支持支持支持同步周期支持支持支持数据平台提供基本的函数支持支持支持开发语言级别扩展不支持支持不支持清洗s q l 扩展支持支持支持数据源和目标的数据映射支持支持支持转换事件转换支持不支持数据加载数据提交数据库执行支持支持支持运行运行状态监控不支持支持支持不直接支监控数据同步监控支持支持持可扩展能力平台功能延伸,尤其是功能部分不支持支持不支持异常数据交换过程中出现异常数据支持支持不支持处理o d i 与o w b 相比支持更多的异构数据源,支持s o a ,支持j y t h o n 。o d i的优势【3 4 1t 要体现在如下几个方面:( 1 ) 采用e l t 与传统的e t l 相比,性能和成本部有很大优势1 4济南大学硕上学位论文( 2 ) 统一的平台,支持面向数据、面向事件、面向服务的集成,支持批量、r e a lt i m e 、同步、异步集成,提供了最大的灵活性和便利性。( 3 ) 声明式设计,将集成的逻辑和具体实现的技术分离,大大减少了工作量。( 4 ) 预置的、可热插入的知识模块,来实现集成过程中一个个特点的任务。可以根据需求来设计知识模块,可以更好的满足业务需求。知识模块的使用,使得集成过程更灵活。2 4 数据存储技术2 4 1 数据仓库技术数据仓库的概念是w h i n m o n 在建立数据仓库一书中提出的,目的是解决信息技术发展过程中,数据量大但是信息匮乏的现象的。数据仓库的数据是面向主题的、集成的、具有时间特征的、相对稳定的【3 5 1 。传统的数据仓库的体系结构如图2 3 所示:数据源2 4 20 d s 技术图2 3数据仓库体系结构1 3 6 l操作型数据存储( o d s ) 是介于d b 和d w 之间的一种数据存储技术,是既不同于d b ,又有别于数据仓库的混合模式。它包含当前的或最近的、细节的、全局的数据,可跟d b 一样支持全局联机事务处理( 例如,数据添加、删除、更新等) ;其次,它的数据组织结构足面向差题、集成的,可跟d w 一样支持日常决策处理【3 7 】( t 要支持即时o l a p ) 。1 5面向校园网的数据集成方案的研究与府用下面表2 2 ,从多个方面对d w 和o d s 进行了比较。表2 2d w 0 d s 对比表目的d wo d s决策支持接近实时监控共同点整合数据整合数据面向主题面向主题静态数据( 延j 遐 2 4 小时)动态数据( 延迟 1 秒)历史数据当前数据不同点概括性数据和细节数据细节化数据不能满足实时业务需求可以满足实时业务需求面向长期的决策分析面向近期o l l 甲全局o l t p通过比较,可以看出o d s 在数据集成和数据处理上,比数据仓库更细致、更及时,并且o d s 保持数据一致性的要求比d w 严格。在实际情况下,有些数据操作应用即要求数据的实时一致性,又要求可以进行数据处理分析,这种情况下d b 和d w 都不能满足需求。所以就提出来“d b o d s d w 3 7 】 三者共存的体系结构如图2 4 所示。数据源图2 4d b o d s d w 体系结构本文,我们选择o d s 作为数据集成中心库,它既包含全局一致的、细节的、当前的数据,又包含面向主题的集成数据,支持即时o l a p 。在应用时也可以应用d b o d s d w 三层模式,建设d w 支持长期的o l a p 决策分析系统。2 5 本章小结1 6济南犬学硕上学位论文本章主要对数据集成相关技术进行了介绍。着重介绍了数据复制技术、数据交换技术、e t l 技术、o d s 技术。通过对e t l 工具的研究,对现有主要的集成工具进行了学习和比较。详细介绍了o d i ,o d i 作为o r a c l e 公司的一款e t l 工具具有集成性能高、统一平台,支持数据源丰富等一系列的技术优势。作为了本方案选择o d i 来做e t l 过程的主要依据。最后介绍了o d s 技术,为了弥补d b d w 的不足,引入了d b o d s d w 三层模式。通过研究对比了解了o d s 和d w 之间的主要区别,由于本方案对数据要求既可以支持联机处理又可以支持短期的o l a p 所以选择o d s 来构建集成中心库,从而更有效的利用资源,提高效率。本章的学习为后面数据集成方案的制定提供了重要的技术支持。1 7面向校园网的数据集成方案的研究与应用1 8济南大学硕t 学伊论文第三章面向校园网的集成方案的整体设计本文以某大学信息化建设状况为依据进行方案的设计和实践。首先通过对该校和全国某几个高校信息化状况进行总体了解,找出问题的所在。针对信息化建设中的数据问题,设计一套高效实用的解决方案。本章将从现状分析、集成方案这两个方面进行详细介绍。3 1 高校信息化现状概述3 1 1 基础设施建设现状分析该大学校园网是济南地区城域网西部节点,采用自行设计、自行施工的自主建设政策,由学校计算机学科的教学科研人员和校内其它部门协作建成,现已成为学校蘑要的教学科研基础设施。在多年的建设工程中,已经形成了一个结构合理、运行町靠、性能较优良,特色明显的万兆主干校园网络,如图3 1 所示。图3 1 校园网络主干网络结构图目前,校园网覆盖了学校的大部分楼宇,其中教学楼覆盖率为1 0 0 。校园网有4 个出口,网络出 j 带宽总和3 2 g 。拥有c e r n e ti p v 4 正式i p 共3 2 个c类地址,拥有c e r n e t 2 正式i p v 6 地址段2 0 0 1 :d a 8 :7 0 0 5 :4 8 ,使学校的i p 地址1 9面向校园网的数据集成方案的研究与应用资源大大增加。为了扩大校园网业务,学校还申请了网通和电信两个i n t e m e t 出口,获得网通和电信的正式i p 地址共1 1 2 个。校园网目前运行i p v 4 双域名系统s d i b m e d u c n 和u j n e d u c n ;运行i p v 6 域名系统u j n 6 e d u o n ;拥有顶级域名u j n e n 及独立域名哂n o r g c n 。可提供w w w 、d n s 、d h c p 、e m a i l 、f t p 、w a p 、b b s 、v o d 、v i r t u a l h o s t 、p r o x y 和w s u s( w i n d o w ss o t t w a r eu p d a t es e r v i c e ) 等多种i n t e m e t 基础服务,建有包括统一身份认证、校园一卡通、固定资产管理、综合教务管理、财务管理、学生工作管理、研究生教育管理、校园安全监控及网络辅助教学等系统在内的多种应用系统,依托校园网建设的学院、部门网站及各种公用应用系统站点已达8 0 余个。校园网还为校内用户提供丰富的学习资料、教学资源、共享软件等服务的邱下载和上传服务,给师生带来了方便,丰富了校园文化生活。在这些年的建设中,学校的校园网络系统已取得了上述不错的成果,目前能够为校园网上运行的各种应用系统信息传输提供很好的硬性支持,能够保证整个校园网络系统稳定、高效、安全地运行。3 1 。2 应用系统现状分析学校一直比较重视网络资源与应用系统的建设,目前各部门大都根据工作需要自行组织建设了部门级的管理信息系统如基于校园网的管理信息系统涉及到教务系统、研究生管理系统、科研、财务、人事、设备系统等。这些应用系统涉及诸多部门和学校各类数据信息,涵盖了学校日常管理和业务活动的多个方面,已成为学校不可或缺的关键业务系统。这些系统的建设都为学校“数字校园”建设和进一步发展打下了坚实的基础。根据对学校现状调查得知,学校现在已有的应用系统建设内容如表3 1 所示:表3 1 学校现有应用系统状况应用系统名称使用部门数据库架构校园卡通系统信息网络中心o r a c l eb s机房管理系统各学院、图书馆机房s q l s e r v e rc s财务管理系统财务处s q l s e r v e rb s人事管理系统人事处o r a c l ec s国有资产设备管理系统闺资处e x c e l2 0济南大学硕上学位论文正方现代教学管理信息系统教务处o r a c l eb s科技信息管理系统科技处m y s q lb s全国普通高等学校人文社会科学研究社科处未知b s管理系统研究生信息共享平台系统研究生处m y s q lb s山东省研究生教育管理信息系统研究生处m y s q lb s学生资料管理系统学工处a c c e s s学生公寓管理系统后勤与产业管理处a c c e s sc s校医院诊疗系统校医院s q l s e v e rb s医院体检管理系统校医院m y s q l图f 5 管理系统图伟馆s q l s e v e rb s档案管理系统档案馆s q l s e v e r邮件系统信息网络中心m y s q lb s课程中心信息网络中心s q l s e v e rb ,s重点学科经费管理系统学科管理办公室d mb s这些系统虽然能基本满足各个业务部门日常工作需求,并且大多软件局限于查询、统计、打印报表等事务性处理,并且仅局限于一两个相关部门。业务系统之间缺少数据共享,具有辅助决策分析功能的综合数据库系统并不多见。不仅如此,还有很多问题存在,例如数据冗余、数据来源不唯一造成数据质量问题等。这种情况无法既无法满足各个部门之间信息交互共享和综合信息查询的需要。更无法从更高层次上对这些原始数据进行决策分析等。目前这种现象已经成为学校信息化建设发展的主要瓶颈之一。目前存在的问题体现在下面几个方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论