(计算机应用技术专业论文)基于数据仓库的点击流技术的研究.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的点击流技术的研究.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的点击流技术的研究.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的点击流技术的研究.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的点击流技术的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 i n t e r a c t 的快速发展使得网上交易成为人们日常买卖行为中的一种重要形 式,电子商务也因此得到了的蓬勃发展,而且正在成为一种潮流,随之而来的是 大量w e b 数据的产生,这些w e b 数据广泛分布在网络服务器上,分布于世界各 地,只要你拥有一台存放着电子商务系统的w e b 服务器,你就可以获取这些潜 藏着巨大商业价值的w e b 数据。信息技术的发展让人们研究这些w e b 数据成为 现实,但是仍然存在两个方面的问题:如何有效的组织并存储如此大数量级的数 据? 如何利用有效的数据分析方法对海量数据进行分析,并从中发现具有实用价 值的信息? 这两个问题也正是本文要研究的内容。 数据仓库最先是为基于关系型数据库的大量的数据存储问题而提出的一种 解决方案,数据挖掘同样是为了实现对存储在关系型数据库的大量数据进行有效 分析而提出的一种方法。随着w e b 技术的不断发展,数据仓库、数据挖掘技术 逐渐与w e b 技术进行了融合,使得w e b 数据仓库和w e b 数据挖掘技术应运而生。 本文首先对数据仓库和数据挖掘的基本概念和相关技术进行了概述,而后结 合w e b 数据仓库的知识,从数据仓库的总体架构、模型设计、元数据设计等方 面对销售自动化系统点击流数据仓库的构建过程进行了详细阐述,得出了一个可 用的点击流数据仓库的解决方案,并使用微软数据仓库构建工具对点击流数据仓 库进行了实现。接着讨论了点击流数据的收集方法,将点击流分为静态点击流和 动态点击流两种类型,分析了从w e b 服务器日志文件获取静态点击流存在的问 题以及数据预处理中的难点,提出了动态点击流收集策略的思想,该方法可以高 效灵活的获取点击流信息,避免了数据预处理问题。最后结合w e b 数据挖掘技 术,提出了一种用户频繁偏爱路径挖掘算法,利用该算法可以发现用户的共同浏 览兴趣,能够从多侧面深入了解用户行为,进而指导销售自动化系统改进结构, 利用w e b 开发技术实现了挖掘算法并将分析结果进行了展示。 关键词:数据仓库;点击流;w e b 日志:数据挖掘;电子商务 江苏大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r a c t ,o n l i n et r a n s a c t i o n sb e c o m ea ni m p o r t a n t f o r mo fp e o p l e sd a i l yd e a l i n g sb e h a v i o r e - c o m m e r c et h e r e f o r eg e t sav i g o r o u s d e v e l o p m e n t ,a n di sb e c o m i n gat r e n d w h a tf o l l o w e db yt h i si sal a r g en u m b e ro f w e bd a t aa r eg e n e r a t e d t h ew e bd a t aa r ew i d e l yd i s t r i b u t e di nt h en e t w o r ks e r v e r s , a r o u n dt h ew o r l d a sl o n ga sy o uh a v eaw e bs e r v e rw i t ha ne - c o m m e r c es y s t e mi n , y o uc a ng e tt h ew e bd a t aw i t hh u g ep o t e n t i a lc o m m e r c i a lv a l u e t h ed e v e l o p m e n to f i n f o r m a t i o nt e c h n o l o g ya l l o w sp e o p l et os t u d yt h ew e bd a t ab e c o m e sar e a l i t y , b u t s t i l lt h e r ea r et w oi s s u e s :h o wt oe f f e c t i v e l yo r g a n i z ea n ds t o r es u c hal a r g em a g n i t u d e d a t a ? h o wt oa n a l y z et h em a s s i v ed a t aw i t he f f e c t i v ed a t aa n a l y s i sm e t h o d s ,a n df i n d v a l u a b l ei n f o r m a t i o n ? t h e s et w oq u e s t i o n sa r ea l s ot h ec o n t e n tt ob es t u d i e di nt h e p a p e r d a t aw a r e h o u s ew a sf i r s t l yp r o p o s e da sas o l u t i o nf o rm a s s i v ed a t as t o r a g e p r o b l e m sb a s e do nr e l a t i o n a ld a t a b a s e d a t am i n i n gw a sa l s op r o p o s e da sam e t h o dt o a n a l y z et h el a r g ea m o u n to fd a t as t o r e di nr e l a t i o n a ld a t a b a s e w i t ht h ec o n t i n u o u s d e v e l o p m e n to fw e bt e c h n o l o g y , d a t aw a r e h o u s i n g ,d a t am i n i n gt e c h n o l o g yw e r e g r a d u a l l yi n t e g r a t e dw i t ht h ew e b ,a l l o w i n gw e bd a t aw a r e h o u s i n ga n dw e bd a t a m i n i n gt e c h n i q u e se m e r g e d t h ep a p e rf i r s tg i v ea no v e r v i e wo ft h eb a s i cc o n c e p t sa n dr e l e v a n tt e c h n o l o g i e s o fd a t aw a r e h o u s ea n dd a t am i n i n g w i t ht h ek n o w l e d g eo fw e bd a t aw a r e h o u s e ,t h e p r o c e s so fb u i l d i n gc l i c k - s t r e a md a t aw a r e h o u s ei n s a l e sa u t o m a t i o ns y s t e mi s d e t a i l e dd e s c r i b e df r o md a t aw a r e h o u s eo v e r a l la r c h i t e c t u r e ,m o d e ld e s i g n ,m e t a d a t a d e s i g na n ds oo n t h e n ,w ec o m et oa na v a i l a b l ec l i c k s t r e a md a t aw a r e h o u s es o l u t i o n o nt h i sb a s i s ,t h ec l i c k - s t r e a md a t aw a r e h o u s ei s i m p l e m e n t e db yu s i n gm i c r o s o f t d a t aw a r e h o u s et o o l s a f t e rt h a t ,t h ep a p e rd i s c u s s e st h ec l i c k s t r e a md a t ac o l l e c t i o n m e t h o d s ,a n dd i v i d e sc l i c k - s t r e a mi n t ot w ot y p e s :s t a t i ca n dd y n a m i c i ta n a l y z e st h e p r o b l e m so fs t a t i cc l i c k s t r e a mf r o mw e bs e r v e rl o gf i l e sa n dd i f f i c u l t i e si nd a t a p r e p r o c e s s i n g at h o u g h to fd y n a m i cc l i c k s t e a md a t ac o l l e c t i o ns t r a t e g yi sp r o p o s e d t h em e t h o dm a k e sc l i c k s t r e a md a t ac o l l e c t i o ne f f i c i e n ta n de a s y , a n da v o i d st h e p r o b l e mo fd a t ap r e p r o c e s s i n g a c c o r d i n gt ow e bd a t am i n i n gt e c h n o l o g y , au s e r f r e q u e n tp r e f e r r e dp a t hm i n i n ga l g o r i t h mi sp r o p o s e d u s e r s c o i n t e r e s t so fb r o w s i n g c a nb ef o u n da n du s e r s b e h a v i o rc a nb ed e e p l ys t u d i e df r o mm u l t i d i m e n s i o n a l t h e s t r u c t u r eo fs a l e sa u t o m a t i o ns y s t e mc a nb ei m p r o v e db yu s i n gt h er e s u l t so ft h e a l g o r i t h m t h em i n i n ga l g o r i t h m i s i m p l e m e n t e db yu s i n g w e bd e v e l o p m e n t t e c h n o l o g ya n dt h er e s u l t sa r ed i s p l a y e d k e y w o r d s :d a t aw a r e h o u s e ;c l i c k s t r e a m ;w e bl o g ;d a t am i n i n g ;e - c o m m e r c e u 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密口。 学位论文作者躲幕僮 指剥币繇多护告 沙产夕月细巧年,工月i 厶日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:雾l 笙 日期沙吵年矽月钼 江苏大学硕士学位论文 1 1 课题的背景及意义 第一章绪论 市场经济的迅猛发展以及市场竞争环境的日益加剧,使得企业正面临着前所 未有的机遇与挑战,出于市场需求和管理理念更新的需要,以及企业核心竞争力 提升的要求,人们越来越认识到信息的重要性,同时获取信息的质量以及信息产 生的效率在很大程度上也影响了企业在多变的环境下能否快速、正确地做出反应 以及管理层的正确决策。 i n t e m e t 的普及和信息技术的快速更新推动了电子商务的蓬勃发展,越来越 多的企业和顾客热衷于w e b 环境下的交易方式,这使得企业在i n t e r n e t 环境下, 利用电子商务网站收集的数据是无比庞大的,一方面,这些数据为企业决策提供 了丰富的数据来源,这些数据中包含了很多对企业非常有用的信息,如:顾客来 源、顾客购买行为、购买兴趣等,对这些数据进行有效地分析,不但能够对电子 商务网站的建设起到指导作用,增强网站的黏合度,而且也能够反映出企业在市 场、销售、服务和财务等各个方面的状况;但另一方面,这种近乎爆炸式增长的 数据也很容易给企业带来“数据爆炸而知识贫乏”的现象,因而在这种情况下迫 切需要一些技术来整合并分析这些w e b 数据,挖掘这些数据中隐藏的商业价值, 从而有效并快速地指导企业决策和发掘企业的竞争优势。由此可见,企业在面临 如此庞大的数据时,如何有效的组织数据并从中快速准确地找出所需的信息,做 出高明的决策,是电子商务智能快速发展的驱动力。 作为信息时代的产物,数据仓库( d w ,d a t aw a r e h o u s e ) 是以关系数据库、并 行处理与分布式处理技术以及联机分析处理等技术的发展为基础,为解决企业和 组织中虽然拥有大量数据但信息贫乏、难以利用的现状而提出的,是对不同系统 的数据实现集成和共享的综合性解决方案。而基于w e b 的数据仓库是将传统的 数据仓库思想和技术引入w e b 数据的存储中,建立性能良好的w e b 数据仓库能 够很好的解决电子商务网站中海量数据的存储问题,同时还可以高效的整合企业 已有的数据资源,从而为企业的数据分析人员提供完整的数据来源。 针对电子商务环境中海量数据的另一个问题是对数据的有效分析,传统的处 江苏大学硕士学位论文 理方法大多是采用w e b 数据分析工具结合一些挖掘算法来对数据进行分析,如 日志分析工具可以对网站运行的基本数据进行统计,包括网站每小时、每天的流 量、参考u r l 、参考主机和页面装载情况等,但是这种方法的缺点也是很明显 的,单一的数据来源以及分析工具本身有限的功能使其不能很好的分析用户行 为。在以数据仓库存储的基础上,不仅包含了传统的来源于w e b 日志的点击流 信息,还可以整合企业已有的客户信息资源( 比如客户的注册信息、客户参与的 网站的问卷调查等) ,并且能够使用更好更有效的技术对w e b 数据进行分析,除 了能够利用传统的数据挖掘( d m ,d a t am i n i n g ) 技术,还可以采用针对多维数 据的联机分析处理( o l a p ,o n l i n ea n a l y t i c a lp r o c e s s i n g ) 技术,以及构建在 d m 和o l a p 技术之上的联机分析开采( o l a m ,o n l i n ea n a l y t i c a lm i n i n g ) 技 术对整合后的数据进行挖掘分析,从而得到对企业更加有价值的商业信息。 1 2 国内外研究现状 互联网的快速发展,使得对用户访问w e b 站点产生的一系列w e b 数据的分 析的需求也越来越迫切,许多国家把这方面的研究作为重点资助科研项目之一。 国外在w e b 数据挖掘方面的研究相对较早。早在1 9 6 6 年,就有学者 m s c h e n ! 、h m a n n i l a t 2 1 、t y a n 3 1 提出来可以将数据挖掘方法用于w e b 研究领 域;19 9 7 年d s w n g u 和x w u 【4 】等人研究了s i t eh e l p e r 系统;b u e h n e r a g , m u v e n n a m d 5 j 等人首次提出将数据挖掘技术应用于电子商务的环境下,以发现 市场智能;c h e n m s ,p a r k j s ,y u p s l 6 1 等人把w e b 日志数据映射到关系表中,然 后应用标准的数据挖掘方法发现用户迁移模式;h a l l 【1 7 】等人还将w e b 服务器日志 保存为数据立方体,然后在其上执行o l a p 的各种操作,如提升、钻取等,用 于发现用户的访问模式;s h a i l a b i l 8 】等人提出的日志挖掘系统依赖于客户端的数据 收集,客户端的代理为服务器返回用户请求的页面及时间等数据。此外,近年也 出现了一些可以商用化的w e b 数据分析工具,如比较流行的流量统计工具g o o g l e a n a l y t i c s ! 引,就是由g o o g l e 公司研发的一款精致的、功能强大的w e b 分析工具, 目前它的流量分析功能够满足大多数网站的需求。 同时为了较好的整合资源为w e b 数据分析提供更加完整的数据源,国外也 相继出现了很多这方面的著作:i n m o n 在电子商务的数据仓库技术一书中阐 2 江苏大学硕士学位论文 述了为实现电子商务条件下的分析性应用建立数据仓库;s w e i g e r 等在点击流 数据仓库一书中详细阐述了点击流数据仓库中的数据来源、数据获取中的难点 等问题并提出完整点击流数据仓库的多维数据仓库设计;k i m b a l l 在数据仓库 工具箱:维度建模的完全指南中用了较多的例子详细介绍了w e b 数据仓库维 度建模的方法( 涵盖了零售、库存、采购、教育、卫生以及电子商务等多个方面) , 他在与m e r z 合著的w 曲数据仓库构建指南一书中也对构建w e b 数据仓库的 难点以及存在的问题进行了论述。 由于起步较晚,与国外相比,国内在数据仓库以及数据挖掘方面的研究有着 较大的差距,目前从事这方面研究的人员主要在大学以及一些研究机构,而且大 多集中于挖掘算法的研究、数据仓库与数据挖掘的实际应用,以及相关理论方面 的研究,还没有出现像国外那样适于商用化的软件产品,而在w e b 数据仓库以 及w e b 数据挖掘方面的研究更是处于比较落后的阶段,数据的采集和分析都没 有达到能支持网站经营者做出决策的地步。因此,对该方面的研究在国内依然有 很大的空间和很好的应用前景。 1 3 本文的主要研究内容 数据仓库和数据挖掘是两个与海量数据关系密切的概念或思想,为了寻求一 种针对销售自动化系统中存储的大量的w e b 点击流数据的合理的解决方案,本 文将数据仓库和数据挖掘思想引入到销售自动化系统点击流数据存储和分析中, 对几个相关的问题进行了研究,并着重解决以下几个技术问题: ( 1 ) 销售自动化系统点击流数据仓库的构建。设计合理的点击流数据仓库 ( c s d w ,c l i c k s t r e a md a t aw a r e h o u s e ) 是分析点击流数据的前提条件,因此本文 将结合w e b 数据仓库的构建技术,设计能够适合销售自动化系统点击流数据存 储的数据仓库的解决方案。 ( 2 ) 点击流数据的收集。点击流数据的格式和内容对点击流数据预处理的 复杂性都有影响,传统的点击流数据之所以在数据预处理中耗费大量的时间,原 因之一在于其来源是一种历史数据,使用者无法在收集数据的同时对数据进行必 要的处理。本文针对这个难点,提出了动态点击流收集策略,并对该策略在销售 自动化系统网站中的实施过程进行了阐述和分析。 江苏大学硕士学位论文 ( 3 ) 点击流数据的分析。w e b 日志挖掘已经是分析w e b 点击流数据的惯用 方法,目前也已经有很多研究成果,本文在学习这些研究成果的基础上,提出了 一种可用于分析销售自动化系统点击流数据的用户频繁偏爱路径挖掘算法,并将 该算法应用于销售自动化系统中点击流数据的分析。 1 4 本文的组织结构 全文共分为六章,文章结构和各章节主要内容如下: 第一章绪论 本章主要介绍了本课题的研究背景及意义,国内外研究现状,并简单介绍了 本文研究的主要内容和文章组织结构。 第二章基本概念及相关技术 本章主要介绍了数据仓库及数据挖掘的基本理论,并介绍了点击流以及点击 流数据仓库的基本概念。 第三章销售自动化系统点击流数据仓库的设计与实现 本章结合销售自动化系统分析设计了点击流数据仓库( c s d w ) 的构建方案, 从总体架构、概念模型、逻辑模型、物理模型以及元数据设计几个方面详细介绍 了c s d w 的构建过程,并使用微软数据仓库构建工具对点击流数据仓库进行了 实现。 第四章动态点击流收集策略 本章主要提出了一种动态点击流数据的收集策略,从该策略的思想、设计思 路、在销售自动化系统中的实施等几个方面对其可行性进行了探讨,最后论述了 动态点击流数据较之传统的点击流数据的优点。 第五章一种频繁偏爱路径挖掘算法 本章根据在课题研究过程中发现的一些w e b 使用挖掘算法的不足,提出了 几个基本概念,分析设计了一种频繁偏爱路径挖掘算法,并利用该算法对销售自 动化系统中的点击流数据进行了挖掘分析,得出了有使用价值的信息。 第六章总结 对本课题的研究工作进行了总结,并对下一步的工作提出了展望。 4 江苏大学硕士学位论文 第二章基本概念及相关技术 本章对数据仓库和数据挖掘相关的概念和技术进行了综述,给出了点击流和 点击流数据仓库的定义,对引入w e b 后的数据仓库进行了阐述,并分析了点击 流数据仓库的特点。 2 1 数据仓库 2 1 1 数据仓库的概念 数据仓库一词尚没有一个统一的定义,最具有权威的是被誉为数据仓库之父 的w h i n m o n 提出的定义,在其著作( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书中对 数据仓库给予如下描述:数据仓库( d w ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、 集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用来支持管理人员的决策。对于数据仓库的概念,可以从两个层次 理解:首先,建设数据仓库系统的目的在于支持决策,面向分析型数据处理,它 不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集 成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据 一般不再修改。 根据数据仓库概念的含义,数据仓库具有以下四个特点【1 0 】【l l 】【1 2 】: ( 1 ) 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系 统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。数据仓库 将这些数据集中于一个地方,在这种结构中,对应某个主题的全部数据被存放在 同一数据表中,这样决策者就可以非常方便地在数据仓库中的一个位置检索包含 某个主题的所有数据。主题是一个抽象的概念,是指用户使用数据仓库进行决策 时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 ( 2 ) 数据集成。面向事务处理的操作型数据库通常与某些特定的应用相关, 数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散 的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除 源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信 江苏大学硕士学位论文 息。 ( 3 ) 数据相对稳定。操作型数据库中的数据通常是即时更新,数据根据需 要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作 主要是数据查询,旦某个数据进入数据仓库以后,一般情况下将被长期保留, 也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要 定期的加载、刷新。 ( 4 ) 数据随时间变化。操作型数据库主要关心当前某一个时间段内的数据, 而数据仓库中的数据只增加不删除,使得数据仓库中的数据总是拥有时间维度。 通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时 点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋 势做出定量分析和预测。 数据仓库有别于传统数据库,数据仓库的概念是在数据库深入应用的基础上 提出的,所以一个企业要建设数据仓库系统,必须在该企业已经建立完善的信息 系统且已经积累了大量的历史数据的基础上【1 1 儿12 1 。数据仓库提供了一个把企业 内部的各种异构数据源进行集成,消除信息孤岛,统一企业内部视图,能帮助管 理人员进行决策的一个信息平台。把信息加以整理归纳和重组,并及时提供给相 应的管理决策人员,是数据仓库的根本任务1 1 3 】。 2 1 2 数据仓库的体系结构 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供 他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任 务。因此,数据仓库体系应由可操作的外部数据源、一个多个数据库和一个多 个数据分析工具组成。从产业界的角度看,数据仓库建设是一个工程,是一个过 程。其实现过程应包括三大步骤:汇集各种源数据( g e t t i n gd a t ai n ) 、存储并管理 数据( m a n a g i n gt h ed a t a ) 和获取所需信皂, ( g e t t i n gd a t ao u t ) 。具体分为: 从任何业务处理系统源中取出决策所需数据; 对数据源进行清理和整合; 6 江苏大学硕士学位论文 按计划或规划进行数据仓库的装载和更新; 根据决策支持系统的需要,以多种形式进行数据和信息的知识化; 决策数据分析处理能力及数据挖掘; 灵活多样的结构表现形式。 整个数据仓库系统是一个包含四个层次的体系结构,具体如图2 1 【1 4 】。 外部数据 卜 数据源 数据集市 数据存储与管理o l a p j 擎 前端工具与应用 图2 1 数据仓库系统体系结构 ( 1 ) 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括 企业内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据 和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 ( 2 ) 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关 键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库, 同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据 仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数 据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆 盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 ( 3 ) o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组 织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中; m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于 r d b m s 之中,聚合数据存放于多维数据库中。 7 江苏大学硕士学位论文 ( 4 ) 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据 挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具 主要针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 2 1 3 数据仓库的数据组织 1 数据的组织结构 在数据仓库中,通常采用分级的方式进行数据组织,一般包括早期细节数据、 当前细节数据、轻度综合数据、高度综合数据以及元数据【1 5 】【1 6 1 。一般的数据组 织结构如图2 2 。 肖出 uu 觥 兀 数 据 当韵 7 i 图2 2 数据仓库的数据组织结构 ( 1 ) 早期细节数据 存储过去的详细数据,反映真实的历史情况。这类数据随着时间增加,数据 量很大,使用频度低,一般存储在转换介质中。 ( 2 ) 当前细节数据 最近的各种业务数据,反映当前业务的情况,是数据仓库用户最感兴趣的部 分。随着时间的推移,当前细节数据由数据仓库的时问控制机制转为早期细节数 据。 ( 3 ) 轻度综合数据 从当前基本数据中提取出来,通常以较小的时间段或相应维度统计而形成的 8 江苏大学硕士学位论文 数据量较小的数据。 ( 4 ) 高度综合数据 这一层的数据十分精练,是一种准决策数据,粒度水平的数据比其它水平的 数据量小得多。 ( 5 ) 元数据 元数据( m e t a d a t a ) 是关于数据的数据,是描述数据仓库内数据结构和建立方 法的数据,是整个数据仓库的核心。元数据在数据仓库中的用途有:辅助决策分 析过程中定位数据仓库的目录;数据从业务环境向数据仓库环境传送时数据仓库 的目录内容;指导从近期基本数据到轻度综合数据和高度综合数据的综合算法选 择。可将其按用途分为两类:技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据 ( b u s i n e s sm e t a d a t a ) 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数 据仓库的数据,主要包括数据仓库结构的描述( 各个主题的定义,星型模式或雪 花型模式的描述定义等) 、对数据稽核规则的定义和数据仓库定义描述与装载描 述( 包括c u b e 的维度、层次、度量以及相应事实表、概要表的抽取规则) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实 际系统之间的语义层,业务元数据包括以下信息:使用者的业务术语所表达的数 据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法 及公式、报表信息。 数据由操作型环境导入数据仓库,一旦数据过期,就由当前细节级进入早期 细节级。综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数据 级进入高度综合数据级。相当数量的数据转换通常发生在数据由操作层向数据仓 库传输的过程中。 2 数据粒度 粒度模型是开发数据仓库过程中要解决的主要问题之一。粒度是指数据仓库 的数据单位中保存数据的细化或综合程度的级别。数据粒度越小,信息越细节, 数据量越大;数据粒度越大,忽略了众多的细节,数据量越小。粒度的具体划分 将直接影响数据仓库中的数据量以及查询质量。综合程度不同的数据其用途也不 相同,在数据仓库中多重的数据粒度是必不可少的,往往这是数据仓库必须提供 高效的各种o l a p 分析查询所决定的。 9 江苏大学硕士学位论文 3 数据分割 数据的分割是数据仓库中的重要概念。数据分割是指把数据分散到各自的物 理单元中去,它们能独立地处理,提高数据的查询处理效率。分割使得数据可以 更容易索引、监控和顺序扫描。数据分割没有固定的标准,分割的方法和粒度应 当根据实际情况来定。分割方法常常可以选择时间、地点、业务领域和对数据的 访问频率等来划分。按照时间进行分割符合数据仓库数据随着时间变化的特点, 并且分割后数据分布比较均匀,所以是最常用的分割方法。 2 1 4 数据仓库的数据模型 数据模型是构建数据仓库的核心问题之一。用于传统的操作型o l t p 数据 库的e r 模型已不再适用,因为e r 模型建立数据库的目标是:消除数据模型 中的冗余;能够恢复某些含有特定标记的单个记录;优化在线事务处理的功能。 而数据仓库存储数据的目的是方便用户提交复杂的查询需求,并能够快速进行响 应,对事务并发处理的要求很低。 目前最流行的数据仓库数据模型是多维数据模型。这种模型可以以星型模 式、雪花模式和事实星座模式存在。 ( 1 ) 星型模型( s t a rs c h e m a ) ,它是最常用的数据仓库设计结构的实现模式, 其中包括:一个大的包含大量数据和不含冗余的中心表( 事实表) ;一组小的附 属表( 维表) ,每维一个。 在星型模型中,每维只用一个表表示,每个表包含一组属性。一个维表中的 属性可形成一个层次( 全序) 或格( 偏序) 结构。 ( 2 ) 雪花模型( s n o w f l a k es c h e m a ) ,它是星型模型的变种,其中某些维表 作了规范化的处理,因而把数据进一步分解到子表中。 雪花模型和星型模型的主要差别在于:雪花模型的维表可能是规范化形式, 以减少冗余。这种表易于维护,可以节约存储空间,因为当维结构作为列包含在 内( 不作规范化处理) 时,大维表可能很大,但与海量的事实表相比,这种空间 上的节约可以忽略。此外,由于执行查询需要更多的连接操作,雪花模型可能会 降低查询的性能。因此,在数据仓库设计中,雪花模型不如星型模型流行。 ( 3 ) 事实星座( f a c tc o n s t e l l a t i o n ) ,复杂的应用可能多个事实表需要共享维 1 0 江苏大学硕士学位论文 表,这种模型可以看作是星型模型集,因此称为星系模型或事实星座。 2 1 5 数据仓库的e t l 数据仓库的e t l 是指数据抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 、装载 ( l o a d i n g ) 的过程,是构建数据仓库的重要环节。它从运作资源中抽取数据并按照 一定的要求将数据进行转换,最后将高质量的数据装载到数据仓库或数据集市 中,为更高层次的应用提供决策分析。e t l 规则设计和实施在数据仓库中占据了 相当大的工作量,约占整个项目的6 0 8 0 ,这是国内外从众多实践中得到的 普遍共识【1 7 1 。数据仓库的e t l 处理过程如图2 3 。 烈恐。 数据源l 叫s 1i _ s l jij铭盖, l 。 干净的 r 数据表 p 转换t 图2 3 数据仓库的e t l 过程 ( 1 ) 数据抽取。数据抽取就是从原始的操作型数据库环境中预提取与分析 主题相关的数据到数据仓库中去。 ( 2 ) 数据转换。数据转换是使数据达到形式上的统一,主要有一致性转换, 格式转换,集成转换( 如数据汇总、多表、多字段合并等) 掣1 3 】。 ( 3 ) 数据装载。数据装载就是将处理过的数据转移到数据仓库中去。数据 装载的方式一般可以有全量装载、增量装载和完全刷新。 2 1 6 数据仓库工具 目前,数据仓库业内拥有1 0 0 多家厂商,其中比较著名的厂商有i b m 、o r a c l e 、 s y b a s e 、m i c r o s o f t 、s a s 、i n f o r m i x 等。常用的数据仓库工具如下:i b mv i s u a l w a r e h o u s e 、o r a c l ee n t e r p r i s em a n a g e r 、s y b a s ew a r e h o u s es t u d i o 、m i c r o s o f ts q l s e r v e r 、s a sw a r e h o u s ea d m i n i s t r a t o r 等。 本文所研究的点击流数据仓库是以某公司销售自动化系统为原型设计的,该 系统的数据库采用m i c r o s o f ts q ls e r v e r 2 0 0 0 ,因此,本文在描述销售自动化系 江苏大学硕士学位论文 统点击流数据仓库的设计及实现过程中使用的也是微软的数据仓库工具。 2 2 数据挖掘 2 2 1w e b 数据挖掘 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提 取隐含在其中的、人们所不知道的但又是潜在有用的信息和知识的过程。数据挖 掘是崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进 行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据, 数据挖掘实际上是一类深层次的数据分析方法。 w e b 数据挖掘,从字面意义上,可以简单的理解为在w e b 数据上实施数据 挖掘,其涉及w e b 技术和数据挖掘技术等多个方面。w e b 数据挖掘与传统的数 据挖掘有很大的不同,例如,w e b 数据挖掘的对象大多是异质的分布的w e b 文档, 这些数据可能是无结构化的杂乱无章的,因此w e b 数据挖掘比传统意义上基于 关系型数据存储的数据挖掘具有较高的难度。w e b 数据挖掘根据挖掘对象的不同 一般可分为三类【1 8 】:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e b s t r u c t u r em i n i n g ) 和w e b 使用挖掘( w e bu s a g em i n i n g ) 。本文所涉及的数据挖掘方 法属于w e b 使用挖掘的范畴,因此在下面着重介绍这方面的知识。 w e b 使用挖掘即w e b 日志挖掘,是指采用数据挖掘的技术,通过对w e b 服 务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有 趣、新颖、潜在有用以及可理解的未知信息和知识,用于分析站点的使用情况, 从而辅助管理和支持决策。根据应用的不同,w e b 使用挖掘可分为两个主要方向: 一般访问模式跟踪和定制使用跟踪。w e b 使用挖掘得到的用户使用模式主要有以 下几个方面的应用【1 9 1 : ( 1 ) 定制个性化服务。根据用户访问路径的分析,生成用于导航的用户局 部网络视图;根据对用户群体的聚类,找出用户簇的共同访问特征,生成基于用 户共同兴趣的导航视图。 ( 2 ) 系统性能改进。通过对w e b 服务器日志文件进行分析,例如用户频访 问页面、单位时间访问频度、访问量的时间分布等,改进系统性能。 1 2 江苏大学硕士学位论文 ( 3 ) 站点结构优化。对用户的频繁浏览路径、访问模式及倾向进行分析, 发现某些页面的逻辑关联,得到用户访问模式信息并充分利用这些信息,调整页 面之间的链接关系,优化站点结构。 ( 4 ) 商业智能。通过对用户浏览行为和购买行为特征的关联分析,能够更 好的理解用户购买意图,预测用户的购买趋势,并根据这一信息制定合理的网络 营销及广告策略。 2 2 2w e b 数据预处理 传统的w e b 数据挖掘数据源基本来源于w e b 日志,从图2 4 f 1 9 】电子商务规范 的体系结构中可以发现这种w e b 日志文件存在很多问题,由于本地缓存、代理 服务器、防火墙的存在,使得w e b 日志中的数据并不精确,直接进行挖掘分析 有可能出现错误结果。 楚 镉 旺 魍 匿 愈 窭 藻 图2 4 电子商务信息系统规范体系结构 ( 1 ) 本地缓存的影响:为了提高网络性能减少数据传输量,大部分浏览器 提供缓存刚刚访问过的页面,当用户点击“后退”按钮时,显示的其实是本机缓 存的页面,并没有向w e b 服务器发送新的请求,而此时w e b 服务器并不知道用 户又访问了重复的页面。 江苏大学硕士学位论文 ( 2 ) 代理服务器的影响:代理服务器为用户提供了中间缓存,使得从服务 器请求的页面在一段时间内可以被多个用户浏览,这就更增加了w e b 日志挖掘 的复杂性。同时,在w e b 服务器的日志中通常不包含用户的标识信息,多个用 户通过代理服务器的请求在日志中具有相同的标识符一即代理服务器的i p 地址, 这样很难从w e b 日志中准确判断出每个访问者。 ( 3 ) 防火墙的影响:出于安全考虑,许多公司为内部的局域网设置了防火 墙。在这种情况下,不同的用户请求在w e b 服务器的日志中记录的是防火墙的 i p 地址,这样就带来了与代理服务器同样的问题。 由于w e b 日志数据的不完整性以及噪音数据较多,因此进行数据预处理是 十分必要的。w e b 数据预处理一般包括数据净化、用户识别和会话识别等。图 2 5 是数据预处理的一般流程。 会 r 爱卜 数 用话事 弋筻 件卜_ l n 据 户 事务 燃拦卜 净 斗 6 识 务兀 件卜_ 化 别识 善 、j 别 图2 5 数据预处理流程 数据净化:指删除w e b 服务器日志中与点击流分析处理无关的数据。 用户识别:指识别出访问网站的每一个用户。这是分析单个用户行为的前提 条件。 会话事务识别:会话事务识别的目的是为每个用户建立有意义的页面组合, 将用户点击流分成多个小的访问事务或合并成更大的访问事务。 事务完善:由于本地缓存和代理服务器缓存的存在,使得服务器的日志会遗 漏一些重要的页面请求。事务完善的任务就是将这些遗漏的请求补充到用户会话 中。 2 3 点击流与点击流数据仓库 2 3 1 点击流的定义 广义上的点击流,就是指访问者在网络上的持续的访问轨迹【2 。点击流是 1 4 江苏大学硕士学位论文 一个用户在网络上的行为记录,这个记录中包括用户浏览的每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论