(计算机软件与理论专业论文)数据挖掘中可视化技术研究与实现.pdf_第1页
(计算机软件与理论专业论文)数据挖掘中可视化技术研究与实现.pdf_第2页
(计算机软件与理论专业论文)数据挖掘中可视化技术研究与实现.pdf_第3页
(计算机软件与理论专业论文)数据挖掘中可视化技术研究与实现.pdf_第4页
(计算机软件与理论专业论文)数据挖掘中可视化技术研究与实现.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近几十年来,随着计算机硬件和软件的迅速发展,尤其是i n t e r n e t 技术的 快速进步,人们收集到的数据以令人吃惊的速度日益增加,形成了一个浩瀚无边 的数据海洋。如何从海量数据中寻找到隐藏在数据背后的有用知识成为了一个热 门的研究课题。数据挖掘正是解决这样一个问题的新兴领域。在数据挖掘中,可 视化技术有着广泛的应用。在数据挖掘中使用可视化技术,让我们可以结合人的 视觉优点和主观认知,使数据挖掘过程具有直观性和可交互性,从而挖掘出更有 价值并易于理解的信息。本文在一个基于w e b 的分布式挖掘系统m i n e r o n w e b 的 基础上,对数据挖掘中的可视化技术及其实现进行了重点研究。 本文阐述了数据挖掘系统m i n e r o n w e b 的详细设计与实现。m i n e r o n w e b 系 统是为了给用户提供在线的数据挖掘服务而设计的系统。它的开发遵循j 2 e e 规 范,采用了s t r u t s 架构。它主要集成了一些成熟的分类、聚类和关联规则挖掘算 法,能够处理多种文件格式的数据。基于这个系统,本人重点研究和分析了两种 数据挖掘可视化技术,然后将这些技术在m i n e r o n w e b 中加以实现: 1 12 维柱状图:与传统的柱状图不同,这种柱状图的横坐标表示一个数据维 ( 属性) ,纵坐标表示数据记录数。这样我们可以看出数据在这个属性上的 分布情况。柱图上的颜色表示第二个数据维( 属性) ,不同的颜色表示不同 的属性值。通过这样的图形化方式,我们可以同时观察到两个数据属性的分 布情况以及两个数据属性之间的联系。 2 1基于星型坐标系的散点图:这是一种将多维空间内的数据映射成二维平面上 的点的方法。每一个数据维被都被映射成二维平面上的轴线,这些轴线都相 交于一个中心点,构成星型坐标系。然后数据在被最大最小规格化之后,通 过一种被称为0 【映射的方法映射n - 维平面的星型坐标系中。二维平面上的 数据点可以通过用户调节0 c 值来动态地显示,使用户得以从不同角度观察数 据。由于这种可视化技术非常适合聚类数据的可视化,本文基于这种可视化 技术,讨论和分析了一种基于人工标记的可视化聚类分析方法,归纳了两条 用于发现聚类的规则,然后将这种可视化技术与自动聚类算法相结合,研究 了一种基于聚类算法的交互式可视化聚类分析方法。 关键字:数据挖掘,可视化,星型坐标系,0 c 映射,柱状图,m i n e r o n w e b 垒! ! 堡垒垡一 一 a b s t r a c t i nm er e c e n ts e v e r a ld e c a d e s ,w i t ht h ef a s td e v e l o p m e n to ft h ec o m p u t e rh a r d w a r e a n ds o f t w a r e ,e s p e c i a l l yt h eg r e a ta d v a n c ei ni n t e r n e tt e c h n i q u e s ,t h ev o l u m eo ft h ed a t a w h i c hp e o p l eh a v ea c c u m u l a t e di sn o wi n c r e a s i n gv e r yf a s t t h ew h o l ev o l u m ei s s o l a r g et h a ti ti sh a r dt of i n dk n o w l e d g eh i d d e ni ns u c hal a r g ed a t as e t t h i si s ap r o b l e m b e i n gs t u d i e db ym a n yp e o p l en o w a d a y s d a t am i n i n g i soneo ft h ew a y st os o l v et h i s p r o b l e m i nd a t am i n i n g ,v i s u a l i z a t i o np l a y s a i li m p o r t a n tr o l e 。v i s u a l i z a t i o ni nd a t a m i n i n gl e t su sc o m b i n et h ev i r t u eo fh u m a nb e i n g sv i s i o na n dd o m a i nk n o w l e d g e w i t h t h a to fd a t am i n i n g t h i sc o m b i n a t i o nm a k e st h ep r o c e s so fd a t am i n i n gi n t u i t i o n i s t i c a n di n t e r a c t i v e ,a n dt h u sg a i n sm o r ev a l u a b l ea n dm o r eu n d e r s t a n d a b l ei n f o r m a t i o n i n t h i sp a p e r ,w ef o c u so nt h ev i s u a l i z a t i o nt e c h n i q u e si nd a t am i n i n g ,a n di m p l e m e n t t h e m i naw e bb a s e dd i s t r i b u t e dd a t am i n i n gs y s t e m ,c a l l e dm i n e r o n w e b i nt h i sp a p e r ,w ei n t r o d u c et h es p e c i f i cd e s i g na n di m p l e m e n t a t i o no ft h ed a t a m i n i n gs y s t e mm i n e r o n w e b m i n e r o n w e bi s as y s t e mw h i c hi sd e s i g n e dt op r o v i d e d a t am i n i n gs e r v i c eo nl i n e i ti sc o n s t r u c t e du n d e rt h es t r u t sf r a m e w o r ka c c o r d i n gt o j 2 e ec r i t e r i a i ti n t e g r a t e sag r o u po fa l g o r i t h m sr e l a t e dt oc l a s s i f i c a t i o n ,c l u s t e r ,a n d a s s o c i a t i o nm i n i n g i ti sa b l et oc o p ew i t hd a t ai ns e v e r a lk i n d so ff o r m a t w em a i n l y f o c u so nt w ov i s u a l i z a t i o nm e t h o d sa n dt h e i ri m p l e m e n t a t i o ni nm i n e r o n w e b : 1 、2 - d i m e n s i o n a lh i s t o g r a m :d i f f e r e n tf r o mt h et r a d i t i o n a lh i s t o g r a m ,t h ex - a x i so f t h i sh i s t o g r a mr e p r e s e n t so n ed i m e n s i o n ( a t t r i b u t e ) ,w h i l et h ey a x i sr e p r e s e n t sm e n u n l b e ro fd a t ar e c o r d s i nt h i sw a y , w ec a nf i n dt h ed i s t r i b u t i o no ft h i sd i m e n s i o n t h e c 0 1 0 ri nt h eh i s t o g r a md e n o t e sa n o t h e rd i m e n s i o n ( a t t r i b u t e ) d i f f e r e n t c o l o r s d i s t i n 娜i s hd i f f e r e n tv a l u e so ft h i sd i m e n s i o n t h e r e f o r e ,w ec a l lf i n dt h ed i s t r i b u t i o no f b o t hd i m e n s i o n sa n dt h er e l a t i o n s h i pb e t w e e nt h e mt h r o u g ht h i sv i s u a l i z a t i o n 。 2 ) s c a t t e rp l o t sb a s e do ns t a rc o o r d i n a t e s :t h i si sam e t h o dw h i c hp r o j e c t sm u l t i - d i m e n s i o n a ld a t at o2 - d i m e n s i o n a lp l o t s e v e r yd i m e n s i o ni sp r o j e c t e dt oa l la x i si nt h e 2 , d i m e n s i o n a lp l a n e a l lt h ea x e si n t e r s e c t a to n eo r i g i n a lp o i n tt of o r mas t a r c o o r d i n a t e s a f t e rb e i n gn o r m a l i z e db yam a x m i nn o r m a l i z a t i o n ,d a t aa r ep r o j e c t e dt o t h e2 - d i m e n s i o n a lp l a n eb yam a p p i n gm e t h o dc a l l e da m a p p i n g t h ep l o ti nt h e2 i i a b s t r a c t d i m e n s i o np l a n ec a nb ed i s p l a y e di nad y n a m i cw a yt h r o u g hc h a n g i n g0 【v a l u e ,w h i c h m a k e si tp o s s i b l ef o ru s e r st oo b s e r v ed a t ai nd i f f e r e n td i r e c t i o n s a st h i sv i s u a l i z a t i o n m e m o di ss u i t 曲l ef o rt h ev i s u a l i z a t i o no fc l u s t e rd a t a w er e s e a r c hi n t oa ni n t e r a c t i v e v i s u a l i z e dm a n u a lc l u s t e r i n gm e t h o d ,a n ds u m m a r i z et w or e g u l a t i o n su s e dt of i n d c l u s t e r s w et h e nr e s e a r c hi nac l u s t e ra l g o r i t h mb a s e di n t e r a c t i v ev i s u a l i z e dc l u s t e r i n g m e t h o d ,w h i c ht a k e sa d v a n t a g eo fb o t hv i s u a l i z a t i o nt e c h n i q u e sa n da u t o m a t e d c l u s t e r i n ga l g o r i t h m s k e y w o r d s :d a t am i n i n g ,v i s u a l i z a t i o n ,s t a rc o o r d i n a t e s ,am a p p i n g ,h i s t o g r a m , m i n e r o n w e b i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的 说明并表示谢意。 签名:趟 日期:2 。印年牛月z 午日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 0 、 繇瑙导师签确秋 日期:2 0 0 年年月砰日 第章绪论 1 1 数据挖掘背景及展望 1 1 1 数据挖掘的产生 第一章绪论 半个世纪以来,计算机与信息技术的发展,给人类社会带来了巨大的变化与 影响。随着人类活动范围的扩展,生活节奏的加快,以及技术的进步,人们能以 更快速、更容易、更廉价的方式获取和存储数据,使得数据及其信息量以指数方 式迅速地增长【l 】。特别是近年来,i n t e r n e t 技术的迅速发展,使得计算机、网 络、通信合而为一。这样,展现在人们面前的已不是局限于本部门,本单位和本 行业的庞大数据库,两是浩瀚无垠的信息海洋。 数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它只是 描述了客观世界所发生事情,它本身没有任何意义,并不能构成决策或行动的可 靠基础。从数据到知识,从知识再到智慧,需要经过分析加工、处理精炼的过 程。通过对数据进行分析并找出其中的关系,赋予数据以某种意义和关联,这就 形成所谓信息;信息虽然给出了数据中一些有一定意义的东西,但它往往和需要 完成的任务没有直接的联系,还不能作为判断、决策和行动的依据;对信息进行 再加工,即进行更深入的归纳分析,方能获得更有用的信息,即知识。而所谓知 识,可定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度 发现的”。从信息中理解其模式,即形成知识。在大量知识积累的基础上,总结 出原理和法则,就形成所谓的智慧。事实上,一部人类文明发展史,就是在各种 活动中,知识的创造、交流、再创造、不断积累的螺旋式上升的历史 2 1 。 数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为 “数据丰富,但知识贫乏”,快速增长的海量数据收集、存放在大型和大量数据 库中,没有强有力的工具,理解它们已经远远超出了人的能力。结果,收集在大 型数据库中的数据变成了“数据坟墓”难得再访问的数据档案【3 】1 4 】【5 】。如何理 解已有的历史数据,如何从浩如烟海的数据中快速、准确地获得隐藏的有用知识 并用于预测未来的行为,创造更大的效益是一个迫切需要研究的课题。 电子科技大学硕士学位论文 知识发现和数据挖掘就是肩负着这样的历史使命而出现的,并成为一个新兴 的研究领域。知识发现( k n o w l e d g ed i s c o v e r y ,简称k d ) 和数据挖掘( d a t a m i n i n g ,简称d m ) 是集统计学、人工知识、模式识别、并行计算、机器学习、数 据库等技术的一个交叉性的研究领域。l ( d d ( 从数据库中发现知识的英文简称) 一词首先出现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议上。k d d 是近 年来一个十分活跃的研究领域。到目前为止,k d d 的研究重点逐渐从发现方法的 研究转向实际的系统应用,注重多种发现策略和技术的集成,以及多种学科之间 的相互渗透州。 数据挖掘可以视为是数据管理与分析技术的自然进化产物。从二十世纪6 0 年代开始,数据库及信息技术逐步从基本的文件处理系统,到关系数据库系统、 数据建模工具、索引与数据组织技术,再迅速地发展到功能更为强大复杂的异构 数据库系统和基于互联网的全球信息系统。早年受技术条件的限制,一般用人工 方法进行统计分析,用批处理程序进行汇总和提出报告。随着数据量的增长和市 场变化的加速,人们提出了能进行实时分析和产生相应报表的在线分析工具 o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 。o l a p 是数据分析手段的一大进步,它 是由用户指导的信息分析与知识发现过程。若想及时、准确地做出科学的经营决 策,以适应迅速变化的市场环境,就需要有基于计算机与信息技术的智能化的数 据分析工具,来帮助挖掘隐藏在数据中的各类知识。要达到上述要求,单借助于 一般数学分析方法是很难实现的。多年来,数理统计技术方法、人工智能以及知 识工程等领域的研究成果,给开发这类数据分析的工具提供了坚实而丰富的理论 和技术基础【7 】。 数据挖掘工具可以从大量数据中发现隐藏的特定模式和规律,从而可以为商 业活动、科学探索和医学研究等诸多领域提供必需的信息知识。数据与信息知识 之间的巨大差距迫切需要系统地开发数据挖掘工具,帮助实现将“数据坟墓”中 的数据转化为知识财富【8 1 。 1 1 2 数据挖掘的发展现状 数据库和数据仓库技术的逐步发展与完善满足了快速增长的海量数据的存储 需要,当今数据库的容量已经达到上万亿的水平,但发现并理解隐藏在海量数据 背后的知识已经远远超出了人的能力。知识发现和数据挖掘就是为决策者提供重 要的、前所未料的信息和知识,从而产生不可估量的效益。 2 第一章绪论 数据挖掘技术是人们长期对数据库技术进行研究开发的结果。目前,商业数 据库正以空前的速度增长,并且数据仓库正在广泛地应用于各种行业;另外数据 挖掘算法的研究经过了十多年的发展,使数据挖掘已经逐步成为一种成熟、稳定 且易于理解和操作的技术。数据挖掘涉及到许多其它的研究领域,包括多元统计 ( 主要有组件分析、聚簇分析和多维缩放) ,数据库接口( 协作数据库接口、模 糊查询接口和数据智能浏览) ,和信息检索( 近似匹配算法) 【9 】。数据挖掘的核 心技术经历了数十年的发展,其中包括数理统计、人工智能、机器学习技术以及 高性能的关系数据库引擎和广泛的数据集成。 数据挖掘所能够带来的巨大效益,使得k d d 和叫技术的研究具有了重大意 义,并且被列为数据库研究领域中最重要的课题之一。正因为如此,虽然数据挖 掘是一个新兴的领域,但其发展的速度很快。在过去的几年中,人们在这一领域 取得了重大的进步:发现了许多新的数据挖掘技术,并实现了一些先进的数据挖 掘系统。世界上比较有影响的典型数据挖掘系统有:s a s 公司的e n t e r p r i s e m i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的s e t m i n e r 、s p s s 公司的 c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l e q u e s tr e s e a r c h 公司的 s e e 5 、还有c o v e r s t o r y 、e x p l o r a 、k n o w l e d g ed i s c o v e r yw o r k b e n c h 、 d b m i n e r 、q u e s t 等【1 0 1 。然而为满足不断变化的需求,很多问题需要深入研究, 并需要增加新特性和可视化的工具来扩充数据挖掘系统的功能;同时对数据挖掘 语言的标准化工作也正在进行当中。 与国外相比,国内对数据挖掘与知识发现领域的研究稍晚,没有形成整体的 科研力量。目前,国内的许多科研单位和高等院校竟相开展数据挖掘与知识发现 的基础理论及其应用研究。其中包括对模糊方法在知识发现中的应用的深入研 究,对数据立方体代数的研究,对关联规则开采算法的优化和改造;探讨、研究 非结构化数据的知识发现以及w e b 数据挖掘等各个方面 1 h 。 1 1 3 数据挖掘的前景展望 当前,对数据挖掘和知识发现d m k d ( d a t am i n i n ga n dk n o w l e d g e d i s c o v e r y ) 研究方兴未艾,其研究与开发的总体水平相当于数据库技术在7 0 年代所处的地位,并且迫切需要类似于关系模式、d b m s 系统和s q l 查询语言等 理论和方法的指导,才能使d m k d 的应用得以普遍推广。 数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课 3 电子科技大学硕士学位论文 题。数据挖掘语言的设计;高效的数据挖掘方法和系统的研发;交互和集成的数 据挖掘环境的建立;以及应用数据挖掘技术解决大型的应用问题等,都是目前数 据挖掘研究人员,系统和应用开发人员所面l 临的主要问题。预计在未来的一段时 间内,数据挖掘的研究会持续深入下去,研究焦点集中在以下几个方面【1 2 】: ( 1 ) 应用的扩展。早期的数据挖掘应用主要集中在帮助企业提升竞争能 力。随着数据挖掘的日益普及,其应用范围也不断扩展,如生物医学,金融分析 和电信等领域。此外,随着电子商务和电子市场逐渐成为零售业的主流,数据挖 掘也在不断扩展在商业领域的应用。通用数据挖掘系统在处理特定应用问题时有 其局限性,因此目前的一种趋势是开发针对特定应用的数据挖掘系统。 ( 2 ) 可伸缩的数据挖掘方法。与传统的数据分析方法相比,数据挖掘必须能 够有效地处理海量数据,并且尽可能是交互式的。由于不断增长的数据量,针对 单独的和集成的数据挖掘功能的可伸缩算法显的十分重要。一个重要的方向是所 谓基于约束的挖掘方法( c o n s t r a i n t b a s e dm i n i n g ) ,它是致力于在增加用户 交互的同时如何改进挖掘处理的总体效率并提供了额外的控制方法,允许用户说 明和使用约束,引导数据挖掘系统对感兴趣的模式进行搜索。 ( 3 ) 数据挖掘与数据库系统、数据仓库系统与w e b 数据库系统的集成。当 前的数据库系统、数据仓库系统和w w w 已经成为信息处理系统的主流。数据挖 掘作为基本的数据分析模块能够集成到此类信息处理环境中,是十分重要的。将 事务管理,查询处理,联机分析处理与联机分析挖掘集成在一个统一框架中,将 能保证数据的可获得性和数据挖掘的可移植性、可伸缩性、高性能,以及获得对 多维数据的分析和扩展的信息集成处理环境。 ( 4 ) 数据挖掘语言的标准化。标准的数据挖掘语言或其它方面的标准化工作 将有助于数据挖掘的系统化开发,改善多个数据挖掘系统间的互操作性,并促进 数据挖掘系统在各领域的广泛应用。 ( 5 ) 可视化数据挖掘。可视化数据挖掘是从大量数据中发现知识的有效途 径。系统地研究和开发可视化数据挖掘技术有助于数据挖掘工具得到普遍推广与 应用。 ( 6 ) 复杂数据类型挖掘的新方法。复杂数据类型挖掘是数据挖掘研究领域中 一项重要的前沿课题。虽然在地理空间挖掘,多媒体挖掘,时序挖掘,序列挖 掘,以及文本挖掘方面取得一些进展,但与实际应用的需要仍存在很大的差距, 尤其是把针对上述数据类型的现存数据分析技术与数据挖掘方法集成起来的研 究。 4 第一章绪论 ( 7 ) w e b 挖掘。由于w e b 上存在大量数据信息,并且w e b 在当今社会扮演 越来越重要的角色,有关w e b 内容的挖掘将成为数据挖掘中一个重要和繁荣的 子领域。 ( 8 ) 数据挖掘中的隐私保护与信息安全。随着数据挖掘工具和电信业与计算 机网络的日益普及,数据挖掘面对的一个重要问题是隐私保护和信息安全问题, 需要进一步研究有关策略,以便在适当的信息访问和挖掘过程中确保隐私保护与 信息安全。 ( 9 ) 数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的挖 掘。为了处理这些复杂的数据,需要一些新的和更好的分析和建立模型的方法; 同时还涉及到一些相关的工具和软件的开发工作,这些工具是为了处理这些复杂 和独特数据而准备的。 1 2 数据挖掘中可视化技术的应用及研究意义 1 2 1 数据挖掘中可视化技术的研究现状 可视化技术在数据挖掘中有着广泛的应用。它在理解奇异数据,数据检测, 理解数据挖掘模型上都具有重要的作用。近年来出现的一种趋势表明:某些特定 领域的数据挖掘和可视化技术结合得十分紧密,整个数据挖掘过程都在可视化的 环境中进行,成了一种可视化数据挖掘。数据挖掘可视化的目的是提供一个可视 化和数据挖掘的融合环境,以提高整个数据挖掘的有效性。 从数据挖掘的整个过程来看,可视化技术应用于数据挖掘主要有以下几个方 面【1 3 】: ( 1 ) 如图i - i ( a ) 所示。作为观察”数据山”的第一步,应用于数据预处理阶 段。以图形方式提供一个数据的可视印象,给用户一个大体直观感觉,帮助用户 确定从何处着手进行挖掘。 ( 2 ) 如图卜1 ( b ) 所示。作为直接进行数据挖掘的一种方式,应用于数据挖掘 实施阶段,允许用户借助人脑的探索分析功能寻找和发现模式。当人脑可以对显 示的图形实时做出判断时,这种方式较使用计算机的自动数据挖掘技术要有效得 多。 ( 3 ) 如图i - i ( c ) 所示。作为显示挖掘结果和预测模型得一种方式,应用于数 据挖掘的最后阶段,使最终用户能够更好地理解挖掘出的结果模式。 5 电子科技大学硕士学位论文 【数据1 j rf i 挖掘算法 l 0 l 中间结果 l i l可视化 i j r l i结果 l j r 【知识1 ( a ) 预先的可视化( b ) 中间的可视化( c ) 最后的可视化 图1 - 1 可视化技术应用在数据挖掘中的不同阶段 目前,国际上对可视化数据挖掘技术的研究主要是在两个方面【1 4 】。一方面是 对已有的可视化技术进行必要的改进,使其能够更有效更清晰地表示数据,并且 更有利于与用户的交互,为用户做决策提供更可靠的依据。据了解,已有一些数 据挖掘系统采用可视化技术,通过用户与系统的交互进行数据挖掘。这种类型的 系统有很多,如x m d v t o o l ”】、p a i n t i n g c l a s s 1 6 1 系统。x m d v t o o l 系统将四种数据可 视化方法集成到一起,这四种方法分别为平行坐标法、散点图矩阵法、图标法、 维数层叠法,并且实现了很多交互变形的技术供用户对数据进行操作,除此之 外,还将这四种可视化方法用分层的显示模式表示出来。p a i n t i n g c l a s s 系统对平 行坐标进行了两方面的改进。首先,使数据能够比较清晰地显示,通过使数据之 间保持一定的间隔和使折线呈现半透明状。其次,是通过将局部放大技术,使大 数据集能够被观察。s t a r c l a s s 系统还将星型坐标( s t a rc o o r d i n a t e s ) 结合起来发挥了 两者的优势【17 1 。这些系统对数据可视化技术的改进极大地促进了可视化数据挖掘 的发展,但是这种类型的系统也有其局限性,它们没有将可视化技术融入到数据 挖掘的过程中,多数还仅仅是在数据挖掘算法之前进行的对数据的变化规律的研 究。 6 第一章绪论 另一方面,就是将可视化技术与数据挖掘算法结合起来。这样可以发挥两者 的优势,既可以体现用户的核心作用,又可以发挥数据挖掘算法的精确性作用。 这也是可视化数据挖掘系统最理想的模式,将数据可视化方法与数据挖掘过程有 机的融合到一起,可以在数据挖掘的不同的步骤对数据进行可视化研究,将数据 可视化的优势发挥到最好的境界。这种类型的可视化数据挖掘工具目前并不多, p b c ( p c r c c p t i o n - b a s e dc l a s s i f i e r ) 【l s 】系统在这方面做出了比较突出的贡献,p b c 是 利用密度象素显示技术来对数据进行的分析,比较老的p b c 版本只是利用可视化 技术来进行数据分析。较新的p b c 版本引入了一些分类算法,通过与用户的交 互,更好的得出分类结果。 总之,目前可视化数据挖掘技术的研究现状,是在数据可视化技术不断改进 的条件下,着重将可视化技术与数据挖掘过程有机融合到一起。 1 2 2 研究数据挖掘中可视化技术的意义 传统的数据挖掘过程是以机器为中心的,而吸纳了可视化技术的新的数据挖 掘过程是以人为中心的。人们视觉的非匹配能力让其能够在很短的时间内,分析 复杂的现象,识别重要的信息,从而做出决定。人类的知觉系统能够以一种非常 灵活的方式处理各种数据类型,自动地识别出不寻常的特征,同时忽略一些平凡 的特征,对于模糊、不精确信息的处理能力强于当前的计算机系统,并且能够利 用各种知识,做出复杂的判断。以人为中心的数据挖掘过程,将数据挖掘与可视 化技术完美结合,提高了整个数据挖掘过程的灵活性、有效性、与用户的交互 性。 数据挖掘可视化技术即寻找和分析数据库,找到数据库中潜在的、有用的信 息的过程,并以直观的图形方式将信息模式、数据的关联或趋势呈现给客户。通 过可视化技术帮助决策者直观、方便地分析数据间的关系,提供给客户相关的决 策信息。可视化技术主要包括数据、模型和过程三方面的可视化。其中,数据可 视化主要有直方图、散点图和饼图等;模型可视化的具体方法则与数据挖掘采用 的算法有关,例如,决策树算法采用树形表示;而过程可视化则采用数据流图来 描述知识发现过程【1 9 1 。 数据挖掘可视化技术是一类辅助方法,它采用直观的图形方式将挖掘出来的 数据模式展现出来。数据挖掘可视化技术扩展了数据的表达力和理解力,在数据 挖掘中起着越来越重要的作用,正受到日益广泛的关注和重视。图形和可视化工 7 电子科技大学硕士学位论文 具在数据准备阶段尤其重要。可视化技术能快速直观地分析数据,它可以用一系 列二维图像重构出三维形体,并在计算机上显示出来。在图形模式下很容易找到 数据中可能存在的模式、关系和异常等,丽直接通过数据却很难发现。可视化数 据分析技术拓展了传统的图表功能,对数据的剖析更加深入,这对于揭示数据中 的内在本质以及规律性起到很大的作用【2 们。 可视化技术在数据挖掘中能起到以下作用【1 3 j :通过提供对数据和知识的可视 化,可以利用人类的模式识别能力评估和提高挖掘出的结果模式的有效性;利用 可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用自己 丰富的行业知识来规整、约束挖掘过程,改善挖掘结果;提供对挖掘结果的可视 化显示,使用户对结果模式能够有深刻直观的理解,从而打破传统挖掘算法的黑 盒子模式,使用户对挖掘系统的信赖程度大大提高。 数据挖掘可视化对于数据挖掘应用的推广有着理论和应用上的重要意义1 2 “。 一份最近的g a m l e r 报告中列举了在今后3 至5 年内最重要的五项关键技术,其中 数据挖掘和人工智能排名第一。同时,这份报告将数据挖掘列入今后5 年内公司 应该投资的1 0 个新技术领域,数据挖掘具有良好的发展和应用前景。随着数据挖 掘算法研究的成熟,市场重心开始从算法逐渐向数据挖掘应用转移,这个时候数 据挖掘可视化对于增加数据挖掘的交互性、友好性都有很重要的意义。同时,利 用可视化技术,可以形成非常友好的界面,这样数据挖掘将不再局限于某些专家 中了,利用可视化的理念开发的系统能够适用于更多的人群,而不是只为专家所 使用,对于数据挖掘的应用推广具有很重要的作用。 1 3 本文主要工作 对数据挖掘及其可视化技术的研究虽然兴起不久,但却是当今世界的研究焦 点之一。本人和实验室的数据挖掘小组成员一起,设计并实现了一个基于w e b 的 分布式数据挖掘系统,并不断完善与改进了该系统的部分功能我们研究了网络 环境下的分布式数据挖掘技术,采用基于j 2 e e 规范的s t r u t s 架构来构建该系 统。该系统集成了多种多样的成熟的数据挖掘算法,能够在线地提供挖掘服务, 使得数据挖掘服务更加经济灵活。 为了使m i n e r o n w e b 系统提供的数据挖掘服务更加直观,有效,便于用户使 用,本人将数据挖掘可视化技术作为了研究重点。本人重点研究了一种基于两个 数据维的柱状图可视化技术和一种基于星型坐标系的多维数据可视化技术。然后 8 第一章绪论 将这两种可视化技术应用到m i n e r o n w e b 系统中,设计并实现了源数据的可视 化,挖掘结果模型的可视化以及一种交互式可视化聚类挖掘方法。 t 4 本文章节安排 本文的内容共分为六章,其结构安排如下: 第一章,绪论。介绍了数据挖掘产生,发展现状和趋势,以及数据挖掘中可 视化技术的应用情况及其研究意义。 第二章,数据挖掘及其可视化概述。分别对数据挖掘和可视化技术的相关概 念和基本理论进行了概述,以方便在后面的章节中对数据挖掘和可视化技术相关 内容的理解。 第三章,数据挖掘服务系统m i n e r o n w e b 。介绍了m i n e r o n w e b 系统的开发背 景和功能特点,并详细阐述了系统的总体设计与实现,包括系统采用的技术和工 具,功能模块划分,系统结构设计,以及e j b 服务端和w e b 服务端的具体实现。 第四章,数据挖掘中可视化技术的研究。详细研究和讨论了用于数据挖掘的 源数据和挖掘结果模型的可视化技术和手段,并重点研究了一种用于聚类分析的 交互式可视化技术。本章对这种新型的交互式可视化技术的思想和原理进行了详 细地论述。这一章和下一章的内容都是本文的研究重点。 第五章,可视化模块在m i n e r o n w e b 系统中的设计与实现。分别详细阐述了 m i n e r o n w e b 系统中三个可视化子模块的设计与实现,并通过一个简单的示例来 演示这几个可视化子模块的功能及工作流程。 第六章,结论与展望。对本文的工作做一个归纳总结,并对本人今后的研究 工作进行展望。 9 电子科技大学硕士学位论文 第二章数据挖掘及其可视化概述 2 1 数据挖掘概述 本文在第一章中讨论了数据挖掘的产生,研究现状以及前景展望,下面简要 地介绍一下与本文研究相关的数据挖掘基本理论。 2 1 1 数据挖掘的基本概念 2 1 1 1 数据挖掘的定义 数据挖掘是一个新兴的学科,加之它是多学科综合的产物,目前还没有一个 完整的定义。人们提出了多种数据挖掘定义【1 】【5 1 ,这些定义都有各自的道理。总 结起来,对数据挖掘的定义有两类:广义的和狭义的。 广义的定义为:数据挖掘即数据库中的知识发现,即从大规模的数据库中抽 取非平凡的、隐含的、未知的、有潜在使用价值的信息的过程。 狭义的理解认为数据挖掘是k d d 的一个步骤。k d d 为从数据中识别正确的、 新颖的、有潜在使用价值的、最终可理解的模式的非平凡的过程。它包括数据选 取、数据预处理和数据清洗、数据挖掘、知识评估等多个步骤。数据挖掘是其中 对经过预处理的数据进行处理,抽取知识的过程。 无论是哪种定义,都有以下方面的共识【2 1 】: 首先,数据挖掘的对象是大规模的高维数据,这些数据可能来自于数据库、 数据仓库或者其它数据源。 其次,数据挖掘的结果是准确的、有用的、未知的、可解释的“知识”,知 识可能以各种形式存在:概念、规则、模式、约束等。 再次,数据挖掘的目的是支持决策分析,由于决策分析往往有时间要求的 ( 如实时的数据流) ,所以数据挖掘过程必须高效。 可见,数据挖掘( d a t am i n i n g ) 是利用各种分析工具在海量数据中发现模型 和数据之间关系的过程,并通过仔细分析大量数据来揭示有意义的联系、模式和 趋势;使用模式认知、统计和数学等技术从大型数据库中提取未知的、可操作性 信息的知识挖掘过程。 1 0 第二章数据挖掘及其可视化概述 2 1 1 2 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析,如查询、报表、联机应用分析等的本质区别在 于数据挖掘是在没有明确假设的前提下去挖掘信息和发现知识【丑】。数据挖掘所得 到的信息具有未知性、有效性和实用性三个特征。下面简要说明数据挖掘与传统 方法之间的差异。 ( 1 ) 数据挖掘、机器学习和统计 数据挖掘利用了人工智能和统计分析的进步所带来的好处,这两门学科都致 力于模式发现和预测功能。数据挖掘不是为了替代传统的统计分析技术,相反, 它是对统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学 理论,预测的准确度较高,但不适用于一般的使用者。而随着计算机的计算能力 不断增强,利用强大的计算能力,能通过相对简单和固定的方法完成同样的功 能。数据挖掘就是综合了统计和人工智能技术的应用程序,把这些复杂的技术封 装起来,使人们不用掌握这些技术也能完成同样的功能,并且更专注于所要解决 的问题。机器学习的技术同样在知识发现领域取得了很好的效果,如神经元网络 和决策树,在足够多的数据和计算能力下,它们几乎不用人的参与就能自动完成 许多有价值的功能。 ( 2 ) 数据挖掘与联机分析处理( o l a p ) 【2 3 】 数据挖掘和o l a p 是不同的工具,o l a p 是决策支持领域的一部分。传统的 查询和报表工具展现的是数据库中存在的信息,而o l a p 的应用主要是通过多维 数据查询、旋转、钻取和切片等关键技术,对当前及历史数据进行分析、辅助决 策。整个分析过程在本质上是一个演绎推理的过程。 数据挖掘不是用于验证某个假定模式的正确性,而是在数据库中寻找模式, 其本质上是一个归纳的过程。数据挖掘需要对大量数据进行反复查询操作,注重 数据存取方式的方便性与可操作性。数据挖掘对数据的探索式分析的起点是 o l a p ,数据挖掘应建立在联机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 的数据环境基础之上,它与o l a p 具有一定的互补性。 o l a p 和数据挖掘是相辅相成的,但它们的侧重点不同,o l a p 侧重于与用户 的交互、快速的响应速度及提供数据的多维视图:而数据挖掘则能自动发现隐藏 在数据中的模式和有用信息。o l a p 的分析结果可以给数据挖掘提供分析信息作为 挖掘的依据,数据挖掘可以增加o l a p 分析的深度,可以发现o l a p 所不能发现的 电子科技大学硕士学位论文 更为复杂、细致的信息。从上面的论述,我们可以看出如果将o i a p 与数据挖掘 相结合将会发挥更好的效用,这是o l a p 发展的又一个新方向。 2 1 2 数据挖掘的分类 数据挖掘作为k d d 中最核心的部分,是采用机器学习、数学统计等方法进行 知识学习的阶段。数据挖掘的两个目标是预测和描述,预测是指用一些变量或数 据库的若干己知字段预测其它感兴趣的变量或字段的未知的或未来的值,描述是 指找到描述数据的可理解模式【1 1 。 从不同的角度看,数据挖掘技术有几种分类方法剀:根据发现知识的分类; 根据挖掘的数据库的种类分类和根据采用的技术分类。 ( 1 ) 根据发现的知识的种类分类 这种分类方法有:总结( s u m m a r i z a t i o n ) 规则挖掘、特征( c h a r a c t e r i z a t i o n ) 规则挖掘、关联( a s s o c i a t i o n ) 规则挖掘、分类( c 1 a s s i f i c a t i o n ) 规则挖掘、聚 类( c l u s t e r i n g ) 规则挖掘、趋势( t r e n d ) 分析、偏差( d e v i a t i o n ) 分析、模式分析 ( p a t t e r na n a l y s i s ) 等,如果以挖掘知识的抽象层次划分,又有原始层次 ( p r i m i t i v el e v e l ) 的数据挖掘、高层次( h i g hl e v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论