(管理科学与工程专业论文)关联规则挖掘技术在配置式产品销售领域中的应用研究.pdf_第1页
(管理科学与工程专业论文)关联规则挖掘技术在配置式产品销售领域中的应用研究.pdf_第2页
(管理科学与工程专业论文)关联规则挖掘技术在配置式产品销售领域中的应用研究.pdf_第3页
(管理科学与工程专业论文)关联规则挖掘技术在配置式产品销售领域中的应用研究.pdf_第4页
(管理科学与工程专业论文)关联规则挖掘技术在配置式产品销售领域中的应用研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 管理信息系统在产品销售行业的广泛应用使得电子化交易数据有了便捷的获取途径, 交易数据伴随着业务的发生大量聚集。对于管理者而言,数据不仅是业务分析的基础对象, 更是企业制定计划的重要战略资源。随着人们对数据重要性认识的不断加深,“知识发现、 “决策支持 、“商业智能”等r r 热点问题渐渐地进入了大众的视线,同时也引起许多研究 学者的广泛关注。 配置式产品销售是销售行业中一种特有的营销形式,该模式主要出现在销售那些需要 以零件配置组合而成的产品领域中,诸如:计算机、部分小型数码产品、汽车、房屋装潢 等类似行业中。事实证明,配置式产品销售一方面实现最终产品的结构化的营销管理,另 一方面满足了消费者面在面对多种配置选择时的个性化需求。信息化的不断发展同样使得 配置式产品销售行业的数据量呈现海量增长的趋势,数据获取的成本也在逐级下降,人们 在保存这些数据的同时也在思索着如何更好地对其加以利用。数据是一种记录符号,其本 身的价值量很低,但在这些海量数据的背后却蕴藏着许多有价值的知识。只靠单纯的人工 阅读或简单的数据检索,远不能够及时提取出那些不同层次的知识,表象数据和知识理解 之间的差距也会因知识发现方法的使用不当变得越来越大。这种情形不仅造成了信息资源 的浪费,而且在商业决策和科学研究中很可能因此出现偏差,严重的还会造成经济或研究 成果方面的损失。数据挖掘是从数据集中识别出有效的、新颖的、潜在的、有价值的,以 及最终可被理解的模式的复杂过程。这种知识发现方法可以从数据矿山中找到蕴藏于其中 的知识金块,将数据转换为知识,这种变废为宝的方法可以在很多行业为人所用,并为知 识的创新和经济的发展做出贡献。本文将以“订单制 汽车销售领域为研究客体,以实际 销售数据为挖掘对象,用关联规则数据挖掘技术对这些实际数据进行分析和处理。 数据挖掘过程依赖于挖掘算法的支撑,合理地选择和运用挖掘算法将在数据分析的过 程中起到事半功倍的效果。本文的另一研究目的是通过对关联规则挖掘算法运行机制的剖 析,以经典挖掘算法a p f i o f i 、f p t r e e 等为基础,找到一种更加高效的关联规则挖掘算法, 为今后关联规则挖掘方法在相似领域中的应用提供理论支持和借鉴。 关键词:数据挖掘关联规则配置式产品a p r i o ri 算法局部挖掘树 a b s t r a c t t h ee x t e n s i v ea p p l i c a t i o no fm a n a g e m e n ti n f o r m a t i o ns y s t e mt op r o d u c t i o ns e l l i n gr e a l m m a k e st h ee l e c t r o n i c a l l yb a r g m nd a t ah a v eo b t a i n i n go fc o n v e n i e n c ep a t h ,a n dt h et r a d i n gd a t a g a t h e r e dw i t hb u s i n e s st a k i n gp l a c e f o ra d m i n i s t r a t o r s ,t h ed a t ai s n to n l yt h eb u s i n e s sa n a l y t i c a l f o u n d a t i o no b j e c t sb u ta l s ot h ei m p o r t a n ta n ds t r a t e g i cr e s o u r c e so ft h eb u s i n e s se n t e r p r i s e e s t a b l i s h m e n ta n dp l a n n i n g a l o n gw i t hp e o p l eu n d e r s t a n d i n go fd e e p e nc o n t i n u o u s l yw i t hd a t a , ”k n o w l e d g ed e t e c t i o n ”,”d e c i s i o ns u p p o r t ”,”b u s i n e s si n t e l l i g e n c e ”e t c w h i c hh o tp o i n to f1 1 rg o t i n t ot h ep u b l i c sv i e wg r a d u a l l y , a l s oc a u s i n gm a n ye x t e n s i v ec o n c e r n sb yal o to fs t u d ys c h o l a r s t h ec o s to fd a t ao b t a i n i n gi sg o i n gt ob ed e s c e n dg r a d u a l l y f o rt h es a k eo ft h ec o n s e r v a n c y d a t a , m a n yp r o f e s s i o n ss u c ha sb a n k ,p r o d u c ts a l e ,m e d i c a lt r e a t m e n ta n ds o m ef a m i l i a rr e a l m s t h o s eh i g h l yi n f o r m a t i o n - b a s e dp r o f e s s i o nh a v et op a yf o rt h i ss p e c i a ls a v i n gc o s t e n l a r g et h e d a t as a v i n gs p a c ec o n t i n u o u s l yb r o u g h tl a r g ee x p e n d i t u r ef o rm a n yp r o f e s s i o n s ,w i t hk e e p i n g t h e s ed a t a , m a n a g e r sa r ed e l i b e r a t i n gh o wt ot a k ed a t ai n t oe x p l o i t a t i o nr e a s o n a b l y t h ed a t ai sa k i n do fr e c o r ds i g n ,i t sq u a n t i t yo fw o r t hi sv e r yl o w , b u ta tt h eb a c ko ft h e s es e aa m o u n to ft h e d a t ac o n t a i nm u c hw o r t h yk n o w l e d g e d e p e n d sp u r ea r t i f i c i a lr e a d i n go rs i m p l ed a t aa ni n d e x , w h i c hc a n tw i t h d r a wt h ef a rw o r t ho fk n o w l e d g ei nt i m e ,t h em a r g i no fi d e ad a t aa n dk n o w l e d g e c o m p r e h e n s i o nw o u l da l s ob e c o m ev a g u e n e s s ,j u s tb e c a u s e t h em e t h o do fk n o w l e d g ed i s c o v e r s i s n ta p p r o p r i a t e t h i sk i n do fs i t u a t i o nn o to n l yr e s u l ti nt h ew a s t eo ft h ei n f o r m a t i o nr e s o u r c e s , a n dt h e r e f o r ea p p e a rd e v i a t i o ni nt h eb u s i n e s sd e c i s i o na n ds c i e n c er e s e a r c h ,s e r i o u s l yt h er e s u l t w i l lm a k el o s t i ne c o n o m i co rr e s e a r c h t h ed m i sak i n do fc o m p l i c a t e dp r o c e s sw h i c h i d e n t i f i e so n ef r o mt h ed a t ac o n c e n t r a t i o na st h em o d eo fv a l i da n dn o v e l ,l a t e n ta n dw o r t h y , a n d a l s oc a nb ec o m p r e h e n d e d t h i sk i n do fk n o w l e d g ed i s c o v e r sm e t h o dc a nf i n dg o l db u l l i o no u t f r o mt h ed a t am i n e r a lm o u n t a i nw h e r ec o n t a i n sk n o w l e d g e ,c o n v e r tt h ed a t aa sk n o w l e d g e ,t h i s k i n do fc h a n g i n gd i s c a r d sf o rt h et r e a s u r ea n dc a nb e h a v ei nal o to fp r o f e s s i o n su t i l i t y , a n dm a k e ac o n t r i b u t i o ni nt h ei n n o v a t i o no ft h ek n o w l e d g ea n dt h ed e v e l o p m e n to ft h ee c o n o m y t h ei n s t a l lt y p ep r o d u c ts e l l i n gi sak i n do fs p e c i a lm a r k e t i n gf o r mi nt h ep r o f e s s i o n ,t h a t m o d em a i n l ya p p e a r si nt h es e l l i n gt h o s ec o m b i n e dw i t ht h es p a r e p a r ti n s t a l l i n go fp r o d u c t ,s u c h a s t h ec o m p u t e r , p a r to fs m a l ld i g i t a lp r o d u c t ,c a r , h o u s e sd e c o r a t e se t c a n ds i m i l a rp r o f e s s i o n t h ef a c tp r o v e st h a tt h ei n s t a l lt y p ep r o d u c ts e l l i n gc a r r i e so u tt h em a r k e t i n gm a n a g e m e n tt h a t i i t h es t r u c t u r eo fe n dp r o d u c tt u r n so u t ,o nt h eo t h e rh a n d ,s a t i s f y i n gc o n s u m e rr e q u i r e m e n to f i n s t a l l i n gc h o i c et ob ev a r i e t yo fc h a r a c t e r i s t i c s d e v e l o p m e n to fi n f o r m a t i o nt e c h n i q u ea st h e s a m ea st om a k ec o n t i n u o u s l yg r o w t ht r e n do ft h ed a t aa m o u n to ft h ei n s t a l lt y p ep r o d u c ts a l e p r o f e s s i o n ,t h ec o s to fd a t ao b t a i n i n gi sg o i n gt ob ed e s c e n dg r a d u a l l y f o rt h es a k eo ft h e c o n s e r v a n c yd a t a , m a n yp r o f e s s i o n ss u c ha sb a n k ,p r o d u c ts a l e ,m e d i c a lt r e a t m e n ta n ds o m e f a m i l i a rr e a l m st h o s eh i g h l yi n f o r m a t i o n - b a s e dp r o f e s s i o nh a v et op a yf o rt h i ss p e c i a ls a v i n gc o s t e n l a r g et h ed a t as a v i n gs p a c ec o n t i n u o u s l yb r o u g h tl a r g ee x p e n d i t u r ef o rm a n yp r o f e s s i o n s ,w i t h k e e p i n gt h e s ed a t a , m a n a g e r sa l ed e l i b e r a t i n gh o wt ot a k ed a t ai n t oe x p l o i t a t i o nr e a s o n a b l y n e d a t ai sak i n do fr e c o r ds i g n ,i t sq u a n t i t yo fw o r t hi sv e r yl o w , b u ta tt h eb a c ko ft h e s es e aa m o u n t o ft h ed a t ac o n t a i nm u c hw o r t h yk n o w l e d g e d e p e n d sp u r ea r t i f i c i a lr e a d i n go rs i m p l ed a t aa l l i n d e x ,w h i c hc a n tw i t h d r a wt h ef a rw o r t ho fk n o w l e d g ei nt i m e ,t h em a r g i no fi d e ad a t aa n d k n o w l e d g ec o m p r e h e n s i o nw o u l da l s ob e c o m ev a g u e n e s s ,j u s tb e c a u s et h em e t h o do fk n o w l e d g e d i s c o v e r si s n ta p p r o p r i a t e t h i sk i n do fs i t u a t i o nn o to n l yr e s u l ti nt h ew a s t eo ft h ei n f o r m a t i o n r e s o u r c e s ,a n dt h e r e f o r ea p p e a rd e v i a t i o ni nt h eb u s i n e s sd e c i s i o na n ds c i e n c er e s e a r c h ,s e r i o u s l y t h er e s u l tw i hm a k el o s ti ne c o n o m i co rr e s e a r c h 1 1 1 ed mi sak i n do fc o m p l i c a t e dp r o c e s s w h i c hi d e n t i f i e so n ef r o mt h ed a t ac o n c e n t r a t i o na st h em o d eo fv a l i da n dn o v e l ,l a t e n ta n d w o r t h y , a n da l s oc a n b ec o m p r e h e n d e d t i l j sk i n do fk n o w l e d g ed i s c o v e r sm e t h o dc a nf i n dg o l d b u l l i o no u tf r o mt h ed a t am i n e r a lm o u n t a i nw h e r ec o n t a i n sk n o w l e d g e ,c o n v e r tt h ed a t a ,a s k n o w l e d g e ,t h i sk i n do fc h a n g i n gd i s c a r d sf o r t h et r e a s u r ea n dc a l lb e h a v ei nal o to fp r o f e s s i o n s u t i l i t y , a n dm a k eac o n t r i b u t i o ni nt h ei n n o v a t i o no ft h ek n o w l e d g ea n dt h ed e v e l o p m e n to ft h e e c o n o m y t 1 l j sa r t i c l ew i l le m b a yt h e ”o r d e rs y s t e m ”c a rs a l er e a l ma sr e s e a r c hp o i n t ,u s i n g a c t u a ls a l ed a t aa sm i n i n go b j e c t ,a n du s i n gt h em e t h o do fa s s o c i a t i o nr u l e si nd a t am i n i n g t e c h n i q u et oh a n d l et ot h e s ea c t u a ld a t aa n dc a r r yo nd e e p l ya n a l y s i s t h ed m p r o c e s sd e p e n d so na r i t h m e t i ct op r o pu p ,c h o o s ea n du 鸵i tr e a s o n a b l yw h i l ea n a l y s i sd a t ai n t h em i n i n gp r o c e s sc a nm a k eag o r g e o u sp e r f o r m a n c e a n o t h e rr e s e a r c hp u r p o s eo ft h i sa r t i c l ei sa n a l y s i st h e p r o c e s so fa r i t h m e t i cm e c h a n i s mo ft h ea s s o c i a t i o nr u l e ,w i t ht h ec l a s s i ca r i t h m e t i cs u c ha sa p r i o r i ,f p - t r e e e t c f o rf o u n d a t i o n ,f i n d i n go u tak i n do fm e t h o di nm i n i n gp r o c e s so fh i g he f f i c i e n c y , p r o v i d es u p p o r tt o t h e o r i e sa n du s a g ef o rr e f e r e n c ew h i l eu s i n ga s s o c i a t i o nr u l eo fd a t am i n i n ga p p l i c a t i o ni nt h ea l i k er e a l mi n f u t u r e k e yw o r d s :d a t am i n i n g ; a s s o c i a t i o nr u i e s :l n s t a i i t y p ep r o d u c t :a p r i o r i : _ f i - p a r t 1 i i 图表附录 图至:! 麴堡蕉塑的二筮垄鐾1 2 图圣:至篡洼扫描过猩= 夔取题鏊至亟塞2 6 图墨:墨篡法扫描过程= = 夔塑题繁墨亟篡2 7 麦垒:! 銮星短趁麴堡麦3 9 图垒:墨篡选扫撞过程= 二夔塑题鏊圣亟篡4 l 4 4 4 4 塞垒:垒釜鲑撞式廑4 5 图垒:昼区路盆重量太题筮亟篡挝4 8 图垒:窒屋部题鏊亟塞挝4 9 图垒:! q 篡法扫描量太题鏊亟篡时的性能出筮丞意图5 1 图垒:! ! 篡洼墼住执征:眭能出夔丞意图5 1 5 7 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含 为获得天津财经大学或其他教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:毋瓴嘀签字日期:护,年月刁日 学位论文版权使用授权书 本学位论文作者完全了解天津财经大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权天津财经大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文, ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:、删聊签名:吱i , 签字日期:护刁年、月刁日签字日期:扣导年! 月司日 f 学位论文作者毕业后去向: 工作单位: 电话: 通讯地址:邮编: 1 i i 研究目的及意义 第1 章绪论 1 1 研究目的及背景 信息技术的快速发展使得各种形式的数据库数据呈现海量增长的趋势,其背后隐含着 大量鲜为人知的知识,对知识不断探索的态度使人们不断寻求好的方法来发现那些有价值 的信息及其背后包含的现实意义,只靠人工阅读或简单的数据检索,远不能够及时提取出 那些不同层次的知识,由此导致的表象数据和知识理解之间的差距越来越大。这种情形不 仅造成了信息资源的浪费,而且在商业上和科学研究中很可能因此出现性偏差,造成经济 或研究成果方面的损失。数据挖掘技术是解决这一问题的有效方法,其突出特点便是利用 计算机高效的运算能力和数据处理能力,客观有效地从海量数据中挖掘出有价值的信息, 并有益于用户根据挖掘结果做出正确的判断和决策行为。 本课题的研究意义在于利用数据挖掘工具对配置式产品销售业务数据进行分析,为相 关用户提供高效的决策方案。例如对商品进行关联规则挖掘分析,分析哪些配置最有希望 被顾客一起购买;分析顾客数据和配件数据之间的关联性,从中得出有价值的销售规律, 商业界存在的许多消费行为关联案例就是运用知识发现方法通过数据分析找出相关规律 的典型n 1 。 在配置式产品销售业务海量数据的分析过程中,利用基于关联规则挖掘的d m 方法会 在很多方面为经营者提供良好的辅助性分析结果,其主要作用表现为: ( 1 ) 了解销售全局 通过销售信息商品种类、销售数量、产品详细配置、客户属性等了解企业的总体 营销情况,进而发现产品销售的总体概况。对营销整体情况的掌握可以帮助企业决策者站 在战略层的角度合理制定计划,明确经营目的。深入理解销售环节的关键点并与行业内的 其他经营环节相结合,帮助营销主管人员找到有利于推动配置式产品销售的营销模式。 ( 2 ) 商品分组布局 通过对关联规则挖掘结果的分析,理解销售数据背后蕴藏的顾客购买习惯,考虑购买 者的年龄、职业、收入水平、购买时间等差异,充分理解客户对产品配置的不同偏好,进 一步制订有效的营销策略。深入了解客户的购买习惯可以指导企业更有针对性地进行销售 活动,如针对不同客户,结合不同配置产品的特性,合理变换宣传角度,并配合使用不同 的导购行为,这样不仅可以提高销售工作的执行效率,还可能寻找到有利于企业发展的新 的价值增长点。 ( 3 ) 市场和趋势分析 利用数据挖掘分析顾客的购买习惯、广告成功率、产品创新需求和其它战略性信息。 通过在数据库仓库中检索近年来的销售数据,可以从多个角度预测出不同销售时期的销售 量,对配置式产品的未来销量和库存进行预测性分析,甚至还可在此基础上使用营销技巧, 如优惠折扣、季节性促销等,还可从定量的角度对折扣数量等做出相应决策。 本文根据目前的科研条件,以“订单制 汽车销售领域的实际销售数据为挖掘对象。 在对数据挖掘技术进行全面研究和了解的基础上,重点进行基于关联规则挖掘算法的数据 挖掘研究,并在现有研究成果的基础上对其加以改进和提高。 1 1 2 国内外的研究概况 数据挖掘是兴起于2 0 世纪9 0 年代的基于海量数据处理的一项新型技术,是数据库知 识发现领域中一个最为重要的分支。美国人工智能协会主办的国际研讨会以及数据库、人 工智能、信息处理、知识工程等领域的国际学术刊物都开辟了相关专刊,由i e e e 创办的 k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊领先在1 9 9 3 年出版了k d d 技术专刊,代表了当时 k d d 研究的最新成果和动态,较全面地论述了系统方法论、发现结果的评价、k d d 系统设 计的逻辑方法等重要学术发现,集中讨论了数据库的动态性冗余、高噪声和不确定性、空 值等热点问题,随后还报道了k d d 系统与其它传统的机器学习、专家系统、人工神经网络、 数理统计分析系统的联系和区别,以及相应的基本对策等等。 在i n t e r n e t 上也存在不少k d d 业内的电子出版物,其中以半月刊“k n o w l e d g e d i s c o v e r yn u g g e t s 最为权威心1 ,关注度较高的还有1 9 9 7 年1 0 月出版的决策支持等 相关在线周刊。此外还有众多数据挖掘爱好者自发形成的自由论坛,其中比较权威的是d m e m a i lc l u b ,在此人们通过电子邮件相互讨论的d m k d 等热点问题。而领导整个潮流的d i i k d 开发和研究中心则设在美国的i b m 公司开发部。 9 0 年代中期,我国开始致力于数据挖掘领域的研究,到9 0 年代中后期,初步形成了 知识发现和数据挖掘的基本理论框架。此后,与此相关的研究成果及学术论文逐渐在计 算机学报、计算机研究与发展、软件学报、人工智能与模式识别等刊物上发表, 2 研究重点也从发现方法转向系统应用,并且注重发现策略和多种技术的集成,以及多种学 科之间的相互渗透,尽管如此,大多数研究成果基本仍以学术研究为主,实际应用上尚处 于起步阶段。政府为推进数据挖掘的全面发展,对大多数该领域的研究项目给予了大力资 助,如国家自然科学基金、8 6 3 计划、“九五 计划等。国内从事数据挖掘研究的人员主要 集中在大学,另外一少部分在研究所或公司,研究内容一般集中于挖掘算法的研究、数据 挖掘的实际应用以及有关数据挖掘理论方面的研究。 与国外相比,国内对数据挖掘的研究起步较晚,尚没有形成整体力量。自1 9 9 3 年国家 自然科学基金首次支持对该领域的研究项目以来,许多科研单位和高等院校竞相开展知识 发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第 三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的 应用进行了较深入的研究,北京大学也在开展对数据立方体代数的基础理论研究,华中科 技大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展 了挖掘开采算法的优势性突破和改造,南京大学、四川大学和上海交通大学等单位主要研 究非结构化数据的知识发现以及w e b 挖掘相关内容。1 9 9 9 年,第3 届亚太地区知识发现和 数据挖掘会议在北京召开,会议共收到1 5 8 篇有关数据挖掘及知识发现的专业论文。2 0 0 5 年7 月,首届a d m a ( a d v a n c e dd a t am i n i n ga n da p p li c a t i o n s ) 国际学术会议在武汉举行。 2 0 0 6 年8 月在西安举行了第二届a m d a 会议;2 0 0 7 年5 月在南京召开了第十一届亚太知识 发现和数据挖掘会议。 关联规则挖掘是数据挖掘领域的一个热点问题,当前对关联规则的研究主要集中在对 挖掘算法的改进上,其中又包含了许多研究热点,如在处理极大量数据时如何提高算法的 效率、当数据迅速更新时如何改进算法、数值型变量的处理问题等。 从“i e e et r a n s a c t i o n so nk n o w l e d g ea n dd a t ae n g i n e e r i n g ”近年来的研究类文 献中可以看出,大部分的有关数据挖掘的文章主要集中于讨论如何提高关联规则挖掘的应 用领域和算法分析,这包括算法的正确性、有效性、可伸缩性和并行处理等,一些研究学 者还在原有算法的基础上提出创新性的改进,横向引入数据挖掘领域以外的新型技术。 关联规则挖掘首先由a g r a w a l ,i m ie li n s k i 和s w a m i 等人提出。在业内极具影响力的 经典a p r i o r i 算法由a g r a w a l 和s r i k a n t 首先创立,而后学者们在此基础上对算法进行了 一系列的改进,比较著名的包括使用h a s h 表提高关联规则挖掘效率,采用事务压缩技术 对所扫描的事务集进行压缩,采用划分技术对事务集进行分割,采用抽样技术来进行挖掘 以及采用动态项集计数的方法等。关联规则挖掘有许多扩展,包括多层关联规则挖掘,多 3 维关联规则挖掘,基于约束的关联规则挖掘,周期关联规则挖掘,加权关联规则挖掘等, 目前已有很多学者对此类算法进行了较为深入的研究。 关联规则挖掘技术的应用领域广泛,主要挖掘对象是各行业的事务数据库利用关联 技术从事务数据库中发现规则的过程为规则发现过程。通过对商业数据库中的大量销售记 录的挖掘分析,提取出反映顾客购物习惯和偏好的有用规则或知识,进而可以决定商品的 降价、摆放以及设计优惠券等多种经销方案。当然也可以把得到的信息应用到促销和广告 等计划决策中,较为常见的实例如针对“d i e tc o k e 数据关联规则可能会给商店提供出 信息知识:什么情况会促使产品大量售出,为什么某类人群热衷于低糖可乐等等。 关联规则挖掘技术同样也成功地应用于服务领域,如c r o s s - s a l e 口3 业务,c r o s s s a l e 就是试图让一种产品的固定客户购买另一种产品。服务业的激烈竞争使得公司留住老顾客 和吸引新顾客一样重要。通过分析老顾客的购买记录,了解他们的产品消费偏好,给他们 提供其他产品的优惠及服务,这样不但可以留住他们还可以使他们逐渐熟悉另外的产品, 公司从而以更快的速度获得利润。大型公司的顾客消费行为数据库巨大,人工分析是很难 的,关联规则挖掘技术可以结合专家知识从海量数据库中发现有用知识,进而辅助领域专 家做出正确的经营决策。 关联规则挖掘技术不但在商业分析中得到了广泛应用,在其他领域也得到了应用,包 括工程、医疗保健、金融证券分析、电信和保险业的错误检验( f r a u dd e t e c t i o n ) 等。 本课题将关联规则数据挖掘技术应用于配置式产品销售行业,并在前人研究的基础之上, 力求在算法方面实现改进更新。 1 2 1 研究内容及进程 1 2 论文的工作及研究结构 本文在上述研究背景下,对数据挖掘技术,尤其是关联规则数据挖掘技术进行了较为 深入、全面、详尽的分析和研究,主要包括以下一些内容: ( 1 ) 数据挖掘技术的分析与研究。在介绍数据挖掘基本概念的基础上,对数据挖掘 与数据库中的知识发现做了深入地分析和比较,对数据挖掘的功能、知识发现的模式进行 了详细地分类、归纳和总结,对数据挖掘常使用的方法做了介绍和分析。 ( 2 ) 关联规则数据挖掘技术的分析与研究。在提出关联规则基本概念的基础上,对关 联规则的种类进行了全面地分类、归纳和总结,对关联规则的典型挖掘算法及其基本思想 4 进行了详细地归纳、分析和研究,对各算法之间的差别进行了客观地比较。同时,也详细 地讨论了提高算法效率的各种优化技术,以实例的形式分析了它们的优缺点,并在前人研 究的基础上对经典a p r i o r i 算法加以改进。 ( 3 ) 以“订单制 汽车销售行业的实际交易数据为挖掘对象,从数据采集直至知识分 析进行整套的挖掘分析过程。介绍关联规则数据挖掘将数据变为知识的整体流程,进而为 关联挖掘技术在配置式产品销售行业及类相似领域中的应用提供借鉴。 本课题研究进程共分以下五大部分: ( 1 ) 业务理解。主要包括对研究领域进行调研,确定挖掘任务,获取挖掘对象,搜集 海量数据,确定数据需求等等。 ( 2 ) 数据预处理。主要包括数据泛化处理,规格化处理,插补缺失值,数据转换,建 立数据库等等。 ( 3 ) 挖掘算法的选取。主要包括挖掘算法搜集,挖掘算法的可行性分析,算法效率分 析,挖掘测试过程等等。 ( 4 ) 改进挖掘算法。主要包括算法参数分析,算法模型研究,算法效率评测,改进可 行性分析,改进方案设计,实施改进,新旧算法可靠性对比,新旧算法效率对比等等。 ( 5 ) 决策支持。主要包括挖掘结果分析,结果可靠性测试,结果性能测试,结果合理 性分析,系统界面开发等等。 5 业务理解 对研究领域进行调研,确定挖掘任务| + _ 调整挖掘任务卜 + 获取研究所用数据,选定需求数据 多n ; -: 0 y 获得原始数据 数据预处理i r 上1 l1 l 泛化处理规格化 插补缺失值数据转换 i i , 建立基础数据库 l 关联分析 关联性挖掘算法选择 , 一一 关联规则分析 “专一 重复实验 算法参数调整 i ,:参巷敞理 l 结果ll 结果2 结果3 li 结果4l 1 i iil , 对比分析 i 算法改进 实验性方法讨论研究 算宅i 重构 ,一 改进挖掘算法 j 决策支持 b u y s ( x , c dp l a y e r ,) s u p p o r t = 2 ,c o n f i d e n c e = 6 0 。该式表明所研究的所有顾客中,有2 ( 支持度) 的顾客, 他们的年龄在2 0 至2 9 岁,月薪在2 0 0 0 至3 0 0 0 元,并且购买了c d 机;年龄在2 0 至2 9 岁,月薪在2 0 0 0 至3 0 0 0 元的顾客中,有6 0 ( 置信度) 的顾客会购买c d 机。比如啤酒尿 9 布就是从大型超市的购物篮数据中分析出的关联规则。 ( 3 ) 分类分析 所谓分类,就是把给定的数据划分到一定的类别中。分类的关键是对数据按照什么标 准或什么规则进行分类。因此分类是一个两步过程:首先,在已知训练数据集上,根据属 性特征,为每一种类别找到一个合理的描述或模型,即分类规则,其次根据规则对新数据 进行分类。所以,分类又称为有指导的学习。 历史数据可以用来建立模型,以检查近来的变化,若运用最新数据作为输入值,可以 获得未来变化的预测值。一般是利用数学统计的方法,找出与所要预测的属性相关的属性 并根据相似数据的分析估算属性值的分布情况。例如根据同一单位内其他职工的工资,可 以预测某一职工的可能工资。 ( 4 ) 聚类分析 与分类分析相比,聚类分析又称为无指导地学习,其目的在于实事求是地,即客观地 按被处理对象的特征分类,有相同特征的对象被归为一类。聚类与分类的区别分类规则挖 掘是面向训练数据的,而聚类直接对数据进行处理,并不需要事先定义好该如何分类,同 时也不需要训练组的数据。数据是按本身的相似性而聚集在一起,而聚类的意义也是要靠 事后的解释才能得知。 ( 5 ) 趋势分析 趋势分析又称为时间序列分析,它从时间的发展中发现规律和趋势。时间序列分析是 一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数 据序列所遵从的统计规律,以用于解决实际问题。它包括一般统计分析( 如自相关分析, 谱分析等) ,统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。 经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相 依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统 计的一个组成部分。例如,记录了某地区第一个月,第二个月,第n 个月的降雨量, 利用时间序列分析方法,可以对未来各月的雨量进行预报。 ( 6 ) 孤立点分析 孤立点数据分析又称作孤立点挖掘。数据库中可能包含的一些数据对象,它们与数据 的一般行为或模型不一致,我们把这样的数据对象称为孤立点。大部分的d m 方法将孤立 点视为噪声或异常丢弃,而在一些特殊应用环境下,这些孤立点往往具有特殊的含义,如 欺骗检测或罕见事件的探索等。 1 0 ( 7 ) 偏差分析 偏差分析又称为比较分析,是用来发现与正常情况不同的异常和变化,并进一步分析 这种变化是否是有意的诈骗行为,还是正常的变化。数据库中的数据常有一些异常记录, 从数据库中检测这些差别很有意义:偏差包括很多潜在的知识。如分类中的反常实例,不 满足规则的特例,观测结果与模型预测值的偏差,量值随时间的变化等。偏差检测的基本 方法是寻找观测结果与参照值之间有意义的差别。 数据挖掘的核心技术是人工智能、机器学习、数学统计等,但它并非多种技术的简单 结合,而是不可分割的整体,还需其他技术的支持,才能挖掘出令用户满意的结果。从应 用技术的角度,数据挖掘方法可分以下几类n 叭。 ( 1 ) 规则归纳。即通过统计方法归纳、提取有价值的规则,例如关联规则挖掘等。 ( 2 ) 人工神经网络方法。这种方法是从结构上模仿生物神经网络,是一种通过训练 来学习的非线性预测模型。它将每一个连接看作一个处理单元,试图模拟人脑神经元的功 能,可完成分类、聚类、特征挖掘等多种挖掘任务。最大的优点是能精确地对复杂问题进 行预测。相应缺点是人工神经网络虽在预测方面有用,但却难以理解人工神经网络易于受 训练过度的影响,构造神经网络要对其训练许多遍,需要花费许多时间。人工神经网络方 法主要有前馈式网络、反馈式网络和自组织网络等。 ( 3 ) 决策树方法。决策树方法是常用的方法,它可用来分析数据,也可用来预测。 决策树( d e c i s i o nt r e e ) 用树形结构表示决策集合,进而通过对数据集的分类产生规则。 ( 4 ) 模糊数学方法。客观事物往往具有某种不确定性。系统的复杂性越高,其精确 性越低,模型性越强。在数据挖掘过程中,利用模糊数学方法对实际问题进行模糊评判、 模糊决策、模糊识别和模糊聚类,往往能够取得更好效果。 ( 5 ) 遗传算法。这是一种模拟生物进化过程的算法,最早由于世纪年代提出。它是 基于群体的、具有随机和定向搜索特征的迭代过程,这些过程有基因组合、交叉、变异和 自然选择四种典型操作。如何把数据挖掘任务表达为一种搜索问题则是遗传算法的应用关 键。事实上,任何一种挖掘工具往往是根据业务问题选择合适的挖掘方法,每种方法各有 其擅长,要视具体问题选定。 数据挖掘不仅仅被局限在关系、事务型数据库和数据仓库方面。在其他方面,如空间、 文本、多媒体和时间序列数据的挖掘,挖掘复合的、不完全结构化和非结构化的数据群。 伴随着理论研究的不断成熟,数据挖掘技术已经被应用于多种实际领域,主要包括: ( 1 ) 利用数据挖掘技术进行科学研究。如基因工程中分子序列的研究。近几年通过 利用基因数据库搜索技术,己在基因研究上取得了很多重大发现,近期分析的研究成果已 经导致了对许多疾病和残疾的基因成因的发现,以及对疾病的诊断、预防和治疗的新药物、 新方法的发现。 ( 2 ) 进行市场营销和货篮分析。利用数据挖掘技术对用户数据进行分析,可以得到 关于顾客购买趋向和兴趣的信息,从而为商业决策提供可靠的依据。 ( 3 ) 进行金融投资的风险评估。数据挖掘可以通过对已有数据的处理,找到数据对 象间的关系,然后利用学习得到的模式进行合理的预测。 ( 4 ) 进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论