(计算机应用技术专业论文)数据挖掘在企业质量管理中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘在企业质量管理中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘在企业质量管理中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘在企业质量管理中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘在企业质量管理中的应用.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据挖掘在企业质量管理中的应用 丁明 东南大学 随着科学管理方法的应用和推广,数据分析技术在企业质量管理中的作用得到了前所未 有的发挥,i s 0 9 0 0 0 标准更是将它提到了基础地位加以强调。数据挖掘则是一种新兴的数据 分析技术,j 下在许多行业中扮演着越来越重要的角色。虽然很多企业已应用统计技术来管理 质量过程,但管理人员仍迫切需要一种更为强大的数据分析工具来帮助实现全面质量管理。 数据挖掘技术的出现为质量管理人员提供了新的选择。 如何将数据挖掘应用到企业质量管理中,成了摆在企业i t 人员面前的新课题。本论文的 目的就在于探讨如何利用数据挖掘技术来构建符合企业特点的质量数据挖掘模式,以及如何 建立相应的数据挖掘应用系统。 在众多的数据挖掘算法中,关联和聚类是两种重要的方法,它们在使用中不需训练,应用 起来也较为灵活,因此对于企业用户而言,的确是简单实用的好方法。通过对企业质量管理 需求的分析,发现这两种方法几乎可以覆盖到所有的质量领域,具有很高的应用价值。因此, 可选择关联和聚类作为质量数据挖掘的基本方法。 针对质量管理活动的需求和现状,本论文提出了3 种数据挖掘模式以及一个相应的数据 挖掘系统,目的在于衡量产品的质量水平,为质量管理活动提供信息支持。模式一是根据零 件不合格强度序列对零件分类,模式二是找出在预定时间粒度中频繁出现关联不合格现象的 零件组合,模式三则是要得出各质量过程不合格强度随时问变化的情况,以此描述过程网络 总体不合格情况以及分属不同过程集的零件不合格现象间的因果关系。在为上述模式设计实 现方案时,分析并解决了产品质量水平的概念定义及量化描述的问题、如何获取与之有关的 数据的问题、利用关联和聚类实现分析目标的算法问题、以及相应的系统功能及界面设计、 结论输出等问题。 接下来还介绍了该数据挖掘系统的程序开发思路和方法,支撑系统的7 大类函数和相关 的数据结构,系统的结构设计和相关数据库的说明。值得一提的是,在数据挖掘主函数类中, 除了与关联和聚类有关的函数,还增加了诸如概念归纳、决策树等功能函数,以此提高该系 统的实用性。而报表部分的设计也是该系统的一大特色。另外,还简要介绍了系统的测试步 骤和应用效果。 本论文最后总结了3 种数据挖掘模式,阐明了数据挖掘技术在质量管理领域的应用价值 以及发展前景。 关键词:数据挖掘,关联,聚类,质量管理 t h ea p p l i c a t i o n o fd a t a m i n e i ne n t e r p r i s eq u a l i t y m a n a g e m e n t d in g m in g s o u t h e a s tu n iv e r s i t y a b s t r a c t b yt h ep r o p e l i n go fs c i e n t i f i cm e t h o d s i ne n t e r p r i s em a n a g e m e n t ,t h et e c h n i q u e s ( ) fd a t a a n a l y s i s ,w h i c h i s e m p h y s i z e d a saf u n d a m e n t a l e l e m e n ti si s 0 9 0 0 0 ,i s d e v e l o p i n gq u i c k l y d a t am i n i n gi sa c t i n gam o r ei m p o r t a n tr o l ei nm a n yt i e l d sa s o n e o fb o o m i n gd a t aa n a l y s i st e c h n i q u e s m a n a g e r si ne n t e r p r l s ea r ec r a v i n gf o ra m o r e d o w e r f u lt o o lo nd a t aa n a l y s i sw h i l et h e ya r eu s i n gs t a t i s t i c s t h eo c c u r r i n g o fd a t a m i n i n gp r o v i d e st h e man e wc h o i c e f o rm e m b e r si ne n t e r p r i s ei tg r o u p ,h o wt ob i n dd a t am i n i n gt oe n t e r p r i s eq u a l i t y m a n a g e m e n tb e c o m e s ap r o b l e m h o wt oe s t a b lis ht h ed a t am i n i n gm o d e l sb yv a r i a n td a t a m i n i n gm e t h o d sa n db u i l da p p l i c a t i o ns y s t e mf o r t h e s em o d e l st so u rf o c u s a st w oi m p o r t a n tm e t h o d so fd a t am i n i n g ,a s s o c i a t i o na n dc l u s t e r i n gd o n tn e e d t r a i n i n gp r o c e s sw h e nt h e ya r ea p p li e da n di sf l e x i b l et ou s e ,s of o re n t e r p r i s et h e y a r er e a l l ye a s yu t i l i t a r i n nm e t h o d b ya n a l y z i n gt h er e q u i r e m e n t ,t h et w om e t h o d sa r e f o u n dc o v e r i n ga l m o s ta 1 1f i e l d si nq u a l i t ym a n a g e m e n tv a l u a b l y ,s ot h e yc a nb eu s e d a sb a s i ct o o l s i nc o n s i d e r a t i o no fd e m a n d sa n ds t a t u so fq u a l i t yp r o c e s sm a n a g e m e n t i n m a n u f a c t u r i n gi n d u s t r y ,t h i st e x tp r o v i d e st h r e ek i n d so fd a t am i n i n gm o d u l e sa n d ad a t am i n i n gs y s t e mf o rm e a s u r i n gt h eq u a l i t yl e v e lo fp r o d u c t i o na n da f f o r d i n g i n f o r m a t i o n st oq u l i t ym a n a g e m e n t m o d e l1c a nu s e dt oc l a s s i f yp a r t sa c c o r d i n gt o t h e i r q u a l i t y l e v e l s m o d e l2 h e l p t of i n dt h e f r e q u a n t a s s o c i a i o no fp a r t s m a l f u n c t i o ni ns a m et i m e s p a n h l o d e l 3ist o g e tt h ed i g i t a ld y n a m i c s t a t u so f m a l f u n c t i o ni n t e n s i t yi nt i m ee l a p s i n gf o rm o n i t o r i n gt h eq u a l i t yl e v e lo ft h ew h o l e n e tc o m p o s e do fq u a l i t yp r o c e s s e sa n dd e s c r i b i n gt h er e l a t i o no fm a l f u n c t i o ni nt h e s e p r o c e s s e s s e v e r a lp r o b l e m s ,s u c ha sh w ot oc o n f i r ma n dd e s c r i b et h ec o n c e p t i o no f p r o d u c t i o nq u a l i t y ,h o w t o a q u i r e t h ec a n o n i c a l d a t a ,t h ea l g o r i t h mb a s e do n a s s o c i a t i o na n d c l u s t e r i n g a n d s y s t e m sf u n c t i o n s ,i n t e r f a c e s a n d o u t p u t s ,a r e r e s o l v e ds u c c e s s f u l l y t h em e t h o d sa n dc o n s i d e r a t i o n so f s y s t e md e v e l o p m e n t ,t h e s e v e nc l a s s e so f f u n c t i o n sa n dr e l a t i v ed a t as t r u c t u r e s t h es t r u c t u r e so f s y s t e ma n dd b m s a r e i n t r o d u c e di nt h ef o l l o w i n gp a r t i ts h o u l db en o t i c e dt h a tb e s i d e sa s s o c i a t i o na n d c l u s t e r i n g ,s o m ef u n c t i o n s ,s u c h a s c o n c e p t i o ni n d u c t i o n ,d e c i s i o n m a k i n g ,a r e i n c l u d e dt op r o m o t et h ep r a c t i c a b i l i t yo ft h es y s t e m t h er e p o r td e s i g ni sa n o t h e r c h a r a c t e r i s t i c t h et e s t i n gs t e p sa n de f f e c t sa r ea l s om e n t i o n e d i nt h ee n d ,t h et h r e em o d e l sa r es u m m a r i z e d ,t h ev a l u e sa n dp r o s p e c to ft h ed a t a m i n i n ga p p l i c a t i o ni nq u a l i t ym a n a g e m e n ta r ec l a r i f y i e d k e y w o r d :d a t am i n i n g ,a s s o c i a t i o n ,c l u s t e r i n g ,q u a l i t ym a n a g e m e n t h t 上 刖 计算机与信息技术在经历了半个世纪的发展之后 步迈入信息时代。随着计算机与信息技术的日新月异 行业的决策支持活动中,发挥着越来越重要的作用。 口 已对人类社会产生了巨大影响,正推动着社会一步 数据挖掘作为一种新兴的数据分析技术出现在许多 随着与信息有关的活动范围的扩展,人们获取和存储的数据量也在飞速增长。今天,企业、政府、学 校及科研机构每天都要通过网络存储和交换以g b 、t b 甚至p b 为计算单位的数据最,人们面对的已是一个 极其巨大的数据海洋。然而,数据仅是人们观察外部世界所获得的原始材料,对于人类的决策活动而言并 无直接意义,囡为决策是基于对数据分析的结果而不是数据本身。因此,需要对数据进行分析,井将分析 结果加r 成知识,供人们在决策中使用。 数据量和数据复杂性的增加迫切要求计算能力的提高,这导致了第一台计算机的产生。计算机性能的 提高又刺激了人们对信息的需求。在需求和技术的共同发展中,数据分析、加j 二的方法也不断发展和丰富 起来。在这种背景下,数据分析手段得到了长足的发展,许多基于先进数据分析方法的专业软件正不断涌 现出来。近年来出现的数据仓库技术是一种组织和分析大规模数据的方法,能将大量数据按特定结构组织 起来并以此提高聚合计算效率和查询效率。数据挖掘技术出现于上世纪8 0 年代。作为数据管理和数据分 析技术共同发展的必然产物,数据挖掘技术使数据分析过程更加智能、灵活和强大,并逐渐成为一种能适 应大数据量知识发现的分析利器。 在人类社会迈入信息时代的今天,包括企业在内的各类机构均面临着信息化的挑战,信息化管理是企 业适应未来发展的必由之路。质量则是企业管理中永恒的主题,是任何企业的支柱。因此,将信息技术与 企业质量管理( 尤其是全面质量管理阶段) 有机地结合起来,对于企业的生存与发展具有十分重要的意义。 集诸多优点于一身的数据挖掘技术为作为一种先进的、极具应用价值的数据分析工具,为企业实现全面质 萤管理提供了全新的科学手段。 如何将数据挖掘技术应用到具体的企业质量管理流程中去,是一个很有现实意义的课题。本论文阐绕 这个中心结合实际企业环境,重点探讨了产品质量水平的量化描述、数据规范与分析等问题,并介绍了 一个相关的数据挖掘系统的设计与实施。 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:3 型3日期:羔! ! 生盟g 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名: 耋堕显导师签名:薹竖日期:2 。o 弘6 怂 墨二兰墼塑丝塑塑坌 一一 第一章数据挖掘简介 1 1 数据挖掘技术在知识发现和应用领域中的地位 知识发现是一个从源于现实世界的大量数据中归纳出特定规律的过程。知识发现的数据对象,其范围 十分r 。泛,包括经济、工农业、商业、科学等领域的数据,数据内容包括数字、符号、图像、声音等。知 识发现晌方法有很多种,涉及到许多研究领域。知识发现的结果也可以表示成多种形式,各有适用范嗣。 现在的关系犁数据库( r d b m s ) 由于具有统一的组织结构、规范的查询语言、强大的并发机制和完善 的安全性能,已在诸多领域得到了广泛应用,因此,面向数据库的知识发现的研究发展十分迅猛。面向数 据库的知识发现常被称作数据挖掘( k d d :k n o w e d g ed is c o v e r yi nd a t a b a s e s ) 、数据钻探或知识抽取等。 数据挖掘的要素包括“数据集”、“模式”、“过程”、“有效性“、“新颖性”、“潜在有用性”和“撮终可理 解性”。这些要素从挖掘对象、挖掘过程、知识表达及知识利用的角度定义了数据挖掘概念的框架。 数据挖掘是一种知识发现的手段,只要是存在数据积累的场合,都可以有它的用武之地。数据挖掘可 用来帮助解决客户分类等商业问题、网页分类搜索等互联网问题以及发现质量异常、过程控制等企业管理 问题。例如象聚类这样较为成熟数据挖掘方法,现已被应用到金融等领域中了1 3 j 。由于数据挖掘在商业 活动、科学探索、智能决策等领域的重要作用,使其成为信息工业中最富前景的数据库应用领域之一。 1 2 数据挖掘技术与其它数据分析技术的比较 数据仓库技术是一种较新的技术,不同丁二处理日常t 作数据的事务数据库概念,它是一种面向特定主 题( s u b j e c t o r i e n t e d ) 的、集成他的、时变的( t i m e v a r i a n t ) 稳定数据集,具有特定的体系结构。 创建数据仓库时,首先将分布数据集中到一个服务器上,数据载入后一般不再变化。这些数据按一定 的结构组织和存放,为高效率的查询和分析提供了条件。典型的存储结构是以事实表为中心的星形结构以 及山此扩展的雪花结构,处于中心的事实表和维表之间以关键属性连接( 这在r d b m s 中很容易实现) 【4 j 。 其次要设置联机分析服务器,为在线数据分析提供服务。为提高服务效率,可在服务器上预先为数据仓库 中的星型结构数据创建多维数据集,并完成各维度的聚台计算,计算结果按特定结构( 数据聚合体) 存储 以供在线查询。数据聚合体是依赖多维结构存储的,建立的聚合体数量一般按照“2 0 8 0 ”原则,即“增 加2 0 的预计算量提高8 0 的分析效率”【j j 。以微软的m ss q ls e r v e ro l a p 分析方式为例,服务器允许 用户以交互方式或借助脚本语言( v b s c r i p t ) 浏览和创建星型结构的数据仓库,创建流程还可存储为d t s 包,以便在数据发生变化时重用。当基本数据模型建立后,就可为o l a p 建立基于该数据模型的维度集并 预算出相应的数据聚合体。由于聚合体是关于历史数据的分析结论并已预先算好,客户就能在短时间内查 询到历史数据的聚合结论。由于数据被存储为多维数据集,所以生成新聚合体的速度也很快。为便于开发, 现在还出现了支持数据聚合体查询的扩展s q l 语言 b ) = p ( b l a ) j ; cm i n 时,有强关联规则a = b 。该公式只 反映出a 导致b 出现的可能性而非必然性,例如一个有很高全局支持度的项集b ,可能有很多项集a 能满 足上述条件,即使a 、b 并无实际联系。可用相关性公式r ( a = b ) 彳并詈等继续选出真正有效的规则。 2 3 2 聚类分析 聚类是一个将数据集划分为多个类的过程,使得同类数据对象具有较高相似度,而不同类的数据对象 则差异明显。在r d b m s 中,一个表可以用公用的属性集来描述同一范畴的事物,而判断数据对象是否相似 的依据就是其属性集的相似度。衡量数据对象相似度主要是利用数据距离概念,而在r d b m s 中,数据对象 可视为一个各维数据类型都可能不同的向量,因此数据距离就是向量的距离。 对丁- 一个只包含数值型属性的向量,常用距离是欧式距离、m a n h a t t a n 距离和h i n k o w s k i 距离。在应 用中还可根据各维的重要度对公式中各分项加权。有时还要用将距离值规范到 0 ,1 区间。只包含二值属 性的向量的距离可以用d ( a ,b :j i s j 计算,值域可限制在【o ,1 】。对于符号型属性的向量x 、y , 最简单的距离公式是d ( x ,y ) = ,即取不同值的属性数与公共属性总数的比值,但这过于粗糙。因此在实 验中首先将字符串a 、b 视为由字母集构成的空间中的向量:假设a 、b 中出现的不同字母构成的集合为a , a = n ,则a 、b 构成一n 维空间z ,a 、b 成为z 中的向量c 和d ,分量是各字母在字符串中的频度,幽1 显示t j l 个字符串的字母频度分布。定义w ( a 、b ) 为c 和d 的欧氏距离,这样,字符串的距离被转换成 数值型向量的距离。w ( a 、b ) 可以度量a 、b 字母出现频度及成分的差异,二者均会显著影响w 。当a 、b 的构成字母集不相交时,w 由各字符串的字母“频度”决定;当相交时,相同字母越多、频度越接近,就 使w 值( 差异) 越小。另一种基于z 空间的计算a 、b 距离的公式为a l p h e c o n d i s t ( a ,b ) = 卜f n ,f 是a 、 b 相同的字母数。基于上述计算字符串距离的公式即可确定符号型向量间的距离汁算公式。 晟后还应考虑计算复合数据类型的向量距离。一个方法是将所有属性的距离统一计算,公式为: “k :1 t ( k ) d ( k ) m ( a 、b ) 三i 一,其中t ( k ) :r 0 t a = t b ,或其中之一不存在 + 1t a t b ,且其中至少存在一个有效值”。 ( k ) 表示a 、b 在k 是否存在差异,d ( k ) 是差异 度量函数。还应将全部d ( k ) 的函数值统一成 一致的值域,避免忽略小值域的属性。 基于数据距离的聚类算法可分为以下几类: 1 、划分聚类:常见算法是k - m e a n s 和k - m e d o i d s , k - m o d e s 和k - p r o t o t y p e 是k m e a n s 的变化版, 分别是符号型和混合型的聚类。k - r e e d o i d s 与 图l 字串问各类距离对比 k - m e a n s 类似,只是每次循环中用非中心对象替换了类中心。 2 、层次聚类:在给定数据集上按顺序产生一个聚类层次结构,可称为聚类树,叶是数据对象。该过程是 类节点的合并或分裂的过程。类的合并分裂要用到类间距离的概念,一般有四种公式:两个类最近点的距 离、最远点距离、均值距离及类a 的每个数据与类b 每个数据的距离均值。 3 、密度聚类:首先确定若于核数据( 类似聚类中心) ,寻找与核距离小于阀值的近邻划为一类,并由这些 对象继续寻找它们的“密度可达对象”,直至再也找不到。最终形成的以核数据为中心的最大可达对象集 就是一个类,不可达的数据归为“噪声类”。该方法能以核数据为中心发现任意形状的聚类。 4 墨三兰墼塑丝塑兰垒些堕苎篁垄一 第三章数据挖掘与企业质量管理 3 i 数据分析技术与企业质量管理 企业质量管理发展的三个阶段i l i j 如下: 1 、质量检验阶段:质量检验阶段指依靠检验( 尤其是产品的出厂检验) 来保证产品质量的方式。对于企业 的生产过程而言,这是一种事后的质最保证方式:当产品出现不合格或工作发生错误时己消耗了物料、工 时、资金等资源,因此会提高成本而造成企业不必要的经济损失。 2 、统计质量控制阶段 本阶段是运用各种统计方法,通过对质量过程的实时监控来捕捉过程中的异常a 旦发现过程的异常 就立即有针对性地采取措施,把不合格消除在过程内部,而不是在过程完毕之后,这样就提前避免了不合 格的发生,降低了不必要损失。显然,这是一种预前性的质量保证方式。以统计技术为主的数据分析技术 的重大发展推动了质量管理从质量检验阶段发展到了统计质量控制阶段,代表应用是上世纪扔罗米格、道 吉提出的统计抽样方法和休哈特提出的控制图,这两种方法己普遍运用到许多企业中,成为质量管理发展 史上的里程碑。 3 、全面质量管理阶段 全面质量管理指全员参与的、全过程的、全企业的质量管理。强调从过程、人员、企业意识多个角度 米开展质量管理活动,是企业质量管理的高级阶段。 3 2 统计技术在企业质量管理中的作用 目前统计技术是企业质量管理采取的主要数据分析技术。众所周知,以统计抽样和控制图为代表的 质量控制于上世纪4 0 年代进入一些先进企业。并逐步在世界范围内的军工及民用产品企业普及。统计技 术已被大量实践证明是成功的,然而,统计技术在我国企业中的应用却不乐观,不少企业忽视或跨越了统 计控制阶段,而质量管理体系中的过程控制、数据分析、纠正与预防措施等很多要求均与统计技术应用有 关。在产品寿命周期的每个阶段,如果没有应用统计技术,企业的质量管理体系很难达到有效和完善, i s 0 9 0 0 d 所倡导的“以顾客为关注焦点”、“过程方法”、“持续改进”等原则也很难实现。目前,新版i s 0 9 0 0 0 标准已将统计技术从一个要素提升为质量管理体系的基础,这充分说明该标准对统计技术的重视程度,人 1 f j 将更加重视企业质量管理体系的有效性和效率,对统计技术在质鼍管理体系的建立、运行及业绩改进过 程中的应用将会有更深刻的理解和认识。 从理论上说,统计技术是以概率论为基础的应用数学分枝,是研究随机现象中确定规律的学科。给定 一组条件时所发生的结果不确定的现象称为随机现象。这种随机有时在一定范围内是服从确定规律的,这 种规律就是所谓的概率分布。产品质量也是一种随机现象,其特征值在一定范嗣内( 常被称为“可控”范 围) 也服从概率分布规律。常见的概率分布函数有正态分布、二项分布、泊松分布等。以常用的正态分布 为例,概率值主要由表征分布中一1 1 位置的p 和表征离散程度的标准差。决定。因此,当用正态分布方法研 究质量特性对离不开对u 和。的研究。一般总体的、o 不能预知,常以样本的均值u 和标准差s 代替。 在统计技术的应用中,统计推断指通过对样本数据的分析,预测事件及总体质量水平。统计控制指通 过对样本数据的分析,采取措施消除过程中的异常因素,以保证质量特性的分布基本不变,使质量过程达 到稳定受控状态。企业可在过程能力、控制过程能力、验证过程能力、确定产品特性、控制产品特性、验 证产品特性,具体作用在于提供表示事物特征的数据、比较两个事物之间的差异、分析影响事物变化的原 冈、分析两种特征之间的相互关系、研究抽样及试验方案、预测未来和推断总体质量水平、对过程实时控 制、预防不合格的产生,减少不必要的损失【5 j 。 统计技术在应用中仍存在一定的局限性,主要表现在: 、在应用中,统计方法一般是针对单一属性的,而许多实际问题需要发现多维空间中的数据规律: 、管理活动常需要综合分析多个过程中的数据,而统计技术主要用于单一过程控制i 、统计方法假设数据符合已知分布规律,当数据不能被标准分布函数描述时就会产生较大偏差或失效: 3 3 数据挖掘技术在企业质量管理中的作用及与统计方法的对比 企业全面质量管理就是企业为了保证和提高产品质量,综合运用一整套质量管理体系、手段和方法 所进行的系统性管理活动【1 2 j 。可用i s 0 9 0 0 0 2 0 0 0 版提出的原则概括: 、企业的各项工作必须以顾客为关注焦点,尽力使产品、服务达到或超越顾客的期望。 、强调领导在企业中的作用,领导应及时有效地将顾客需求转换成质量目标。 、全员参与质量形成的过程。 、将相关资源和活动作为过程来管理,以便更高效地获得预期目标。 、从系统角度研究相互关联的过程包括确定过程的职责、接口等。以过程网络的方法构建质量体系。 、持续改进,包括产品、过程及体系效率的改进,是一个增强满足各种质量要求的能力的循环活动。 、决策方法更加基丁_ 事实,应建立在数据和信息分析的基础上。 、强调与供方的互利互惠。 经作者研究,发现绝大部分原则均可以从数据挖掘技术中获益。经分析,可将数据挖掘对实现上述原 则的作用罗列如下: 、市场方面: a 、顾客群体分类,帮助企业针对不同群体制定相应的生产、销售和服务策略。只需通过常见的用户 调查活动就可收集到用户需求、收入水平、年龄等各类特征属性值,接着就可用分类或聚类的数 据挖掘方法对用户群体分类,并作为制定产品生产销售策略的依据。 b 、当众多的产品进入市场时,可以对产品销售状况和在市场中体现出的质量水平归纳、分类,以此 确定需要改进的重点型号。首先,通过市场调查手段可以获取每种型号产品共有的各项技术质量 特征值。例如a 型产品具有一个r l 维( 对应n 个技术质量特征值) 的样本空间,对备维采用诸如 平均值的统计量来代表,这样,a 型产品就具备了一个特征向量。接着对该特征向量集使用分类或 聚类方法,就可得出一个型号的分类,其中的一个类就是一个处于同一质量水平的产品型号集。 当每个型号集均能用一个量化的、关于质量属性的向量代表( 数值型聚类方法中的聚类中心正是 这样一种向量) 时,分析者就可以轻而易举地发现那些质量水平异常的产品型号集,该集中的对 应产品型号就是需要重点改进的候选型号集。 c 、可以将本企业产品同竞争对手的同类产品按质最属性对比、抽象,从中发现本企业产品与同类产 品的优势和差距。只需收集市场中同类产品的通用技术质量特征值,并生成相应关系表,就可以 使用概念归纳方法快速得出本企业产品在同类产品中所处的水平,并能方便地与其它水平产品进 行对比。 、企业生产经营方面: a 、人力资源管理:可对人力资源采用分类方法进行评估,为制定及实施相关措施提供信息支持。 b 、帮助寻找各过程的改进重点提供信息帮助。例如,过程p 有不同型号的输出品,如将每型号按不 合格批次发生序列抽象为个质量特征向量,那么就可进行分类分析,那些不合格频度异常的类 中就包含了过程改进的重点型号。当然,在这个例子中,由于采用了对绝对不合格批数的分类而 未考虑产品的总体供应量,因此得到的异常类中还需考虑那些可能由于输出量极大而造成不合格 批次较多的属正常水平的型号。 c 、帮助评估过程网络的质量水平,帮助企业及时采取措施来调整组织、质量目标和质量方针,实现 对过程网络的整体监控- 可以在集成过程网络数据的基础上,应用上述的向量化手段及异类发现 方法来察觉一段时间内该过程网络中的异常,从应用角度说,该方法起到了与传统统计控制图法 类似的效果。 d 、通过分析各过程质量数据间的关联规律来明确各子过程之间的相互关联关系。为主管部门实施 p d c a 循环提供必要的信息支持。 ( 曼) 、辅助决策方面:将以上得到韵结论知识以合适的方式提供给决策者,实现对质量决策的支持。 为达到上述目的,企业的质量数据挖掘系统应具备以下特点: 6 、既能分析单一过程的质量数据,也能发现多过程的质量数据规律。从片j 尸角厦看,返迥。鬲葸曝君分仲 式运作的业务数据库、灵活的在线分析系统、由该系统输出的知识( 窗口、报表) 以及一个稳定的底层网 络平台。从开发雉度看,系统需要具备具备稳定、高效的体系结构,能便于在企业的l a n 中综合多数据源 数据并处理、分析,能产生容易被企业管理者理解的结论。因此,实际系统采用了c s 两层结构。 、能比较多维数据问的差异并根据差异对数据快速分类,能检测出异常数据集( 异类) 。与大部分数据 不一致或很不同的数据称为异常数据,可能是由于各种错误产生的,质量管理中的异常数据可能就意味者 生产过程发生了异常。但有时候,数据本身也存 在合理的异常,例如:一个c e o 的j 二资在员丁t 资数据集中就是一个合理的异常,而以年度为周 期出现的正常数据在某个月中可能就是异常,因 此,有时还要识别出这些合理的异常。根据挖掘 目的的不同,异常数据的处理方法也不同。当需 要挖掘绝大部分数据的规律时,挖掘算法就试图 降低异常数据的影响;而当要检测异常时,挖掘 匦马早呷 国娃 - d四 i 括札 甩产接f 1h阻户 l 圈2 专家系统与挖掘系统的关系 算法就麻识别出异常。挖掘异类时要给出判为异常的标准,再设计一个能够挖掘出所定义的异常数据的方 法。主要有三类异常挖掘方法:统计方法、基于距离方法和基于偏差方法。基于统计的异常检测方法假设 所给定的数据集存在着一个概率分布模型,算法按模型计算出数值序列的统计量和临界值,根据临界值检 出序列中的异常数据。常见的有“3o ”法、奈尔检验法、格拉布斯法、狄克逊法等。由于统计算法需要 按预想的概率模型公式计算,通常需要用户指定如小概率僵、检出水平、剔除水平、检出数等参数,有时 总体参数还要用样本空间的无偏估计代替,这些都会造成统计误差。基于距离的异常检测将数据集中那些 没有足够近邻的数据对象视为异常,可使用上文提到的密度聚类方法。基于偏差的方法是寻找意外集合, 意外集台是一个能使得其补集中数据元素著异最小的初始数据集的最小子集。通过对初始数据集的各子集 的测试可以找到意外集合。该方法显然还需要定义合适的偏差函数来度量一个数据集所有元素的差异性。 、能分析影响事物变化的原因,找出多种特征属性之间的相互关系。关联分析是台适的方法。 、预测未来和推断总体质量水平。这是如何应用知识的问题,数据挖掘系统与知识系统有着紧密联系。 在知识系统中,数据挖掘属知识获取阶段,预测、推断则属知识利用阶段。以专家系统为例( 见图2 ) ,数 据挖掘获取的知识可转换为特定形式( 如规则) 存储到知识库中。系统的推理部分可实现对知识的利用, 包括解决问题的策略和推理方法,它接收用户界面传来的信息,根据数据库汇总,调用知识库中的有关知 识对信息进行处理,并将处理结果送往用户界面或其它结构。 、对决策过程提供支持。与使用统计技术对单一过程进行监控及评估不同,使用数据挖掘技术可以帮助 对来自多部门、多过程的数据以及数据的多属性进行一集成化”的分析,因此,能为高层的决策过程提供 全局性的信息支持。 7 东南大学硕士学位论文 第四章应用环境研究及程序的设计与实施 4 1 质量数据挖掘任务的方案设计 数据挖掘离不开数据。按照先进的质量管理理念,可将质量管理体系抽象为一个过程网络j ,网络 的节点是每个确定的质量过程,因此,面向质量管理的数据挖掘方案就应针对这个网络来设计。 由于行业差异,各行业企业的运作流程各不相同,这就意味着质量过程网络的拓补结构和节点内涵可 能相差很大。以制造企业和客运企业为例,前者销售的是有形的产品实物,后者则是无形的服务,因此: l 、 前者的质量指产品质量,后者则指服务质量: 2 、前者的质量网络是一个由相互联系的组织物料的不同过程构成的有向网络t 过程可以包括零件配套供 应、加工、装配、销售及售后服务,过程的互联方式随企业管理模式的不同而不同。后者则可视为一个组 织旅客的不同过程所构成的有向网络可定义的质量过程有旅客组织、批量运输和安全抵达目的地,这个 网络要比制造企业简单许多。 正是由于质量过程的性质和互相结合方式的差异,使得处于不同行业的企业形成了各不相同的质量网 络,网络节点存储的数据也相应地有不同含义和互相影响的规律。因此,对不同结构、不同内涵的过程网 络,要根据实际数据特点来制定数据挖掘方案,建立与之相适应的数据挖掘系统,确保数据挖掘的有效性。 所以在设计方案前,要明确质管流程中的各子过程以及与每个子过程相关的数据。以本企业为例,与 产品生产、销售有关的子过程及相关资源如表1 。 表1 质量过程资源 过程名 资源 配套零件供应采购检验装配销售( 售前检奁)售后服务 过程所包含 零件零件零件 零件、发动机、零件、发动机、摩零件、发动 的产品物料摩托车托车机、摩托车 过程参与者供应商采购质检装配工厂销售商服务人员 过程管理者 质量管理部门 过程的数据 质量不合格记录 山于企业目前已具备较完善的质量管理体系,各过程积累的质量数据是比较全面的。根据上表,我们 可以看到物料经历了从海量、分散的配套零件转换为大最成品的过程而这是依赖表中过耦所构成的网络 来实现的。因此,耍建立针对物料数据的质量数据挖掘系统。也应以表中过程网络的数据为分析对象。表 1 说明:企业的物料形式主要有零件、发动机和摩托车。它们之间存在种自然的隶属关系:零件构成了 后两者,而零件、发动机又构成了摩托车。对于摩托车产品,发动机实际上也是零件,但对于企业,发动 机又是可单独销售的成品,因此将其视为一种具有零件、成品双重特征的物料而单独列出。 质量过程网络的每个节点,都有上述3 种类型之一的物料输入和输出。考虑到零件产品的庞大数量以 及它们在过程网络中的普遍性,将挖掘的数据对象集确定为各过程的“零件不合格记录”。所谓的“零件 不合格记录”是质量过程参与者依照质量体系文件的要求,对零件在各质量过程中出现的故障所作的较规 范的记录。得益于p c 的推广和企业信息化建设,大部分指标性质的质量记录均以数据库或电子表格的形 式保存了下来,有的时间跨度长达5 年。这为成功实现数据挖掘系统提供了保证。当然,备过程保存的数 据是不能直接用于分析的,因为它们具有不同的数据类型、精度、存储格式和一致性要求,因此必须经过 一定的初步整理方可用作数据挖掘的对象。本论文把那些从“零件不合格记录”整理出来的可供挖掘的规 范数据集统称为“基础数据”。 根据基础数据的信息,面向实际管理环境,作者按照8 条质管原则的思想设计了3 个数据挖掘任务模 式。下面以任务一为重点,分别阐述各项任务的应用背景、解决方案和数据挖掘系统的实现。 3 第四章应用环境研究及程序的设计与实施 侄* 一、对供应商及零什质量水平分缎( 分类) ( 一) 、应用背景研究 本任务的目标是对配套零件及供应商水平进行分级评估,评估结论可帮助制定能体现原则7 、8 的季 度或年度的配套产品检验计划。检验计划的一个内容是确定在未来某个季度或年度内,将哪些配套零件列 为重点检验对象,哪些纳入一般检验范围以及哪些可以免检,这就需要按一定原则对零件集分类( 即质量 分级) 。 分类的依据一般有两个:a 、零件对于产品性能的重要程度;b 、零件的质量水平。两条依据是互相独 立的,例如:曲轴对于发动机产品至关重要,无论其质最水平如何,都应属于重点检验的范围;而诸如后 货架之类的零件,对于摩托车性能而言虽非关键,但若质量水平持续低下。就会造成装配、销售及售后服 务过程出现问题,给企业造成不必要的损失,这时就应将其列为重点检验范围。基于a 的分级主要由专业 技术人员去完成。事实上,在专业技术领域使用数据挖掘技术是不合适的,这很可能导致发现毫无新意的 专业领域的知识。因此,本任务的目标就是确定分类的依据b 并据此对零件分级。 那么如何描述零件的质董水平昵? 首先应明确零件质量水平的概念。零件的质量水平可以有2 层内涵: 一方面是指零件实物的质量:另一方面由于零件质量水平是基于质量过程的,因此又指零件在质量过程网 络中流动时对过程及网络的影响程度( 通常指负面影响) 。而我们则需要用“基础数据”来描述质量水平。 对于第一种质量水平。如何确定基础数据的范围昵? 从理论上说,可以用多种零件以及它们的全部技 术质量属性构成一个零件质量水平空间,每个维对应一个唯一的技术质量属性。然而,在现有条件下要在 计算机数据库中构造这个空间是几乎不可能的,原因主要有3 个: ( 1 ) 、对丁| 大量不同种类的零件,其技术质量属性五花八门,有机械的、电气的、安全的、环保的,等等, 对应的维数将会很大,而现有的r d b m s 关系表支持的维数极其有限,因此,这个空间是难以存储的。 ( 2 ) 、即使计算机技术允许存储超高维的空间,其可行性也是很低的,因为在实际存在的质量运行记录中, 零件的技术质量检测结论无法按统一要求存储,原因是: a 、检测结论的数据类型多种多样,包括文本、数字、图像( 例如一台自动检测设备生成的油耗曲线图) 或声音( 例如是一段现场录制的产品噪音) ,甚至是多种数据类型构成的复合类型,一般企业是难以形 成一套完善的针对复杂类型数据的采集、维护流程的; b 、实际存在的大量检测结论存储于不同载体上( 纸张、硬盘、胶片、甚至是一个具备某种复杂物化特征 的零件样品等) ,这是由于检测手段的复杂性造成的,而这种现状是不能改变的:企业在具备能很好地 满足现有的数据管理需求的能力时,是不会试图将所有数据全部转移到计算机存储器的,这既需要大 最投入,也不是急需要做的。 ( 3 ) 、即使计算机技术和企业环境均允许我们这么做,那么,就对数据挖掘算法和系统的设计提出了极高 的要求。另外,正是由于数据类型的复杂性,我们也很难将众多类型的属性进行编码并压缩存储,即使可 以,在做数据分析时也需要解码,这会极大影响数据分析的效率。 总之,在现有条件下,对于第一种零件质量水平是不宜采用基fd b m s 的数据挖掘方法去分析的。对 于第二种质量水平,可以使用质量指标值。这是因为零件对过程的影响程度可以用一系列质量指标去衡量。 指标一般是简单的数据类型,指标系统也不会有复杂结构。至此,我们可将第二种质量水平作为本论文讨 论的对象,也就是上述的b 的定义,而描述b 的基础数据就能以数值型的质量指标值为核心了,这样一来, 就可用有意义的数值来标识出不同级别的质量水平了。对于用户而言,这种表示也是直观易懂的。 下面的问题是使用哪些质量指标来构成基础数据。我们知道,常见的质量指标是诸如产品合格率之类 的统计指标,由于这类指标只是一些相对量,并非直接的数量概念,因此不能用来直接描述过程的受影响 的程度故不能作为数据挖掘的分析对象。若能由现有的质量记录获取以数值型、非统计质量特征指标为 核心的基础数据,那么就可将基于b 的分级工作转换成对基础数据的分类,这时就可以应用数据挖掘技术 了。那么如何由过程的质量记录确定基础数据昵? 首先,零件在任一质量过程中流动时所发生的质量不合 格细节均已保存为数据库记录,其中包括零件种类标识、发生不合格的时间、不合格数量以及潜在的聚合 值属性,因此,利用( 零件标识,时间段,聚合值) 特征向量就能量化地表示特定过程中,任一零件在某 时段内的不合格强度。可将该特征量简记作m - ( d ,t ,n ) ,不合格零件的m 集就可以描述该时段内零件集 的质量不合格水平了,而n 就是核心指标。当用m 集直接作为依据b 时,m 集就是基础数据,针对b 的分 9 东南大学硕士学位论文 缀就被转换成对m 集的分类,m 集就成了数据挖掘的对象

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论