人工智能原理及MATLAB实现 课件 第6章 数据挖掘_第1页
人工智能原理及MATLAB实现 课件 第6章 数据挖掘_第2页
人工智能原理及MATLAB实现 课件 第6章 数据挖掘_第3页
人工智能原理及MATLAB实现 课件 第6章 数据挖掘_第4页
人工智能原理及MATLAB实现 课件 第6章 数据挖掘_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章数据挖掘第六章数据挖掘§6.1数据挖掘概述大数据在给人们带来方便的同时也带来了一大堆问题:信息冗余;信息真伪难辨,给信息的正确应用带来困难。。为了满足人们数据分析工具的需求,20世纪80年代后期高级数据分析—基于数据库的知识发现(KnowledgeDiscoveryinDatabase,KDD)及相应的数据挖掘(DataMining,DM)理论和技术应运而生。第六章数据挖掘数据挖掘:技术层面:探查和分析大量数据以发现有意义的模式和规则的过程。商业层面:一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中抽取辅助商业决策的关键性数据。分类标准:1.根据数据库类型分类2.根据数据挖掘对象分类3.根据数据挖掘任务分类4.根据数据挖掘技术分类5.根据数据挖掘方法分类第六章数据挖掘§6.1数据挖掘概述6.1.2数据挖掘的分类、过程与任务6.1.2.1数据挖掘的分类数据挖掘是一个交叉性的学科领域,涉及统计学原理、模式识别技术、可视化理论和技术等。由于所用的数据挖掘方法的不同,所挖掘的数据类型与知识类型的不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据控制系统。数据挖掘可根据数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等方面进行分类。第六章数据挖掘§6.1数据挖掘概述6.1.2数据挖掘的分类、过程与任务6.1.2.2数据挖掘的过程图6.1为数据挖掘的基本过程。但由于数据挖掘的复杂性,实施过程往往需要重复以上的某些过程,而且各过程之间都有直接或间接的关系,不能将它们截然划分。例如数据预处理及变换就包含了线索关系的挖掘。第六章数据挖掘§6.1数据挖掘概述6.1.2数据挖掘的分类、过程与任务6.1.2.3数据挖掘的任务数据挖掘的任务有如下7类。1.概念描述2.关联分析3.时间序列分析4.分类分析5.聚类分析6.离群点检测7.预测第六章数据挖掘§6.1数据挖掘概述6.1.3数据挖掘建模一个成功的数据挖掘并不是对数据的简单运用,而是要在大量数据中不仅发现潜在的模式,而且必须能对这些模式做出反应,对它们进行处理,将数据转化为信息,将信息转化为行动,最终将行动转化为价值。所以为了成功运用数据挖掘,对数据挖掘技术层次的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。第六章数据挖掘§6.2数据挖掘算法统计分析方法:1.随机误差的判断(1)χ2检验。(2)F检验。2.系统误差的检验(1)平均值与给定值比较。(2)两个平均值的比较。(3)成对数据的比较。回归分析:1.一元线性回归分析2.多元线性回归分析3.非线性回归分析二项逻辑(logistic)回归当被解释变量为0/1二值品质型变量时,称为二项逻辑回归。二项逻辑回归虽然不能直接采有用一般线性多元回归模型拟合,但仍然可以充分利用线性回归模型建立的理论和思路来拟合。第六章数据挖掘§6.3数据挖掘相关技术关联规则的种类(1)基于规则中处理的变量的类型,关联规则可以分为布尔型和数值型。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中到的数据的维数,关联规则可以分为单维的和多维的。关联分析:主要研究数据中不同领域之间的关系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系。即相关性、关联关系,因果关系。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。第六章数据挖掘§6.3数据挖掘相关技术6.3.2粗糙集技术在自然界中,大部分事物所呈现的信息都是不完整和模糊的。对于这些信息,经典逻辑由于无法准确地描述,所以也就不能正确的处理。长期以来许多逻辑学家和哲学家都致力于研究模糊概念。但在现实世界中,并不能简单地用好坏、真假等确切的概念表示许多含糊现象,特别是在于集合的边界上,也即存在一些个体,既不能说它属于某个子集,也不能说它不属于该子集。20世纪80年代提出了粗糙集(RoughSet)理论。粗糙集用上、下近似两个集合来逼近任意一个集合,该集合的边界区域被定义为上近似集和下近似集的差,边界区域就是那些无法归属的个体。上、下二近似集合可以通过等价关系给出确定的描述,边界域的元素数目可以被计算出来。第六章数据挖掘§6.3数据挖掘相关技术6.3.3可视化技术可视化技术也称数据可视化,它旨在凭借计算机的强大信息处理能力以及计算机图形学基本算法及可视化算法将计算机进行的大规模科学(工程)计算结果及其产生的数字数据转换成静态或动态图像的过程,并允许人们通过交互手段控制数据的抽取和画面显示。它具有以下的特点:①交互性。用户可以方便地以交互的方式管理和开发数据;②多维性。可以表示对象或事件的数据的多个属性或变量;③可视性。数据可以用图像、曲线、二维图形、三维图形和动画显示,并可对其模式和相关关系进行可视化分析。第六章数据挖掘§6.4数据挖掘应用预测1.回归分析2.时间序列预测模型3.马尔可夫链4.灰色系统方法聚类1.聚类分析中的数据类型2.聚类的特征与聚类间的距离3.划分方法4.层次方法5.基于密度的方法6.基于网格的方法7.基于模型的聚类方法8.基于目标函数的方法9.孤立点分析10.聚类有效性第六章数据挖掘§6.4数据挖掘应用6.4.1金融中的应用在金融方面,银行和金融机构往往持有大量的关于客户的、各种服务的以及交易事务的数据,并且这些数据通常比较完整、可靠和高质量,这极大地方便了系统的数据分析和数据挖掘。在银行业中,数据挖掘被用来建模,预测,识别伪造信用卡,估计风险,进行趋势分析,效益分析,顾客分析等。在此领域运用数据挖掘,可以进行贷款偿付预测和客户信用政策分析,以调整贷款发放政策,降低经营风险。第六章数据挖掘§6.4数据挖掘应用6.4.2零售业方面的应用在零售业方面,计算机使用率已经越来越高,大型的超市大多配备了完善的计算机及数据库系统。随着条形码技术的广泛使用,目前我国大部分商业零售企业已经基本配备了销售点(pointofsales,POS)系统,部分商场甚至配备了决策支持系统和库存管理系统。随着交易的不断进行,记录了大量的客户交易以及销售、货物进出与服务记录等大量数据。第六章数据挖掘§6.4数据挖掘应用6.4.3电信业中的应用数据挖掘在电信业的应用包括:(1)对电信数据的多维分析;(2)检测非典型的使用模式,以寻找潜在的盗用者;(3)分析用户一系列的电信服务使用模式,来改进服务;(4)需求分析等。第六章数据挖掘§6.4数据挖掘应用6.4.4管理中的应用现代企业的竞争归根结底是人才的竞争。企业人力资源管理部门面临庞大繁杂的员工数据,要想有效地提供人力资源管理的效益,从人才配备的角度确保企事业战略目标的实现,传统的管理办法和思想越来越不能满足这个要求。有鉴于此,需要采用新的数据处理技术。第六章数据挖掘§6.4数据挖掘应用6.4.5科研中的应用科学研究的目的就是寻找各种规律,在这个过程中数据挖掘可以发挥出很大的作用。第六章数据挖掘§6.4数据挖掘应用6.4.6制造业中的应用数据挖掘技术在制造业应用的需求主要是产品需求分析、产品故障诊断与预测、精确营销和工业物联网分析等。通过数据挖掘能够使客户参与到产品的需求分析和产品设计中,为产品创新做出贡献。第六章数据挖掘§6.4数据挖掘应用6.4.7故障诊断与监测中的应用无所不在的传感器技术的引入使得产品故障实时诊断和预测成为可能。机械设备运行状态监测和故障诊断最本质的工作是:如何通过对机器外部征兆的监测取得特征参数的正确信息,并进行分析和识别。第六章数据挖掘§6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论