《数据挖掘与管理决策》课程教学大纲_第1页
《数据挖掘与管理决策》课程教学大纲_第2页
《数据挖掘与管理决策》课程教学大纲_第3页
《数据挖掘与管理决策》课程教学大纲_第4页
《数据挖掘与管理决策》课程教学大纲_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘与管理决策课程教学大纲课程编号:20157英文名:Data mining and Management Decision课程类别:专业主干(双语)前置课:统计学、线性代数、管理学后置课:企业资源计划学 分:3学分课 时:51课时选定教材:Data Mining Introductory and Advanced Topics(影印版). Margaret H. Dunham. 清华大学出版社,2003年10月课程概述:数据挖掘是近年来伴随着数据库系统的大量建立和万维网的广泛使用而发展起来的一门数据处理和分析技术,它是数据库、机器学习与统计学这三个领域的交叉结合而形成的一门新兴技术。本课

2、程系统地介绍各种数据挖掘的基本概念、方法和算法,并结合软件介绍和管理决策案例分析进行系统学习数据挖掘和应用。本课程由四部分构成:第一部分是导论,全面介绍数据挖掘的背景信息、相关概念以及数据挖掘所使用的主要技术;第二部分是数据挖掘的核心算法,系统深入地描述了用于分类、聚类和关联规则的常用算法;第三部分是数据挖掘的高级课题,主要叙述了Web挖掘、空间数据挖掘、时序数据和序列数据挖掘。通过数据挖掘技术找到蕴藏在数据中的有用信息,进而找到尚未发现的知识,为商业竞争、企业生产和管理、政府部门决策以及科学探索等提供信息与知识,对于帮助管理者作出科学决策具有重要价值。教学目的:数据挖掘技术经过十几年的发展,

3、已经取得一些重要成果,特别是在基本概念、基本原理、基本算法等方面发展的越来越清晰。因此,现在开设此课程具备基本的技术条件。本课程以介绍基本概念和基本算法为主,作为高级数据处理和分析技术,其目的是通过本课程学习让学生了解信息处理技术的发展方向以及数据挖掘技术本身的概念、原理和方法。同时结合管理决策的案例进行教学,以前沿问题的讨论与探索为辅,为学生将来研究和学习提供知识储备,适应大数据时代的管理需要。教学方法:本课程课堂教学主要采用多媒体授课,并辅助以案例教学、课堂讨论和软件应用。各章教学要求及教学要点第一章 引言(Introduction)课时分配:3课时教学要求:通过本章的教学,使学生了解数据

4、挖掘基本概念、数据挖掘技术,包括分类、回归、时间序列分析、预测、聚类、关联规则、序列发现,以及 数据挖掘与数据库中的知识发现、数据挖掘对未来管理决策和社会发展的影响。教学内容:1.1 Basic Data Mining Tasks1.2 Data Mining Versus Knowledge Discovery in Databases1.3 Data Mining Issues1.4 Data Mining Metrics1.5 Social Implications of Data Mining1.6 Data Mining from a Database Perspective1.7

5、The Future思考题:1. Identify and describe the phases in the KDD process, and how does KDD differ from data mining?2. Find at least three examples of data mining applications that have appeared in the business section of your local publication. And describe the data mining application involved.第二章相关概念(R

6、elated Concepts)课时分配:4课时教学要求:通过本章的教学,使学生了解数据处理相关概念,掌握数据库/OLTP系统、模糊集和模糊逻辑、信息检索、决策支持系统、维数据建模、多维模式、索引、数据仓储、 Web搜索引擎、机器学习、模式匹配等方法及其应用的相关概念。教学内容:2.1 Database/OLTP Systems2.2 Fuzzy Sets and Fuzzy Logic2.3 Information Retrieval2.4 Decision Support Systems2.5 Dimensional Modeling2.6 Indexing2.7 Data Warehou

7、sing2.8 OLAP2.9 Web Search Engines2.10 Statistics2.11 Machine Learning思考题:1. Compare and contrast database, information retrieval, and data mining queries. What metrics are used to measure the performance of each type of query?2. Data warehouse are often viewed to contain relatively static data. Inv

8、estigate techniques that have been proposed to provide updates to this data from the operational data . How often should these updates occur?第三章数据挖掘技术 Data Mining Techniques 课时分配:4课时教学要求:通过本章的教学,使学生了解数据挖掘技术的统计方法、贝叶斯定理、回归和相关、决策树、相似性、神经网络、激励函数和遗传算法等基本公式、计算步骤等内容。教学内容:3.1 Introduction3.2 A Statistical P

9、erspective on Data Mining3.3 Similarity Measures3.4 Decision Trees3.5 Neural Networks3.6 Genetic Algorithms思考题:1Given the following set of values 1,3 ,9 15, 20, determine the jackknife estimate for both the mean and standard deviation of the mean.2. Find the similarity between ,and using the Dice, J

10、accard and Cosine similarity measures.3. given the decision tree in Fig.3.5, classify each of the following students: , and .第四章分类 Classification课时分配:8课时教学要求:了解分类中的问题和数据分析方法,包括基于统计的算法(如回归、贝叶斯分类)、基于距离的算法(K最近邻)、基于决策树的算法、神经网络、基于规则的算法以及其他组合技术。教学内容:4.1 Introduction4.2 Statistical-Based Algorithms4.3 Dist

11、ance-Based Algorithms4.4 Decision Tree-Based Algorithms4.5 Neural Network-Based Algorithms4.6 Rule-Based Algorithms4.7 Combining Techniques思考题:1Apply the method of least squares technique to determine the division between medium and tall persons using the training data in Table4.1 and classification

12、 shown in output1(see example 4.3). You may use either the division technique or the prediction technique.2. Explain the difference between P(ti|Cj) and P (Cj|ti)3. Compare at least three different guideline that have been proposed for determining the optimal number of hidden nodes in an NN.4. Vario

13、us classification algorithm can be found online. Apply these programs to the height example in Table4.1 using the training classification shown in the output2 column.第五章聚类Clustering课时分配:6课时教学要求:掌握相似性和距离度量、异常点、层次算法、划分算法(最小生成树、平方误差聚类算法、K均值聚类、最近邻算法等)、大型数据库聚类(BIRCH、DBSCAN、CURE算法)以及对类别属性进行聚类等方法教学内容:5.1 I

14、ntroduction5.2 Similarity and Distance Measures5.3 Outliers5.4 Hierarchical Algorithms5.5 Partitional Algorithms5.6 Clustering Large Databases5.7 Clustering with Categorical attributes5.8 Comparison思考题:1. Show the dendrogram created by the single, complete, and average link clustering algorithms usi

15、ng the following adjacency matrix.ItemABCDA0145B1026C4303D56302. A major problem with the single link algorithm is that clusters consisting of long chains may be created. Describe and illustrate this concept.3. Trace the use of the nearest neighbor algorithm on the data of Exercise 1 assuming a thre

16、shold of 3.4. Perform a survey of recently proposed clustering algorithms. Identify where they fit in the classification tree in Figure5.2. Try to describe their approach and performance.第六章关联规则(Association Rules)课时分配:8课时教学要求:通过本章的教学,使学生了解大项目集法、基本算法(Apriori算法、抽样算法、划分)、并行和分布式算法、方法比较、增量规则、高级关联规则技术相关规则

17、以及如何度量规则的质量,并结合实际案例进行应用分析。教学内容:6.1 Introduction6.2 Large Item sets6.3 Basic Algorithms6.4 Parallel and Distributed Algorithms6.5 Comparing Approaches6.6 Incremental Rules6.7 Advanced Association Rule Techniques6.8 Measuring the Quality of Rules思考题:1. Trace the results of using the Apriori algorithm

18、on the grocery store example with s=20% and a=40%. Be sure to show the candidate an large itemsets for each database scan. Also indicate the association rules that will be generated. 2. Trace the results of using the sampling algorithm on the clothing store example with s=20% and a=40%. Be sure to s

19、how the use of negative border function as well as the candidate and large itemsets for each database scan.3. Calculate the lift and conviction for the rules shown in Table 6.3, Compare these to the shown support and confidence.4. Perform a survey of recent research examining techniques to generate

20、rules incrementally.第七章Web 挖掘(Web Mining)课时分配:6课时教学要求:通过本章的教学,使学生了解 Web内容挖掘(爬虫、Harvest系统、虚拟Web视图)、Web结构挖掘( PageRank、Clever)、Web使用挖掘(预处理、数据结构、模式发现、模式分析)等高级数据挖掘技术和方法。教学内容:7.1 Introduction7.2 Web Content Mining7.3 Web Structure Mining7.4 Web Usage Mining思考题:1. Construct the trie for the string .2. The

21、use of a Web server through a proxy (such as an ISP) complicates the collection of frequent sequence statistics. Suppose that two users use one proxy and have the following sessions:User 1:User2:When these are viewed together by the Web server(taking into account the time stamps), one large session

22、is generated:Identify the maximal frequent sequences assuming a minimum support of 2. What are the maximal frequent sequences if the two users could be separated?3. Perform a literature survey concerning current research into solutions to the proxy problem identified in Exercise 6.第八章空间数据挖掘(Spatial

23、Mining)课时分配:6课时教学要求:通过本章的教学,使学生了解空间数据相关基本概念(空间查询、空间数据结构、主题地图和图像数据库)、空间数据挖掘原语、一般化和特殊化(渐进求精、一般化、最近邻、STING)、空间规则(空间关联规则、空间分类算法、对ID3的扩展、空间决策树)、空间聚类算法(对CLARANS的扩展、SD(CLARANS)、DBCLASD、BANG、WaveCluster以及近似)。教学内容:8.1 Introduction8.2 Spatial Data Overview8.3 Spatial Data Mining Primitives8.4 Generalization a

24、nd Specialization8.5 Spatial Rules8.6 Spatial Classification Algorithm8.7 Spatial Clustering Algorithms思考题:1. Compare the R-tree to the R*-tree.2. Another commonly used spatial index is the grid file. Define a grid file. Compare it to a k-D tree and a quad tree. Show the grid file that would be used

25、 to index the data found in Figure8.5.第九章时序数据挖掘(Temporal Mining)课时分配:6课时教学要求:通过本章的教学,使学生了解时序事件建模、时间序列(时间序列分析、 趋势分析、变换、相似性、预测)、模式检测、时序序列(AprioriAll、SPADE、特征抽取)、时序关联规则(事务间关联规则、情节规则、趋势依赖、序列关联规则、日历关联规则)等方法,重点结合管理案例讲解数据分析方法。教学内容:9.1 Introduction9.2 Modeling Temporal Events9.3 Time Series9.4 Pattern Detcdtion9.5 Sequences9.6 Temporal Association Rules思考题:1. Assume that you are given the following temperature values, Zt, taken at 5-minute time intervals: 50, 52, 55, 58, 60, 57, 66, 62, 60. Plot both Zt+2 and Zt. Does there appear to be an autocorrela

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论