版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章
1.6定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种嘘挖掘功能的例子。
。特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所
有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩
(GPA:Gradepointaversge)的信息,还有所修的课程的最大数量。
❷区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比
较。例如,具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。最
终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA的学生的75%是四年级
计算机科学专业的学生,而具有低GPA的学生的65%不是。
。关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:
major(X,"computingscience")=owns(X,"personalcomputer")
[support=12%,confidence=98%]
其中,X是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台
个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度。)
。分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或
功能)而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的
相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是
预测缺失的数字型数据的值。
强类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进
行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结
构,把类似的事件组织在一起。
。数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数
据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据
分析、序列或周期模式匹配、和基于相似性的数据分析
1.9列举并描述说明物剧2掘任务的五种原语。
五种原语是:
◎任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或
数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属
性或维、关于修复的数据排序和分组。
。挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关
联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必
须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。
❷背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导
知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的
形式。
。模式兴趣度度■:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且
被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感
兴趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式以趣度测量能被指定为简
易性确定性、适用性、和新颖性的特征。
。发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地
将知识传给用户,数据挖掘系统应该能将发现的各种形式的模式展示出来,正如规则、表
格、饼或条形图、决策树、立方体或其它视觉的表示。
1.41.13描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦合、松散相合、半
紧精合和紧密糖合物认为财■方法最流行为什么?
解答:数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下
阡耦合:数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始数据集,
因为没有数据库系统或数据仓库系统的任何功能被作为处理过程的一部分执行。
因此,这种构架是一种糟糕的设计。
。松散耦合:数据挖掘系统不与数据库或数据仓库集成,除了使用被挖掘的初始数据集的源
数据和存储挖掘结果。这样,这种构架能得到数据库和数据仓库提供的灵活、高效、和特征
的优点。但是,在大量的数据集中,由松散耦合得到高可测性和良好的性能是非常困难的,
因为许多这种系统是基于内存的。
。半紧密耦合:一些数据挖掘原语,如聚合、分类、或统计功能的预计算可在数据库或数据仓
库系统有效的执行以便数据挖掘系统在挖掘-查询过程的应用。另外,一些经常用到的
中间挖掘结果能被预计算并存储到数据库或数据仓库系统中,从而增强了数据挖掘系统的
性能。
。紧密耦合:数据库或数据仓库系统被完全整合成数据挖掘系统的一部份,并且因此提
供了优化的数据查询处理。这样的话,数据挖掘子系统被视为一个信息系统的功能组件。这
是一中高度期望的结构,因为它有利于数据挖掘功能、高系统性能和集成信息处理环境的
有效实现。
从以上提供的体系结构的描述看,紧密耦合是最优的,没有值得顾虑的技术和执行问题。但紧密耦合系统所需的
大量技术基础结构仍然在发展变化淇实现并非易事。因此,目前最流行的体系结构仍是半紧密相
合,因为它是松散粮合和紧密耦合的折中。
第2章数据预处理
2.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。
年龄频率
1~5200
5-15450
15-20300
20-501500
50-80700
80-11044
计算数据的近似中位数值。
先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597
,/200+450+300=950<1597<2450=950+1500;
:.20〜50对应中位数区间。
我们有:Zi=20.Ai=3197,width=30,使用公
式(2.3):
,「汗/2-(2.后夕)八.”(3197/2—950、__
median=Z.4---------------width=20+-----------x30=32.97
Ifreq—JI1500J
media/r=32.97岁。
2.4假定用于分析的数据包含属性ageo数据元组的age值(以递增序)是:13,
,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,
15,35,36,40,45,46,52,70。
3/m5
\l该数据的均值是什么?中位数是什么?
/b
\该数据的众数是什么?讨论数据的峰(即双峰、三峰等。)
/a
k
d数据的中列数是什么?
(/
X你能粗略地找出数据的第一个四分位数Qi和第三个四分位数Ch)吗?
/动
\l给出数据的五数概括。
(f)画出数据的盒图。
(g)分位数一分位数图与分位数图的不同之处是什么?
(a)该数甥的均任[是什么?中位数是什么?
均值是:T=—5Zrz=809/27=29.96=30(公工12.1)。中位效成是笫14
个.UP.ri4=25=^2•
(b)该数甥的众数是什么?讨论数甥的稣(即双山子、三峥等)・
这个数集的众数有两个:25和35,发:乍在同样展高的频率处.闲此足仪行
众数。
(c)数据的中列数是什么?
数据的中列数忍圾大术和最小组的均值.HP:""如g=<70+13)/2=41.5。
(d)你循《忖I略地)找U1数据的笫一个四分位数(。)和笫三个四分仅数(0
叫?
数据桀的笫个四分位数成发生枕25%处,即在«Z+l)/4=7处。所以:<?i=2O
向第T个四分仪数应发生作75%处.即在3x(Z+l>/4=2l处“所以:Q=35
(c)令Hi数甥的五数概括•
•个数抹:朱的分布的5数做括由取小伍、笫♦个四分位数、中位数、第三个
四分位数、和圾入伍构成。七给山广分布形状良好的汇总,并1L迂也数据足:13.
20、25、35、70。
(g)分位数一分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等
早在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立
变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数一分位数图用纵轴表示一
种单变量分布的分位数用横轴表示另一单变重分布的分位数。两个坐标轴显示它们的测量值相应分布
的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在该
线以上的点表示在y轴上显示的值的分布比x轴的知应的等同分位数对应的值的分布高。反之,对
落在该线以下的点则低。
2.7使用习题2.4给出的age数据回答下列问题:
(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述
W于给定的数据,该技术的效果。
(b)如何确定数据中的离群点?
(c)对于数据光滑,还有哪些其他方法?
答:(a)使用分箱均值光滑对以上数据进行光
滑,箱的深度为3O解释你的步骤:评述对于给
定的数据,该技术的效果。
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
破骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
♦步骤2:将数据划分到大小为3的等频箱中。
箱1:13,15,16箱2:16,19,203:20,21,22
箱4:22,25,25箱5:25,25,306:33,33,35
箱7:35,35,35箱8:36,40,459:46,52,70
•步骤3:计算每个等频箱的算数均值。
。步骤4:用各箱计算出的算数均值替换每箱中的每个值。
箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21
箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3
箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56
(b)如何确定数据中的离群点?聚类的方法可用来将相似的点分成组或“簇”,并
检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检
测可被采用,而计算机用一种事先决定的数据分布来区分可能的寓群点这些可能
的离群点能被用人工轻松的检验,而不必检查整个数据集。
(c)对于数据光滑,还有哪些其他方法?
其它可用来数据光滑的方法包括别的分箱光滑方法如中位数光滑和箱边界光滑。作为选择,等宽箱可
被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术
拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低
级概念上卷到高级概念来光滑数据。
2.12如下规范化方法的值域是什么?
(a)min-max规范化。
(b)z-score规范化。
(c)小数定标规范化。
答:
(a)min-max规范化。值域是
[new_min,new_max]o
(b)(b)z-score规化。
盾域是[(oldmin-mean)/a,(oldmax-mean)/a],总的来说,对于所有可能的
数据集的值钛是「8,+切。-
(C)小数定标规范化
值域是(-1.0,1.0)。
2.12使用习题2.4给出的
age数据,回答以下问题:
(a)使用min-max规范化将age值35变换到[0.0,1.0]区间。
(b)使用z-score规范化变换age值35,箕中age的标准差为12.94岁。
(c)使用小数定标规范化变换age值35o
(d)对于给定的数据,你愿意使用哪种方法?陈述你的理由
(a)使用min-max规范化将age值35变换到[().(),1.0]区间。
*.*minA=13,maxA=70.new_ininA=0.0tnew_maxA=1.0»iftjv=35.
吁min4〔.、.
--------------------\newmax.-newmm.I+newmin”
max4-mm/
35-13
(1.0-0.0)+0.0=0.3860
70-13
(b)使z-score现粒化变换age值35.此中age的标次注为12.94岁.
—=13+15+2x16+19+2x20+21+2x22+4x24
27
30+2x33+4x35+36+40+45+46+52+70
27
翳=29.3
工(彳,一刁
b/士---------=161.2949.crJb:=12.7002
2(〃-0
破------------=167.4986•s=12.9421
v-35
±=35-29Q63=5X)37..=o3966=O.4OO
12.700212.7002
成2^=35—29963=5.037=。33=0.39
12.942112.9421
(c)使用小数定标规范化变换age值35。
由于最大的绝对值为70.所以尸2。J言=含=。35
2.14假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,
204,215c使用如下每种方法将其划分成三个箱。
(a)等频(等深)划分。(b)等宽划分。⑹聚类。
攻口•.
(a>?事回<二至5%)切夕如
binI5.IO.11.13
bin11S.35.5O.55
binI72.91,2<M.215
(b)再,划分.
4江4、[式的"魄J虬址:(215-5>/3=7O
bin15.10.11.13.15.35.50,55.72
bin191
binl2O4.N15
(c>蜜奖.
我J门川以<史目J仲向•¥'的辘光寸支木:J”2个垣人的r»J秘T与数和;分心3个希,
binl5.10.11.13.15
binl35.50.55.72.91
binl20-4.215
2.15使用习题2.4给出的age数据,
(a)画出一个等宽为10的等宽直方图;
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层抽
释。使用大小为5的样本和层“青年”,中年”和“老年’3
解答:
(a>ilHiHl-个■•电力1OCKJ飞空•蛇f*LZ/%1:
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层
抽样。使用大小为5的样本和层“青年”中年”和“老年、元组:
Ti13Tto22Tw35
Tn2535
r2IST2o
Ty16Tt225T2I35
丁416T|325T2236
Ts19Tl425T2340
Tc20TIS30T2445
T720Ts33T”46
T.21T|733Tze52
TQ22T.H35T2770
SRSWOR和SRSWR:不是I司次的段1HL抽怦结Mi“「以不IT.任〔I询NIN无放IT
所以不值彳丁桶”J的元绚.
SRSWOR<n-5)SRSWR(n=5)
T416丁720
Tc20TT20
T.o22T2O35
Tn25T2135
Tae52T2546
维央剂I*丫:血&3锹炎八/J6央.伯m央.
Sample1Sumplc2Sample3Suniplc^lSamplc5Suniplc<)
T,1320TM25Tic33T2I35下2。52
T17
Ta15TT20T.a2533Ts36T2770
Te16TM21TIS25TIM35T-40
T416TQ22Tx25TIV35T"45
Ts19TIO22T.s30Tao35T2S46
Sampie2Sample5
20Tai35
T720TNN36
TH21T”4c
Tv22T2445
T.o22T”46
分/illITs按JKt々出色分扣1fTlH・小I•寸的砒行L收的纾」UL4<l«d.
T”16
T1225
33micJdluH&U
TTa«46middle
丁*770Senior
Z.X55555S55S5555555SSS55555SS
第三章数据仓库与OLAP技术概述
3.4假定BigUniversity的数据仓库包含如下4个维student(student_name,area_id,major,status,
university),course(course_name,department),semester(semester,year)和instructor(dept,
rank);2个度■::count和avg_gradeo在最低概念层,度・avg_grade存放学生的实际
课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。
(a)为该数据仓库画出雪花形模式图。
(b)(b)由基本方体[student,course,semester,instructor]开始,为歹!1出
BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OSP操作。
(c)如果每维有5层(包括all)$0ustudent<major<status<university<all该立方
标包含多少方体?
解答:
a)为该数据仓库画出雪花形模式图。雪花模式如图所示。
b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversHy每个
学生的CS课程的平均箴绩应当使用哪些特殊的OLAP操祚。这些特殊的联机分析屈理(OLAP)
操作有:i.沿课程(course)维从courseJcT上卷'到departmento
ii.沿学生(student)维从studentjd“上卷”到universityo
iii.取department="CS”和university=uBigUniversity11,沿课程(course)维和学生(student)
维切片。
iv.沿学生(student)维从university下钻到student_nameo
c)如果每维有5居包括all翅tudentvmajorvstatusvuniversityvall:该立方体包含
这.立方止将包含54=625个方体
courseunivstudent
脩々
凶3.4m33.4中数加的•,;化唯快」t
3.22222222
3.33333333
第四章数据立方体计算与数据泛化
4.3题4.12考虑下面的多特征立方体查询:按{itemregion,month)的所有子
集分组,对每组找出2004年的最小货架寿命,并对价落低于100美元、货架
寿命在最小货架寿命的1.25-1.5倍之间的元组找出总销售额部分。
a)画出该查询的多特征立方体图。
b)用扩充的SQL表示该查询。
c)这是一个分布式多特征立方体吗?为什么?
解答:
(a)画出该查询的多特征立方体图。
R0->R1(>1.25*min(shelf)and<1.5*min(shelf))(b)用扩
充的SQL表示该着询。
Selectitem,region,month,Min(shelf),SUM(R1)
FromPurchase
Whereyear=2004
cubebyitem,region,month:R1
suchthatR1.sheIf>1.25*MIN(Shelf)and(R1.Shelf^l.5*MIN(Shelf)and
R1.Price<100
(c)这是一个分布式多特征立方体吗?为什么?
这不是一个分布多特征立方体,因为在“suchthat”语句中采用了“。条件。
第五章
5.3数据库有5个事物。设min_sup=60%,min_conf=80o
TID购买的商品
T100{M,O.N,K.E,Y)
T200{D,O,N,K,E.Y)
T300{M,A,K,E)
T400{M,U,C,K,Y}
T500{C,O,O,K,I,E)
a)分别使用Apriori和FP增长算法找出所有的频繁项集。比较两种挖
掘过程的效率。
b)列举所有与下面的的元规则匹配的强关联规则(给出支持度s和置信
度c其中X是代表顾客的变量item是表示项的变量(如T'"B”等)
transaction,buys(X,itemi)Abuys(X,item2)=t)uys(X,items)[s,c]
解答:
(a)分别使用Apriori和FP增长算法找出所有的频繁项集。比较两种挖掘
过程的效率。
Apriori算法:由于只有5次购买事件,所以绝对支持度是5xmin_sup=3o
A/3-
MOr
O3
AfK3
N2
ME2
AT53~3-
A/r2
E-1O3OK3
3OKE3
Y3X,=AT5C\—OE3
OE3=KEY2
D1E4KE4
OY2
A1r3KY3
KE4
U1
KY3
Q2
EY2
/1
Z、=3]
FP-growth:数圳蚱的笫-次+I描1jApriori算法相同.得至UL・再按支持发
计数的递减小打小・得到:L=UK:5),(E:4),(M:3),(0:3),(Y3)}.#|描没彳、3
务.按以上L的拼方・从根心点开始.得到FP■树.
顼条件模式枯条件FP树产生的顺繁悚式
YK:3
O\.{KE:2”K3・E:3(KO:3}・{E,O:3>.(KE.O:3}
M({KE:2},{KI}}1C3
E《{K4”K:4{KE:4}
效率比较:Aphori算法的计算过程必须对数据库作多次扫描,而FP-增长算
法在构造过程中只需扫描一次数据库,再加上初始时为确定支持度递减排序的一次
扫描,共计只需两次扫描。由于在Apriori算法中的自身连接过程产生候选项
集,候选项集产生的计算代价非常高,相FP-增长算法不需产生任何候选项。
髀列娄喇鹏孽裔规牌鬟警瘾喝翻1第A饕蜃」和置信度c)
transaction,buys(X,uK,)Abuys(X,,O,)=5buys(X,UE][s=0.6,c=1]
Vketransaction,buys(X,"E')Abuys(X,"E)=t)uys(X,"K)[s=0.6,c=1]
或也可表示为
K,O-^E[s(support)=0.6或60%,c(confidence)=1或100%]
E,O—>K[s(support)=0.6或60%,c(confidence)=1或100%]
第六章
6.11下表由金员数据库蚓l|练数据组成。数据已泛化。例如,296“31...35”表示年龄在童~35之间。
对于给定的行,count表示department,status,age和salary在该行具有给定值的元
departmentstatussalarycount
salessenior31---3546K…50K30
salesjunior26…3026K…30K40
salesjunior31…3531K…35K40
systcmsjunior21--2546K---5OK20
systemssenior31・・・3566K---7OK5
systemsjunior26---3046K…50K3
systemssenior41…4566K…70K3
marketingsenior36---4O46K---5OKIO
marketingjunior31…3541K---45K4
secretarysenior46---
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 有限责任公司股权激励协议
- 《100万个人投资理财规划方案》
- 中考道法重点问答考点清单
- 《第1单元 长度单位:认识线段、解决问题》教案与同步练习
- 执业兽医资格考试基础科目分类模拟27
- 2024年山西省晋中市榆次区中考二模测试物理试卷
- 职工租用单位住房合同
- 河南门面房屋租赁合同范本
- 集体合同范本、企业集体合同【集体协议】
- 门面租赁合同违约赔偿
- 浅谈课堂打击乐器在音乐课堂实践中的运用技巧
- 《健康生活从心开始》主题班会课件
- 【燕塘乳业公司营运能力现状、问题及对策8300字(论文)】
- 中学英语教学法试题库
- 《生物分离与纯化技术》授课教案
- 检验指导书(SIP样板)
- 软件安全之恶意代码机理与防护-武汉大学中国大学mooc课后章节答案期末考试题库2023年
- 2023年江苏南通如东县事业单位招聘161人(共500题含答案解析)笔试历年难、易错考点试题含答案附详解
- 湖北省武汉市武汉小学瑞景小学2022-2023学年小升初考试数学试卷含答案
- 2023保密观在线培训单位考试题库及答案(通用版)
- DL/T741-2023年架空送电线路运行规程
评论
0/150
提交评论