数据挖掘作业_第1页
数据挖掘作业_第2页
数据挖掘作业_第3页
数据挖掘作业_第4页
数据挖掘作业_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“3135”表示31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。 status是类标号属性。departmentstatusagesalarycountsalessenior31.3546K.50K30salesjunior26.3026K.30K40salesjunior31.3531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5systemsjunior26.3046K.50K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K4secretaryjunior26.3026K.30K61)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status 分为2个部分: Department分为4个部分:Senior 共计52 Sales 共计110Junior 共计113 Systems 共计 31 Marketing 共计14Secretary 共计10Age分为6个部分: Salary分为6各部分:2125 共计20 26K30K 共计462630 共计49 31K35K 共计40 3135 共计79 36K40K 共计4 3640 共计10 41K45K 共计4 4145 共计3 46K50K 共计63 4650 共计4 66K70K 共计8 InfoD=-52165log-log=0.889位Infodepartmet=-*-30110log-80110log+31165*-831log2831-2331log22331+14165*-1014log21014-414log2414+10165*-410log2410-610log2610=0.8504位Gaindepartment=InfoD-Infodepartment=0.0386位Infoage=-20165*-020log2020-2020log22020+49165*-049log2049-4949log24949+79165*-3579log23575-3479log23479+10165*-1010log21010-010log2010+3165*-33log233-03log203+4165*-44log244-04log204=0.4998位Gainage=InfoD-Infoage=0.3892位Infosalary=-46165*-046log2046-4646log24646+40165*-040log2040-4040log24040+4165*-44log244-04log204+63165*-3063log23063-3363log23363+8165*-88log288-08log208=0.3812位Gainsalary=InfoD-Infosalary=0.5078位由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31.3546K.50K30systemsjunior21.2546K.50K20systemsjunior26.3046K.50K3marketingsenior36.4046K.50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下:Salary26K:30K 66K:70K31K:35KJunior36K:40KSenior46K:50K41K:45KJuniorJuniorSeniorAge21:2536:4031:3526:30JuniorSeniorSeniorJunior3)给定一个数据元组,它在属性department,age和salary上的值分别为“systems”,“26.30”和“46.50K”。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems|status=senior)=8/52=0.1538P(department=systems|status=junior)=23/113=0.2035P(age=2630|status=senior)=1/52=0.0192P(age=2630|status=junior)=49/113=0.4336P(salary=46K50K|status=senior)=40/52=0.7692P(salary=46K50K|status=junior)=23/113=0.2035使用上面的概率,得到:P(X|status=senior)=P(department=systems|status=senior)*P(age=2630|status=senior)* P(salary=46K50K|status=senior)=0.0023P(X|status=junior)=P(department=systems|status=junior)*P(age=2630|status=junior)* P(salary=46K50K|status= junior)=0.0180P(X|status=senior)* P(status=senior)= 7.2496e-004P(X|status=junior)* P(status=junior)=0.0123因此,对于元组X,朴素贝叶斯分类预测元组X的类为sta

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论