版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章 SPSS的聚类分析,聚类分析概述,概念: 聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法. 例如:细分市场、消费行为划分 聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.,两类:(A B) (C D E) 三类:(A B) (C) (D E),依据平均得分的差距,差距较小的为一类. 分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.,聚类分析概述,亲疏远程度的衡量指标 相似性:数据间相似程度的度量 距离: 数据间差异程度的度量.距离
2、越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类 定距型个体间的距离: 把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据 欧氏距离(EUCLID) 平方欧氏距离(SEUCLID),聚类分析概述,聚类分析概述,品质型个体间的距离,姓名 授课方式 上机时间 选某门课程 张三 1 1 1 李四 1 1 0 王五 0 0 1,品质型个体间的距离 简单匹配(simple matching)系数:适用二值变量。,个体j,个体i,1 0 1 a b 0 c d,a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数 特点:排除同时拥有或同时不拥有某
3、特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。,聚类分析概述,聚类分析概述,品质型个体间的距离 简单匹配(simple matching)系数:适用二值变量。,姓名 授课方式 上机时间 选某门课程 张三 1 1 1 李四 1 1 0 王五 0 0 1 (张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 (张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3 张三距李四近,品质型个体间的距离 根据临床表现研究病人是否有类似的病,姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4 张三 男 1 0 1 0 0 0
4、 李四 女 1 0 1 0 1 0 王五 男 1 1 0 0 0 0 .,聚类分析概述,品质型个体间的距离 雅科比(Jaccard)系数:适用二值变量,个体j,个体i,1 0 1 a b 0 c d,a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数 特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化,聚类分析概述,品质型个体间的距离 Jaccard系数举例:根据临床表现研究病人是否有类似的病,姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4 张三 男 1 0 1 0 0 0 李四 女 1 0 1 0 1 0 王
5、五 男 1 1 0 0 0 0 .,结论:张三和李四最有可能得类似的病;李四和王五不太有可能,聚类分析概述,聚类分析概述,品质型个体间的距离 卡方距离:计数变量,说明: 聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。例如: 样本的欧氏距离 元 十万元 (1,2) 26500074.07 (1,3) 41600080.86 (2,3) 151000154.56,聚类分析概述,说明: 聚类分析中的变量选择问题 变量应和聚类分析的目标密切相关,聚类结果仅是所选定变量所具数据特点的反应 变量之间不应具有高度相关性,否则相当于给这些变量进行了加权 聚类分析包括: 个案聚类(Q型)和变量聚类(
6、R型),聚类分析概述,分层聚类,聚类过程具有一定的层次性,某个类是另个类的子类 以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类 其次,将最“亲密”的个体聚成一小类 然后,将最“亲密”的小类或个体再聚成一类 重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止 随着聚类的进行,类内的“亲密”性在逐渐减低,分层聚类,以分解的方式聚类 首先,所有个体都属于一类 其次,将大类中最“疏远”的小类或个体分离出去 然后,分别将小类中最“疏远”的小类或个体再分离出去 重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止 随着聚类的进行
7、,类内的亲密性在逐渐增强,分层聚类,“亲疏”程度的衡量对象 个体间距离 个体和小类间、小类和小类间的距离 最短距离法(nearest neighbor): 两类间的距离定义为两类中距离最近的两个个案之间的距离 最长距离法(furthest neighbor): 两类间的距离定义为两类中距离最远的两个个案之间的距离,分层聚类,个体和小类、类和类间的距离 平均链锁法(within-groups linkage) 两类之间的距离定义为两类个案之间距离的平均值。包括: 组间平均链锁法(between-groups linkage):只考虑两类间个案的距离 组内平均链锁法(With-groups lin
8、age):考虑所有个案间的距离,分层聚类,聚类数目的确定 聚类数目确定尚无统一标准,一般原则: 各类所包含的元素都不应过多 分类数目应符合分析的目的 分层聚类中可以将类间距离作为确定类数目的辅助工具 聚类过程中类间距离呈增加趋势 类间距离小,类的相似性大;距离大,相似性小 绘制碎石图(X轴为类距离,Y轴为类数),K-means快速聚类,出发点:希望克服分层聚类在大样本时产生的困难,提高聚类效率 做法: 通过用户事先指定聚类数目的方式提高效率 因此,分层聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚类解,思路: 1.指定最后要聚成K类 2.指定k个样本作为初始类中心 3.按照距k个中心距离最近的原则把每个样本分派到各中心所在的类中去,形成一个新的k类,完成一次迭代 4.重新计算k个类的类中心(计算每类各变量的均值,以均值点作为类中心) 5.重复3步和4步,直
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业企业亩产效益综合评价修订办法
- 临床原发性膜性肾病肾功能进展风险分层
- 《食品安全》课件-淀粉的老化
- 景县恒丰机械配件有限公司新上缓冲垫、吸尘管及矿山机械配件项目环评报告
- 邢台荣越玻璃科技有限公司 节能防火玻璃及玻璃防雾镜生产项目环评报告
- 宏力重工有限公司年产600吨农机配件生产线扩建项目环评报告
- 景县华翔机械配件有限公司机械配件加工项目环评报告
- 全血及成份血在器官移植中的应用
- 污水处理设施维护操作流程
- 农业计划病虫害防治手册
- 2024年广东普通专升本《公共英语》完整版真题
- 供应链公司运营方案
- 静脉治疗护理技术操作规范
- 语文-2024届语用新题“语境+词义”解题指导
- 成套电气公司全员岗位职责及级别评定标准与月度绩效考核方案附全套绩效表
- 食品安全防护培训
- 单原子催化剂的合成与应用
- 酒精所致精神障碍的护理查房
- 设备售后服务协议书
- 框架结构毕业设计范例
- 人工智能应用培训
评论
0/150
提交评论