R软件系统聚类分析剖析_第1页
R软件系统聚类分析剖析_第2页
R软件系统聚类分析剖析_第3页
R软件系统聚类分析剖析_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关注我 实时更新 最新资料R软件系统聚类分析剖析提要多元统计聚类方法已被广泛应用于自然科学 和社会科学 的各个领域,而在现实处理多元数据聚类分析中,离不开统计软件 的支持;R软件由于其免费、开源、强大 的统计分析及其完美 的作图功能已得到越来越多人 的关注与应用;本文结合实例介绍了R软件在多元统计系统分析中 的应用。关键词:R软件;系统聚类分析;多元统计引言多元统计分析是统计学 的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响 的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律 的重要学 科,其中最常用聚类分析方法,由于多元统计聚类分析方

2、法一般涉及复杂 的数学 理论,一般无法用手工计算,必须有计算机和统计软件 的支持。在统计软件方面,常用 的统计软件有SPSS、SAS、STAT、R、S-PLUS,等等。R软件是一个自由、免费、开源 的软件,是一个具有强大统计分析功能和优秀统计制图功能 的统计软件,现已是国内外众多统计学 者喜爱 的数据分析工具。本文结合实例介绍R软件在多元统计聚类分析中 的应用。一、系统聚类分析聚类分析又称群分析,它是研究(样品或指标)分类问题 的一种多元统计方法,所谓类,通俗地说,就是指相似元素 的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市 的物价指数进行考察,而物价指数很多,有农用生产物价

3、指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察 的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类 的问题很多,因此聚类分析这个有用 的工具越来越受到人们 的重视,它在许多领域中都得到了广泛 的应用。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等;最常用最成功 的聚类分析为系统聚类法,系统聚类法 的基本思想为先将n个样品各自看成一类,然后规定样品之间 的“距离”和类与类之间 的距离。选择距离最近 的两类合并成一个新类,计算新类和其他类(各当前类) 的距离,再将距离最近 的两类合并。这样,每次合并减少一类,

4、直至所有 的样品都归成一类为止。系统聚类法 的基本步骤:1、计算n个样品两两间 的距离。2、构造n个类,每个类只包含一个样品。3、合并距离最近 的两类为一新类。4、计算新类与各当前类 的距离。5、重复步骤3、4,合并距离最近 的两类为新类,直到所有 的类并为一类为止。6、画聚类谱系图。7、决定类 的个数和类。系统聚类方法:1、最短距离法;2、最长距离法;3、中间距离法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。二、基于R语言 的系统聚类分析程序R软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用 的是系统聚类方法。R软件实现系统聚类 的程序如

5、下:hclust(d,method=complete,members=NULL)其中,d是由“dist”构成 的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法average、重心法centroid、中间距离法median、最长距离法complete、最短距离法single、离差平方和法ward等,默认是最长距离法complete。三、应用举例表1是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。(表1)R语言程序如下:>X<-read.delim(clipboard,heade

6、r=T)>s(X)<-c(济南,青岛,淄博,枣庄,东营,烟台,潍坊,济宁,泰安,威海,日照,莱芜,临沂,德州,聊城,滨州,菏泽)>d<-dist(scale(X)>hc1<-hclust(d,single)#最短距离法>hc2<-hclust(d,complete)#最长距离法>hc3<-hclust(d,median)#中间距离法>hc4<-hclust(d,ward)#Ward法>opar<-par(mfrow=c(2,2)>plot(hc1,hang=-1);plot(hc2,hang=-1)>plot(hc3,hang=-1);plot(hc4,hang=-1)输出结果(图1)结果分析由图1可以看出,不同方法 的分类大体一样,结合山东省具体实际情况,最长距离法分类效果较好。在系统聚类分析中,利用R软件是最方便、最简单、最易学 的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论