网上资源第1篇网参3章_第1页
网上资源第1篇网参3章_第2页
网上资源第1篇网参3章_第3页
网上资源第1篇网参3章_第4页
网上资源第1篇网参3章_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于 MINITAB 的现代实用统计网上资源第 3 章 聚类分析3.1 聚类分析概念为了进一步了解聚类分析概念,的 6 个例子。例 3-1 设某零件标准长度为 18。检验 4 家供货商提供的产品,得到的数据如表 3-1(数据文件:MV_零件聚类.MTW)。试对这 4 家产品聚类。表 3-14 家供货商提供的产品数据供货商甲乙丙丁样本均值 18.00217.99718.0518.2样本标准差 0.0030.0040.0020.5例 3-2 对 5 个女顾客她们对某件服装的看法,第 1 变量是式样:喜欢取 1,不喜欢取 0;第 2 变量是图案:喜欢取 1,不喜欢取 0;第 3 变量是颜色:喜欢取

2、1,不喜欢取 0;第 4 变量是材料:喜欢取 1,不喜欢取 0。所得数据如表 3-2(数据文件:MV_服装顾客.MTW),试根据表 3-2 将她们分类。表 3-2 5 名顾客对某服装的看法顾客 12式样 01图案 11颜色 01材料151010例 3-3 某公司 50 名销售业绩(包括销售增长、销售利润及新客户销售额 3 项指标)数据见表 3-W1,数据文件:MV_业绩.MTW,试根据业绩将这 50 人分为 3 类。表 3-W1 50 名销售业绩销售增长销售销售增长销售利润新客户销售额97.896.899.0106.8103.099.399.0销售销售利润新客户销售额97.8107.3104.

3、899.8104.5110.596.8123456793.088.895.0101.3102.095.895.596.091.8100.3103.8107.897.599.52627282930313293.3106.8106.892.3106.3106.088.3102.0118.0120.090.8121.0119.592.818910111213141516171819202122232425110.8102.8106.8103.399.5103.599.5100.081.5101.3103.395.399.588.599.387.5105.3107.0122.0108.3120.510

4、9.8111.8112.5105.5107.093.5105.3110.8104.3105.395.3115.092.5114.0121.0115.3103.8102.0104.0100.3107.0102.3102.895.0102.8103.5103.0106.395.8104.395.8105.3109.033343536373839404142434445464748495096.094.3106.5106.592.0102.0108.3106.8102.592.5102.883.394.8103.589.584.3104.3106.0103.394.5121.5115.599.599

5、.8122.3119.0109.3102.5113.887.3101.8112.096.089.8109.5118.5100.599.0110.5107.0103.5103.3108.5106.8103.899.3106.896.399.8110.897.394.3106.5105.0例 3-4:97 个国家和地区的出生率、率和婴儿率数据见表 3-W2,数据文件:MV_出生率.MTW,按照这 3 个指标把 97 个国家或地区分成 3 类。表 3-W2 97 个国家和地区的出生率、率和婴儿率率国家或地区 Afghanistan Albania Algeria Angola Argentina A

6、ustria Bahrain Bangladesh Belgium Bolivia Botswana Brazil BulgariaByelorussia_SSR Cambodia CanadaChile China ColumbiaCongo序号 1234567891011121314151617181920出生率 40.424.735.547.220.714.928.442.212.046.648.528.612.515.241.414.523.421.227.446.1率 18.75.78.320.28.47.43.815.510.618.011.67.911.99.516.67.35.

7、86.76.114.6婴儿 181.630.874.0137.025.78.016.0119.07.9111.067.063.014.413.1130.07.217.132.040.073.02212223242526272829303132333435363738394041424344454647484950515253545556575859606162636413.412.432.938.848.613.212.013.639.447.411.444.410.128.311.711.630.528.642.542.615.122.39.79.938.947.023.526.831.74

8、4.048.331.629.036.135.545.044.039.613.248.514.345.630.334.811.711.97.49.520.710.112.49.416.821.411.213.19.27.34.913.410.29.411.57.89.16.39.16.76.411.318.12.28.79.425.05.623.28.89.818.512.114.88.615.610.77.88.16.611.37.563.049.4137.05.87.67.4103.0143.07.490.011.056.06.114.891.075.0108.169.07.59.78.84

9、.544.072.025.015.648.082.0130.024.043.068.082.0141.0135.0128.07.1105.07.840.0107.742.0Czechoslovakia Denmark EcuadorEgypt Ethiopia FinlandFormer_E_Germany FranceGabon Gambia Germany Ghana Greece Guyana Hong_KonggaryIndonesia Iran Iraq Ireland Israel Italy Japan Jordan KenyaKorea Kuwaitanon Libya Mal

10、awi Malaysia Mexico Mongolia Morocco Mozambique Namibia Nepal Netherlands Nigeria Norway Oman PakistanParaguay365666768697071727374757677787980818283848586878889909192939495969732.933.214.311.913.642.148.217.850.132.110.721.344.646.814.512.550.522.331.129.213.616.717.752.213.422.818.027.531.814.045.

11、651.141.78.37.710.29.510.77.623.45.220.29.98.26.215.812.511.19.514.07.77.38.411.58.110.015.611.63.89.64.49.59.014.213.710.3109.945.016.013.126.971.0154.07.5132.072.08.119.4108.0118.05.67.1106.028.052.076.08.49.123.0103.013.026.021.923.364.020.283.080.066.0Peru Philippines Poland Portugal Romania Sau

12、di_Arabia Sierra_Leone Singapore Somalia South_AfricaSpainSri_LSudanaSwaziland Sweden Switzerland Tanzaniailand Tunisia Turkey U.K. U.S.A. USSRUganda Ukrainian_SSR United_Arab_Emirates UruguayVenezuela Vietnam Yugoslavia Zaire Zambia Zimbabwe均在 21 岁以上的从安第斯山例 3-5 要研究环境变化对血压等的长期影响,对 39 个脉移居到海拔相对低的大城镇的

13、秘鲁研究,共10 个项目:、移居年数、体重、海拔高度、下颚皮襞、前臂皮襞、小腿皮肤皱襞、脉搏、收缩压、舒张压,收集的数据见表 3-W3,数据文件:MV_秘鲁.MTW。试将这 10 个项目分类,以便通过合并类似性质的项目来减少变量的数目。表 3-W3的秘鲁身体指标数据表4序号移居年数体重(kg)海拔高度下颚皮襞前臂皮襞小腿皮肤脉搏(次/收缩压舒张压例3-6测量成年女子的上体长、长、颈围、总肩宽、前、后背宽、前5(m)(mm)(mm)皱襞 (mm)分)121171.016298.07.012.788.515693.35.08.06412060324556.015613.31.34.36812575

14、424161.016193.73.04.352148120525165.015669.012.720.772140786271962.016393.03.35.77210672728553.014947.34.78.064120768282553.015683.74.30.08010862931665.0154010.39.010.0761247010321357.015305.74.06.06066.516226.05.78.3681167612331059.114866.75.310.3721147413341564.015783.35.37.08869.516459.35.07.0601

15016483.03.76.76056.515213.35.011.77257.015473.03.06.0841207018371655.015054.35.07.0641207619371757.014736.05.311.7721148020381058.015388.76.013.0641246421381859.515135.34.07.7801146622381161.016534.03.34.07657.015663.03.03.0601267224392157.515804.03.05.0641246225392474.016477.36.315.7641

16、288426391472.016206.37.713.36862.516376.05.38.0761128028413268.0152810.05.011.360128822941563.416475.34.313.77668.0160511.07.010.7881289031432569.016255.03.06.07273.0161512.04.05.76864.016405.73.07.0601186634441965.016108.06.77.7741107035441871.015723.04.74.37260.215343.03.03.356134703747155.015363.

17、03.04.0641165438504370.016304.06.011.77287.0154211.311.711.39215288胸节高、后腰节高、总体高、身高长、腰围和臂围等14个变量,得到变量;14测量3454名成年女子的数据,所得数据协方差阵见表3-W4,数据文件:MV_成年女子.MTW,试将这些变量分成几类,以便考虑能否合或简化一些变量。表3-W4x6成年女子的协方差阵x1x2x3x4x5x7x8x9x10 x11x12x13x14X17.0332.1683.5401.2131.6811.4981.2762.7182.8279.3588.8895.1542.2275.213X22.

18、1684.9812.8740.7091.2761.1781.1611.7651.7998.0437.5115.6802.1552.939X33.5402.87430.5305.3364.6385.3595.8645.7134.4236.5146.6393.85525.53619.532X41.2130.7095.3362.6781.2541.5431.5381.5121.2822.8142.5331.5894.9284.974X51.6811.2764.6381.2543.1071.6001.8511.7401.6594.1153.7452.6433.7784.069X61.4981.1785

19、.3591.5431.6004.0282.6141.4791.2463.0942.9942.3244.9964.692X71.2761.1615.8641.5381.8512.6143.8601.1971.2392.8142.8572.0025.5344.525X82.7181.7655.7131.5121.7401.4791.1975.2414.1236.5725.8783.6903.8505.074X92.8271.7994.4231.2821.6591.2461.2394.1234.8186.5366.0453.6583.3334.271X109.3588.0436.5142.8144.

20、1153.0942.8146.5726.53629.66025.74718.6591.84710.336X118.8897.5116.6392.5333.7452.9942.8575.8786.04525.74724.40016.8223.0879.710X125.1545.6803.8551.5892.6432.3242.0023.6903.65818.65916.82215.9931.3886.717X132.2272.15525.5364.9283.7784.9965.5343.8503.3331.8473.0871.38839.85920.703X145.2132.93919.5324

21、.9744.0694.6924.5255.0744.27110.3369.7106.71720.70327.3633.2 距离和相似系数3.2.1 测量尺度的类型及标准化变换3.2.2 样品间的距离3.2.3 变量间的相似系数3.2.4 类间距离3.3 观测值系统聚类法3.3.1 系统聚类法原理3.3.2 用 MINITAB 实现观测值聚类3.3.2.1 观测值聚类主框内容6图 3-W1 观测值聚类框观测值的系统聚类的关键内容是下列几项:变量或距离矩阵(Variables or distance matrix):这里可以输入包含原始观测值的各列,也可以输入距离矩阵。联结inkage Metho

22、d): MINITAB 提供了类与类之间 7 种定义距离的方法。1)平均(Average):类平均法。2)质心(Centroid):重心法。3)最长距离法(Complete)4)简单平均法(McQuitty):McQuitty 相似分析法。5)中间距离(Median)6)最短距离法(Single)7)离差平方和法(Ward)距离量度(Distance Measure):如果输入的是原始观测值而不是距离矩阵,那么可以用这个选项选择确定样品之间距离的方法,结果可以生成一个n n 的距离矩阵,这里n 是观测样品的数量。MINITAB 提供了 5 种不同的距离定义的方法。1)Euclidean:欧氏距

23、离。2)Manhattan:绝对值距离。3)Pearson:Pearson 距离。4)Euclidean 平方(squared Euclidean):欧氏平方距离。5)Pearson 平方(squared Pearson):Pearson 平方距离。标准化变量(Standardize variables): 当变量有不同量纲的时候,为了最小化不同量纲带来的影响,在计算距离矩阵之前,对所有的原始观测数据进行标准化将会大大改进结果(此项不选则不进行标准化)。指定最终分类,按不同形式指定(Specify Final Partition by):7聚类数(Number of Clusters):通过指

24、定类的个数来确定最终聚类的个数,缺省默认值为 1。相似性水平(Similarity Level):通过指定希望达到的相似性水平来间接确定最终聚类的个数。显示树状图(Show Dendrogram):显示系统聚类过程的树状图(不选则无图)。3.3.2.2 观测值聚类框可选内容自定义(Customize)框:若前面选择显示树状图,则可利用自定义框使输出更适合用户需求。图 3-W2 观测值聚类的自定义框标题(Title):给树状图加上自己想要的标题。大小写(Case labels):输入一个大小写列,与数据列长度相同。Y 轴指标为(Label Y Axis with):相似性(Similarity)

25、:指定Y 轴坐标为相似性水平。距离(Distance):指定Y 轴坐标为距离。显示树状图于(Show Dendrogram in):一个图形(One graph):在一个单独的窗口显示图形。每个图形的最大观测值数(um number of variables per graph):把指定的数值作为每幅图显示的变量的数目,需要输入一个大于或等于 1 的整数。(Storage)框:目的是在计算后必要数值结果。8图 3-W3 观测值聚类的框聚类成员列(Cluster membership):在工作表中新定义一列,样品属于聚类之后的哪一类。观测值与聚类质心之间的距离( Distance betn ob

26、servations and clustercentroids ):在工作表中给出观测值与聚类之后每类质心之间的距离。最终聚类数为几类,就定义几列。距离矩阵(Distance matrix):将距离矩阵在一个矩阵中。3.3.3 观测值聚类分析实例3.3.3.1 对原始观测值的聚类如果数据文件中包含的是原始观测值,聚类最为直接。当样品个数很少时可以采用以下例 3-1 系统聚类方法;样品个数较多时可以采用以下例 3-7 系统聚类方法。例 3-1 解,样品数仅为 4。本题变量是 “样本均值”和“样本方差”,要求把 4 次观测聚类,但未确定聚为多少类。由于观测样品数少,采用系统聚类为宜。只要画出树状图

27、,系统聚类结果就清楚了。为了醒目,规定图的标题为“零件聚类树状图”。由于样品间距离和类间距离(即联结方法,LinkageMethod)有多种定义方法,不妨先设定常用方法:先把样品数据标准化,样品间距离采用绝对值距离(Manhattan);类间距离采用最短距离法(Single)。如果聚类效果不好,再改用其他距离和其它连接方法。具体步骤是:先将表 3-1 给出的数据输入工作表;然后采用指令:从“ 统计 多变量观测值聚类(S Multivariate Cluster Observations)” 进入“观测值聚类”框,在“变量或距离矩阵(Variables or distance matrix)”中

28、填入 “样inkage Method )”窗中选择“ 最短距离本均值、样本标准差”, 在“ 联结(Single)”,在“距离量度(Distance Measure)”中选择“Manhattan”。选中 “标准化变量(Standardize variables)”, 在“最终分类,按(Specify Final Partition by ) ”中选择聚类数,并且指定为“ 1 ”,选中“ 显示树状图( Showdendrogram)”。打开“自定义(Customize)”窗,弹出“观测值聚类树状图自定义”框,在“标题(Title)”一栏里填入“零件聚类树状图”,在“大小写Caselabels)”一

29、栏里填入“供货商”,在“ Y 轴指标为(Label Y Axis with)”选择“相似性(Similarity)”,在“显示树状图于(Show Dendrogram in)”选择“一9个图形(One graph)”,对各框点击“确定(OK) ” (界面见图 3-2)。图 3-2 观测值聚类最短距离法 MINITAB 操作图会话窗口显示如下:观测值的聚类分析: 样本均值, 样本标准差标准化变量, Manhattan 距离, 最短距法合并步骤已合并的新聚类号中的观测值个数234步骤123聚类数321相似性水平 98.628587.670213.3121距离水平 0.056720.509873.5

30、8478聚类号新聚类号111111234最终分割聚类数 1观测值个数4类内平方和6到质心的平均距离1.06593到质心的最大距离2.08742聚类1得到最小距离法树状图(如图 3-3)。零件聚类树状图7.3038.2069.10100.00甲乙丙丁观测值图 3-3 最小距离法树状图例 3-722 家公用事业公司 1975 年数据见表 3-W5,数据文件为:MV_公用事业.MTW。其中 x1 :固定费用周转比(收入/); x2 :资本回报率; x3 :每千瓦容量成本; x4 :年载荷因子; x5 :自 1974 至 1975 年期千瓦时需求增长; x6 :销售量(年千10相似性瓦时用量); x7

31、 :核能所占百分比; x8 :总成本(美分/千瓦时)。试将 22 家公司聚类。表3-W522家公用事业公司数据名称xxxxxxxx123456781.060.891.431.021.491.321.221.101.341.120.751.131.151.090.961.160.761.051.161.201.041.079.210.315.411.28.813.512.29.213.012.47.510.912.712.07.69.96.412.611.711.88.69.3151202113168192111175245168197173178199961642521361501041482

32、0417454.457.953.056.051.260.067.657.060.453.051.562.053.749.862.256.061.956.754.059.961.054.31.62.23.40.31.0-2.22.23.37.22.76.53.76.41.4-0.19.29.02.7-2.13.53.55.9907750889212642333001112776421308284066455174416154717996736468159915714101401350772876650100930.025.30.034.315.622.50.00.00.039.20.00.050

33、.20.00.90.08.30.00.041.10.026.60.6281.5551.0580.7002.0441.2411.6520.3090.8620.6230.7681.8970.5270.5881.4000.6201.9201.1080.6360.7022.1161.306Arizonaton Central Common Consolid Florida Hawaiian Idaho Kentucky Madison Nevada NewEngland Northern Oklahoma Pacific Puget SanDiego Southern Texas Wisconsin

34、UnitedVirginia解 以 x1 - x8 为变量,22 家公司的数据为 22 个样品观测值。聚类时,样品间距离为欧氏距离,类间距离用离差平方和法,作系统聚类。第一步,首先探索应当分多少类。先将表(3-W5)拷入工作表,安排在 C1-C9 列,从“ 统计 多变量 观测值聚类(S Multivariate Cluster Observations)”进入“观测值聚类”框,指定“变量或距离矩阵(Variables or distance matrix)”为“C1-C8”, 在“联inkage Method)”中选择“离差平方和(Ward)”,在“距离量度(Distance结Measure)

35、”中选择“Euclidian”,选择“标准化变量(Standardize variables)”,在“最终分类,按(Specify Final Partition by)”中选择“聚类数(Number ofClusters)”,填“1”。不选择“显示树状图(Show Dendrogram)”,点击“确定(OK) ”,在运行窗口得到计算结果的表如下。11观测值的聚类分析: x1, x2, x3, x4, x5, x6, x7, x8标准化变量,合并步骤Euclidean 距离, 离差平方和法已合并的聚类号新聚类号中的观测值个数222222234424363576131622新聚类号 121041

36、418274731328715111步骤12345678910111213141516聚类数21201918171615141312111098765相似性水平 78.577278.222671.885670.963470.944965.926962.514862.406360.332557.826957.396257.085744.825142.382240.238030.038029 1606距离水平 1.38411.40701.81651.87611.87722.20152.42192.42892.56292.72482.75262.77273.56483.72273.86124.520

37、21210414182747313287151112113201918162212101591464111737285174.57695.39979.09339.492110.7032202-46.9147211-65.6582最终分割聚类数 1观测值个数类内平方和 168到质心的平均距离 2.66902到质心的最大距离 3.95942聚类1从第122可见,从第18步到第19步,相似性水平减少了16.4263-(-40.7418)=57.1681;减少幅度最大,所以应当考虑聚类停留在18步,也即是聚为4类较好。第二步,按选定类数来具体分类为了下聚类的最终结果,在 MINITAB 工作表上增加一

38、列,它的值表示每个样品所属的类,这列起个变量名,例如为“类别”。为了看清聚类情况,最后仍应要求画出聚类树。从“ 统计 多变量 观测值聚类 ( S Multivariate ClusterObservations)”(界面见图 3-4A 上左) 进入“观测值聚类”框,指定“变量或距离矩阵( Variables or distance matrix)”为“C1-C8”, 在“ 联结法(Linkage Method)”中选择“离差平方和(Ward)”,在“距离量度(Distance Measure)”中选择“Euclidian”。选中“标准化变量(Standardize variables)”。在“

39、最终分类,按(Specify Final Partition by)”中选择“聚类数(Number of1218416.4263193-40.7418Clusters)”,填“4”(这时主要是在工作表中输出了按 4 类分类的最终分类结果,树状图上最后仍然聚合为一类)。仍选择“显示树状图(Show Dendrogram)”(界面见图3-4A 上右)。打开“(Storage)”窗,弹出“聚类分析-”框(界面见图 3-4A 下左),在选择“聚类成员列(Cluster membership column)”中,填“类别”,在“距离矩阵”中填写“M3”(距离阵存入 M3)。在“树状图(Show dend

40、rogram)”后打开“自定义(Customize)”窗,弹出“观测值聚类树状图-自定义”框(界面见图 3-4A 下右),在“Y 轴指标为(Label Y Axis with)”之下,选填“距离(Distance)”,各框都点击“确定(OK)”,则可在运行窗口得到计算结果(见图 3-4)。图 3-4A 例 3-7 系统聚类且绘制树状图操作步骤图13图 3-4 例 3-7公用事业公司工作表(计算后)3.3.3.2 对已给距离矩阵的聚类例 3-2 摘要:对 5 个女顾客她们对某件服装的看法,含式样、图案、颜色和材料 4个方面,喜欢取 1,不喜欢取 0。所得数据如表 3-2(数据文件:MV_服装顾客

41、中前 5 列.MTW)。但对于此表不能直接进行聚类分析,先要加工成为距离矩阵(在 3.2.2 整理成的配合距离矩阵为表 3-4,在数据文件 MV_服装顾客.MTW 中存于 C7-C11,见图 3-7A 上),试用 MINITAB 软件进行系统聚类。解 这个问题中有 5 个变量-5 名顾客的评分,但不能像例 3-1 或例 3-7 那样对于输入数据直接聚类。由于已被整理成距离矩阵,则可按已知距离阵的情形来聚类。操作步骤应该分两步:先将距离阵在工作表中的这种转存为矩阵格式;然后再进行聚类,类间距离可以采用类平均法。 列到矩阵(Data1)将存为文件中的距离矩阵为矩阵格式并命名。从“ 数据 Copy

42、Columns to Matrix)”(界面见图 3-7A 下左) 进入“从列到矩阵”框(界面见图 3-7A 下右),指定“从列(Copy from Columns) ”为“c7-c11”,在“的数据(Store Copied Data)”内指定此阵名为“M1”,点击“确定(OK) ”后,就完成了距离矩阵的输入工作。可以从“数据 显示数据 (Data Display data)”中查看矩阵 M1 是否输入,也还可以看见此矩阵的内容。14图 3-7A矩阵数据的操作图2 )从 “ 统计 多变量 观测值聚类(S Multivariate ClusterObservations) ”( 界面见图 3-

43、7B 上左),进入“ 观测值聚类 (ClusterObservations)”框(界面见图 3-7B 上右), 在“变量或距离矩阵(Variables ordistance matrix)”中,指定为“M1”, 在“联结inkage Method)”中选择“平均(Average)”,在“距离量度(Distance Measure)”中选择“Euclidean”, 在“最终分类,按 (Specify Final Partition by)” 内选择“ 聚类数 (Number ofclusters)”,并填“1”。选择“显示树状图(Show dendrogram)”。点击“自定义(Customiz

44、e)”,弹出“观测值聚类树状图自定义”题(Title)”一栏里填入“ 类平均法树状图”,“ Y 轴框(界面见图 3-7B 下),在“标指标为(Label Y Axiswith)”选择“距离(Distance)”,在“显示树状图于(Show Dedrogram in)”中选择“一个图形(One Graph)”,各框皆点击“确定(OK) ”。即到如图 3-7 的树状图。15图3-7B 由距离阵进行观测值聚类操作图得到的MINITAB输出结果如下:观测值的聚类分析: M1类平均法合并步骤步骤 12聚类数 43相似性水平 距离水平 75.0000 0.25000062.5000 0.375000已合并

45、的聚类号新聚类号 4211新聚类号中的观测值个数2325421154320.5000000.666667输出结果说明:从输出结果可以看出,第3 步与第4 步之间的相似性水平变化最大(50-33.3333=16.6667),因此可以把第 3 步(分 2 类)的结果作为一个比较合理的分类。仿照例 3-7 聚为 2 类,分类的结果是1、3,4、5、2。参看原始数据可见:第 4、第 5名顾客,他们只有 1 个指标不同,他们归为 1 类(观点最接近);第 1、第 3 名顾客,他们只有 2 个指标不同,他们也归为 1 类(观点比较接近);第 2 名顾客和第 4,5 名顾客观点比较接近,应当列入第 4,5

46、名顾客所成的类。163250.00004133.3333图3-7 例3-2中 5名服装顾客评价树状图3.4 动态聚类法3.4.1 动态聚类法的基本原理3.4.2 K 均值法的基本步骤3.4.3 用 MINITAB 实现 K 均值聚类在 MINITAB中,K 均值法的基本操作是: Multivariate Cluster K-Means)”框中补充填写必要信息,详细内容介绍如下。,进入“K 均值聚类”框;在3.4.3.1 K 均值聚类基本操作内容图 3-W4 K 均值聚类框变量(Variables):可以输入包含原始观测值的各列,也可以输入距离矩阵。指定分割,按(Specify Partitio

47、n by):聚类数(Number of Clusters):直接指定类的个数来进行 K 均值聚类。如果输入的数字为 k ,那么 MINITAB 就以前k 个观测样品作为初始凝聚点。17距离从“统计 多变量 K 均值聚类(S类平均法聚类图0.670.440.220.0013245观测值初始分割列(Initial partition column):若事先准备好一列存有初步分类结果,则这里可以直接选择包含初始凝聚点的列,然后将以此列为基础进行 K 均值聚类。标准化变量(Standardize variables):当变量有不同量纲的时候,为了最小化不同量纲带来的影响,在计算距离矩阵之前,对所有的原

48、始观测数据最好先进行标准化。这里可以选择“进行”或“不进行”标准化的步骤。3.4.3.2 K 均值聚类框操作内容图 3-W5 K 均值聚类的框(Storage):聚类成员列(Cluster membership):在工作表中新定义一列,样品属于聚类之后的哪一类。观测值与聚类质心之间的距离( Distance betn observations and clustercentroids ):在工作表中给出观测值与聚类之后每类质心之间的距离,距离为欧氏距离。最终聚类数为几类,这里就要指定几列。3.4.4 K 均值聚类法实例3.4.4.1K 均值聚类法计算实例例 3-4 的计算:本例含 97 个国家

49、和地区的出生率、率和婴儿率,样本量远超过 30,因此要用K 均值聚类法,且已知希望分为 3 类,指定 C6分类结果,命名为“分类”。从“统计 多变量 K 均值聚类(S Multivariate Cluster K-Means)”框,在 K 均值聚类框上,在“变量(Variables)”中,进入“K 均值聚类”填入“出生率率 婴儿率”,在“聚类数(Number of Clusters)”中填“3”,由于本例中各变量的量纲都一致,因此不必进行标准化。点击“(Storage)”,弹出”框,在“聚类成员列(Cluster membership column)”中“K 均值聚类-填写“分类”,各框点击“

50、确定(OK)” (界面见图 3-8)即到结果。18图3-8 K均值聚类法操作步骤图最后计算结果的汇总部分如下:结果: MV_出生率.MTWK 均值聚类分析:出生率,率, 婴儿率最终分割聚类数 3观测值个数到质心的平均距离 17.5429.74314.905到质心的最大距离 56.90527.51927.476类内平方和 9277.8145285.5957927.463聚类1聚类2聚类3224629聚类质心变量出生率率聚类1 44.395516.5136124.8773聚类2 16.81098.697814.7326聚类3 37.42419.920765.5310总质心 29.229910.83

51、6154.9010婴儿率聚类质心之间的距离聚类1聚类2聚类3 60.116954.83500.0000聚类1聚类2聚类30.0000113.815060.1169113.81500.000054.8350这些结果对可供比较分析用,例如可以从聚类质心的数据中看出3个类型的主19要特点,第1类是出生率、率、婴儿率三率都高的国家(多半是极贫困型的);第2类是出生率、率、婴儿率三率都低的国家(多半是较富裕型的);第3类是介于中间状态的国家(多半是一般发达的)。样本量太大,因而绘制树状图意义不大,还是用列表好。这些结果已经体现在工作表中(见图3-9),其中“分类(C6列)”上的数字1,2,3代表该国家或

52、地区属于哪一类。例如Afghanistan属于第1类;Albania属于第2类;Algeria属于第3类。图3-9 97个国家出生、率分类结果工作表为了更清楚显示分类结果,可以将上述工作表排序,即按“分类”的值从小到大排序。排序的操作见例3-7(参考图3-6)。排序后结果如图3-10所显示,工作表中得到更清楚的分类结果(完整结果图形见图3-10A)。20图3-10A 97个国家出生、率分类结果排序结果图3.4.4.2系统聚类与动态聚类的比较例3-3的计算:对于例3-3的50名销售的数据分别使用两种方法计算,样品间距离都采用“Euclidian”,类间距离都采用“平均(Average)”,不进行

53、变量标准化。请对聚类效果加以比较。首先用系统方法聚类。得到计算结果:第1类为1,2,16,21,23,29,32,34,44,47,48,销售共11人;第2类为3,4,5,6,7,9,11,12,14,15,17,18,19,20,22,26,33,37,38,41,42,45,49,销售共23人;其余16名销售为第3类。从运行窗输出的聚类质心中可以看出:第1类销售业绩,第2类次之,第3类最好。动态聚类得也到 3 类。“1”是最好,类别“2”是中等,类别“3”是。为了便于与系统聚类结果相比较,原来“动态聚类”中“1”与“3”交换,形成一列“新编动态”,动态聚类结果为:第 1 类(者)有号为 1

54、,2,16,21,23,29,32,34,44,47,48的销售,共 11 人;第 2 类(中等)有号为 3,4,5,6,7,9,12,14,15,17,19,20,26,33,37,38,41,42,45的销售,共 19 人;其余 20 名销售为第 3 类。与系统聚类法的结果相比:第11,18,22,49名销售在系统聚类法属于业绩中等类,而在动态聚类中属于业绩最好类;其余分类相同。实际上这4人划为业绩居中等类与业绩最好类都有理由,所以两种方法效果基本上是一致的,详细比较结果参看图3-W6。21图 3-W6 例 3-3 两种聚类方法比较结果3.5 变量的聚类方法3.5.1 变量聚类原理3.5.

55、2 用 MINITAB 实现变量聚类3.5.2.1 变量聚类框基本内容变量聚类分析的框与观测值聚类分析的框基本上是一样的。22图 3-W7 变量聚类框变量或距离矩阵(Variables or distance matrix):可以输入包含原始观测值的各列,也可以输入距离矩阵。联结inkage Method): MINITAB 提供了 7 种定义类与类之间距离定义的方法。平均(Average):类平均法。质心(Centroid):重心法。最长距离(Complete):最长距离法。简单平均(McQuitty):McQuitty 相似分析法。中间距离(Median):中间距离法。最短距离(Singl

56、e):最短距离法。离差平方和(Ward):离差平方和法。距离量度(Distance Measure):如果输入的是原始观测值而不是距离矩阵,那么用这个选项选择确定变量之间距离的方法,生成一个距离矩阵。MINITAB 提供了 2 种距离定义的方法供选择。相关性(Correlation):选择相关性作为距离的度量。绝对相关性(Absolute correlation):选择绝对相关性(即以相关度量的绝对值作为距离的度量)。指定最终分类,按(Specify Final Partition by):聚类数(Number of Clusters):通过指定类的个数来确定最终聚类的个数,缺省默认值为 1。

57、相似性水平(Similarity Level):通过指定希望达到的相似性水平来确定最终聚类的个数。23显示树状图(Show Dendrogram):显示或不显示变量聚类过程的树状图。3.5.2.2 变量聚类自定义框若前面选择显示树状图,则可利用自定义框使输出更适合用户需求。自定义(Customize)框的界面如图 3-W8 所示。图 3-W8 变量聚类的自定义框标题(Title):给树状图加上自己想要的标题。Y 轴指标为(Label Y Axis with):相似性(Similarity):指定Y 轴坐标为相似性水平。距离(Distance):指定Y 轴坐标为距离。显示树状图于(Show De

58、ndrogram in)。有两种选择:一个图形(One graph):在一个单独的窗口显示图形。每个图形的最大观测值数(um number of variables per graph):变量个数较多时,要分若干来显示。这里要指定数值作为每幅图显示变量的最大数目,需要输入一个大于或等于 1 的整数。3.5.2.3 变量聚类框图 3-W9 变量聚类的框框比较简单:存或不存距离矩阵(Distance matrix)。选存距离矩阵,则可以将距离矩阵在一个指定名称的矩阵中;不选则不进行。243.5.3 变量聚类计算实例3.5.3.1 变量聚类的基本方法首先以例 3-7 说明最基本的变量聚类过程将例 3

59、-7 的变量聚类。例 3-7 是分析22 家公用事业公司状况,其 1975 年数据见表3-W5,数据文件为:MV_公用事业.MTW。其中 x1 :固定费用周转比(收入/); x2 :资本回报率; x3 :每千瓦容量成本; x4 :年载荷因子; x5 :自 1974 至 1975 年期千瓦时需求增长; x6 :销售量(年千瓦时用量); x7 :核能所占百分比; x8 :总成本(美分/千瓦时)。试将 8 个自变量聚类。解 本题共有 8 个变量: x1 - x8 。由于经济分析的需要,两对变量相似系数绝对值相同,符号相反时,认为距离不相同,应当以“相关性”来度量 2 变量的接近程度,记相关系数为定义

60、距离为dij 1 Cij (2) 。这里dij 取值在0, 2 范围内, dij 0 表示 xi 与Cij (2) ,x j 完全相关,因而距离最近;dij 数值越大表示 xi 与 x j 相关越小,因而距离越远;dij 2 表示 xi 与 x j 完全负相关,因而距离最远。操作步骤是:先将数据拷入工作表,然后从“ 统计 多变量变量聚类(SMultivariate Cluster Variables) ”,进入“变量聚类”框,指定“变量或距离矩阵( Variables or distance matrix )”为“X1-X8”, 在“ 联结法(Linkage Method)”中选择“最长距离(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论