MBA统计学-相关和回归分析课件_第1页
MBA统计学-相关和回归分析课件_第2页
MBA统计学-相关和回归分析课件_第3页
MBA统计学-相关和回归分析课件_第4页
MBA统计学-相关和回归分析课件_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学─从数据到到结论第七章相相关和和回归分分析§7.1问题题的提出出对于现实实世界,,不仅要要知其然然,而且且要知其其所以然然。顾客客对商品品和服务务的反映映对于企企业是至至关重要要的,但是仅仅仅有满意意顾客的的比例是是不够的的;商家家希望了了解什么么是影响响顾客观观点的因因素,及及这些因因素如何何起作用用。类似地,,医疗卫卫生部门门不能仅仅仅知道道某流行行病的发发病率,,而且想想知道什什么变量量影响发发病率,,以及如如何影响响。§7.1问题题的提出出发现变量之间间的统计关系系,并且用此此规律来帮助助我们进行决决策才是统计计实践的最终终目的。一般来说,统统计可以根据据目前所拥有有的信息(数数据)来建立立人们所关心心的变量和其其他有关变量量的关系。这这种关系一般般称为模型(model)。§7.1问问题的提出假如用Y表示感兴趣的的变量,用X表示其他可能能与Y有关的变量((X也可能是若干干变量组成的的向量)。则则所需要的是是建立一个函函数关系Y=f(X)。这里Y称为因变量或响应变量(dependentvariable,responsevariable),而X称为自变量,也称为解释变量或协协变量(independentvariable,explanatoryvariable,covariate)。建立这种关关系的过程就就叫做回归(regression)。§7.1问问题的提出一旦建立了回回归模型,除除了对变量的的关系有了进进一步的定量量理解之外,,还可以利用用该模型(函函数)通过自自变量对因变变量做预测(prediction)。这里所说的预预测,是用已已知的自变量量的值通过模模型对未知的的因变量值进进行估计;它它并不一定涉涉及时间先后后。先看几个后面面还要讨论的的数值例子。。§7.1问问题的提出例7.1有有50个从初初中升到高中中的学生。为为了比较初三三的成绩是否否和高中的成成绩相关,得得到了他们在在初三和高一一的各科平均均成绩(数据在highschool.txt)。这两个成绩绩的散点图展展示在图7.1中。有个上升趋势势;即初三时时成绩相对较较高的学生,,在高一时的的成绩也较高高。但对于具体个个人来说,大大约有一半的的学生的高一一平均成绩比比初三时下降降,而另一半半没有变化或或有进步§7.1问问题的提出目前的问题是是怎么判断这这两个变量是是否相关、如如何相关及如如何度量相关关?能否以初三成成绩为自变量量,高一成绩绩为因变量来来建立一个回回归模型以描描述这样的关关系,或用于于预测。§7.1问问题的提出该数据中,除除了初三和高高一的成绩之之外,还有一一个定性变量量(没有出现现在上面的散散点图中)。。它是学生在在高一时的家家庭收入状况况;它有三个个水平:低、、中、高,分分别在数据中中用1、2、、3表示。为研究家庭收收入情况对学学生成绩变化化的影响,下下面点出两个个盒形图,左左边一个是不不同收入群体体的高一成绩绩的盒形图,,右边一个是是不同收入群群体的高一和和初三成绩之之差的盒形图图。可以看出收入入高低对高一一成绩稍有影影响,但不如如收入对成绩绩的变化(高高一和初三成成绩之差)的的影响那么明明显。§7.1问问题的提出到底学生在在高一的家家庭收入对对成绩有影影响吗?是是什么样的的影响?是否可以取取初三成绩绩(这是定定量变量))或(和))家庭收入入(定性变变量)为自自变量,而而取高一成成绩为因变变量,来建建立一个描描述这些变变量之间关关系的回归归模型呢??§7.1问问题的提提出例7.2这是200个不同年年龄和性别别的人对某某项服务产产品的认可可的数据(logi.txt)。这里里年龄是连续变量量,性别是有男和女女(分别用用1和0表表示)两个个水平的定定性变量,,而变量观点则为包含认认可(用1表示)和不认可((用0表示示)两个水水平的定性性变量(见见下页数据据)。想要知道的的是年龄和和性别对观观点有没有有影响,有有什么样的的影响,以以及能否用用统计模型型表示出这这个关系。。年龄和观点点的散点图图(左)和和性别与观观点的条形形图;§7.2定定量变量量的相关如果两个定定量变量没没有关系,,就谈不上上建立模型型或进行回回归。但怎怎样才能发发现两个变变量有没有有关系呢??最简单的直直观办法就就是画出它它们的散点点图。下面面是四组数数据的散点点图;每一一组数据表表示了两个个变量x和y的样本。不相关正线性相关关负线性相关关相关但非线线性相关§7.2定定量变量量的相关但如何在数数量上描述述相关呢??下面引进进几种对相相关程度的的度量。Pearson相关关系数(Pearson’scorrelationcoefficient)又叫相关系系数或线性性相关系数数。它一般般用字母r表示。它是是由两个变变量的样本本取值得到到,这是一一个描述线线性相关强强度的量,,取值于-1和1之之间。当两两个变量有有很强的线线性相关时时,相关系系数接近于于1(正相相关)或-1(负相相关),而而当两个变变量不那么么线性相关关时,相关关系数就接接近0。§7.2定定量变量量的相关Kendallt相关系数((Kendall’’st)这里的度量量原理是把把所有的样样本点配对对(如果每每一个点由由x和y组成的坐标标(x,y)代表,一一对点就是是诸如(x1,y1)和(x2,y2)的点对)),然后看看每一对中中的x和y的观测值是是否同时增增加(或减减少)。比比如由点对对(x1,y1)和(x2,y2),可以算算出乘积(x2-x1)(y2-y1)是否大于于0;如果果大于0,,则说明x和y同时增长或或同时下降降,称这两两点协同(concordant);否则就就是不协同同。如果样样本中协同同的点数目目多,两个个变量就更更加相关一一些;如果果样本中不不协同(discordant)的点点数目多,,两个变量量就不很相相关。§7.2定定量变量量的相关Spearman秩秩相关系系数(Spearmanrankcorrelationcoefficient或或Spearman’sr)它和Pearson相关系数数定义有些些类似,只只不过在定定义中把点点的坐标换换成各自样样本的秩((即样本点点大小的““座次”))。Spearman相关系系数也是取取值在-1和1之间间,也有类类似的解释释。通过它它也可以进进行不依赖赖于总体分分布的非参参数检验。。§7.2定定量变量量的相关人们可能会会问,上面面的三种对对相关的度度量都是在在其值接近近1或-1时相关,,而接近于于0时不相相关。到底底如何才能能够称为““接近”呢呢?这很难一概概而论。但但在计算机机输出中都都有和这些些相关度量量相应的检检验和p-值;因此此可以根据据这些结果果来判断是是否相关(见下面例例7.1的的继续)。。§7.2定定量变量量的相关例7.1((继续)得得到初三和和高一成绩绩的Pearson相关系数数,Kendallt相关系数和和Spearman秩相关关系数分别别为0.795,0.595和0.758。。这三个统计计量相关的的检验(零零假设均为为不相关)全部显著著,p-值都是0.000。注意这这种0.000的表表示并不表表示这些p-值恰好等等于零,只只是小数点点前三位是是0而已。。§7.3定定量变量量的线性回回归分析对例7.1中的两个个变量的数数据进行线线性回归,,就是要找找到一条直直线来适当当地代表图图1中的那那些点的趋趋势。首先先需需要要确确定定选选择择这这条条直直线线的的标标准准。。这这里里介介绍绍最小小二二乘乘回回归归((leastsquaresregression))。古古汉汉语语““二二乘乘””是是平平方方的的意意思思。。这就就是是寻寻找找一一条条直直线线,,使使得得所所有有点点到到该该直直线线的的豎豎直直距距离离的的平平方方和和最最小小。。用用数数据据寻寻找找一一条条直直线线的的过过程程也也叫叫做做拟合合((fit))一条条直直线线。。§7.3定定量量变变量量的的线线性性回回归归分分析析例7.1((继继续续))根根据据计计算算,,找找到到初初三三成成绩绩和和高高一一成成绩绩的的回回归归直直线线。。计计算算机机输输出出给给出出来来截截距距((Constant))26.444和和斜斜率率(变变量量j3的的系系数数)0.651。。截距=26.444;斜斜率=0.651§7.3定定量变量的线线性回归分析析这个直线实际际上是对所假假设的下面线线性回归模型型的估计(这这里的e是随机误差)):我们得到的截截距和斜率((26.444和0.651)是对对b0和b1的估计。§7.3定定量变量的线线性回归分析析由于不同的样样本产生不同同的估计,所所以估计量是是个随机变量量,它们也有有分布,也可可以用由他们们构造检验统统计量来检验验b0和b1是不是显著。。拿回归主要要关心的来说说,假设检验验问题是计算机输出也也给出了这个个检验:t检检验统计量为为9.089,而p-值为0.000。§7.3定定量变量的线线性回归分析析除了对的检验验之外,还有有一个说明自自变量解释因因变量变化百百分比的度量量,叫做决定系数(coefficientofdetermination,也叫测定系数或可决系数),用R2表示。对于例1,R2=0.632;这说明这这里的自变量量可以大约解解释63%的的因变量的变变化。R2越接近1,回回归就越成功功。由于R2有当变量数目目增加而增大大的缺点,人人们对其进行行修改;有一一修正的R2(adjustedRsquare)。§7.3定定量变量的线线性回归分析析此外,计算机机还计算了一一个在零假设设下有F分布布的检验统计计量,它是用用来检验回归归拟合好坏的的(零假设是是因变量和自自变量没有关关系)。§7.3定定量变量的线线性回归分析析和刚才简单的的回归模型类类似,一般的的有k个(定量)自自变量x1,x2…,xk的对因变量y的线性回归模模型为(称为为多元回归))这里b0,b1,…,bk称为回归系数数。对计算机机来说,计算算多个自变量量的回归和计计算一个自变变量的情况类类似,计算机机也会自动输输出相应的检检验结果。§7.3定定量变量的线线性回归分析析并且用数据来来拟合所选的的一个模型时时,并不一定定所有的变量量都显著(并并不一定所有有的系数都有有意义)。软件有一种一一边回归,一一边检验的所所谓逐步回归(stepwiseregression)方法。该方法或者从从只有常数项项开始,逐个个地把显著的的变量加入;;或者从包含含所有变量的的模型开始,,逐步把不显显著的变量减减去。注意不不同方向逐步步回归的结果果也不一定相相同。§7.4自自变量中有定定性变量的回回归在例7.1的的数据中,还还有一个自变变量是收入,,但它是定性性变量,以虚拟变量或哑元(dummyvariable)的方式出现。。(这里收入入的“低”,,“中”,““高”,用1,2,3来来代表)。如如果要用这种种哑元进行7.2节的回回归就没有道道理了。可以以用下面模型型描述:§7.4自自变量中有定定性变量的回回归注意,哑元的的各个参数a1,a2,a3本身只有相对对意义,无法三个都都估计,只能能够在有约束束条件下才能能够得到估计计。约束条件件可以有很多多选择,一种种默认的条件件是把一个参参数设为0,,比如a3=0,这样和和它有相对意意义的a1和a2就可以估计出出来了。对于于例7.1得得到对于例7.1,对b0,b1,a1,a2,a3的估计分别为为28.708,0.688,-11.066,-4.679,0。§7.5Logistic回归归但是如如果因因变量量为取取两个个值的的定性性变量量,前前面介介绍的的回归归模型型就无无法解解决了了。我们通通过例例7.2来来介绍绍另一一种回回归,,即Logistic回回归((logisticregression))。例7.2数数据前前面已已经见见到,,有自自变量量性别别、年年龄和和因变变量观观点§7.5Logistic回回归对此,,人们们通常常会考考虑下下面的的模型型(称称为logistic回回归模模型))为了循循序渐渐近,,先拟拟合没没有性性别作作为自自变量量(只只有年年龄x)的模模型§7.5Logistic回回归很容易易得到到b0和b1的估计计分别别为2.381和-0.069。。拟合合的模模型为为§7.5Logistic回回归下面再加上上性别别变量进进行拟拟合,,得到到对b0,b1和a0,a1的估计计(同同样事事先确确定为为a1=0))分别别为1.722,-0.072,1.778,0。对对于女女性和和男性性,该该拟合合模型型分别别可以以表示示为SPSS实实现(logi.sav)Analize-Regression--BinaryLogistic,,再把因因变量量(opinion)选选入DependentVariable,,把自自变量量(age和sex)选选入Covariates,,Categorical,再再把定定性变变量sex选入入CategoricalCovariate,,回到主主对话话框,,点击击OK即可可得到到结果果。注:SPSS的的syntax:LOGISTICREGRESSIONVAR=opinion/METHOD=ENTERagesex/CONTRAST(sex)=Indicator/CRITERIAPIN(.05)POUT(.10)ITERATE(20)CUT(.5).SPSS的的数据输输入数据的的键入入(T01.sav)数据从从其他他文本本读入入:File-Open-Data-文件件类型型(Sav,Excel,SAS,dBase,TXT等等等)(T02.txt);散点图图定性变变量的的加权(每一行的的权数等于于该行被观观测到的次次数)(T03.sav)和不加权(T04.sav);条形图,饼饼图数据的变换换(T01.sav)(多重散点点图,图的的编辑)SPSS的的相关分析相关分析(hischool.sav)利用SPSS选项::Analize--Correlate-Bivariate再把两个有有关的变量量(这里为为j3和s1)选入入,选择Pearson,Spearman和和Kendall就就可以得出出这三个相相关系数和和有关的检检验结果了了(零假设设均为不相相关)。SPSS的的回归分析自变量和因因变量都是是定量变量量时的线性性回归分析析(hischool.sav)利用SPSS选项:Analize-Regression-Linear再把有关的的自变量选选入Independent,把因变量量选入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论