相关与回归分析_第1页
相关与回归分析_第2页
相关与回归分析_第3页
相关与回归分析_第4页
相关与回归分析_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于相关与回归分析第1页,课件共83页,创作于2023年2月学习目的:(1)掌握相关分析与相关系数的概念、相关系数的计算方法(2)掌握一元线性回归的基本原理和参数的最小二乘估计方法(3)掌握回归方程的显著性检验(4)利用回归方程进行预测重点:(1)相关系数;

(2)一元线性回归的基本原理。难点:(1)相关系数的计算方法;

(2)回归方程的显著性检验。第2页,课件共83页,创作于2023年2月联系与相互影响是普遍的现象受教育的水平工作后的收入预防疾病支出疾病的发病率事物相互间关系的质的解释:自然的、社会的、经济的、心理的…事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析第3页,课件共83页,创作于2023年2月一、相关分析的概念第一节相关分析与相关系数社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。

在分析变量的依存关系时,我们把变量分为两种:自变量因变量引起其他变量发生变化的量。受自变量的影响发生对应变化的量第4页,课件共83页,创作于2023年2月现象之间的相互关系,可以概括为两种不同的类型:(一)函数关系(二)相关关系例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。第5页,课件共83页,创作于2023年2月函数关系指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。

函数关系可以用一个确定的公式,即函数式来表示。或:Y=F(X)第6页,课件共83页,创作于2023年2月相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。

例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:相关关系可用统计模型:或:Y=F(X)+ε式中,为影响Y的除X外的其他随机因素。第7页,课件共83页,创作于2023年2月二、相关数据的收集和相关关系的种类:(一)相关数据的收集199019911992199319941995199619971998199920002001

18598.421662.526651.934560.546670.057494.966850.573142.776967.280579.488189.695933.00

2.1828.4039.4746.8373.2387.33102.00120.74126.02140.99162.24178.00年份国内生产总值(亿元)旅游外汇收入(亿美元)第8页,课件共83页,创作于2023年2月单相关

是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。复相关

也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。(二)相关关系的种类:1、按相关关系涉及变量的多少可分为:第9页,课件共83页,创作于2023年2月直线相关当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。曲线相关当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,这就曲线相关。亦称为一元非线性相关。2、按相关关系形式可分为:第10页,课件共83页,创作于2023年2月正相关当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。负相关当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。3、按相关的方向可分为:第11页,课件共83页,创作于2023年2月线性正相关第12页,课件共83页,创作于2023年2月线性负相关非线性相关第13页,课件共83页,创作于2023年2月无(不)相关第14页,课件共83页,创作于2023年2月4、按相关关系的密切程度分为:完全相关因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。不完全相关变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。不相关自变量与因变量彼此独立,互不影响,其数量变化毫无联系。。第15页,课件共83页,创作于2023年2月(1)确定现象之间有无相关关系,以及相关关系的表现形态。(2)确定相关关系的密切程度。(3)确定相关关系的数字模型,并进行参数估计和拟合优度检验。(4)回归预测,并分析估计标准误差。相关分析的主要内容包括:第16页,课件共83页,创作于2023年2月相关关系的测定定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度第17页,课件共83页,创作于2023年2月相关图相关关系的测定将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图。简单相关图根据未分组资料的原始数据直接绘制的相关图。分组相关图根据分组资料绘制的相关图。第18页,课件共83页,创作于2023年2月XY第19页,课件共83页,创作于2023年2月在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示三、相关系数其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。(一)相关系数的含义和公式第20页,课件共83页,创作于2023年2月(二)相关系数的意义第21页,课件共83页,创作于2023年2月相关系数r的取值范围:-1≤r≤10<|r|<1表示存在不同程度线性相关:

|r|

<0.3为微弱线性相关;

0.3≤|r|<0.5为低度线性相关;

0.5≤|r|<0.8为显著性线性相关

0.8≤|r|<1为高度线性相关r>0为正相关,r<0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;第22页,课件共83页,创作于2023年2月序号能源消耗量(十万吨)x工业总产值(亿元)yx2y2xy1234567891011121314151635384042495254596264656869717276242524283231374041404750495148581225144416001764240127042916348138444096422546244761504151845776576625576784102496113691600168116002209250024012601230433648409509601176156816121998236025422560305534003381362134564408合计916625550862617537887第23页,课件共83页,创作于2023年2月【例】计算工业总产值与能源消耗量之间的相关系数资料结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。(三)相关系数的计算第24页,课件共83页,创作于2023年2月相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;极端值可能影响相关系数。注意相关关系成立的数据范围。警惕虚假相关使用相关系数时应注意的问题:第25页,课件共83页,创作于2023年2月回归:退回regression1877年弗朗西斯•高尔顿爵士遗传学研究回归线平均身高第二节回归分析第26页,课件共83页,创作于2023年2月父亲们的身高与儿子们的身高之间

关系的研究1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图)回归分析法产生的历史第27页,课件共83页,创作于2023年2月160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定回归分析法产生的历史第28页,课件共83页,创作于2023年2月从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。后人将此种方法普遍用于寻找变量之间的规律回归分析法产生的历史第29页,课件共83页,创作于2023年2月一、一元线性回归分析回归分析通过一个变量x或一些变量(x1,x2,x3…)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法回归:退回regression回归方程回归模型反映自变量和因变量之间数学联系的表达式。某一类回归方程的总称。第30页,课件共83页,创作于2023年2月

自变量(independentvariable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。因变量(dependentvariable):响应变量,由自变量来解释其变化的变量。XYXY••••••••《统计学》第十章相关与回归第31页,课件共83页,创作于2023年2月回归分析的内容和步骤1、根据理论和对问题的分析判断,区分自变量和因变量;2、设法找出适合的数学方程式(即回归模型)描述变量间的关系3、对回归模型进行统计检验;4、统计检验通过后,利用回归模型,根据解释变量去估计,预测因变量。第32页,课件共83页,创作于2023年2月回归分析的分类根据变量的多少分为:简单回归多元回归只有一个自变量和一个因变量的回归自变量数目在两个或两个以上根据建立的回归模型形式分为:线性回归非线性回归从所拟合的回归模型来看,一变量表现为其它变量的线性组合。从所拟合的回归模型来看,一变量表现为其它变量的非线性组合第33页,课件共83页,创作于2023年2月回归分析与相关分析理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;

相关系数和回归系数方向一致,可以互相推算。联系:第34页,课件共83页,创作于2023年2月相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。回归分析与相关分析区别:第35页,课件共83页,创作于2023年2月简单线性回归模型指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:其中:Yi表示因变量Y在总体中某一个具体的观察值;Xi表示在研究总体中自变量X的具体观察数值;A与B是参数,称为回归系数;εi是一个随机变量,其平均数为0,方差为σ2.总体回归模型第36页,课件共83页,创作于2023年2月总体一元线性回归模型:模型参数误差项假定:E()=0总体一元线性回归方程:第37页,课件共83页,创作于2023年2月简单线性回归模型的假设1、正态性假定3、线性假定2、同方差假定4、独立性假定当确定某一个Xi时,相应的Y就有许多Yi值与之对应。Yi是一个随机变量,这些Yi构成一个在X取值为Xi条件下的条件分布、并假设其服从正态分布。

假定所有Yi这一条件分布的方差是相等的。

假定所有Yi这一条件分布的平均数位于一条直线上,这条直线为Yi=A+BX,

假定Yi之间是独立的,也就是说抽样时,Y的值在每取一个X值的条件分布相互独立。第38页,课件共83页,创作于2023年2月一元线性回归模型的假定第39页,课件共83页,创作于2023年2月在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为:简单线性回归模型其中:a,b和ei分别为A、B及εi的估计量。由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数A、B。样本回归模型第40页,课件共83页,创作于2023年2月一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态为正为负为0回归直线的拟合第41页,课件共83页,创作于2023年2月总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。(估计的回归方程)第42页,课件共83页,创作于2023年2月随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。第43页,课件共83页,创作于2023年2月残差(Residual):e第44页,课件共83页,创作于2023年2月(一)建立一元线性回归方程的步骤1、作散点图2、配直线方程第45页,课件共83页,创作于2023年2月一元线性回归方程中参数a、b的确定:最小平方法基本数学要求第46页,课件共83页,创作于2023年2月整理得到由两个关于a、b的二元一次方程组成的方程组:进一步整理,有:第47页,课件共83页,创作于2023年2月例考察某班学生身高与体重的相关关系学生身高x体重yx2y2xy估计值ŷ残差y-ŷABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.709-0.2910.552-3.6061.2366.0791.921-8.236-1.3945.448-1.70916705702792203303295546-0第48页,课件共83页,创作于2023年2月【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。【例】建立工业总产值对能源消耗量的线性回归方程资料解:设线性回归方程为第49页,课件共83页,创作于2023年2月散点图工业总产值能源消耗量第50页,课件共83页,创作于2023年2月即线性回归方程为:计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。第51页,课件共83页,创作于2023年2月最小二乘法估计的优良性质残差之和为零所拟合直线通过样本散点图的重心误差项与解释变量不相关a与b分别是总体回归系数的无偏估计量a与b均为服从正态分布的随机变量第52页,课件共83页,创作于2023年2月b与r的关系:r>0r<0r=0b>0b<0 b=0第53页,课件共83页,创作于2023年2月二、回归方程的显著性检验(一)平方和的分解第54页,课件共83页,创作于2023年2月残差平方和回归平方和总离差平方和第55页,课件共83页,创作于2023年2月计算公式第56页,课件共83页,创作于2023年2月(三)样本判定系数确定回归直线后,需要评价这一直线方程是否有效地反映了这两变量之间的关系。评价回归方程配合好坏的一个主要指标是判定系数(或称确定系数)是相关系数的平方,用表示;用来衡量回归方程对y的解释程度。判定系数取值范围:

越接近于1,表明x与y之间的相关性越强;越接近于0,表明两个变量之间几乎没有直线相关关系.样本判定系数第57页,课件共83页,创作于2023年2月r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释r的符号同b第58页,课件共83页,创作于2023年2月学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00第59页,课件共83页,创作于2023年2月回归分析中我们最关心的是:

X与Y是否有真正的相关关系。即:(二)F检验第60页,课件共83页,创作于2023年2月回归系数的检验1、提出假设;2、确定检验统计量;3、给定显著性水平,确定临界值;第61页,课件共83页,创作于2023年2月5、结论4、计算F,比较第62页,课件共83页,创作于2023年2月学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00第63页,课件共83页,创作于2023年2月检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为b明显地不等于零,X与Y是显著的。第64页,课件共83页,创作于2023年2月F检验是基于F分布进行的,是方差分析内容之一。方差来源平方和自由度均方F值回归误差总计SSRSSESST1n-2n-1均方回归均方误差第65页,课件共83页,创作于2023年2月当1=0时,SSR=0,则F值=0。当10时,SSR>0,则F值>0。当我们设1=0时,则较大的F值将推翻这一假设。故拒绝原假设,接受备择假设,即认为回归方程是显著的。第66页,课件共83页,创作于2023年2月

预测的前提:回归方程经过检验,证明X和Y

的关系在统计上是显著的。

回归分析的点预测:对于给定的

X

值,求出Y平均值的一个估计值或Y

的一个个别值。若x=169,则:

三、预测及应用第67页,课件共83页,创作于2023年2月利用点预测得到的Y平均值的点估计值和Y的一个个别值其结果是相同的。点预测不能提供估计量的精确度。在样本自变量取值范围之外进行预测要特别谨慎。使用点预测应注意的问题:第68页,课件共83页,创作于2023年2月回归方程的估计与预测估计的前提:回归方程经过检验,证明X和Y

的关系在统计上是显著相关的。对于给定的

X

值,求出Y平均值的一个估计值或Y

的一个个别值的预测值。对于给定的X值,求出Y

的平均值的置信区间或Y

的一个个别值的预测区间。点估计区间估计第69页,课件共83页,创作于2023年2月点估计若x=80(十万吨),则:第70页,课件共83页,创作于2023年2月区间估计对于给定的x=x0

,Y的1-置信区间为自由度为n-2的t分布的水平双侧分位数第71页,课件共83页,创作于2023年2月即:在大样本条件下,近似有:第72页,课件共83页,创作于2023年2月

回归分析的区间估计:对于给定的X值,求出Y

的平均值的置信区间或Y

的一个个别值的预测区间。第73页,课件共83页,创作于2023年2月

Y的平均值的置信区间估计总体的回归模型样本回归方程如果样本回归方程通过检验,则:如果给定x=x0

,则有:分布形态?第74页,课件共83页,创作于2023年2月可以证明,ŷ0

是服从正态分布的,其数学期望:其方差:其标准差:第75页,课件共83页,创作于2023年2月对于给定的x=x0

,Y的1-置信区间为:也就是:自由度为n-2的t分布的水平双侧分位数第76页,课件共83页,创作于2023年2月学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论