11杨永利-多重线性回归与相关.ppt_第1页
11杨永利-多重线性回归与相关.ppt_第2页
11杨永利-多重线性回归与相关.ppt_第3页
11杨永利-多重线性回归与相关.ppt_第4页
11杨永利-多重线性回归与相关.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十三章 多重线性回归分析,Multiple linear regression analysis,生物医学研究领域中的多因素相互作用现象非常普遍。如身高不仅受到遗传因素的影响,而且还受到营养状况、体育锻炼情况、居住环境因素的作用。血压的高低除了与年龄有关外,还与家族史、饮食习惯、劳动强度等因素有关。本章介绍如何采用多重线性回归分析定量刻画多个因素对结果指标(如身高、血压)的影响。,教学内容,一、多重线性回归模型拟合实例 二、多重线性回归模型的模型假设诊断 三、多重线性回归模型的应用及注意事项,教学目的和要求, 熟悉多重线性回归分析在医学中的应用; 掌握多重回归分析的基本步骤、模型假设、并能对

2、SPSS输出结果进行解释。,一、多重线性回归模型拟合实例,【典型案例】,例17-5 为了研究影响肥胖者瘦素的主要危险因素,某研究者调查了某医院肥胖门诊的500名肥胖就诊者的瘦素、年龄、体重指数等因素,为了简化问题,仅取自变量为年龄(X1,岁)、体重指数(X2,kg/m2)、总胆固醇(X3,mmol/L)、是否患糖尿病(X4,患糖尿病为1,不患糖尿病为0)和是否患高血压(X5,患高血压为1,不患高血压为0),应变量为瘦素(Y,ng/ml)。为了说明的方便,这里仅从500名肥胖就诊者中随机取30例,具体数据如表17-11所示,分析肥胖者瘦素的主要影响因素。,【案例分析】,研究目的:了解年龄、体重指

3、数、总胆固醇、是否患糖尿病和是否患高血压与瘦素的依存关系,即多个自变量与一个因变量的关系; 资料分析方法:多重回归分析。,多重线性回归分析是简单线性回归分析的推广,它研究的是一组自变量如何直接影响一个因变量。这里自变量指的是能独立自由变化的变量,一般用表示X;因变量指的是非独立的、受其它变量影响的变量,一般用Y表示。,一、 概念,单因单果-简单线性回归和相关分析 多因单果-多重线性回归与相关分析 多因多果-典型相关分析;多元回归分析;路径分析,验证性因子分析,变量之间的关系,二、多重线性回归分析的基本原理,最小二乘法(least square estimate,LSE) 多重线性回归分析的基本

4、原理就是利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数模型,并且这个模型最好地拟合了观察数据。所谓最好地拟合了观察数据,从几何意义上讲,就是从各种可能的因变量关于自变量的线性函数中找出一个最优的模型,使得这个最优模型对应的空间中几何体尽可能地靠近所有的观察值对应的几何点。,图13-1 两个自变量时,回归平面示意图,例如,收集n个样本在指标变量Y ,X1和X2上的观察值,拟合一个Y关于X1和X2的二元线性回归模型。因为这个模型是三维空间中的一个平面,因此,二元线性回归分析的几何意义就是要从三维空间里所有的平面中找出一个最优平面,使得这个最优平面最大限度地靠近n组观测

5、值对应的三维空间中的 n个点( X1,X2 ,Y)。,多重线性回归分析是借助于一个数学模型来揭示总体中若干个自变量与一个因变量之间的线性依存关系,并评估用这一数学模型模拟相关事物变化规律的准确性。,三、多重线性回归分析的数学模型,式中Yj是第i样品因变量的实测值 0为常数项,即截距 i是偏回归系数,它表示在其它自变量固定不变的情况下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量 i为残差,服从N(0,2)分布。,四、模型条件(LINE),1.线性(linear) 2.独立(independent) 3.正态 (normal) 4.等方差(equal variance),线性(linea

6、r)指反应变量Y的总体平均值与自变量X呈线性关系。 独立(independent)指任意两个记录互相独立。 正态 (normal) 指误差项服从正态分布 。 等方差(equal variance)是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。,五、多重线性回归分析的基本步骤,最小二乘法,F检验,t 检验,【电脑实验】,【Dependent框】用于选入回归分析的应变量。 【Block按钮组】 由Previous和Next两个按钮组成,用于将下面Independent框中选入的自变量分组。如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。,【Independent

7、框】用于选入回归分析的自变量。 【Method下拉列表】用于选择对自变量的选入方法: Enter(强行进入法) Stepwise(逐步法) Remove(强制剔除法) Backward(向后法) Forward(向前法),在许多研究中,多重线性回归分析的目的是建立一个预测效果的最优模型,一般要求在回归模型中尽可能多的引入自变量并要求模型中的所有自变量对反应变量的影响都有统计学意义。因此需要对模型中自变量进行筛选。,变量筛选,自变量筛选的统计学标准,SSE缩小或决定系数增大。 残差均方缩小或调整确定系数增大。,【Statistics钮】用于选择所需要的描述统计量 Regression Coeff

8、icients:定义回归系数的输出情况,回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals则输出每个回归系数的95%可信区间。 Residuals:用于选择输出残差诊断的信息。 Model fit:模型拟合优度检验。 Descriptives:提供一些变量描述,如有效例数、均数、标准差等。 Collinearity diagnostics:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等。,【电脑实验】,ENTER,【电脑实验】,ENTER,无意义,不进入方程,未标准化的 回归系数,回归系数的

9、标准误,标准化的回归系数,回归系数的t检验,未标准化的回归系数(偏回归系数):用来构建回归方程,即方程中各自变量的斜率。 标准化的回归系数:用于综合评价各解释变量对因变量Y的贡献大小,标准化的回归系数越大,说明X对Y的影响幅度越大。,根据强行回归法输出结果,构建回归方程,去掉无意义的变量,STEPWISE,决定系数越大,说明构建的回归方程越好。,STEPWISE,STEPWISE,先将贡献最大的变量进入方程,再将贡献次大的变量进入方程,直到所有有意义的变量都进入方程为止。,对于同一份数据,用不同的方法筛选的自变量未必相同,用统计学方法选择变量只是一种初筛,不能作为定论,更不能代替与问题有关的专

10、业知识,在进行回归分析之前必须梳理自变量,区分主要因素与次要因素,并要理清变量之间的相互联系。,根据逐步回归法输出结果,构建回归方程,根据SPSS输出结果,可以认为年龄、体重指数和糖尿病是影响廋素的主要因素,年龄增大1岁,估计廋素平均升高0.135ng/ml,体重指数增大1个单位,估计廋素平均升高0.545ng/ml,糖尿病患者的廋素比非糖尿病患者平均升高1.045ng/ml。,二、模型假设诊断,模型假设:LINE 诊断方法:残差分析。 残差的直方图判断分布的正态性。 绘制残差与反应变量预测值的散点图考察模型是否满足线性和方差齐性。,散点均匀分布在以0为中心,与横轴平行的带状区域内,可以认为基

11、本满足线性和方差齐性的假定条件。,散点呈现曲线趋势,提示资料不满足线性的假定。,散点随预测值的变化而变化,提示资料不满足方差齐性的假定。,散点随预测值的变化而变化且呈曲线趋势,提示资料不满足线性和方差齐性的假定。,关于独立性的核查,可以通过计算Durbin-Watson统计量来判断。该统计量的取值一般在0-4之间,如果残差之间相互独立,则取值在2左右,如果取值接近0或4,则提示不满足独立性。,例17-5的模型假设诊断正态性,提示残差满足正态分布,如果残差不服从正态分布,可以对因变量进行变量转换,如,取对数,使得因变量近似服从正态分布。,例17-5的模型假设诊断线性、方差齐性,散点均匀分布在以0

12、为中心,与横轴平行的带状区域内,可以认为基本满足线性和方差齐性的假定条件。,在进行多重线性回归分析时,除了要满足LINE 外,还要求各变量之间不能存在共线性,即各变量之间要相互独立。为此,需要进行共线性诊断。,如果两个自变量之间的相关系数超过0.9,则会带来共线性问题,如果在0.8以下,一般不会出现多大问题。,经验表明:VIF大于5或10时,存在严重的共线性,容忍度=1/VIF,一般地,当条件数(condition index)大于10,且有两个以上的自变量对应的方差比例(variance proportions, VP) 大于0.5时,可以认为这些自变量时严重相关的。,当模型诊断发现了问题,

13、一般情况下可以这样解决: 如果自变量存在共线性,根据偏相关系数大小,去掉其中一个对因变量影响最小的自变量,或根据方差比例(variance proportion, vp)的大小,去掉vp值大的自变量,重新作共线性检查,直至多重共线性不存在为止。,总的来说,多重线性回归分析模型诊断工作是必不可少的过程。当诊断出问题时,要小心处理,每一次解决一个问题。在解决了一个问题后,重新回归模型,再找第二个问题,然后再重新分析模型,直至模型基本满意为止。,定量地建立一个反应变量与多个解释变量之间的线性关系。 筛选危险因素。 通过较易测量的变量估计不易测量的变量。 通过解释变量预测反应变量。 通过反应变量控制解释变量。,三、多重线性回归模型的应用及注意事项,多重线性回归分析的注意事项,1. 因变量Y是服从正态分布的连续型随机变量 ; 2. 自变量最好是连续型变量,也可以是等级资料,若自变量为多项无序分类资料,则必须先哑变量化后才能进入模型。,表1 分类变量的哑变量化,这种将k个多项无序分类转化为k-1个二分类变量的过程叫分类变量的哑变量化,主要用在多重线性回归分析和Logistic 回归分析中。,3. 自变量之间不存在多重共线性,即互相独立。,显然,此处的两个解释变量X1,X2实际上是1个变量,因为他们提供的信息完全相同,若进行相关分析,相关系数等于1,这种现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论