多因素分析统计学_第1页
多因素分析统计学_第2页
多因素分析统计学_第3页
多因素分析统计学_第4页
多因素分析统计学_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多因素分析统计学1第一页,共七十二页,编辑于2023年,星期五2概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析。常用的统计分析方法有:多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析,等。第二页,共七十二页,编辑于2023年,星期五3多变量资料数据格式例号X1X2…XpY1X11X12…X1pY12X21X22…X2pY2┆┆┆…┆┆nXn1Xn2…XnpYnY为定量变量——LinearRegressionY为二项分类变量——BinaryLogisticRegressionY为多项分类变量——MultinomialLogisticRegressionY为有序分类变量——OrdinalLogisticRegressionY为生存时间与生存结局——CoxRegression第三页,共七十二页,编辑于2023年,星期五4Y,X——直线回归Y,X1,X2,…Xm——多元回归(多重回归)第十五章多元线性回归

(multiplelinearregressoin)P.261例:欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。第四页,共七十二页,编辑于2023年,星期五5β0为回归方程的常数项(constant),表示各自变量均为0时y的平均值;m为自变量的个数;β1、β2、βm为偏回归系数(Partialregressioncoefficient)意义:如β1

表示在X2、X3……Xm固定条件下,X1每增减一个单位对Y的效应(Y增减β个单位)。e为去除m个自变量对Y影响后的随机误差,称残差(residual)。多元回归方程的一般形式一、多元回归模型第五页,共七十二页,编辑于2023年,星期五6

为y的估计值或预测值(predictedvalue);

b0为回归方程的常数项(constant),表示各自变量均为0时y的估计值;由样本估计而得的多元回归方程:b1、b2、bm为偏回归系数(Partialregressioncoefficient)意义:如b1

表示在X2、X3……Xm固定条件下,X1每增减一个单位对Y的效应(Y增减b个单位)。第六页,共七十二页,编辑于2023年,星期五7适用条件:线性(linear)、独立性(independent)、正态性(normal)、等方差(equalvariance)——“LINE”。线性——自变量与应变量的关系是线性的。用散点图判断。独立性——任意两个观察值互相独立。常利用专业知识判断。正态性——就自变量的任何一个线性组合,应变量y均服从正态分布。即要求残差服从正态分布。常用残差图分析。等方差——就自变量的任何一个线性组合,应变量y的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。第七页,共七十二页,编辑于2023年,星期五8第八页,共七十二页,编辑于2023年,星期五9

(1)因素筛选:(因素分析)例如影响高血压的诸多因素中:

1)哪些是主要因素?

2)各因素的作用大小?(2)提高回归方程的估计精度多元回归比只有一个自变量的简单直线回归更能缩小应变量Y对其估计值的离差,在预测和统计控制方面应用的效果更好。(3)控制混杂因素多元线性回归除具有直线回归的基本性质外,还具有以下特点(用途):第九页,共七十二页,编辑于2023年,星期五10(1)用各变量的数据建立回归方程(2)对总的方程进行假设检验(3)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。二、多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。第十页,共七十二页,编辑于2023年,星期五11例15-1(P.262)

27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。表15-227名糖尿病人的血糖及有关变量的测量结果序号i总胆固醇甘油三脂胰岛素糖化血血

糖(mmol/L)(mmol/L)(μU/ml)红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3………………265.840.928.616.413.3273.841.206.459.610.4第十一页,共七十二页,编辑于2023年,星期五12由上表得到如下多元线性回归方程:1、建立回归方程第十二页,共七十二页,编辑于2023年,星期五132、回归方程的假设检验——F检验结果无显著性

1)表明所观察的自变量与应变量不存在线性回归关系;

2)也可能由于样本例数过少;结果有显著性表明至少有一个自变量与应变量之间存在线性回归关系。H0:β1=β2=…=βm=0H1:β1、β2、…βm不等于0或不全等于0第十三页,共七十二页,编辑于2023年,星期五14第十四页,共七十二页,编辑于2023年,星期五153、各个偏回归系数的假设检验——t检验将总胆固醇(X1)

剔除。

注意:通常每次只剔除关系最弱的一个因素。

对于同一资料,不同自变量的t值可以相互比较,t的绝对值越大,或P越小,说明该自变量对Y所起的作用越大。第十五页,共七十二页,编辑于2023年,星期五16重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。第十六页,共七十二页,编辑于2023年,星期五17对新建立的回归方程进行检验检验结果有显著性意义。第十七页,共七十二页,编辑于2023年,星期五18对新方程的偏回归系数进行检验检验结果均有意义,因此回归方程保留甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)三个因素。最后获得回归方程为:第十八页,共七十二页,编辑于2023年,星期五191、确定系数(R2):意义:在y的总变异中,由x变量组建立的线性回归方程所能解释的比例。0~1,越大越优。特点:R2是随自变量的增加而增大。因此,在相近的情况下,以包含的自变量少者为优。三、回归方程的评价2、R——复相关系数(multiplecorrelationcoefficient)表示m个自变量共同对应变量线性相关的密切程度。0≤R≤1。即Y与的相关系数。第十九页,共七十二页,编辑于2023年,星期五20

3、校正确定系数(adjustedR-square,R2a

)越大越优。R2a不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。

校正确定系数的计算:p为方程中包含的自变量个数,p≤m。R2一定时,p↑→R2

a↓P.268第二十页,共七十二页,编辑于2023年,星期五21第二十一页,共七十二页,编辑于2023年,星期五22四、各自变量的评价1、偏回归平方和

是指将某自变量xj从回归方程中剔除后所引起的回归平方和的减少量——间接反应了自变量xj对应变量的贡献大小。各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。第二十二页,共七十二页,编辑于2023年,星期五23回归方程中包含的自变量平方和SS回SS残X1、X2、X3、X4133.71188.841X2、X3、X4133.09889.454X1、X3、X4121.748100.804X1、X2、X4113.647108.905X1、X2、X3105.917116.635对例15-1作回归分析的部分中间结果SS回(X1)=133.711-133.098=0.613SS回(X2)=133.711-121.748=11.963SS回(X3)=133.711-113.647=20.064SS回(X4)=133.711-105.917=27.794第二十三页,共七十二页,编辑于2023年,星期五242、标准化偏回归系数(standardizedpartialregressioncoefficient)消除测量单位影响后的偏回归系数——标准化偏回归系数。意义:用以比较各自变量对应变量的影响程度大小(即相对贡献大小)。第二十四页,共七十二页,编辑于2023年,星期五25bj——X的偏回归系数Sj——为自变量的标准差SY——为应变量的标准差若将各变量先经标准状态化处理后,再进行多元回归,则所得到的偏回归系数即为标准偏回归系数。计算:第二十五页,共七十二页,编辑于2023年,星期五26∴对血糖影响大小的顺序依次为:糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)。比较糖化血红蛋白和甘油三酯的标准偏回归系数:0.413/0.354=1.17(倍)糖化血红蛋白对血糖的影响强度约为甘油三酯的1.17倍。例15-1资料,比较各个自变量对血糖的贡献大小比较。第二十六页,共七十二页,编辑于2023年,星期五27五、自变量的筛选基本思路:尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。(1)全局择优法(allpossiblesubsetsselection):(2)逐步选择法前进法(Forwardselection)后退法(Backwardelimination)逐步法(Stepwise)第二十七页,共七十二页,编辑于2023年,星期五281、全局择优法(最优子集回归)

(allpossiblesubsetsselection):有m个自变量就有2m-1个自变量子集。在各子集中选择最优的回归方程。仅适用于自变量个数不太多的情况。第二十八页,共七十二页,编辑于2023年,星期五292、向前筛选法(Forwardselection):事先给定一个入选标准,即(通常=0.05),然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。局限性:后续变量的引入可能会使先进入方程的变量变得不重要。第二十九页,共七十二页,编辑于2023年,星期五303、向后剔除法(Backwardelimination)首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。第三十页,共七十二页,编辑于2023年,星期五314、逐步法(Stepwise):给出入选标准(通常1=0.05)和剔除标准(通常2=0.10),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。实际工作中,多采用逐步法。用上述方法对上例资料进行分析。第三十一页,共七十二页,编辑于2023年,星期五32

六、应用多元线性回归分析时需注意的事项

(1)样本量要求:无精确的计算公式。据经验,样本量应是自变量数的5~10倍以上。(20?)(2)做预报时,只能在自变量X的观察值范围内进行;(3)在资料要求上,应变量Y服从正态分布;(4)注意资料的特异点(outlier);第三十二页,共七十二页,编辑于2023年,星期五33(5)观测值重新量化问题二项分类资料:用X表示分类变量,阴性为0,阳性为1。有序多项分类资料:用一个X作为分类变量,以自然数0,1,2,…赋值。如将病情分为轻中重三类时,用X表示病情,赋值方法为:无序多项分类资料:或第三十三页,共七十二页,编辑于2023年,星期五34

上述以职员作为对比水平(基础水平)。哑变量X1、X2、X3分别代表了工人、农民、干部与职员相比的系数。哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。第三十四页,共七十二页,编辑于2023年,星期五35(7)自变量的联合作用分析若要考虑X3、X4对应变量y的联合作用,可设置一个新变量X5=X3X4。若b3、b4和b5都有统计学意义,则说明X3、X4对应变量既有单独作用,又有交互作用。(6)自变量筛选过程中引入和剔除变量时检验水准的确定1)引入变量检验的水准小于或等于剔除变量时检验的水准2)通常引入变量检验的水准为0.05,剔除变量时0.10,但不绝对。第三十五页,共七十二页,编辑于2023年,星期五36说明X3、X4对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。第三十六页,共七十二页,编辑于2023年,星期五37(8)自变量的共线性

当自变量之间存在较强的相关关系时,称之为共线性。

后果——偏回归系数的估计值容易失真。当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:

1)在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。

2)偏回归系数的符号与医学专业知识不一致。

3)参数估计的标准误变得很大,使t值变得很小,P值很大。第三十七页,共七十二页,编辑于2023年,星期五38判断方法:利用自变量间的相关系数阵。(r>0.9,共线性可能性大)处理方法:最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。

第三十八页,共七十二页,编辑于2023年,星期五39(9)残差分析——模型诊断通常以标准化残差(standardizedresidual)为纵坐标,以为横坐标,作残差图。第三十九页,共七十二页,编辑于2023年,星期五40第四十页,共七十二页,编辑于2023年,星期五41第十六章Logistic

回归一、概念

Logistic回归是一种适用于应变量为分类值多因素概率型曲线模型。Y为二项分类:非条件Logistic回归——成组设计条件Logistic回归——配对设计Y为多分类:多分类Logistic回归P.278第四十一页,共七十二页,编辑于2023年,星期五42BinaryLogistic适用于应变量为二项分类的资料。应变量(Y)在一组自变量(X)的作用下所发生的结果赋值规则为:logistic回归模型:统计学中,把ln(P/Q)称为P的Logit转换或对数转换,即LogitP。由此得到的回归方程,称为Logistic回归方程。

出现阳性的结果——1,其概率用P来表示;出现阴性的结果——0,其概率用Q或(1–P)来表示。第四十二页,共七十二页,编辑于2023年,星期五43由上式可得:由样本估计而得的logistic回归模型:第四十三页,共七十二页,编辑于2023年,星期五44将P/Q称为比数(odds,优势、比值);两个比数之比称为比数比OR(oddsratio,优势比、比值比)。第i个观察对象的发病概率比数(odds)为Pi/Qi,则:第l个观察对象的发病概率比数为Pl/Ql,则:第四十四页,共七十二页,编辑于2023年,星期五45则:式中:——同一因素xj的不同暴露水平之差。

bj——在其它自变量固定不变的情况下,xj的水平每增加一个单位时,ln(OR)的改变量,即所引起的比数比为增加前的ebj倍若Xj赋值为:第四十五页,共七十二页,编辑于2023年,星期五46bj=0时,ORj=1,说明因素xj对疾病不起作用;bj>0时,ORj>1,说明xj是一个危险因素;bj<0时,ORj<1,说明xj是一个保护因素。对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于P<<1,OR可作为RR的近似估计:所以,logistic回归常用于流行病学调查资料,其优点是得到某一因素的回归系数估计值后,就可得到不同水平下相对危险度的近似估计值。第四十六页,共七十二页,编辑于2023年,星期五47模型的应用主要有三个方面:筛选危险因素:求出各协变量对应变量的比数比(OR);校正混杂因素:可以很方便地控制混杂因素,得到校正后比数比的估计值和置信区间;预测与判断:Logistic回归模型是概率型模型,在一定条件下能预测某事件发生的概率,或估计各种自变量组合条件下应变量的某一类结果是否发生。第四十七页,共七十二页,编辑于2023年,星期五48二、Logistic回归的参数估计及假设检验例:在研究医院抢救急性心肌梗塞(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该院所有的AMI患者的抢救病史,共200例。其中P表示抢救是否成功(0表示成功,1表示死亡),X1表示抢救前是否已休克(0表示未休克,1表示已休克),X2表示抢救前是否已心衰(0表示未心衰,1表示已心衰),X3表示患者从开始有AMI症状到抢救时是否已超过12小时(0表示未超过12小时,1表示已超过12小时)。试分析影响抢救成功率的因素。第四十八页,共七十二页,编辑于2023年,星期五49P=0(抢救成功)

P=1(抢救不成功而死亡)X1X2X3N

X1X2X3N00035

00040013400110010170104011190111510017100610161019110611061116

1116AMI患者的抢救危险因素资料第四十九页,共七十二页,编辑于2023年,星期五50(一)Logistic

回归的参数估计及意义参数估计方法:最大似然法(maximumlikelihood)。最大似然法的基本思想:先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,即称为参数的最大似然估计值。Pi——第i例观察对象处于暴露条件下阳性结果发生的概率。第五十页,共七十二页,编辑于2023年,星期五51(一)Logistic

回归的参数估计及意义参数估计方法:最大似然法(maximumlikelihood)b0=-2.086,表示在其它自变量均为0时死亡优势的对数值;exp(b0)=0.124是无休克、无心衰和抢救及时组死亡的优势,当死亡概率很低时,近似等于自然死亡率。第五十一页,共七十二页,编辑于2023年,星期五52b1=1.110——X1的logistic回归系数;exp(1.110)=3.033,表示在其它自变量取值固定时,休克与没有休克相比死亡的优势比(OR),反映死亡与休克的关联程度。第五十二页,共七十二页,编辑于2023年,星期五53(二)假设检验及回归系数的区间估计似然比检验——比较两个模型的拟合效果。

模型1含较少自变量,模型2含较多自变量。H0:模型1与模型2拟合效果无区别H1:模型1与模型2拟合效果不同检验统计量:-2lnL1为模型1的值,-2lnL2为模型2的值。G反映模型2较模型1拟合优度提高的程度。G服从χ2(v)分布,v=增加变量的个数-2lnL被称为Deviance,记为D。第五十三页,共七十二页,编辑于2023年,星期五542.Wald检验——用于回归系数的假设检验。

H0:β=0H1:β≠0检验统计量:

第五十四页,共七十二页,编辑于2023年,星期五553.优势比的估计第五十五页,共七十二页,编辑于2023年,星期五56LogisticRegression显示的是应变量的赋值情况。BinaryLogistic过程默认以应变量Y=1所对应的概率为P,即以P(Y=1)建立模型。第五十六页,共七十二页,编辑于2023年,星期五57Block0:BeginningBlock——是模型中只有常数项,而不含任何自变量的输出结果。Block1:Method=BackwardStepwise(LikelihoodRatio)——开始输出将自变量引入模型后的结果。采用BackwardStepwise(LR)法作自变量筛选。第五十七页,共七十二页,编辑于2023年,星期五58对模型全局检验的结果。Step统计量是每一步与上一步比较的似然比检验结果;Block统计量是指将Block1(或Block2)与Block0相比的似然比检验结果;Model统计量是指模型的似然比检验的结果。第五十八页,共七十二页,编辑于2023年,星期五59模型的拟合优度情况简报第五十九页,共七十二页,编辑于2023年,星期五60模型对应变量的分类预测结果模型的预测准确率第六十页,共七十二页,编辑于2023年,星期五61标准化偏回归系数:Sj为变量Xj的标准差。第六十一页,共七十二页,编辑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论