多水平模型简介资料_第1页
多水平模型简介资料_第2页
多水平模型简介资料_第3页
多水平模型简介资料_第4页
多水平模型简介资料_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多水平(shupng)模型简介公共卫生公共卫生(n n wi shn)与与家庭医学学院家庭医学学院 郭秀花郭秀花2011.4.25第一页,共91页。 传统的统计学分析是建立在个体测量传统的统计学分析是建立在个体测量(cling)值相互独立的假设上。如:多元值相互独立的假设上。如:多元回归模型的估计方法是建立在个体测量回归模型的估计方法是建立在个体测量(cling)值要相互独立,当假设不成立时,值要相互独立,当假设不成立时,回归模型中的各参数估计值的有效性和统回归模型中的各参数估计值的有效性和统计特征均会受到影响,从而最终的统计推计特征均会受到影响,从而最终的统计推断结论将可能偏倚。估计值的标准

2、误会有断结论将可能偏倚。估计值的标准误会有偏差。偏差。 第二页,共91页。多元回归数据结构(sh j ji u) 第三页,共91页。第四页,共91页。Data and ExamplesChildren within families: Children with same biological parents tend to be more alike than children chosen at random from the general population. They are more alike because Genetics Environment Both第五页,共91页。

3、实验研究(ynji):如致畸试验 层次结构:层次结构:孕鼠1子鼠m子鼠1 子鼠2。孕鼠2子鼠m子鼠1 子鼠2。子鼠m子鼠1 子鼠2。孕鼠p窝别效应窝别效应(xioyng)第六页,共91页。Observational Studies Multi-stage sampling is cost effective.1. Take random sample from population (e.g. schools).2. Take random sample from sub-population (e.g. classes).3. Take random sample from sub-popu

4、lation (e.g. students).第七页,共91页。第八页,共91页。第九页,共91页。 某省调查其农村居民的卫生服务某省调查其农村居民的卫生服务 随机抽取随机抽取30个乡镇个乡镇(xingzhn),每,每个乡镇个乡镇(xingzhn)分别抽取分别抽取2个行政村,个行政村,每个村再随机抽取每个村再随机抽取33户(家庭),对每个户(家庭),对每个家庭前半年内的常住人口进行问卷调查。家庭前半年内的常住人口进行问卷调查。 调查(dio ch)研究 第十页,共91页。 具有明显的层次结构(乡镇具有明显的层次结构(乡镇行政村行政村户户个体);个体); 在经济水平、生活方式、生活习惯上都在经济

5、水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性;个具有某种程度上的相似性或聚集性;个体的数据是非体的数据是非(shfi)独立的独立的 。第十一页,共91页。Examples of Hierarchies第十二页,共91页。Longitudinal DataSame individuals measured on multiple occasions. Strong hierarchies. Much more variations between individuals than between occasions within individuals.第十三页,共91页。A Hy

6、pothetical Example - Two measurement occasions第十四页,共91页。 多水平模型(多水平模型(Multilevel ModelsMultilevel Models)又称随机效应模型(又称随机效应模型(Random Effect Random Effect ModelsModels),它是在二十世纪八十年代,),它是在二十世纪八十年代,由英美教育由英美教育(jioy)(jioy)统计学家基于方差统计学家基于方差成分分析而提出的统计模型。成分分析而提出的统计模型。 多水平模型理论是国外近些年发多水平模型理论是国外近些年发展起来的处理系统结构数据的多元统计

7、展起来的处理系统结构数据的多元统计方法,是将方法,是将型方差分析理论与多元统型方差分析理论与多元统计分析相结合的新技术。计分析相结合的新技术。多水平统计模型多水平统计模型(mxng)概念概念第十五页,共91页。Definition of Multilevel AnalysisSnijders & Bosker (1999):Multilevel analysis is a methodology forthe analysis of data with complexpatterns of variability, with a focus onnested sources of va

8、riability.第十六页,共91页。多水平模型的不同称谓:多水平模型的不同称谓: 层次线性模型(层次线性模型(hierarchical linear hierarchical linear modelmodel) 混合效应模型(混合效应模型(mixed-effects modelmixed-effects model) 混合模型(混合模型(mixed modelmixed model) 这些模型或许这些模型或许(hux)(hux)在算法或应用领在算法或应用领域的普及程度上有差别,但是都是处理具有域的普及程度上有差别,但是都是处理具有层次结构的数据或非独立数据的。层次结构的数据或非独立数据的

9、。第十七页,共91页。常规数据常规数据(shj)(shj)的特征的特征: :相互独立,等方差相互独立,等方差由由yiyi构成的观测向量服从正态分布构成的观测向量服从正态分布具有这种结构的数据具有这种结构的数据(shj)(shj)叫独立结构数据叫独立结构数据(shj)(shj)第十八页,共91页。 当应变量的协方差阵不满足对称条件(当应变量的协方差阵不满足对称条件(2 2 )时)时, ,大多为系统结构数据(大多为系统结构数据(hierarchical structure hierarchical structure datadata)。)。 多水平统计模型用于研究具有层次结构或嵌套式结构的多水平

10、统计模型用于研究具有层次结构或嵌套式结构的数据数据, ,此类数据的主要特征是反应变量的分布在个体间不此类数据的主要特征是反应变量的分布在个体间不具备具备(jbi)(jbi)独立性独立性, ,但存在某些范围内的聚集性但存在某些范围内的聚集性, , 如分如分层抽样或整群抽样的数据。层抽样或整群抽样的数据。第十九页,共91页。多水平模型多水平模型(mxng)(mxng)主主要种类要种类 重复测量资料的多水平模型重复测量资料的多水平模型 二分类资料的多水平模型二分类资料的多水平模型 PoissonPoisson分布资料的多水平模型分布资料的多水平模型 多水平多水平MetaMeta分析模型分析模型 多水

11、平生存多水平生存(shngcn)(shngcn)时间的统时间的统计模型计模型 第二十页,共91页。多元重复(chngf)测量资料的多水平模型实例第二十一页,共91页。新药临床试验资料数据库变量新药临床试验资料数据库变量(binling)编码编码 指标变量变量取值医院编号hosp115患者编号no1456观察时间time13周组别group试验组1,对照组0患者年龄age1875岁患者性别gender女性0,男性1疗前ESS评分ess04080 (评分高病情轻)疗前ADL评分adl0095 (评分高病情轻)疗后ESS评分ess0100疗后ADL评分adl0100第二十二页,共91页。新药新药(x

12、n yo)临床试验原始资料格式临床试验原始资料格式医院编号患者编号组别 年龄 性别疗前疗后1周疗后2周疗后3周ESS0 ADL0 ESS1 ADL1 ESS2 ADL2 ESS3 ADL311160069 50 73 50 86 90 85 10012043176 75 82 75 84 100 90 10013161140 30 42 35 55 35 72 4514171178 80 90 95 92 100 93 10015071172 75 75 75 82 82 16167180 80 93 85 100 95 第二十三页,共91页。二分类多水平模型二分类多水平模型(mxng)实例实

13、例第二十四页,共91页。 某省进行了农村贫困居民的家庭卫生服务调查(dio ch)。先随机抽取乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取一定数量的家庭进行调查(dio ch)。共调查(dio ch)了30个乡镇,832户贫困家庭户,共计2369名15岁及以上的居民。 现拟探讨该省农村贫困居民卫生服务需要的影响因素。 第二十五页,共91页。 以两周是否患病作为应变量。结合以两周是否患病作为应变量。结合资料的层次结构特点,采用二分类多资料的层次结构特点,采用二分类多水平水平logistic回归模型探讨农村贫困回归模型探讨农村贫困(pnkn)居民两周是否患病的影响因居民两周是否患病的影响因素

14、。素。第二十六页,共91页。 变量变量(binling)赋值表赋值表(1)变量名称定义及赋值应变量两周患病 uncomfor0 否 1 是人口学特征性别 gender0 男 1 女民族 ethnic0 汉族 1 其他年龄(岁) agegroup0 15 1 45 2 65 婚姻状况 marriage0 未婚 1 已婚 2 离婚 3 丧偶文化程度 edu0 文盲半文盲 1 小学 2 初中及以上职业 occupy0 非农业劳动者 1 农业劳动者 2 学生 3 离退休 4 无业、失业、半失业者医疗保险 insure0 无 1 有第二十七页,共91页。变量(binling)赋值表(2)健康相关因素健康

15、相关因素自身健康状况评价自身健康状况评价 self_assess hea_stat0 好好 1 中中 2 差差吸烟吸烟 smoke0 否否 1 吸吸饮酒饮酒 drink0 否、少量否、少量 1 经常饮经常饮家庭一般情况家庭一般情况家庭饮水类型家庭饮水类型 water0 自来水自来水 1 非自来水非自来水家庭户厕类型家庭户厕类型 bathroom0 卫生厕所卫生厕所 1 非卫生厕所非卫生厕所易得的最快方式去最近医疗点时易得的最快方式去最近医疗点时间间(分钟分钟) tim_hosp年人均收入年人均收入(元元) income0 637 1 6381000第二十八页,共91页。变量变量(binling

16、)赋值表(赋值表(3)乡镇特征乡镇特征乡镇地理地貌乡镇地理地貌 geography0 山区山区 1 非山区非山区个体水平个体水平id户水平户水平family乡镇水平乡镇水平rural家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心化之后纳入模型;家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心化之后纳入模型;无序多分类变量婚姻状况和职业以哑元形式纳入;无序多分类变量婚姻状况和职业以哑元形式纳入;有序多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的有序多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的形式纳入,依据似然比检验结果形式纳入,依据

17、似然比检验结果(ji gu)加以判断。加以判断。 第二十九页,共91页。哑变量名定义哑变量名定义(dngy) age1:45,age2:65 ; marriage1:已婚,marriage2:离婚, marriage3:丧偶; education1:小学,education2:初中及以上; occupation1:农业(nngy)劳动者,occupation2:学生, occupation3:离退休 occupation4:无业、失业、半失业第三十页,共91页。 多水平多水平Poisson回归回归(hugu)模模型实例型实例第三十一页,共91页。Poisson回归(hugu)(Poisson

18、regression) 单位(dnwi)时间、面积、空间内某事件发生数(count)的影响因素的分析 对于以人群为基础的稀有疾病发病率、卫生事件资料的分析第三十二页,共91页。例 收集英格兰和威尔士收集英格兰和威尔士15个地区个地区1959至至1991年按年龄、性别年按年龄、性别(xngbi)分组的逐分组的逐年人口数和肺癌死亡人数。年人口数和肺癌死亡人数。第三十三页,共91页。 肺癌死亡资料(zlio)数据库变量编码指标变量变量取值年份Year year=年份年份1959-1991地区region115年龄ageage=0,年龄,年龄50岁;岁;age=1,年龄,年龄50岁岁性别genderg

19、ender=0,女性;,女性; gender=1,男性,男性年观察人口数population年肺癌死亡数death第三十四页,共91页。资料(zlio)特点 两水平层次结构 地区(水平2单位) 15 各地区内逐年重复观察(水平1单位) 1980 资料按性别、年龄(ninlng)分组 反应变量是肺癌死亡人数 第三十五页,共91页。定性反应变量的多水平模型定性反应变量的多水平模型(mxng)重点:二分类反应变量的两水平模型重点:二分类反应变量的两水平模型(mxng)第三十六页,共91页。 某省调查其农村居民的卫生服务某省调查其农村居民的卫生服务 随机抽取随机抽取30个乡镇,每个乡镇分别个乡镇,每个

20、乡镇分别(fnbi)抽取抽取2个行政村,每个村再随机抽取个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常户(家庭),对每个家庭前半年内的常住人口进行问卷调查。住人口进行问卷调查。 第三十七页,共91页。 具有(jyu)明显的层次结构(乡镇 行政村 户 个体) ; 在经济水平、生活方式、生活习惯上都具有(jyu)某种程度上的相似性或聚集性 ;个体的数据是非独立的 。第三十八页,共91页。固定效应固定效应(xioyng)(xioyng)和随机效应和随机效应(xioyng)(xioyng) 固定效应:某研究中有多个不同固定效应:某研究中有多个不同(b tn)(b tn)的处的处理因素

21、,若研究者感兴趣的各种处理因素都设计理因素,若研究者感兴趣的各种处理因素都设计在研究当中,则认为这一因素具有固定效应。在研究当中,则认为这一因素具有固定效应。 随机效应:若处理包含的各个组别是从更大的总随机效应:若处理包含的各个组别是从更大的总体中得到的随机样本,则认为该处理因素具有随体中得到的随机样本,则认为该处理因素具有随机效应。机效应。第三十九页,共91页。二分类反应变量两水平二分类反应变量两水平(shupng)模型模型 优势优势 处理具有层次结构特征的数据资料,处理具有层次结构特征的数据资料,可将传统模型中的随机误差项分解到与数可将传统模型中的随机误差项分解到与数据层次结构相应据层次结

22、构相应(xingyng)的水平上,使的水平上,使得个体的随机误差更纯得个体的随机误差更纯 。第四十页,共91页。普通Logistic回归(hugu)模型l 令: y=1 发病(阳性、死亡(swng)、治愈等)l y=0 未发病(阴性、生存、未治愈等)l 将发病的概率记为P,它与自变量x1, x2,xp之间的Logistic回归模型为:l可知,不发病的概率为:l )exp(1)exp(110110ppppXXXXp )exp(111110ppXXp 第四十一页,共91页。)1/(ln)(logpppitppXXpLogit 110)(第四十二页,共91页。两水平(shupng)logit模型 0

23、01logit()()ijjijPux000jju020(0,)()(1)/juijijijijuNVar Pn,第四十三页,共91页。 为处理因素为处理因素(yn s)(yn s)的效应参数,又称固的效应参数,又称固定效应(定效应(fixed effectfixed effect)参数)参数 为水平为水平2 2单位的单位的logitlogit均值均值 与总均值与总均值 之之差,又称为随机效应(差,又称为随机效应(random effectrandom effect)或高)或高水平的残差。水平的残差。10 ju0 j0第四十四页,共91页。 的方差 又称为随机参数(random coeffic

24、ient),反映了高水平单位间的比数(率)的差别。 越大说明数据在高水平单位内的聚集性越强。 为0时,该模型演变为一般(ybn)的logistic回归模型。0 ju20u20u20u第四十五页,共91页。判断是否存在判断是否存在(cnzi)高水平效高水平效应应 密切结合专业知识和具体情况进行判断密切结合专业知识和具体情况进行判断 对随机参数对随机参数(cnsh) 的估计值做检验的估计值做检验02u第四十六页,共91页。例:探讨高血压的影响例:探讨高血压的影响(yngxing)因素因素 在全市共抽取在全市共抽取159个社区(个社区(53个生活社区和个生活社区和106个功能社区)作为调查社区,每个

25、社区个功能社区)作为调查社区,每个社区抽取抽取100人左右,共抽取人左右,共抽取16000例社区常住居例社区常住居民作为调查对象。民作为调查对象。 分别调查其性别、年龄、文化分别调查其性别、年龄、文化(wnhu)程度、程度、职业、吸烟、饮酒、体育锻炼及饮食情况等。职业、吸烟、饮酒、体育锻炼及饮食情况等。第四十七页,共91页。由于该资料具有明显的层次结构,每个群体由于该资料具有明显的层次结构,每个群体在经济水平、生活方式、饮食习惯上都具有某种在经济水平、生活方式、饮食习惯上都具有某种程度上的相似性或聚集性,每个个体的数据是非程度上的相似性或聚集性,每个个体的数据是非独立的,因此我们选用社区和居民

26、构成两个水平,独立的,因此我们选用社区和居民构成两个水平,居民是基本水平,即水平居民是基本水平,即水平1单位,社区是水平单位,社区是水平2单单位,来拟合位,来拟合(n h)两水平模型。两水平模型。第四十八页,共91页。 以调查对象是否患有高血压为应变量,将可能影响血以调查对象是否患有高血压为应变量,将可能影响血压的居民个人特征参量的若干因素作为自变量,采用压的居民个人特征参量的若干因素作为自变量,采用二水平二水平logistic模型探讨对血压可能具有影响作用模型探讨对血压可能具有影响作用(zuyng)的因素以及因素作用的因素以及因素作用(zuyng)的大小。的大小。 资料的统计分析过程均在资料

27、的统计分析过程均在SAS9.0中完成,两水平模中完成,两水平模型采用型采用SAS MIXED COVTEST过程进行拟合。变量过程进行拟合。变量的赋值方法见表的赋值方法见表1。第四十九页,共91页。第五十页,共91页。 logisticlogistic模型的结果中得到代表居民模型的结果中得到代表居民(jmn)(jmn)差异的常差异的常数项估计值为数项估计值为0.32480.3248,P0.0001P0.0001,说明居民,说明居民(jmn)(jmn)的的差异在社区水平上的确存在聚集性,其层次结构不能差异在社区水平上的确存在聚集性,其层次结构不能忽略,故进一步引入解释变量拟合两水平忽略,故进一步

28、引入解释变量拟合两水平logisticlogistic模模型。型。第五十一页,共91页。第五十二页,共91页。 由表由表2 2可知,影响血压组分异常的主要因素包括:性别、可知,影响血压组分异常的主要因素包括:性别、年龄、文化程度、职业、吸烟、饮酒、中心型肥胖、年龄、文化程度、职业、吸烟、饮酒、中心型肥胖、零食、食用油摄入、食盐摄入。零食、食用油摄入、食盐摄入。 在控制其他因素不变的情况下,女性患病率低于男性。在控制其他因素不变的情况下,女性患病率低于男性。年龄在年龄在40405959岁组和岁组和6060岁及以上组患病率均高于岁及以上组患病率均高于18183939岁人群。文化程度为初中、高中或中

29、专、大专及大岁人群。文化程度为初中、高中或中专、大专及大专以上的患病率均低于小学及小学以下专以上的患病率均低于小学及小学以下(yxi)(yxi)者。农者。农民、居民的患病率均高于工人、商服单位及其他企业,民、居民的患病率均高于工人、商服单位及其他企业,机关事业、卫生事业、教师及公安警察与工人、商服机关事业、卫生事业、教师及公安警察与工人、商服单位及其他企业比较差异无统计学意义。单位及其他企业比较差异无统计学意义。第五十三页,共91页。经常吸烟的患病率低于不吸烟或偶尔经常吸烟的患病率低于不吸烟或偶尔吸烟者。经常饮酒的患病率高于不饮酒者,吸烟者。经常饮酒的患病率高于不饮酒者,偶尔饮酒与不饮酒者比较

30、差异无统计学意偶尔饮酒与不饮酒者比较差异无统计学意义。中心型肥胖的患病率高于非中心型肥义。中心型肥胖的患病率高于非中心型肥胖者。经常吃零食的患病率低于不吃或很胖者。经常吃零食的患病率低于不吃或很少吃零食者。摄入食用油少的患病率低于少吃零食者。摄入食用油少的患病率低于摄入食用油适量者,摄入食用油过量摄入食用油适量者,摄入食用油过量(guling)与摄入食用油适量者比较差与摄入食用油适量者比较差异无统计学意义。摄入食盐过量异无统计学意义。摄入食盐过量(guling)的患病率高于摄入食盐少或适量者。的患病率高于摄入食盐少或适量者。 第五十四页,共91页。研究研究(ynji)对象对象 肺小结节患者的肺

31、小结节患者的CT图像。图像。 第五十五页,共91页。肺小结节的分割肺小结节的分割肺小结节纹理特征的提取肺小结节纹理特征的提取多水平统计多水平统计(tngj)模型的建立和分析模型的建立和分析研究研究(ynji)方法方法第五十六页,共91页。肺小结节肺小结节(ji ji)纹理特征的提取纹理特征的提取 纹理纹理(wnl)特征是从纹理特征是从纹理(wnl)图像中计算出来的图像中计算出来的一个值一个值,它对纹理它对纹理(wnl)内部灰度级变化的特征进行量化。内部灰度级变化的特征进行量化。 第五十七页,共91页。灰度共生矩阵灰度共生矩阵(j zhn)纹理特征参量有:纹理特征参量有:能量(角二阶距,能量(角

32、二阶距,Angular Second Moment) , 惯性距惯性距(inertia moment),相关性相关性(correlation) 熵(熵(entropy),),局部平稳性(局部平稳性(local equability),),逆差矩逆差矩(Inverse Diffence Moment),和的均值和的均值(Sum Average) ,差的均值差的均值(Difference Average),等等。等等。第五十八页,共91页。多水平多水平(shupng)模型的建立模型的建立 选取的研究对象是分属于肺小结节患者选取的研究对象是分属于肺小结节患者(hunzh)的的CT图像,每一位患者图像

33、,每一位患者(hunzh)具有多张具有多张CT图像,即图像之间图像,即图像之间不具有完全的独立性不具有完全的独立性 ,但是分属于某一,但是分属于某一患者患者(hunzh)的的CT图像具有聚集性。图像具有聚集性。第五十九页,共91页。 即本次研究中的肺小结节患者和即本次研究中的肺小结节患者和CT图图像就构成两水平模型中的两个像就构成两水平模型中的两个(lin )水平水平: CT图像是基本水平,即水平图像是基本水平,即水平1单位单位; 肺小结节患者是水平肺小结节患者是水平2单位。单位。第六十页,共91页。 故根据故根据(gnj)数据特点:数据特点: 1)首先拟和最简单的多水平模型)首先拟和最简单的

34、多水平模型,即方即方差成分模型差成分模型(零模型,不含任何协变量零模型,不含任何协变量) : Yij = 0 j+ 1 jX0 ij + eoij 其中其中0 j= 0+u0j,u0j(0, 2u0 ), eoij (0, 2e0 ) 0为平均截距,即当所有的解释变量为为平均截距,即当所有的解释变量为0时,所有的时,所有的yij的总平均估计值的总平均估计值; 1表示解释变量表示解释变量X的固定效应估计值,的固定效应估计值,它表明每个肺小结节患者间它表明每个肺小结节患者间Y的变异与的变异与解释变量解释变量X的变化无关的变化无关;第六十一页,共91页。u0j为随机变量,相当于水平为随机变量,相当于水平2单位(患者水平)的残差项,单位(患者水平)的残差项,反映了第反映了第j个患者对个患者对y的随机效应的随机效应;eoij为随机误差项,即为水平为随机误差项,即为水平1单位(单位(CT图像水平)的残差。图像水平)的残差。即该模型也可表示为:即该模型也可表示为: Yij = (0 + 1 jX0 ij )+ (u0j eoij )0 + 1 jX0 ij为固定部分,回归系数为固定部分,回归系数0 和和1描述描述(mio sh)模型的固定效应;模型的固定效应;u0j eoij为随机部分,其方差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论