《医学统计》PPT课件.ppt_第1页
《医学统计》PPT课件.ppt_第2页
《医学统计》PPT课件.ppt_第3页
《医学统计》PPT课件.ppt_第4页
《医学统计》PPT课件.ppt_第5页
已阅读5页,还剩124页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学(3),季聪华 2012.10.11,概率分布 参数估计与假设检验 EPIDATA数据管理软件,概率分布 第一节 正态分布 第二节 二项分布和Poisson分布 第三节 抽样分布,第一节 正态分布,正态分布是生物医学和统计学上极其重要的一种分布,医学研究的很多指标都服从或近似服从正态分布。 在统计学上,很多分布都是由正态分布导出,同时正态分布又是多种分布的极限分布。,一、正态分布的概念,正态分布( normal distribution):是描述连续型随机变量最重要的分布。其分布曲线叫正态分布曲线,呈中间高,两边低,左右基本对称的“钟型”曲线,又称高斯分布(Gauss distribution)。,正态分布由德国数学家 Gauss 在描述误差分布时所发现,并加以推广,所以通常称为高斯分布(Gauss distribution)。,高 斯,10马克的钱币,正态分布的公式,和是正态分布的两个参数,和决定了x的概率分布;习惯上用 N (, 2)表示均数为,标准差为的正态分布。,二、正态分布的特征,(1)集中性:正态分布是一条单峰分布,高峰位置在均数处。 (2)对称性:正态分布以均数为中心,左右完全对称。 (3)正态分布曲线的形态取决于两个参数,即总体均数和总体标准差。 (4)正态分布曲线下的面积分布具有一定的规律性。,当固定不变时,越大,曲线沿横轴 越向右移动;反之, 越小,则曲线沿横轴越向左移动,所以叫正态曲线N(, 2)的位置参数, 。,1. 位置参数:,正态分布位置随参数变换示意图,2. 形状参数:,正态分布形态随参数变换示意图,当固定不变时,越大,曲线越平阔; 越小,曲线越尖峭, 叫正态曲线N(, 2)的形状参数。,三、正态分布面积分布规律,(1)正态分布曲线与横轴所夹面积为1。 (2)区间在(-, +)内的面积或概率为0.683,此区间之外概率为0.317,左右两侧各0.1585。 (3)区间在(-1.96, +1.96)内的面积或概率为0.95,此区间之外概率为0.05,左右两侧各0.025。 (4)区间在(-2.58, +2.58)内的面积或概率为0.99,此区间之外概率为0.01,左右两侧各0.005。,正态分布应用于以下 3 个方面: 1.制定医学参考值范围 2.质量控制 3.统计方法的理论基础,四、正态分布的应用,1.制定医学参考值范围,参考值范围(reference range):指所谓“正常人”的解剖、生理、生化等指标的波动范围。,制定方法: 制定参考值范围时,首先要确定一批样本含量足够大的“正常人”。 测量样本人群相应指标的值,测量的过程中要严格控制各种误差。 而后根据指标的实际用途确定单侧或双侧界值,根据研究目的和使用要求选定适当的百分界值,常用95%。,单侧临界值:标准正态分布单侧尾部面积等于时所对应的正侧变量值,记作Z。,双侧临界值:标准正态分布双侧尾部面积之和等于时所对应的正侧变量值,记作Z/2。,以不同的方法计算参考值范围:,举例1:调查某地120名健康女性血红蛋白,直方图显示其分布近似正态,均数 X =117.4, 标准差S =10.2 ,试估计该地 健康女性血红蛋白的95%参考值范围。,解析:,1. 分布近似正态,2. 过高过低均为异常,3. 求上、下界值,上界:,下界:,所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l。,举例2: 某地调查120名健康成年男性的第一秒肺通气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。,解析:,1. 分布近似正态,2. 仅过低为异常,3. 求下界值,下界:,所以,该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05(L)。,2.质量控制,基本原理: 许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。,质量控制领域的“3原则”:其意义是指正常情况下检测误差服从正态分布,根据正态分布的曲线面积或概率分布理论可知,3之外的观察值出现的概率不到3,如果超过这一值,则提示测量或产品质量有问题。 统计学规定:以x为中心线,x2S 为警戒线,x3S为控制线,根据以上的规定还可以绘制出质量控制图。,中心线,警戒线,控制线,控制线,警戒线,3.统计方法的理论基础 t 分布、F 分布、x2分布都是在正态分布的基础上推导出来的,u 检验也是以正态分布为基础的。 二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。,第二节 二项分布和Poisson分布,变量类型为二分类时,变量均现为两个对立的可能结果,每个个体的观察结果只能取其中之一,这类变量需按二项分布(binomial distribution)规律进行统计分析。,毒性试验:白鼠 死亡生存 临床试验:病人 治愈未愈 临床化验:血清 阳性阴性 事件 成功(A)失败(非A) 这类“成功失败型”试验称为Bernoulli试验。,一、二项分布,(一)二项分布的概念,【例3-1】临床上用针灸治疗某型头痛,有效率为60%,现以该法治疗3例,其中2例有效的概率是多大?,有效的概率是0.6 无效的概率是0.4 3人接受针灸治疗后的有效和无效的所有可能组合,就排列方式而言有8 种;如只计算有效或无效的数目而不考虑其顺序时,则只有 4 种组合。 又由于结果是独立的,病例间互不影响,则根据概率的乘法法则可以计算各种排列的连乘概率,再根据概率的加法法则,可以算出无效数或有效数分别为0、1 、2 、3 时的概率。,SPSS计算,(二)二项分布的特征,【例3-2】大样本研究显示,某中药制剂不良反应发生率为5%,现随机抽取5人服用此药,试求: 其中m个人(m=0、1、2、3、4、5)有反应的概率。 至多有2人有反应的概率。 有人有反应的概率。,至多有2人反应的概率: P(X2)=P(0)+P(1) +P(2) 有人反应的概率: P(X1)=1-P(0),SPSS计算,PDF.BINOM(m,5,0.05),总体发生率,抽样人数,发生数,PDF.BINOM(quant,n,prob)。数值。返回当每次试验的成功概率是prob 时,n次试验中的成功次数将等于quant的概率。当n为1时,这等同于 PDF.BERNOULLI。,CDF.BINOM(m,5,0.05),总体发生率,抽样人数,发生数,CDF.BINOM(quant,n,prob)。数值。返回n次试验(每次成功的概率为prob)中成功次数将小于等于quant的累积概率。当n为1时,这等同于 CDF.BERNOULLI。,3、二项分布的图形和正态近似,(1)二项分布的图形:如果已知n和,则按二项分布概率公式可计算出不同的X取值时的概率,我们可以用X为横轴,取值概率 P为纵轴,可绘制出二项分布的图形。 不难发现,二项分布的图形是一个离散型分布,其形状决定于两个参数n和,当为0.5时,图形对称;当不等于0.5时,图形呈偏态,但当样本量增大时,图形逐渐趋于对称。,SPSS演示二项分布图概念,(2)二项分布的正态近似: 根据统计学上的中心极限定理,当n较大,且n与n(1-)较接近时,二项分布将接近于正态分布。 当n趋向无穷大时,二项分布B(n,)的极限分布就是正态分布Nn,n(1-)。 一般地说,如果n与n(1-)大于5时,即可用正态分布近似原理处理二项分布问题,以简化计算。,(三)二项分布的应用,在应用二项分布时,必须注意其应用条件: (1)二项分布中的观察单位数通常是事先确定的。 (2)各观察单位只有互相对立的两种结果,如成功与失败、生存和死亡等。 (3)若两种对立结果中的一种结果(阳性)的概率为,则其对立结果的概率为1-。实际工作中总体概率往往是未知的,但可以从大量观察中获得的比较稳定的样本频率作为总体概率的估计值。 (4)n个观察单位的观察结果相互独立。即观察单位之间发现的结果不能互相影响,如要求疾病无传染性、无家族聚集性。,【例 3 -3】大样本调查显示,新生儿畸形发生率为1%,现随机调查某地 500 名新生儿,其中只有1例发生畸形,问该地新生儿畸形发生率是否低于一般。,首先计算500名新生儿发生1例畸形的概率 P(X1)= P(0)+ P(1)=0.0398 说明当地至多发生1例畸形的概率是0.0398,小于0.05,是小概率事件。所以可以认为当地新生儿畸形发生率不等于1%。 互相之间的高与低,通过1/500=0.0020.01得出比较结论。,SPSS计算,二、Poisson 分布,(一)Poisson分布的概念 当二项分布中n很大,p很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。,Poisson 分布为稀有(罕见)事件概率分布,主要用于生物医药研究中描述单位时间、单位空间上某事件的发生数。 如每毫升水中大肠杆菌的发生数,新生儿出生缺陷、多胞胎、染色体变异发生数等,与二项分布的区别在于发生数很低,而样本数又很大时,这时用 Poisson 分布来计算概率能简化计算。 Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数。,(二) Poisson分布的特征,1.Poisson分布的均数与标准差 Poisson 分布的总体均数即为单位时间(或单位面积、空间)内某随机事件的平均发生数,可以用来表示,值得注意的是 Poisson 分布的标准差为 ,也就是说总体均数和总体方差是相等的, =2。,2.Poisson分布的图形和正态近似 因为 Poisson 分布只有一个参数,如果已知总体均数 ,就可以计算出 Poisson 分布的概率分布值,我们可以用X为横轴,取值概率 P为纵轴,可绘制出 Poisson分布的图形。,(三) Poisson 分布的应用,由于 Poisson分布是二项分布的极限分布,因此二项分布的应用条件也是 Poisson分布的应用条件。 值得注意的是,Poisson 分布的适用场合还要求观察单位数 n 很大,且事件发生的概率很小,特别是罕见事件,如某些发病率极低的疾病。,本例中:n=500,=0.01,=n=500*0.01=5 计算实际发生1例与总体均数5例相等的概率是多少?,【例 3 -3】大样本调查显示,新生儿畸形发生率为1%,现随机调查某地 500 名新生儿,其中只有1例发生畸形,问该地新生儿畸形发生率是否低于一般。,SPSS计算,CDF.POISSON(quant,mean)。数值。返回泊松分布(指定了均值或比率参数)中的值将小于等于quant的累积概率。,第三节 抽样分布,是样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有可能取值及出现的概率分布 样本统计量(样本均值,样本比例,样本方差等)是随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。,抽样分布反映了样本指标的分布特征,是抽样推断的重要依据。 根据样本分布的规律,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。,样本均值,样本比例,样本方差,分布未知 大样本,正态总体 方差已知,正态总体方差 未知小样本,大样本,正态分布,t分布,2分布,样本统计量,参数估计与假设检验,统计推断( statistical inference )是根据样本提供的信息,以一定的概率对总体的分布及其特征作出推断。它包括两个重要的方面:一是参数佑计,二是假设检验。 参数估计( pararneter estimation )是指由样本统计量估计总体参数; 假设检验(hypothesis testing )是指对所估计的总体首先提出某种假设,然后根据随机样本信息及抽样误差理论,应用小概率反证法逻辑思维推断某种假设可被接受或拒绝的统计检验方法。,估计,参数估计,假设检验,第一节 参数估计,一、抽样误差与标准误 总体是根据研究目的确定的同质研究对象的全体,分为无限总体和有限总体。 在医学研究中,无论是无限总体还是有限总体,由于受到人力、财力、物力、时间或其他条件的限制,不可能对总体中的每一个个体都进行研究,只能抽取部分有代表性的个体(即样本)进行研究,进而由样本信息来推断总体特征。,population,sample2,sample1,sample3,sample4,sample5,这种由随机抽样造成的样本统计量与总体参数之间或各样本统计量之间的差异称为抽样误差( sampling error )。 衡量抽样误差大小的指标称为标准误( standard error ),常用均数的标准误反映均数抽样误差的大小,用率的标准误反映率的抽样误差的大小。,(一)均数的抽样误差,均数的标准误=标准差/样本例数的平方根,【例4-1】随机抽取某地健康成年男子120人,测定其红细胞数x =5.35X1012 /L ,s=0.38X1012 /L ,试求其标准误。,(二)率的抽样误差,率的标准误计算公式为:,【例4-2】从某地区 5 万人的居民区随机抽查500 人,粪检蛔虫阳性人数为125 人,试求此次抽样中,粪检蛔虫阳性率的抽样误差大小。,本例中P=125/500=25%,n=500。,二 总体均数的估计,参数估计( parameter estimation )是指由样本统计量估计总体参数,是统计推断的重要方面,有点估计和区间估计两种方法。 点估计(point estimation)是将样本统计量直接作为总体参数的估计值,如直接用随机抽样的样本均数 x 作为总体均数产的点估计值。 区间估计(interval estimation)是按预先给定的概率估计总体均数可能存在的范围,亦称可信区间(confidence interval , CI)。预先给定的概率称为可信度,用1-表示,常取95%或99%。,总体均数的95%可信区间的含义从理论上来说是指做 100次抽样,可算得100个可信区间,平均有 95 个可信区间包括总体均数,只有5个可信区间不包括总体均数。 可信区间的两个端点值称为可信限,较小值称为可信区间的下限(lower limit),较大值称为可信区间的上限(upper limit),可信区间为开区间,不包含这两个值。,(一)总体均数可信区间的计算公式,总体均数可信区间计算公式: n较大时: n较小时:,【例4-3】某医生测得9名冠心病患者的高密度脂蛋白值(g/L)结果为O.57,0.43,0.49,0.35,O.38,0.44,0.42,0.50,0.38,试求其总体均数的95%可信区间。,SPSS操作,(二)可信区间的两个要素,1.准确度 反映在可信度(1-)的大小上,即可信区间包含总体均数的可能性大小,准确度愈接近1愈好。可信度99%的比 95%的准确度高。,2.精密度 反映在可信区间的长度上,长度愈小精密度愈高。 在样本含量n确定的情况下,两者是矛盾的。要提高准确度,则要减少,这样势必使区间的长度变宽,精密度减小。在实际工作中两者都要考虑,所以95%的可信区间更为常用。 在可信度(1-)确定的情况下,增加样本含量n,可减少sx,使区间变窄,精密度得到提高。,95%CI,均数,误差条形图,三、总体率的估计,总体率的估计也分点估计和区间估计,点枯计就是直接用样本率作为总体率的估计值。区间估计就是按预先给定的概率估计总体率可能存在的范围。,(一)二项分布总体率可信区间的计算,当n足够大时,且样本率不太小的,及np与n(1-p)均大于5的计算公式为:,【例4-5】用针灸疗法治疗肥胖病人 200 例,其中120 人有效,求针灸疗法治疗肥胖病人有效率的95%可信区间。,本例中,n=200,有效人数x=120,则有效率p=120/200=60%,(二) Poisson分布总体率可信区间的计算,当样本量X50时,可按近似正态原理计算可信区间,公式为:,【例4-7】用计数器测得某放射性物质10分钟内发出的脉冲数为500,求每10分钟脉冲计数的总体均数的95%可信区间。,第二节 假设检验,一、假设检验的基本思想 假设检验(hypothesis testing)又称显著性检验(significance test),其基本思想是:先提出两总体相等的假设,然后看实际抽到的样本与已知总体差异是否属小概率事件(p0.05),若不属小概率事件则接受原假设,若属小概率事件则拒绝原假设。,二、假设检验步骤,1.建立假设、确定检验水准 (1)零假设或无效假设: H0:=0,即两总体均数相同。 (2)备择假设或有统计学意义假设H1:0,即两总体均数不同。根据专业知识及数据特征,备择假设H1 也有单侧形式:0 。 选择双侧检验,还是单侧检验需依据数据特征和专业知识进行确定。,2.选择检验方法、计算统计量 假设检验的方法应针对不同研究目的、设计及资料的类型选定,并计算相应的检验统计量。 如在总体方差已知的情况下,进行两均数的比较用z检验或u检验;在总体方差未知情况下,进行两均数的比较用 t 检验等。,3.确定P值、作出推论 根据计算的检验统计量,确定P值,P值是在H0成立的情况下随机抽样,获得大于及等于或(和)小于及等于现有样本资料求得的检验统计量的概率。,三、假设检验的两类错误,假设检验可帮助我们判断两总体与0是否相等的问题。但无论是接受H0或拒绝H0(接受H1)的统计推断,都有一定程度上犯错误的可能,常概括为第一类错误和第二类错误(或称I型错误和II型错误)。,1.I型错误(type I error) 用表示,是指H0原本是正确的,但正确的H0被拒绝(接受H1)所犯的错误称为I型错误,故又称假阳性率、误诊率,即弃真错误。 也就是说,当定为小概率0.05时,如H0 原本正确,即两总体参数相同,那么在100次抽样推断中有95次的可能会接受H0的正确判断,也会有5次的可能会拒绝H0的不正确判断,这就是允许犯I型错误的概率为0.05,即=0.05。必要时也可取= 0.01或=0.10。,2.II型错误(type II err) 用表示,是指H0原本是不正确的,但错误的H0被接受了所犯的错误称为II型错误,故又称假阴性率、漏诊率,即取伪错误。 也就是说,当定为0.10时,如H0原本不正确,即两总体参数不同,那么在100次抽样推断中有 90次的可能会拒绝H0接受H1的正确判断,也有10 次的可能会接受H0的不正确判断,这就是允许犯 II型错误的概率为0.10,即=0.10。 根据专业需要或研究性质不同也可取=0.20。,接受 Ho,真实,Ho 对,Ho 错,I类错误 (-风险),II类错误 (-风险),正确,正确,拒绝 Ho,3 .检验效能( power of test ) (1) 1-表示 H 0原本成立,按检验水准和样本信息作出接受H 0正确判断的能力,称可信度。 (2) 1-表示H0原本不成立,按检验水准和样本信息作出接受H1正确判断的能力,称为检验效能或把握度。当=0.10,此时检验效能为0.9或90%。,4.检验效能(把握度)的影响因素 (1)总体参数间差异越大,检验效能越高或把握度越大。因|-0|越大,得到|x-0|越大的概率越高,同时增大拒绝H0接受H1的机会。 (2)个体差异或标准差越小,检验效能越高或把握度越大。因标准差与标准误成正比,而与检验统计量z成反比。 (3)样本含量n越大,检验效能越高或把握度越大。因标准误与标准差成正比而与n成反比。 (4)检验水准越大,检验效能越高或把握度越大。因为n一定时,与呈反向变化,增大,减小,1-增大,故增大可提高检验效能。,四、假设检验的注意事项,1.严密的抽样设计 差异比较是建立在同质基础上的,同质是假设检验的前提条件,实际上就是要保证样本或比较组间的均衡可比性,即要求除了对比的因素外,其它影响结果的因素应尽可能相同或基本相近。其具体实施方法是严格做到随机抽样和控制混杂因素,严密科研设计和抽样设计。 2.检验方法的选择 各种类别的假设检验和检验统计量的方法很多,因此所选用的检验方法必须符合其适用条件。这些条件主要包括研究目的、设计方法、资料类型、样本含量等。,3.P值的大小并不表示实际差别的大小 若 P,则拒绝H0接受H1,这只说明|- 0|0,并不能根据P值的大小判别与0或x与0 之间的具体差别大小; P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小,与|-0|或|x-0|的大小无关。 如P0.01比P0.05更有理由拒绝H0,接受H1,并不表示P0.01时,与0或x与0之间实际差别比P0.05时与0或x与0之间实际差别更大。,4.假设检验的推断结论不能绝对化 (1)假设检验中是否接受H0不仅决定于总体间是否相同,而且与抽样误差的大小、样本例数的多少、检验水准的高低以及单双侧检验都有关。 (2)若统计结论和专业结论一致,则最终结论也一致;若统计结论和专业结论不一致,则最终结论需根据专业知识而定。判断被试因素的有效性时,要求在统计上和专业上都有意义。,5.可信区间与假设检验的关系 统计推断中的可信区间估计与假设检验的具体含义、思路和作用各有不同,但目的一致,相互补充,尤其在统计检验方面有异曲同工或相互验证的功效。 (1)可信区间兼具参数估计和假设检验双重功效,(2)可信区间比假设检验有可能提供更多信息之处: 可信区间不但能回答差别有无统计学意义,还能提示差别有无实际意义。,-均有统计学意义,其中:提示既有统计学意义又有实际意义。提示有统计学意义,也可能有实际意义。提示仅有统计学意义,而无实际意义。 、均无统计学意义,其中:可信区间包含有实际意义的界值和H0,提示可能样本太小,抽样误差太大,以下但包含H0,提示既无统计学意义,也无实际意义。尚难作出结论。可信区间的上限在有实际意义的界值以下但包含H0,提示既无统计学意义,也无实际意义。,(3)可信区间不能完全取代假设检验 可信区间用作假设检验只能在规定的水准上揭示差异有无统计学意义。而不能象假设检验那样得到精确的概率p。所以,把可信区间与假设检验结合起来,互相补充,才是完整的分析。 因此在结果报告时,同时显示假设检验的检验统计量值、P值和可信区间的信息为宜。,参数估计,假设检验,五、假设检验的分类,根据是否正态分布:分参数检验和非参数检验 根据处理因素:分单因素分析和多因素分析 根据比较类型:分优效性、等效性和非劣效性。,六、常用假设检验方法的选择,多因素分析,一般方法:判别分析、聚类分析、主成分分析、因子分析、典型相关分析 回归分析:直线回归、多元回归、逐步回归 曲线拟合与非线性回归:曲线拟合、Cox 回归、 Logistic 回归,六、常用假设检验方法的选择,六、常用假设检验方法的选择,第三节 正态性检验与变量转换,一、正态性检验 有些统计方法只适用于正态分布或近似正态分布资料,如用均数和标准差描述数值资料的集中或离散情况

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论