zh5数值变量资料的统计描述 ppt课件_第1页
zh5数值变量资料的统计描述 ppt课件_第2页
zh5数值变量资料的统计描述 ppt课件_第3页
zh5数值变量资料的统计描述 ppt课件_第4页
zh5数值变量资料的统计描述 ppt课件_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,数值变量资料的统计描述,预防医学,预防医学教研室,2,第五章 数值变量资料的统计描述 第一节 数值变量资料的频数分布,3,一、 频数表 对一组研究对象进行观察,某变量或指标数值出现的次数称为频数(frequency)。,4,例 8.1 某地区2002年132名5558岁健康成人的空腹血糖(mmol/L)测定值如下: 5.17 5.56 4.86 4.87 4.55 5.16 5.15 5.16,5,6,极差,或称全距(R) R=最大值最小值 =5.593.60=1.99(mmol/L) 组距(i) i=R组数=1.99100.2(mmol/L) (组数一般分815,组距尽可能取整),7,组段 每一组的起点称为组下限,终点称为组上限。 70分 80分 (下限) (上限) 第一组应包括最小值,最后一组应包括最大值。,8,频数(f) 划记、合计每组的变量个数。,9,10,二、频数分布的特征 集中趋势(central tendency):频数向中间集中,中等水平的人数最多。 离散趋势(tendency of dispersion):随变量值逐渐变大变小,人数越来越少,即向两端分散。,11,1、频数分布的图示 以变量值(血糖)为横轴,以频数为纵轴,每一组段画一直条,直条的面积与该组频数成正比,称为直方图(histogram)。,12,13,2、频数分布的类型 (1)对称分布:观察值向中央部分集中,以中等数据居多,左右两侧分布大体对称。,14,对称分布,15,(2)偏态分布:观察值偏离中央,尾部偏向数轴正侧,称正偏态,尾部偏向数轴负侧,称负偏态。,16,正偏态分布:高峰偏于左侧,长尾向右侧伸延,负偏态分布:高峰偏于右侧,长尾向左侧伸延,17,对称分布,18,第二节 集中趋势指标 平均数(average):描述一组数值变量资料的集中趋势、平均水平或中心位置的指标。常用的平均数有算术平均数、几何均数和中位数。,19,一、算术平均数 (arithmetic mean) 简称均数,总体均数用表示,样本均数用 表示。 适用条件:对称分布资料,特别是正态分布资料。,20,1、直接计算法 观察例数不多或计算机分析选用。,21,例:某地抽样得5名7岁男孩体重(kg)分别为:17.3,18.0,19.4,20.6,21.2。求其均数。 19.3(kg),22,2、加权法 观察例数多又无计算机处理时选用。,23,例 计算某地区2002年5558岁健康成人的空腹血糖(mmol/L)的平均值。 组中值=(本组下限+下组下限)/2 fx=fx fx2=x fx =fx2 ,24,25,二、几何均数() (geometric mean) 适用条件 对数正态分布资料:变量值呈倍数关系,当变量值取对数后服从正态分布或近似正态分布。,26,、直接法 观察例数不多时选用。,27,例题:6份钩端螺旋体显凝试验的血清效价为:1:50,1:100,1:200,1:400,1:800,1:1600 。求其平均血清效价。,28,lg1(2.4515)282.5 故其平均血清效价为1:282.5。,29,2、加权法 观察例数较多时选用。 先将资料编成频数分布表,再按公式计算:,30,例8.4 计算某地60人抗体效价的平均滴度。 =lg1(1.31602)=20.705 平均滴度为1:20.705 。,31,32,三、中位数(median)和百分位数 适用条件 偏态分布资料 分布类型不清的资料; 数据一端或两端无界限的资料。,33,34,、中位数 一组从小到大排列的变量值,位于正中间位置的变量值称为中位数。用表示。,35,(1)直接计算方法 将变量值从小到大排列,再按下式计算: 为奇数 (n+1)/2 n为偶数,36,例:11例颅脑外伤病人的伤后来院时间为1、2、4、5、7、8、8、10、12、16、20小时,求其伤后来医院治疗的平均时间。 本例11为奇数 (n+1)/268(h),若本例只收前10例病人,则 (h),37,(2)频数表计算方法 将资料编制成频数分布表,再计算: :中位数所在组段的下限 fx :中位数所在组段的频数 f L :中位数所在组段以前的累积频数,38,例8.6 某传染病的潜伏期(天)见表8-3,求其平均潜伏期。,39,40,中位数所在组的确定1、累计频数刚超过n/2所在组,2、累计频率刚超过50所在组,41,、百分位数 将n个观测值从小到大排列,分成100等份,与第x百分位次对应的观测值称为第x百分位数,用x表示。百分位数是一种位置指标。,42,一个百分位数将全部观察值分为两部分,理论上有的观察值比它小,(100)观察值比它大。,43,中位数是一个特定的百分位数,即50在全部观察值中,有50的观察值比它小,(10050)观察值比它大。,44,用频数表计算百分位数的公式: :第x百分位数所在组段的下限 fx :第x百分位数所在组段的频数fL:第x百分位数所在组段以前的累积频数,45,46,应用中位数和百分位数时注意 1、对资料的分布没有特殊要求,所有的资料均可计算。,2、分布在中间的百分位数(50)较稳定,靠近两端的百分位数(99)不稳定。,47,3、中位数不如均数精确,但抗极端值的影响比均数的稳定性好。 当资料适合计算均数或几何均数时,不宜计算中位数表示其平均水平。,48,第三节 离散程度指标 离散指标又称变异指标,它描述数值变量资料频数分布的离散趋势。常用指标有:全距、方差、标准差、变异系数和四分位数间距。,49,例:二组变量值(单位略) A:8、9、10、11、12 XA=10 B:6、9、10、11、14 XB=10,均数只描述集中趋势,没有描述变量值之间的差异,变异指标描述变量的变异(离散)趋势。,50,一、全距(极差,R) R最大值最小值RA1284 RB1468 说明B组观测值的变异程度大A组。,极差只表示两极端数值的差异,而不能综合反映每个变量值的变异情况。,51,二、四分位数间距(Q) Q是上四分位数Qu(P75)与下四分位数QL(P25)之差。QQuQL 其间包括全部观察值的一半。,52,Q和R类似,比R稳定,但仍未考虑到每个观察值的变异程度。 Q与M配合使用(MQ),用于描述偏态分布资料、分布末端无界限而不能计算全距、方差和标准差的资料。,53,三、方差和标准差 为衡量每个变量值的变异情况,计算: 离均差之和 (X) 但(X)0。,54,于是计算: 离均差平方和 (X)2 用SS或 表示,它又受样本含量(变量值个数)大小的影响,所以取其平均值表示,称为方差(MS)。,55,方差是另一变异指标,方差越大,表示变量值的变异程度越大。,56,方差的单位被平方,与均数单位不一致,不便于比较,于是取其平方根,称为(总体)标准差()。标准差是最常用的变异指标。,57,总体均数常是未知的,只能用样本均数X 代替,而得样本标准差(S) ,作为总体标准差的估计值。,58,数理统计研究:样本标准差较总体标准差偏小,因此用n代替n,,n称为自由度(v)。,59,1、标准差的计算方法 (1)直接法(小样本) 为方便计算,前式变为:,60,X X2 8 64 9 81 10 100 11 121 12 144 50 510,A组资料S计算表,61,( 2)加权法(大样本) 先将资料编成频数表,再按公式计算:,62,以例8.1资料为例计算,63,64,(3)标准差的应用 适用于对称分布,特别是正态分布资料,表示观测值分布的离散程度。,65,标准差大,说明观测值的变异程度大,即观测值围绕均数分布较离散,均数的代表性较差; 标准差小,说明观测值的变异程度小,即观测值围绕均数分布较密集,均数的代表性较好。,66,估计观测值的频数分布和医学参考值范围。 计算标准误。 计算变异系数,67,四、 变异系数(CV) 比较均数相差悬殊或单位不同的两组(或多组)观测值的变异程度时,不宜用标准差,而需计算变异系数进行比较。,68,例 某地7岁男孩身高(单位cm)X1=114.82,s1=5.52;体重(单位kg) X2=20.91,s2=2.05。比较身高和体重的变异程度。,CV1 CV2 ,体重的变异程度大于身高。,69,第四节 正态分布和医学参考值 一、正态分布 (nomal distribution) 从例8.1频数分布图看:频数分布以均数为中心,靠近均数两侧的频数较多,较远两侧频数逐渐减少,两侧基本对称。,70,71,72,如果不断增多观测例数、缩小组距,则图形趋向于光滑曲线。这是一条中间高、两头低、左右对称的钟型曲线,在统计学上称为正态分布曲线,表示为 N(,2) 。,73,74,为应用方便,将任何正态分布N(,2)变换成的正态分布N(0,1),称为标准正态分布(u分布)。,变换方法是将变量值X变换为u(标准正态离差),75,76,二、正态分布的特征 、在均数处最高。 、以均数为中心,左右对称,逐渐降低,两端永不与横轴相交。,77,、有两个参数 均数:位置参数,决定曲线的中心位置;越大,曲线越向右移;越小,则曲线越向左移。,78,79,标准差:形状参数,决定曲线的陡峭或扁平:越大,曲线越扁平(矮胖);越小,曲线越陡峭(瘦高)。,80,81,4、正态曲线下的面积有一定的规律 在正态图形中,横轴为变量X,纵轴为频数f。可用曲线下的面积代表频数分布。,82,若以曲线下的面积为100,正态曲线下面积的分布规律,83,84,85,86,如果资料呈正态分布,且样本足够大(如n100),可样本指标代替总体指标,87,88,89,三、医学参考值范围 (一)医学参考值的意义 医学参考值:正常人(或动物)的个体形态、功能和代谢产物等的各种生理和生化常数。由于个体指标的变异,需要确定其波动范围,即医学参考值范围。,90,(二)制定参考值的基本步骤 1、选择样本含量足够大的“正常人” 足够大的样本含量,一般认为每组 n100。 “正常人” 指排除了影响所研究指标的疾病和有关因素的同质人群。,91,2、控制测量误差 测量误差控制在一定的范围内。 3、判断是否需要分组确定参考值范围 原则上组间差别明显,差别有实际意义应分开,否则应当合并确定。,92,4、决定单侧和双侧界限 根据专业知识确定: 双侧:指标过高、过低均为异常 单侧上限:指标过高为异常 单侧下限:指标过低为异常,93,5、选择适当的百分界值 医学参考值范围是指绝大多数正常人的变量值所在的范围。“绝大多数”习惯包括80、90、95、99,最常用为95 。,94,6、对资料的分布进行正态性检验 7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论