卫生统计02 定量资料的统计描述_第1页
卫生统计02 定量资料的统计描述_第2页
卫生统计02 定量资料的统计描述_第3页
卫生统计02 定量资料的统计描述_第4页
卫生统计02 定量资料的统计描述_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章定量资料的统计描述教学要求了解:通过电脑实验了解定量资料的频数分布表的编制方法和分布规律;通过电脑实验了解描述分布形态的偏度系数与峰度系数的计算和意义。熟悉:熟悉利用统计图表描述定量资料的基本方法;熟悉制作统计图表的基本要求和规则;熟悉百分位数的计算方法。掌握:掌握描述定量资料集中趋势的算术均数、几何均数、中位数的计算方法和适用条件;掌握描述定量资料离散趋势的极差、四分位数间距、方差、标准差和变异系数的计算方法和适用条件;掌握常用统计图表的制作方法。重点难点第一节频数与频数分布一、离散型定量变量的频数分布基本概念:离散型变量定义参见有关章节。此型变量的特点是:实测值之间有间断,或实测值可

2、数。特点:离散型定量变量的频数表即频数分布表,可直接反映该变量的分布规律。离散型定量变量的频数分布图可用直条图表达。二、连续型定量变量的频数分布基本概念:定义参见有关章节。此型变量的特点是:实测值之间没有间断,或实测值不可数。实测值之间的间断可以忽略时,也可近似地视为连续型变量。特点:连续型定量变量各观察值的频数表不是频数分布表,不能正确反映该变量的分布规律,只有划分特定数值组段后的频数表才能成为频数分布表。连续型定量变量的频数分布图可用直方图表达,其纵坐标为频率密度,即频率/组距,直方图的面积之和等于1。第二节 定量变量的特征数一、描述集中趋势的统计指标基本概念:由于同质性,所有实测值趋向同

3、一数值的趋势称为集中趋势。 在应用中,有一些统计量常称为统计指标。 算术均数意义:算术均数简称均数,常用符号X 表示样本均数,表示总体均数。均数是描述一组数据集中趋势或平均水平的最常用统计指标。计算:1.直接法(基于原数据n x n x n x n x x x X i in i i n =+=121. 其中, n x x x ,.,21为观察值。2. 加权法(基于频数表n fx f fx X =00其中, f 为组段的频数,0x 为组段的中值。0x =(组段上限+组段下限/2。 适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。 几何均数意义:几何均数以符号G 表示,常用来反映一组含多

4、个数量级的数据的集中位置。计算:1.直接法(基于原数据n n x x x G .21= 或 log (log 11n x G n i i =-=其中, n x x x ,.,21为观察值。2. 加权法(基于频数表=-n x f f x f G log log log log 11 适用条件:适用于观察值变化范围跨越多个数量级的资料,尤其对数正态分布资料。 中位数意义:中位数常用符号M 表示,是反映一组数据集中趋势的位置指标,在全部实测值中有一半数值比它小,有一半数值比它大。百分位数常用符号x P 表示,是排序后的全部实测值的某百等份分割值,即在全部实测值中有x %个数值比它小,有1-x %个数

5、值比它大。中位数就是一个特定的百分位数,即M =P 50。计算:中位数为全部实测值排序后的中间数值或中间两个数值的算术均数。1. 直接法(基于原数据将n 例数据按升序排列,其第i 个数据用*i X 表示。n 为奇数时,*21+=n X Mn 为偶数时, (21*12*2+=n n X X M 2. 内插法(基于频数表 -+=L x x f n x f i L P 100 其中,L 为欲求的x P 所在组段的下限,i 为该组段的组距,x f 为该组段的频数,n 为总频数,L f 为该组段之前的累计频数。 -+=L M f n f i L M 2其中,L 为欲求的中位数所在组段的下限,i 为该组段

6、的组距,M f 为该组段的频数,n 为总频数,L f 为该组段之前的累计频数。频率 L f %50n M L f f +区间 50 i ?L M f n f i-=%50?50+=l P适用条件:资料不限,但最常用于非对称分布的资料。 众数意义:全部实测值中出现次数最多的数值即为众数。 调和均数意义:全部观察值倒数的算术均数的倒数即为调和均数,常用符号H 表示。计算: =n i ix n H 1111 其中, n x x x ,.,21为观察值。二、描述离散趋势的统计指标基本概念:离散趋势或变异程度是指观察值之间参差不齐的程度。 极差意义:极差又称全距,常用符号R 表示。极差反映一组数据的变异

7、范围。用 极差反映数据的变异程度常常比较粗略和不稳定。计算: R = 最大值-最小值适用条件:资料不限。 四分位数间距意义:P 75和P 25分别称为上、下四分位数。四分位数间距Q 是全部观察值中居中的一半数值散布的范围。用四分位数间距反映数据的变异程度比极差稳定。 计算: Q = P 75-P 25其中,P 75和P 25的求法参见前述百分位数求法。适用条件:资料不限。 方差和标准差意义:总体观测值的离均差平方和的算术均数称为总体方差,用2表示。总体方差的平方根称为总体标准差,用表示。二者都反映总体中观测值之间的离散趋势或变异程度,数值越小,表明变异程度越小;反之亦然。实际抽样研究中,常用样

8、本方差S 2和样本标准差S 作为2和的近似值。 标准差的量纲与原变量一致,故实际应用中常使用标准差。计算: N x -=22( 总体方差 1(22-=n X x S 样本方差 N x -=2( 总体标准差1(2-=n X x S 样本标准差其中,n -1称为自由度。 适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。 变异系数意义:变异系数常用符号CV 表示。它是标准差与算术均数之比,是一个不带量纲的相对数。计算: %100=XS CV 适用条件:适用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。三、描述分布形态的统计指标 偏度系数意义:理论上总体偏度系数为0时,分布是对称

9、的;取正值时,分布为正偏峰;取负值时分布为负偏峰。计算: =-=ni i S X x n n nSKEW 13(2(1(其中,n x x x ,.,21为观察值,n 为样本含量,X 为样本均数;S 为样本标准差。 峰度系数意义:理论上, 正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。计算:3(2(1(3(3(2(1(1(214-+=n n n S X x n n n n n KURT ni i 其中,符号同上。第三节 常用统计图表 一、统计表基本概念:将统计数值或统计指标用表格的形式列出称为统计表。 列表原则:重点突出、简单明了、主谓分明、

10、层次清楚。二、统计图基本概念:将统计数值或统计指标用图形的方式表达称为统计图。 常用统计图:1. 直条图 用等宽直条的长度来表达参与比较的指标的大小。2. 百分条图 用直条的长度或面积表达事物各组成部分在全体中的比重。3. 圆图 用同一圆形中的扇形面积表达事物各组成部分在全体中的比重。4. 线图 用线段的升降表达一事物的量随另一事物的量变化的趋势,或某事 物的量随时间变化的过程。5. 半对数线图 纵轴用对数尺度的线图。适用于表达事物之间相对变化速 度的比较。6. 直方图 用于表示连续性定量变量的频数分布。案例讨论参考答案案例2-1:该资料为一排除与观测指标发汞相关因素的正常人群的发汞值(mol

11、/kg 的检测结果,以频数分布表的形式(见表2-10给出。首先应考察该资料的分布规律,通过表中前三列的信息可以看出此238人的发汞值的频数分布呈正偏峰分布,即观测值绝大多数分布于发汞值较小的组段,用下述直方图表达尤为明显。 根据此特点应选用中位数计算该市居民发汞平均水平,本文中选用算术均数求发汞平均水平是不合理的。合理计算过程如下:/(6.68622386025.52kg mol f n f i L M L M =-+= -+=。案例2-2:根据统计表的列表原则和制表的基本要求判断出此统计表的缺陷有:无标题;纵标目与横标目排列不当;出现竖线与斜线;纵标目未标明单位。 修改如下:案例2-3:根据

12、此统计图中要表达的信息可判断出不同年度的医院门诊量的比较应该用直条图,根据直条图的制图基本要求修改此缺陷统计图如下: 电脑实验程序及结果解释实验2-1 连续型定量变量的统计描述01 DATA t; 建立SAS 数据集ex1; 02 INPUT x ; 定义并连续输入变量x ;03 gr=2; 为组距变量gr 赋值(本例组距取为2;04 x1=gr*INT(x/ gr; 将每例数据归组并转化为相应组段的下限值; 05 CARDS;数据块开始; 06 7.42 8.65 23.02 21.61 07 08 24.66 14.18 16.5209 ;数据步结束; 10 PROC FREQ DATA=

13、t; 调用freq 过程;11 TABLES x1; 指定变量x1的频数表; 12PROC GCHART DATA=t;调用gchart 过程;2130岁3140岁4150岁5160岁6170岁男1088221322女14143749性别表 ×××××××××××××××例数13 VBAR x1/DISCRETE TYPR=FREQ SPACE=0; 绘制x1的直方图,DISCRETE指明x1为离散型变量,type=freq指明用频数作纵轴;14

14、 VBAR x/TYPR=FREQ MIDPOINTS=7绘制x的直方图,定义直方图组中值的范围和组TO 29 BY 2 SPACE=0; 距,space=0指定条间距为0;15 RUN; 运行程序;运行结果:Output窗口:The FREQ ProcedureCumulative Cumulativex1 Frequency Percent Frequency Percent变量值频数频率累积频数累积频率-6 1 0.83 1 0.838 3 2.50 4 3.3310 6 5.00 10 8.3312 8 6.67 18 15.0014 12 10.00 30 25.0016 20 16

15、.67 50 41.6718 27 22.50 77 64.1720 18 15.00 95 79.1722 12 10.00 107 89.1724 8 6.67 115 95.8326 4 3.33 119 99.1728 1 0.83 120 100.00Graph窗口: 变量x1的直方图(离散变量x的直方图(连续实验2-2 绘制半对数线图01 DATA t; 建立SAS数据集t;02 INPUT year x; 定义并连续输入变量year和x;03 x1=LOG(x; 计算x的常用对数并赋值给x1,用于生成对数尺度;04 CARDS; 数据块开始;05 1975 1.4506 1980

16、 0.8207 1985 0.2308 1990 0.1409 ; 数据步结束;10 SYMBOL C=GOLD I=JOIN; 设置系统作图方式:C=GOLD定义作图符号为金黄色, 运行结果:Graph窗口: 思考与练习的参考答案1.利用统计软件编制胸围数据的频数表并绘制直方图。SAS源程序:01 data t1;02 input x ;03 gr=1.2;04 x1=gr*int(x/gr;05 cards;06 51.6 54.1 51.3 56.6 51.2 53.6. .25 52.6 54.6 52.7 56.4 55.5 54.426 ;27 proc freq data=t1;

17、28 tables x1;29 proc gchart data=t1;30 vbar x1/discrete type=freq space=0;31 run;Output窗口:胸围数据的频数表见上述结果的前1、2列。Graph窗口:从上面求出的胸围数据的频数表和绘制的直方图可以看出此数据的分布特征为:中等数值居多,大值、小值不占多数,近似对称分布。根据此分布特征,描述胸围数据的集中趋势应选用均数,离散趋势应选用标准差。下面列出统计软件的计算过程。SAS源程序:01 data t1a;02 set t1;03 proc univariate;04 var x;05 run; Output窗口

18、: 2.根据资料中研究细胞增殖抑制率随时间变化的趋势的特点,此数据应绘制线图,又由于分两组,故绘制复式线图。SAS源程序:01 data t2;02 input t treat control;03 label treat='实验组' control='对照组'04 cards;05 1 133 10006 3 123 9807 5 54 16208 7 140 25009 ;10 axis1 label=(c=black '细胞增殖抑制率(%'11 axis2 label=(c=black '时间(天'12 legend1 la

19、bel=('图例'13 symbol1 c=black v=none i=join l=1 w=2;14 symbol2 c=black v=none i=join l=2 w=1;15 proc gplot;16 plot treat*t=1 control*t=2 /17 haxis=axis2 vaxis=axis118 legend=legend119 overlay;20 run; Graph窗口: 3.根据资料中显示指标为构成比的特点,此数据应绘制百分条图或饼图,又由于分两地区,故绘制复式百分条图或饼图。SAS源程序:01 data t3;02 length uni

20、t $ 16;03 input unit $ area $ x;04 label area='地区'05 cards;06 医院城市 63.8407 医院农村 20.3808 妇保城市 20.7609 妇保农村 4.6610 卫生院城市 7.6311 卫生院农村 16.3812 其他城市 7.7713 其他农村 58.5814 ;15 run;16 title2 '不同地区的妇女分娩地点分布(%'17 legend1 label=('图例'18 proc gchart data=t3;19 pie unit /20 sumvar=x21 midp

21、oints='医院' '妇保' '卫生院' '其他'22 across=223 group=area24 value=outside25 percent=none26 noheading27 legend=legend1;28 run; Graph窗口: 4.根据资料特点,儿童乳牙萌出月龄的平均时间可以求均数或中位数。计算过程略。X=8.55(月;M=8.5(月。5. 根据资料中血凝抑制抗体滴度指标呈倍数关系的特点,计算其平均滴度应选 用几何均数,由于是频数表资料,故用加权法计算几何均数。5.48106858.1lg 1.6251

22、2lg .16lg 68lg 2(lg log log 6858.1111=+=-f X f G 此资料的血凝抑制抗体平均滴度为1:48.5。补充练习题选择题 A1型:每一道题下面有A 、B 、C 、D 、E 五个备选答案,请从中选择一个最佳答案。1. 用图表示某地区近30年三种疾病的发病率,在各年度的动态发展速度情况,宜绘制 。A.普通线图B.直方图C. 百分条图D.半对数线图E.直条图2. 某地区两年的三种死因别死亡率,若用统计图表示出来可选用 。A.复式线图B.百分条图C.复式直条图D.直方图E.统计地图3. 计算样本标准差时用下列公式中的 。A. (122-n n x x B. (11

23、22-n n x x C. (n n x x -122 D.(n X x -2 E. (n n x x -224. 反映定量变量观察数据集中位置的指标是 。A.标准差B.标准误C.频率D.全距E.均数5. 下列各式中 A. å ( x - D. å ( x + 为最小。 B. å ( x - E. å ( x - X 2 A 2 A 2 X + C2 C. å ( x - X - C2 注:A、C 为某一常数 6. 在正态分布条件下表示变量值变异情况的指标最常用的是 A.标准差 B.标准误 C.变异系数 D.全距 E.百分位数 。 7. 变异系数越大说明 A.标准差越大 D.平均数小 。 C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论