第九章 资料的统计分析—单变量分析.ppt_第1页
第九章 资料的统计分析—单变量分析.ppt_第2页
第九章 资料的统计分析—单变量分析.ppt_第3页
第九章 资料的统计分析—单变量分析.ppt_第4页
第九章 资料的统计分析—单变量分析.ppt_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 资料的统计分析 单变量,主要内容: 单变量描述统计 单变量推论统计,单变量描述统计,描述统计: 主要目的:用最简单的概括形式反映出大 量数据资料所容纳的基本信息。 基本方法:集中趋势分析、离散趋势分析,推论统计: 主要目的: 样本中所得到的数据资料来推断总体的情况 基本方法: 区间估计和假设检验等。,频数分布与频率分布 频数分布: 分布在各个类别中的数据个数。绝对数 频率分布: 数据中不同取值的频数相对于总数的比率分 布情况。 百分比 ,相对数 适用范围: 定类、定序、定距、定比数据,判断: 频数分布or频率分布? 某班级男生25人,女生32人。 假如一个班60%的同学是女生,40%的

2、同学是男生,则60%和40%是女生和男生的分布情况 2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是当时老年人口在总人口中所占的比例,京郊合作组织样本及分布情况,集中趋势分析: 用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。 常见的集中趋势分析: 平均数(均值)、众数、中位数,集中趋势:算术均值(mean,average),加总多个观察值,除以总观察量得到的数值 适用于正态分布或者近似正态分布 均数受特大值和特小值的影响,会偏大或偏小,故对偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势 总体均数称为;样本均数称为,集中趋

3、势:众数,数据分布的一种表现形式。频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布逐渐增加 描述集中趋势的方式包括:众数、均值、中位数 众数(mode):最常出现的观察值或属性 如果在全班30个学生中, 20个18岁的学生、5个19岁、5个20岁,则18是众数 众数适用于所有类型数据,但主要用于测度分类数据的集中趋势 一个数据可以有两个或多个众数,故众数具有不唯一性的特点,集中趋势:中位数(median),将一组数值从小到大排列后,位于中间的数值 若5个人的年龄分别为1 ,3,6,8,32,则中位数为6(均值为10) 中位数度量方式适用于偏态分布数据。中位数不受两端特大值和特小

4、值的影响,只和位置居中的观察值有关 对于正态分布,理论上中位数等于均数,离散趋势:极差或全距(range,R),数据分布的另一种表现形式。从中心到两侧,频数分布逐渐减少。反映了数据的离散程度或变异程度 描述离散趋势的方法包括:极差、方差、标准差 极差或全距(range,R):表示变量取值中最大值和最小值之差。适合所有分布类型的数据 R最大值最小值 计算简单,但不能反映所有变量值的变异程度,易受最大值和最小值的影响,不稳定,离散趋势:方差(variance),方差(variance):表示一组变量取值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。,离散趋势:

5、标准差(standard deviation),方差的开方,和均数的单位一致,也是数据波动性的一种度量,即是对围绕均值的离散趋势的测量 标准差和方差是实际中应用最广的测量离散程度的统计量 如果一个变量具有正态分布,则均值 68%的数值将会位于离平均值加减一个标准差的范围内; 95%的个案将会位于加减两个标准差的范围内; 99.9%的个案将会位于加减三个标准差的范围内 标准差越小,数据的分布就越围绕均值聚集;标准差越大散,数据的分布就越分散,适合描述近似正态分布资料的离散趋势 方差或标准差都是根据全部数据计算的,反映了每个数据与其均值相比平均相差的数值,因此能准确地反映数据的离散程度 计算公式:

6、,离散趋势:自由度 为什么样本标准差的分母是n-1呢 自由度:一组数据中可以自由取值的个数。当样本的个数为n时,若样本均值确定后,必有一个数据不能自由取值。因此,只有n-1 个数据可以自由取值 假如样本有3个数值,x=4,y=8,z=18,则均值=10。当均值=10确定后,x,y,z中只有两个数可以自由取值 在抽样估计中,当用样本方差去估计总体方差时,样本方差是总体方差的无偏估计量,离散趋势: 异众比率、四分位差 异众比率(Variation Ratio):一组数据中非众数的次数相对于总体全部单位的比率。 四分位差:是先将一组数据按大小排列成序,然后将其4等分,去掉序列中最高的1/4和最低的1

7、/4,中间一部分数值的全距。,离散系数(Coefficient of Variation):标准差与平均数的比值,用百分数表示,CV 主要适用于不同总体的同一离散数据统计量进行比较。,单变量推论统计,推论统计: 定义: 利用样本的统计值对总体的参数值进行估计的方法。 内容:区间估计,假设检验,区间估计(interval estimation) 是包括估计量在内(有时是以估计量为中心)的一个区间;被认为很可能包含总体参数。 我们有95%的把握认为,全市职工的月工资收入在182218之间。(P180) 如果一个变量具有正态分布,则均值 68%的数值将会位于离平均值加减一个标准差的范围内; 95%的

8、个案将会位于加减两个标准差的范围内; 99.9%的个案将会位于加减三个标准差的范围内,某厂家生产的挂面包装上写明“净含量450克”。在用天平称量了商场中的48包挂面之后,得到样本量为48的关于挂面重量(单位:克)的一个样本 (我们假定,挂面重量所代表的总体分布服从正态分布。 ) 449.5461.1457.5444.7456.1454.7441.5446.0454.9446.2457.3446.1 456.7451.4452.5452.4442.0452.1452.8442.9449.8452.4458.5442.7 447.9450.5448.3451.4449.7446.7441.7455

9、.6442.9451.3452.9457.2 448.5444.5443.1442.3439.6446.5447.2445.8449.4441.6444.7441.4,例: 调查某厂职工的工资状况,随机抽取900名工人作样本,调查得到他们的月平均工资为186元,标准差为42元。求95%的置信度下,全厂职工的月平均工资的置信区间是多少。,假设检验,假设检验: 先对总体的某一参数做出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。 依据: 小概率原理,即小概率事件在一次观察中不可能出现的原理。 如出现了小概率事件:1)碰巧赶上了; 2)怀疑该事件的概率未必小,即该事件本身不是一种小概率事件,而是一种大概率事件。,假设检验 例:某班学生期中考试平均成绩为85分,我们想考察期末考试学生的平均成绩是否有变化,假设期末考试平均成绩仍是85分 抽取了60人进行调查,得出了平均成绩为87分,标准差为6分。总体究竟怎么样呢? 事实?抽样误差?,假设检验的过程和逻辑,归纳起来,假设检验的逻辑步骤为: 第一: 写出零假设和备选假设; 第二: 确定检验统计量; 第三: 确定显著性水平a; 第四: 根据数据计算检验统计量的实现值; 第五: 根据这个实现值计算p-值; 第六: 进行判断:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论