《数据分布特征》PPT课件.ppt_第1页
《数据分布特征》PPT课件.ppt_第2页
《数据分布特征》PPT课件.ppt_第3页
《数据分布特征》PPT课件.ppt_第4页
《数据分布特征》PPT课件.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布特征的描述 一 均值 mean 一 概念均值是反映数据分布集中趋势十分重要的数据 代表总体单位某一标志值的一般水平 二 特征1 具有抽象性 2 具有代表性 3 反映总体分布的集中趋势 三 举例1 某市中学生每周平均上网时间为21小时 2 某农贸市场2月份牛肉的平均价格为34元 千克 3 某地区 十五 期间经济平均增长率为9 6 第一节数据分布集中趋势的测定 四 均值的种类及计算 1 算术平均数 1 概念算术平均数又称平均值 是用一组数据中所有值之和除以该组数据的个数 我们最熟悉 用途最广 但我们有时却不一定能计算出均值 要学好均值的计算 2 基本公式 算术平均数的计算 简单算术平均数 总体平均数样本平均数 算术平均数的计算 加权算术平均数 重点 概念 是对每个数据都根据其在全组中的重要程度赋予一定权重后得到的算术平均数 计算公式 1 未分组数据其中 w表示各组的标志总量 而不是各组变量值出现的次数 总体和样本加权算术平均数的公式是相同 鸡兔同笼问题 15只鸡 20只兔子 平均每只动物有多少条腿 例4 1 根据某公司四个品牌数码相机的销售资料计算平均利润率 P71 表4 1四个品牌数码相机的利润率和销售额资料 四个品牌数码相机的平均销售利润率为 分组的加权平均数 根据分组数据计算均值 样本均值的计算公式 难点 总体均值的计算公式 表示各组的变量值 组距式数列的组中值 表示各组变量值出现的频数 即权数 算术平均数的不足 P72 其中 例4 2 根据某电脑公司在各市场上销售量的分组数据 计算电脑销售量的均值 2 调和平均数 1 概念 调和平均数又称倒数平均数 是各个变量值倒数的算术平均数的倒数 调和平均数的特点 P73 2 计算简单调和平均数 针对未分组资料 计算公式为 2 调和平均数 加权调和平均数 针对分组资料 计算公式为 其中 是一种特殊权数 它不是各组变量值出现的次数 表示各组标志总量 即 例4 3 根据某商场职工月工资资料计算月平均工资 表4 3某商场职工月工资资料 3 几何平均数 1 概念 几何平均数 geometricmean 又称对称平均数 它是各变量值乘积的n次方根 2 计算基本公式 对数公式 在实际工作中 由于变量个数较多 通常要应用对数来进行计算 即 3 几何平均数的应用及特点 应用条件a 变量值是相对数据 如比率或发展速度 b 变量值的连乘积等于总比率或总发展速度 特点a 如果数列中有一个标志值等于零或负值 则无法计算 b 受极端值影响较小 故较稳健 例4 4 某电器销售公司2000 2005年销售量的环比增长率分别为 7 6 2 5 0 6 2 7 和2 2 求这期间销售量的平均增长速度 表4 4销售量平均发展速度计算表 几何平均数的计算示例 几何平均数的计算示例 1 采用基本公式计算的销售量平均发展速度为 2 采用对数公式计算的销售量平均发展速度为 所以 销售量的平均增长速度 103 1 1 3 1 二 位置平均数 一 中位数 median 1 概念中位数是将一组数据项按照数值大小升序或者降序排列后位于中间位置的那个数据 符号为 2 中位数的计算方法 1 未分组数据的中位数将变量值按升序或降序排列 找中间位置的变量值 2 单项数列的中位数计算各组的累计频数 向上累计或向下累计 根据中位数位置确定中位数 例4 5 计算某公司销售人员月销售冰箱中位数表4 5某公司销售人员月销售冰箱中位数计算 中位数的位置 即中位数在累计频数为40的那一组内 向上累计或向下累计均可得出 则 2 中位数的计算方法 3 组距数列的中位数 由下列公式近似计算下限公式 其中 为总体单位总数 为中位数组的下限 为中位数组以下的累计频数 为中位数组的频数 为中位数组的组距 例4 6 求以下组距数列的中位数 中位数的近似值为 表4 6某地区家庭收入分组 中位数的位置在第46 92 2 位 应在第二组 中位数的特点 是一种位置平均数 不受极端值及开口组的影响 对于分配不对称的数据 中位数比平均值更适合当集中趋势的代表值 对某些不具有数字特征或不能用数字测定的现象 可用中位数表示其一般水平 例如 对众多的消费者购买数码相机时 分别对价格 外观 品质的注重程度排序后 可以求出消费者在乎的中位数因素 二 位置平均数 二 众数1 概念众数 mode 是指在一组数中出现次数最多的那个数值 符号为 2 数据数列的众数分布情况无众数如数据数列 13791268一个众数如数据数列 659866多个众数如数据数列 223527352736 3 众数的计算方法 品质变量的众数 观察次数 出现次数最多的变量值就是众数 例如 企业的所有制结构分布 人口的城乡分布 数值变量的众数未分组资料 观察次数 出现次数最多的数据就是众数 分组资料 1 单项式数列 直接观察 次数最多的组的变量值即为众数 例4 7 单项式变量数列确定众数实例 表4 7某市居民家庭按家庭人口数分组 由上表可以看出 家庭人口数为3人的家庭数最多 因此本例中家庭人口数的众数为3人 3 众数的计算方法 组距数列计算众数 由下列公式近似计算 其中 为众数组与前一组频数之差 为众数组的下限 为众数组与后一组频数之差 为众数组的组距 例4 8 组距式数列计算众数示例 其众数的近似值为 表4 8某地区的人均月收入调查数据 三 均值 中位数和众数的比较 一 均值 中位数和众数的数量关系1 当数据呈对称分布时 三者合而为一 2 当数据呈左偏分布时 说明数据存在极小值 必然拉动均值向极小值一方靠 则从左至右依次是均值 中位数和众数 3 当数据呈右偏分布时 说明数据存在极大值 必然拉动均值向极大值一方靠 则从左至右依次是众数 中位数和均值 三 均值 中位数和众数的比较 二 均值 众数和中位数的特点及应用场合 均值是对数值型数据的计算 利用了全部数据信息 具有优良的数学性质 是实际中应用最广泛的集中趋势测度值 中位数是一组数据中间位置上的代表值 其特点是不受数据极端值的影响 主要适合于作为顺序数据的集中趋势测度值 众数是一组数据分布的峰值 它也是一种位置代表值 不受极端值的影响 主要适合于作为分类数据的集中趋势测度值 P79 一 极差 一 概念 又称全距 是数据中最大值和最小值之差 记为 二 计算1 未分组数据的极差为 表示数据的最大值 表示数据的最小值 2 分组数据的极差极差 最大组的上限 最小组的下限若存在开口组 则 最大组的上限 前一组的上限 组距最小组的下限 下一组的下限 组距 其中 第二节数据分布离散程度的测定 三 修正极差 1 概念 修正极差 modifiedrange 是去掉极端值后的极差 又称四分位全距 IQR interquartilerange 是中间50 的数据的间距 即数据分布中第25个和第75个百分位数的间距 也即第1个和第3个四分位数的间距 2 公式 其中 Q3表示第3个四分位数 即第75个百分位数 Q1表示第1个四分位数 即第25百分位数 二 平均差 一 概念平均差 meanabsolutedeviation MAD 是各数据对平均数的离差绝对值的平均数 假设有两个球员 五场比赛得分如下 A 8 10 12 13 7 B 2 30 0 11 7 如果你是教练 你选哪个 试计算平均差和方差 二 样本平均差的计算公式1 未分组数据 2 分组数据 三 方差和标准差 一 概念方差 variance 是各变量值与其均值离差平方的平均数 标准差 standarddeviation 是方差的平方根 又称 均方差 二 比较与评价1 其内涵与平均差相似 均为各个数据对其平均数的平均离差 但平均差采用求绝对值消除正负离差 标准差采用平方法消除正负离差 在数学处理上标准差比平均差更为科学合理 2 方差和标准差是测度数值型数据离散程度的最主要的指标 例 P84 例4 9 某电脑公司销售量分组数据如表4 7 计算销售量的方差和标准差 如何计算均值 表4 7某电脑公司销售量分组数据 三 总体方差和标准差计算示例 总体方差和标准差计算示例 根据公式计算可知总体均值为 总体方差为 总体标准差为 例4 10 根据以下资料 计算企业职工平均工资的标准差 已知平均工资为760元 表4 9某企业职工工资分组数据表 总体方差和标准差计算示例 总体方差为 总体标准差为 四 样本方差和标准差 1 说明在大多数统计应用中 都针对样本数据来分析总体数量特征 因此通常用样本方差来估计总体方差 用样本标准差来估计总体标准差 2 符号样本容量用n表示 样本方差用S2表示 样本标准差用S表示 3 计算公式 P86 与总体方差和标准差公式类似 区别在于分母除以n 1 四 离散系数 一 概念 离散系数 coefficientofvariation 也称变异系数 是一组数据的离散指标的绝对数与其相应的均值之比 是离散指标的相对数形式 二 表现形式有全距系数 平均差系数和标准差系数 最常用的是标准差系数 三 计算公式 总体标准差系数 样本标准差系数 四 离散系数 四 应用 用于比较不同总体数据分布的离散程度 例题4 11 甲乙企业职工的年均收入分别为20000元和50000元 收入的标准差分别为3000和5000元 哪家企业职工的收入差距小一些 分析 不同企业的年均收入不同 不能直接比较标准差 只能比较标准差系数 结论 乙企业职工收入差距小于甲企业 甲企业标准差系数 乙企业标准差系数 一 偏态及其测定 一 偏态 skewness 是指数据分布的不对称性 其度量值称为偏态系数SK 二 计算未分组数据 分组数据 是样本标准差的三次方 第三节数据分布偏态与峰态的测定 一 偏态及其测定 三 偏态系数大小的说明偏态系数SK 0 说明数据为对称分布 偏态系数SK 0 说明数据为偏态分布 其中 SK 0说明数据为正偏 右偏 分布 SK 0说明数据为负偏 左偏 分布 二 峰态及其测定 一 峰态 kurtosis 是指正态分布数据的平峰或尖峰程度 其度量值为峰态系数 二 峰态通常是与标准正态分布相比较而言的 若数据服从标准正态分布 则峰态系数 0 若数据服从非标准正态分布 则峰态系数 0 当峰态系数 0时为尖峰分布 即比正态分布更尖 当峰态系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论