《统计数据的应用》PPT课件.ppt_第1页
《统计数据的应用》PPT课件.ppt_第2页
《统计数据的应用》PPT课件.ppt_第3页
《统计数据的应用》PPT课件.ppt_第4页
《统计数据的应用》PPT课件.ppt_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计数据的应用,运营协调中心 2008年11月13日,统计数据的应用,目录,引言,统计的基本概念、内容,集团的统计工作,统计的一些应用,黑人总统,美国有种族歧视吗?,统计学案例 美国佛罗里达州的凶杀案 (摘自:茆诗松等 高等数理统计),下表是1976年-1977年美国佛罗里达州的凶杀案件中,326个被告的肤色和死刑判决情况的分类表。请注意死刑判决比例,表2-1被告肤色和死刑判决情况分类表,事实果真如此?,似乎白人被判死刑的可能性等于黑人被判死刑的可能性(事实上,表中白人凶手被判死刑的比例略高) 换言之,肤色与死刑关联性不大 进一步推论,从这点上,恐怕找不到种族(肤色)歧视的有利证据 显然与当时的美国现实不相符合,改进:把被害人肤色考虑入内后,见表2,数据表明:种族和肤色歧视在七十年代确实存在,启示 用数据说话,更能证明你的观点 不要被数据假象所迷惑 深入挖掘数据背后的事实(增加一个因素,结论不同),无论我们是在教室、在工作场所还是在家里,数据总会潮水般向我们涌来。许多人学习这门课,目的是为了成为商号或公司的高层管理人员和决策者(有的已经是这样的管理人员和决策者),正因为如此,你必须有能力弄懂别人向你提供的大量数据的涵义。什么样的专门手段能使你高效率地使用数据?答案是“统计学”。 国外工商管理硕士(MBA)优秀教材译丛. 美商务统计,对统计 的认识,在今天的全球商务和经济环境中,有极大数量的统计信息是可利用的,最成功的管理人员和决策制定者是那些能够理解信息并有效利用信息的人。 21世纪管理经典教材系列 经济教材译丛. 美商务与经济统计,例一,婴儿的性别比例,由人类社会长期遗传和发展所形成,古今中外大致相同(大约为107:100或51.69:48.31)。 人类性别比例的研究,是统计学的起源之一,也是统计方法探索的最早的数量规律性之一。 2000年11.1普查大陆总人口1265835万人,性比为51.63:48.37,男性人口多2.26个百分点,多4127万人。,统计数据的内在规律,基本概念-概率,概率是频率的稳定值。概率非负,介于0与一之间的一个数值,某一事件所有可能结果的概率总和为1。 例如某种新产品畅销的可能性为80%,可以理解成其主观概率为0.8. 例一:某公司声称所产一种感冒新药治愈率为95%,现在十个患者服用,问至少八个病愈的可能性有多大? 答案是98.85%,基本概念-概率,直觉并不可靠。“生日问题” 某班级中有五十个学生,问至少有两个人在同一天的概率有多大? 答案是97%。,例 投掷硬币。 投掷一枚质量均匀的硬币,出现正面和反面的概率各为1/2;投掷一枚骰子出现16点的概率各为1/6。 大量试验结果表明频率接近于概率。 频率:在n次重复试验中,事件A出现了k次,则k/n为事件A发生的频率。 概率:如果随着试验次数的增加,事件A的频率逐渐稳定于某个常数P附近,则称P为事件A的概率(概率是频率的稳定值,是随机事件发生可能性大小的度量。 ),18世纪法国科学家蒲丰投掷钱币4040次,正面2048次,频率0.507; 20世纪英国科学家皮尔逊投掷钱币12000次,正面6019次,频率0.5016;24000次,正面12012次,频率0.5005。 南非数学家John Kerrich二战时期在集中营投掷10000次,正面5067次,频率0.5067,概念 数学期望(均值),分赌本问题17世纪中叶,一位赌徒向法国数学家帕斯卡提出了一个令他苦恼已久的问题: 甲乙两人赌技相同,各出赌注50法郎,每局无平局 规则:谁先赢三局,则得全部赌本100法郎 意外:当甲赢2局,乙赢一局,因故中断赌博。 问题:如何分配这100元?,共识:平均分对甲不公平, 全部归甲对乙不公平。 按比例分,方案一:甲得100法郎中的2/3,乙得100法郎中的1/3.这是基于已赌局数。 方案二:1654年帕斯卡提出:设想再赌下去,再赌两局必可结束。 后两局的结果可能是: 甲甲、甲乙、乙甲、乙乙。 其中“甲乙”代表甲赢第一局,乙赢第二局。以此类推。,分析,四种情况中三种情况甲可以获100法郎,只有一种情况下甲获0法郎。 甲的期望所得:0X0.25+100X0.75=75(法郎) 这种分法不仅考虑已赌局数,而且包括对再赌下去的一种“期望”。更为合理 称为“均值”更形象易懂,基本概念 方差与均方差,有两个牌子的手表,各抽100只,检测走时误差.结果发现其误差均值为0,为了比较两个牌子手表的走时好坏,计算方差与标准差。显然A手表走时偏差更好,德国十马克上的高斯,标准正态分布,蓝色部分的面积: P(-3X3)=0.9973,正态分布,密度函数(频率曲线)为正态函数(曲线),、,是两个不确定常数,是正态分布的参数,不同的,对应不同的正态分布。 正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。,不同的、对应的正态曲线,相同,不同的情况,相同, 不同的情况,6与正态分布,99.9937%,99.999943%,99.9999998%,99.73%,68.27%,95.45%,规格范围,LSL,USL,0.001ppm,1350ppm,0.001ppm,1350ppm,标称值=,西格玛水平和对应的合格率,比较图,3流程与6流程的比较,6流程比3流程好得多!,什么是统计?,统计工作是人们为了说明所研究对象的某种数量特征和数量规律性,而对该现象的数据进行收集、整理与分析的活动过程。 统计资料是通过统计工作所获得的能够说明现象总体某种特征的数据以及与之相联系的文字、图表等资料的总称,是统计实践活动的成果。,统计的多重含义:统计工作,统计资料, 统计学,统计的起源,统计学起源于2000多年前的古希腊,主要是帝王为战争作准备时对资源进行的调查; “统计学”一词出现在1749年的德语中,是德国学者阿亨华尔在欧洲各国国势学纲要一书中为国势学所起的名字,国势学是对当时欧洲各国的人口、土地、财政、军事等方面实力的描述与比较,德国大学1660年开始讲授此课; 现代统计学源于英国的农业生产:利用统计选择高产的种子、肥沃的土地; 随着学术与应用的发展,英国和美国分别于1834年和1839年成立统计学会,大约有7000和2万左右的会员; 中国现代统计学则是从数学开始的。(许宝騄 陈希儒),传统的统计学主要指官方统计、工业统计和现场统计,现代统计学则注重挖掘数据包含的信息,用已知来预测未知,用过去预测未来。 国际数理统计学会主席范剑青说:“社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些统计规律的。无论医学、经济学、社会科学、工业生产或是科学实验得到的都是数据,统计学就是对这些数据进行加工和提炼,找出规律、预测未知。概率统计是描述社会活动最简洁有力的语言。”, 对随机现象进行观测、试验, 以取得有代表性的观测值, 对已取得的观测值进行整理、 分析,作出推断、决策,从而 找出所研究的对象的规律性,第六章,统计方法通常可以分为描述统计和推断统计两部分。,1.描述统计: 主要是指在获得数据之后,通过分组、有关图表、统计指标等对现象加以描述; 2.推断统计: 指通过抽样调查等非全面调查,在获得样本数据的基础上,以概率论和数理统计为依据,对总体的情况进行科学推断; 通过建立回归模型对现象的依存关系进行模拟、对未来情况进行预测。,数据的分类,1、计量数据 如人的身高、体重,产品长度,直径,重量,股票的价格、市盈率。它们的取值可以是某个区间内的任意一个实数。 2、计数数据 如企业职工人数、成交股票股数等。它们在整数范围内取值,大部分还仅在非负整数范围内取值。,3、名义数据,有的时候,观察值不是数,而是事物的属性,如人的性别(男、女),物体的颜色、形状。我们常用数来表示属性的分类,如用数“1”和“2”分别表示男和女。这些数只起一个名义的作用,只是一个代码,没有大小关系,也不能进行运算。这里“2”与“1”不能比较大小也,“1+2”也没有意义。这类数据称为名义定性数据,简称名义数据。,4、有序数据,有些事物的属性有顺序关系,如人的文化程度由低到高可分为文盲、小学、初中、高中或中专和大专或大学等5类,可用数0、1、2、3、4、5分别表示。又如顾客对某商场营业员服务态度的评价分为“满意”、“一般”、“不满意”三类,可分别用“3”、“2”、“1”表示。这些数据只是起一个顺序作用,类与类之间的差别是不能运算的。例如“满意”比“一般”好,但“好多少”是不能计算的,这里的“3-2”是没有意义的。这一类数据称为有序定性数据,简称有序数据。,1982年,新中国第一批18个博士毕业,其中数理统计方向占两位(赵林城 白志东)导师是陈希儒教授 1986年,三十四岁的概率统计博士郑伟安破格被聘为当时全国最年轻的教授、博导(初中毕业,上海卢湾区的小木匠,78年直接考上研究生)引起轰动 日本首相田中说过:在战后日本经济发展中,数理统计所起作用,约占5%。,统计与医药行业,为何西方国家会在医药行业中重点突出数理统计的作用?(以下引自中科院研究员李国英博导的谈话) 引入统计学使医药研制从经验总结上升为科学发现。 美国的新药研制,一般要由医药学、生物学、统计学、化学等几个部门的专业人员合作,先发现新药,进行动物试验,再进行至少三期临床试验。试验方案的设计,试验数据的整理、分析,都离不开数理统计。而药物的安全性、有效性、用药量、适应症、禁忌症, 以及临床药理特征等, 都是对大量试验数据进行详细的研究、分析后得出的结论。只有在科学的实验和量化分析的基础上,才能对新药的品质得出精确的结论。,国家药监局 1999年11月颁布中药新药研究的技术要求,(1)关于新药制备工艺 制备工艺是中药研制的第一个重要环节,它包括剂型选择、药材提取、分离与纯化、浓缩与干燥、制剂成型及中试研究等多个步骤,涉及药材、辅料、设备、处方设计、各工序技术条件等许多方面。因素繁多、相互关系复杂是中药研制的一大特点。要研制出安全、高效、稳定的新药,需要找出其中的主要因素,并进行优化。这里统计学中的实验设计及其分析是得力且有效的工具,它可以帮助我们科学、合理地选择实验条件,通过尽可能少的试验次数,找出主要因素和尽可能好的制备工艺。,(2)关于新药的稳定性研究,药品的稳定性是确定其有效期的依据。确定合理的有效期才能既保证用药的安全有效,又不造成药品的浪费,这在统计学中属于可靠性统计分析的范畴。通过一定数量的药品在室温或不同条件下贮存并定期检测的结果,可以建立适当的统计模型,并对有效期做出较准确的推断和预测。,(3)关于临床研究,临床研究是药品研制的最后的阶段,也是最复杂、最重要的阶段。新药上市前一般要进行三期临床试验,上市后还要进行第四期临床试验。这四期临床试验的目的、范围、规模有所不同,但所涉及的问题有共同之处。最基本的问题是如何排除环境、性别、年龄、嗜好、身体条件等多种复杂因素的干扰,而找出真正属于药品的疗效。 近几十年,在发达国家,统计学与医药学相结合,对临床试验有非常多的研究,已经有许多针对不同情况的成熟或较成熟的统计方法,包括试验设计和数据分析,统计分析方法,(一)评价分析 评价是最初步,也是最基本的统计分析。所谓统计评价,即是从数量上描述研究对象规模的大小、水平的高低,速度的快慢,以及各种关系是否协调。 评价分析一般通过与一定的标准比较来衡量,做出判断。,1.评价标准。 主要有以下几种: (1)时间评价标准。 与前一时期对比(环比);与去年同期比(同比);与历史达到的最好水平比或与特定的历史时期比(定基)。 (2)空间评价标准。 与相似空间比较;与先进空间比较;与扩大空间比较(与省、国家或世界水平比较。) (3)经验或理论标准 经验标准就是通过历史资料的归纳总结出的标准;理论标准则是通过已知理论经过推理而得到的标准。,(4)计划标准。 即主管部门或业务部门提出的计划数、目标数。 2.简单评价 统计分析是将研究对象具体化为统计指标或指标体系来进行研究。 在统计评价中,将单个统计指标,或指标体系中各个指标分别选择评价标准,进行评价就是简单评价。 简单评价的基本统计指标: (1)总量指标。如高硼硅生产总量,进行规模比较。,(2)平均指标。说明平均水平的高低。计算公式: (3)速度指标。说明发展速度或增长速度的快慢(如年/月增长速度速度)。计算公式: (4)构成指标。说明内部结构的情况(如说明某个产品产值在总产值中的分量)。,简单评价的方法: (1)相对比较。 用相除的方式,说明相对增长或下降的程度。一般适用于总量指标、平均指标。 (2)相差比较。 用相减的方式,说明评价指标与评价标准之间的绝对值差额,适用于一切指标。,完成率计算,增长率计算,工业统计的应用 工序能力,(1) 工序能力 通常工艺参数服从正态分布 N(,2) 正态分布标准偏差的大小反映了参数的分散程度。绝大部分数值集中在3范围内,其比例为99.73%,1、 是总体的标准差,可以用样本的标准差来估计; 2、这个数值越小越好。,2. 工序能力的定量表征,(2)潜在工序能力指数CP 为了综合表示工艺水平满足工艺参数规范要求的程 度,工业生产中广泛采用下式定义的工序能力指数: CP=(TU-TL)/ 6=T/ 6 通过积分可得工艺成品率为: 可得工序能力指数与成品率之间的关系: 规范范围 CP 工艺成品率 不合格品率 3 1 99.73% 2700PPM 6 2 99.9999998% 0.002PPM 结论:工序能力指数越高,成品率也越高。,统计与质量管理,统计过程控制(Statistical Process Control),简称SPC,是一种借助数理统计方法的过程控制工具。在企业的质量控制中,可应用SPC对质量数据进行统计、分析从而区分出生产过程中产品质量的正常波动与异常波动,以便对过程的异常及时提出预警,提醒管理人员采取措施消除异常,恢复过程的稳定性,从而提高产品的质量。,SPC,使用SPC技术,管理者可以清楚地知道:这个过程稳定吗?它处于控制状态吗?这个过程的能力足够吗?根据问题的答案采取适当措施以纠正或维持过程现状,从而使过程持续稳定地提供合格产品。 SPC所需要的对大量数据实时收集、计算和分析可以借助于计算机和软件来轻松的实现 国际标准化组织将其作为ISO9000族质量体系认证的一个要素,休哈特建议3界限作为控制限来管理过程,UCL,CL,LCL,样 本 统 计 量 数 值,时间或样本号,控制图示例,案例 美国消费者愿意购买日产SONY彩电,20世纪70年代在美国销售的SONY彩电有两个产地:美国和日本。 两地的工厂是按同一设计方案和相同的生产线生产同一型号的SONY彩电,连使用说明书和检验合格的标准也是一样的。 在70年代后期,美国消费者购买日产SONY彩电的热情高于购买美产SONY彩电,原因何在?,彩电的彩色浓度是彩电质量好坏的一个重要指标,其中关于彩色浓度X的标准是:目标值为m,公差为5,即当X在m-5,m+5内该彩电的彩色浓度合格,否则不合格,1979年4月17日日本朝日新闻刊登调查报告,日产SONY彩电的彩色浓度服从正态分布N(m,(5/3)2) 美产SONY彩电的彩色浓度服从(m-5,m+5)上的均匀分布, 这两个不同的分布代表了两个不同的总体,其均值相同(都为m),但方差不同。若彩色浓度都与m的距离在5/3以内为级品,在5/3到10/3之间为级品,在10/3到5之间为级品,其他为级品。于是日产SONY彩电的级品为美产SONY的两倍出头,日产彩电直方图形,TU,TL,M,美产彩电直方图形,TU,TL,M,各等级彩电的比例(%),案例 敏感性问题调查,敏感性问题的调查是社会调查的一类,如一群人中参加赌博的比例,吸毒人的比率、职工离职意向比率、薪酬、工作单位的满意度调查。 对敏感性问题的调查方案,关键是使被调查者愿意作出真实回答而又能保守个人秘密,一旦调查方案设计有误,被调查者就会拒绝配合,所得调查数据将失去真实性,经过多年的研究和实践,一些心理学家和统计学家设计了一种调查方案,这个方案中,调查者只回答以下两个问题中的一个,而且只回答“是”或“否”。,问题A:你的生日是否是在7月1日以前 问题B:你是否?(这是真正要调查的问题,例如以有无离职意向为例),关键点,这个调查方案看似简单,但为消除被调查者的顾虑,使被调查者确信他(她)参加这次调查不会泄露个人秘密,在操作上有以下关键点: (1)被调查者在没有别人的情况下,独自一人回答问题 (2)准备一只罐子,只放入若干红球和白球。 (3)被调查着随机抽一球,抽调白球,回答A问题;抽到红球,回答B问题。球放回。 (4)无论答A或B,只在答卷中打钩。答卷密封放入投票箱。,分析:,显然,我们对A问题,不感兴趣。 假如我们收到n张答卷,其中有k张答“是”。此k张答“是”的答卷,暂无法得知有多少是答问题B的。但我们知道: 参加的人足够多,那么一个人生日在7月1日的概率是0.5 罐中红球的比例a是知道的。 现在有已知(n,k,a,0.5)四个数据来推断“离职意向比率” P(是)=P(白球)*P(是/白球)+P(红)*P(是/红球) 上式中,已知P(是)=k/n,P(红球)=a,P(白球)=1-a,P(是/白球)=0.5 于是 k/n=0.5(1-a)+a* P(是/红球)可以算出 P(是/红球)=k/n/a-0.5(1-a)/a,例如,罐子中放入30各红球,20各白球,a=0.6. 得到1583张有效答卷,其中有389张回答“是”,则 P(是/红球)=7.62%,为大约离职意向比率,回归分析的案例,CERNA 公司的工资标准 根据麻省理工学院数据、模型与决策一书的案例改编,背景,CERNA 是一家亚洲保险公司设在美国的子公司。最近公司的老板很头疼的一件事情是:不少中层职位的管理者离开了公司,到竞争对手的公司,据离职人员反映,他们不满的从总部来的的亚洲籍的雇员工资水平要高于非亚洲籍招聘人员的。于是公司想用统计数据来说明是否确实存在这种现象,一来可以避免可能的法律诉讼风险,二来可为薪酬标准制定取得充分依据,乔治从一家薪酬咨询管理公司来到CERNA公司,经过初步了解,乔治认为,主要有四个因素与雇员的薪酬水平(Salary)有关:,是否是亚裔(Non-Asian) 工作业绩积分(GPA) 是否有研究生学位(Degree) 工作年限(Years experience),思路,于是乔治想收集一些雇员的相关数据,做统计分析。他的思路是把薪酬看做是以上四个因素(变量)的函数,建立回归分析,建立回归方程,然后做显著性检验,如果每个变量的系数不显著,可以忽略,那么这个因素就可剔除,认为这个因素与薪酬相关性不大。 当然,最关心的是亚裔(Non-Asian)这个因素(变量)是否显著,可否剔除,从而可以判定 “从总部来的的亚洲籍的雇员工资水平要高于非亚洲籍招聘人员的工资”是否成立。,问题,亚裔(Non-Asian)、是否有研究生学位(Degree)这类变量如何取值? 办法是这类变量称之为“哑”变量,可以用“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论