【位置参数估计及其应用探究16000字(论文)】_第1页
【位置参数估计及其应用探究16000字(论文)】_第2页
【位置参数估计及其应用探究16000字(论文)】_第3页
【位置参数估计及其应用探究16000字(论文)】_第4页
【位置参数估计及其应用探究16000字(论文)】_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

位置参数估计及其应用研究[摘要]本论文主要讨论位置参数估计及其应用。这里的位置参数是指均值,中位数或p分位数等,可以用来描述总体位置。对于位置参数的估计,可以分为参数统计方法和非参数统计方法,参数统计方法和非参数统计方法的区别在于样本的分布类型是否已知,若已知,则使用参数统计方法,若未知,则使用非参数统计方法,两种方法各有优势。对于参数统计方法,本文主要总结了位置参数估计的一般方法。对于非参数统计方法,本文主要讨论了非参数统计方法下分位点的点估计和区间估计,除此以外还介绍了基于两种非参数检验方法的中位数估计方法,并探讨了在实际问题中的应用。[关键词]位置参数区间估计点估计非参数统计参数统计位置参数检验目录151501位置参数的研究背景 417021.1位置参数的类型 4401.2研究的目的和意义 6295902参数统计方法下的位置参数估计 6241582.1正态分布位置参数估计 7245742.1.1点估计 786122.1.2区间估计 991652.2三参数威布尔分布位置参数估计 11143213非参数统计方法下的位置参数估计 1371293.1位置参数估计的非参数统计方法 13324033.1.1总体分位数的估计 1473643.1.2中位数的估计 15230473.1.3一般中心位置参数的估计 17230203.2非参数位置参数检验 17301153.2.1单样本位置参数检验方法 18186813.2.2双样本和多样本位置参数检验方法 22126574实证分析 2337874.1分位数在天然气产量中的应用 23143104.1.1数据收集及预处理 23104464.1.2分位数的估计和检验 24169904.1.3基于符号检验的中位数区间估计 26240664.1.4基于Wilcoxon符号秩检验的中位数区间估计 2627014.2位置参数检验方法在平稳过程中的应用 2774824.2.1数据收集及预处理 2761994.2.2均值函数的位置参数检验 29231374.2.3相关函数的位置参数检验 31引言位置参数一般指的是均值,中位数或p对于参数统计方法,本文主要总结了位置参数估计的一般方法——最大似然估计、矩估计法、相关系数法。对于非参数统计方法,本文主要讨论了非参数统计方法下分位点的点估计和区间估计,除此以外还介绍了基于两种符号检验和Wilcoxon符号秩检验法的中位数估计方法。在实证分析中,对我国天然气每月产量的分位数进行了估计和检验,以及探讨了单样本下的位置参数检验方法在平稳过程中的应用。1位置参数的研究背景1.1位置参数的类型对于位置参数的估计,我们通常将其分为点估计和区间估计,估计的对象又可以分为中心位置和分位数。在一般情况下,人们习惯用平均数来表示数据的中心位置,当直方图钟形对称时,只用平均数是可以的,但如果直方图是右偏或者左偏时,只用平均数显然是不够的。如果数据中有异常值的话,平均数就容易受到异常值的影响,不能够很准确的代表数据的中心位置。相对平均数而言,切尾平均数就可以较好地反映一些有异常值的样本数据的真实情况。α%切尾平均值指的是各去掉大的一头和小的一头的α%个数据后的平均数,我们熟知的去掉一个最大值和一个最小值后的平均数,就是切尾平均数。和切尾平均数类似的还有Winsor化平均数,Winsor化平均数是指去掉两端的异常值后,在两端补上个端头值,再计算个数据的平均数。除了以上介绍的几种平均数以外,由于中位数不容易受到异常值的影响,它也能较好的反映数据的中心位置,例如一个样本容量为12的数据,去掉最大值和最小值之后的中位数和没去掉之前的中位数相等,这就反映了中位数具有稳健性,所以中位数也可以用来描述数据的中心位置。另外,众数也可以用来描述数据的中心位置,对于一些定性数据的中心位置,计算平均数和中位数是没有什么意义的,所以对于此类数据,众数能够较好的描述数据的情况。所以我们建议使用平均数、中位数和众数,从不同的角度来表达数据的中心位置,还可以对数据的分布情况做出大致的描述。为什么平均数和中位数能够表示数据的中心位置呢?“对于数据的中心位置,我们要求他到每个数据点的距离的和比较小。度量两个点之间的距离通常有两种方法:平方值距离和绝对值距离。不同的距离度量方法导出了描述数据中心位置的不同位置。平方值距离法导出的是平均数,绝对值距离法导出的是中位数,所以就这个意义而言,平均数和中位数同等重要。如果用平方值距离法,则一个点a到各个数据点x1,x2,⋯,xi=1n上式表示平均数这一点到个个数据点的平方值距离和最短,在使用平方值距离法时,平均数就是数据的中心位置。如果用绝对值距离法,则一个点a到各个数据点x1,xi=1nx上式中表示中位数这一点到个个数据点的绝对值距离和最短,在使用绝对值距离法时,中位数就是数据的中心位置。”[1]数据总体的中心位置既可以用总体均值来表示,也可以用总体中位数或众数来表示。除了中心位置以外,p分位数也是我们常关注的位置参数,我们称ξp为分位数,如果它满足:设ξp为分布函数的唯一p分位点,则有F(ξp对于这些位置参数的估计,我们将在下面内容展开详细叙述。1.2研究的目的和意义通过1.1节中对位置参数类型的介绍和分析,其中均值、中位数和分位数常用来描述总体的位置,所以本文将主要以这三种位置参数作为代表,重点将非参数中分位数和中位数以及一般中心位置的估计和检验方法进行归纳,并探讨了它们在实际问题中的应用,针对不同数据的类型,使用相对应的方法,从而使位置参数的应用更有实际意义。我们遇到的实际问题分布往往是未知的,此时非参数方法就显现出了优势,我们想要得到某个位置参数的点估计或者区间估计,或者是对于某个估计结果进行检验,且对于不同的数据,不同的方法的效果可能不同,基于这些考虑,本文对均值、中位数和分位数的估计和应用进行一个详细的分析,使得对位置参数有更深刻的认识。2参数统计方法下的位置参数估计在参数统计中,我们将不带参数的统计量g(X1,X2,⋯,Xn),观测值gx1,x2,⋯,xP则称θ,本部分以正态分布和三参数威布尔分布为代表,介绍参数统计方法下的位置参数估计。2.1正态分布位置参数估计正态分布是数理统计中最重要的一个分布,由中心极限定理我们可知,一个随机变量如果是由大量微小的、独立的随机因素叠加的结果,那么这个变量一般都可以认为是服从正态分布。因此很多随机变量的大样本都可以用近似正态来描述,例如年降雨量、产品重量等都可以用正态分布描述,这一点从本文第三部分的非参数统计中也可以体现,本节主要概括了正态分布的均值、分位点的点估计和区间估计。2.1.1点估计本小节讨论了最大似然估计法和矩估计法,并运用这两种估计方法,对正态分布的均值进行点估计,对于分位点和中位数的估计,本文将在3.1节具体展开介绍。最大似然估计法估计均值最大似然估计法基本原理“最大似然估计法的基本原理为:在随机试验中,概率最大的事件最可能出现。”[2]对于离散总体,设有样本观测值,该观测值出现的概率依赖于某参数θ,将概率看作θ的函数L(θ),又称为似然函数,即L求最大似然估计量就是找到θ的估计量θ=θ(对于连续总体,我们可以用联合概率密度函数来表示随机变量在观测值附近出现的可能性大小,并将其成为似然函数,以下给出似然函数定义:定义2.1[3]设总体的概率函数为,,其中是一个未知参数或几个未知参数组成的参数向量,是参数空间,是来自该总体的样本,将样本的联合概率函数看成的函数,用表示,简记为,成为样本的似然函数,如果某统计量满足则称是的最大似然估计,简记为(maximumlikelihoodestimate).下面我们利用最大似然估计法来估计正态分布位置参数用最大似然法估计正态分布位置参数例1对于正态分布,概率密度函数为f设有样本,则似然函数取对数后的结果为将方程右边关于两个分量分别求偏导并令其等于0,则可以得到似然方程组,对其进行求解就可以得到的最大似然估计为矩估计法估计均值矩估计法基本原理“1900年英国统计学家皮尔逊提出了一个替换原理,后来人们将此方法称为矩法,替换原理常指如下两句话:用样本矩替换总体矩,这里的矩可以是原点矩,也可以是中心矩。用样本矩的函数替换相应的总体矩的函数。”[3]用矩估计法估计正态分布位置参数对于正态分布,概率密度函数为f设有样本,求正态分布的矩估计。我们知道,则。用来估计,那么就是µ的矩估计。2.1.2区间估计本部分介绍了正态分布下当方差已知和未知的情况下均值的置信区间,以及p分位数的置信区间,另外介绍了两个正态总体的均值差的区间估计和一种特殊情况的区间估计——基于不完全数据的区间估计。均值置信区间设服从标准正态分布,是标准正态分布的上分位数,如果满,即也可以通过查标准正态分布表求出上分位数。当时,就是标准正态分布的中位数。已知,的置信区间由标准正态分布的对称性和上分位数的定义,均值的置信区间为未知,的置信区间由于方差未知,我们不能继续用方差已知时的方法来估计均值,已知样本函数服从自由度为的分布,不依赖于任何参数,这时由分布的对称性和上分位数的定义,均值的置信区间为基于不完全数据的区间估计在产品的寿命试验中,常常存在截尾的不完全数据,知网文献[4]讨论了在小样本和大样本情况下的位置参数的置信区间,并且此方法还适用于样本中存在异常值的情况,具有一定的稳健性。其推导过程如下:构造枢轴量设X1,X2,Hr=X定理2.1[4]公式(2-5)定义的Hr的概率分布与参数μ,以Hr为枢轴量对位置参数进行区间估计,只需要知道样本的顺序统计量中关于其中心对称的两个顺序统计量X构造Monte-Carlo置信区间枢轴量Hr是在以12(X(r)定理2.2[4]设总体X~N(μ,σ2)nn其中φ(x),ϕ(x)分别是标准正态分布函数和分布密度函数。利用Monte-Carlo方法,设置信水平为1−α(0<α<1),样本容量为,查表可得相应的上侧分位数ℎα2,则μ在置信水平为11构造大样本的近似置信区间由文献[4]可知,Hr近似服从N0,p2nφ122.2三参数威布尔分布位置参数估计威尔布分布是可靠性领域中一种十分重要的分布,应用十分广泛,对于参数估计,人们提出了例如最大似然估计、最佳线性无偏估计、图估计法、杜贝估计发等。但这些方法仅针对于形状参数和尺度参数的估计,对于位置参数的估计,有几种方法可用,但是相对误差较大或难以计算,由文献[5]可知,由相关系数法,得到的位置参数估计精度高,算法简单,且易于实现,与其他方法相比,简便了许多,也提高了精度,其简单推导的过程如下:用相关系数法估计位置参数基本原理威尔布分布的分布函数:F(t)=1−e−其中:-形状参数,;-尺度参数,;-位置参数,;-产品寿命,;-分布函数,。对(2-1)进行变形处理,可以得到以下的式子:lnln1令Y则(2-2)可以变为Y=mX−可以看出(2-3)是一个直线方程,当估计正确时,X和Y呈线性关系,根据回归直线,就可以求出和,但如果估计不正确时,X和Y之间的线性关系就会被破坏,回归方程不再是一条直线,而是一条曲线,当的估计偏差越大,则曲线弯曲越严重,回归求解和表现为X和Y的相关系数减小,估计偏差越大,相关系数越小。的估计值与相关系数的关系是当最大时,是位置参数的最佳估计值。用相关系数法估计位置参数的计算公式设容量为的样本来自威尔布分布母体,其样本观察值从小到大排序为t1≤t2R其中:x令S则可简化为R对于威尔布分布恒有,故求对的一阶导数与求对的一阶导数对求而言是等价的,这里仅计算对的一阶导数。令v=(n求导后可以得到方程u由于y0≠0,v≠0,所以要使(nS至此,求解γ的方程已给出,在给定样本观察值之后,公式(2-4)只含有γ这一个未知量,那么γ则可以很容易求得。3非参数统计方法下的位置参数估计非参数统计是相对于参数统计而出现的,经典的参数统计要求数据是分布已知的或者服从正态分布,如果假设条件和真实数据不符,那么其正确性就会受到影响,而非参数统计不要求总体分布要服从某个具体的分布,即使真实模型与假定理论有所偏差,非参数统计方法仍然能维持较好的性质,至少不会变得太差,所以可以使用的领域十分广泛,故非参数统计方法具有的优点是:适用面广、假定条件较少、具有稳健性。接下来引入非参数方法下的位置参数估计,以及检验方法。3.1位置参数估计的非参数统计方法我们假设X1,X2,⋯,Xn来自总体X,X下面将一些位置参数的非参数点估计方法和区间估计方法分述如下。3.1.1总体分位数的估计本小节分为总体分位数的点估计和区间估计,区间估计分为小样本和大样本两种情况。点估计设ξp为分布函数的唯一p分位点,则有F(ξp)=p,即Px≤ξp=p。当F(x)为严格单调时,其ξ特别地,当p=1ξ定理3.1[6]设简单样本X1,X2,⋯,XnP区间估计小样本的情况设X(1)≤X(2)≤⋯≤W且有PWk由样本X1,XX1,X2,P可见,给定n,i,j值即可计算此概率值,所以给定置信水平1−1在n不太大时,可由二项分布表查出相对应的i和j,就可以得到唯一的p分位数,ξp的置信度为1−α的置信区间X(i),X(j);当n较大时,较小的p值可采用泊松分布近似计算得到,较大的p值可以通过正态分布近似计算得到。当要求中位数时,令大样本的情况“当n比较大时,对于给定的置信水平1−m其中,fn代替,其中为样本落在区间内的个数,为小区间长度,具体长度可由数据区间若干等分得到。”[6]3.1.2中位数的估计点估计通常我们会直接使用样本中位数来估计总体中位数,即3.1.1节中总体分位数估计中当时的特殊情况,下面我们介绍一种基于Wilcoxon符号秩检验的点估计方法,Wilcoxon符号秩检验法的原理将在3.2中具体展开介绍。基于Wilcoxon符号秩检验的点估计[7]为了更大程度的利用数据,可以通过求每两个数的平均值(Xi+Xj)/2,i≤j(一共有(n(n+1))/2个)来扩大样本的数目,这样的平均叫做Walsh平均,令W+=#(区间估计关于总体中位数的区间估计,在3.1.1节中,我们介绍了一般分位点的区间估计方法,当时,即为总体中位数的区间估计,接下来我们介绍两种特别的区间估计方法——基于符号检验、Wilcoxon符号秩检验的中位数区间估计。基于符号检验的中位数区间估计此方法是基于符号检验法提出的,具体方法如下:给定一个置信水平,并且令置信区间的下限为,上限为,设X1,X2,⋯,计算值。由于符号检验的本质是二项分布,大于中位数的观测值记为正号,小于中位数的观测值记为负号,并且正号和负号出现的概率应该相等,即0.05,那么我们有其中n为样本容量。于是查二项分布表就可以得到相应的值,值是二项分布中当样本容量为n时,出现正号或者符号的最大个数。将样本观测值编秩,在给定的显著性水平的置信区间为,则大样本近似法。若样本容量时,则可以使用大样本近似法估计区间,其中基于Wilcoxon符号秩检验的中位数区间估计[7]此方法是基于Wilcoxon符号秩检验法提出的,我们知道Wilcoxon符号秩检验法要求样本分布是对称的,那么基于此方法的区间估计也必须满足这个条件,第二部分我们介绍了基于Wilcoxon符号秩检验法的中位数点估计,使用了Walsh平均来估计总体中位数,接着我们按照升幂排列Walsh平均,记为W那么就可以得到置信水平为1−α下的置信区间为W当样本是小样本时,k可查表得到,当样本容量时为大样本,k可以近似为:k=3.1.3一般中心位置参数的估计设是来自同一总体,根据来估计中心位置。中心位置可以用样本中位数、样本均值估计,也可以用切尾均值和Winsor化均值估计,Winsor化均值是指去掉两端的异常值后,再在两端补上个端头值,在计算个数据的平均值。3.2非参数位置参数检验在参数统计中,最常用的位置参数是均值,所以关于位置参数的检验大多是关于均值的检验问题,但对于非参数统计,在抽取一样本数据后,我们常常较关心总体的中心位置或者分位点,中位数就是二分之一分位点,也较常用,所以大部分的位置参数的检验方法是围绕中位数或其他分位点的检验展开的,但其思想方法是通用的,以下介绍的方法亦适用于均值,根据对象的不同,可能会得到不同的p值。本节我们主要介绍了单样本情况下的位置参数检验方法,如符号检验、游程检验、Wilcoxon符号秩检验,以及双样本、多样本情况下位置参数检验方法。3.2.1单样本位置参数检验方法单样本数据中中位数、均值均可以表示中心的位置,对于中位数进行点估计得到的是样本中位数,对均值进行点估计得到是样本均值,如果数据是对称的单峰数据,那么中位数和均值的差别不大,但如果是非对称分布,中位数比均值更稳健。下面我们介绍三种单样本位置参数检验方法:符号检验、游程检验、Wilcoxon符号秩检验。随机游程检验如果一个总体,可以分成两类,并用字母A,B或者数字10来表示,当样本按某种顺序呈现,一个或多个连续出现时,就称之为游程,一个游程中包含的符号的个数就是游程的长度,例如111000110的游程数就是4,其中有一个长度为3的1游程,一个长度为3的0游程,一个长度为2的1游程,一个长度为1的0游程。游程检验的基本方法是:如果想要判断一个有序数列的排列是否是随机的,可以将假设组设为:H如果是像判断某种倾向的话,假设组可以设为:H或者H将一类的符号的个数记为,另一类即为,则,引入统计量游程总数目。如果原假设是真的,那么两类符号出现的可能性相等,在序列中交互出现,如果游程的总数目过少,就说明有一段游程的长度多长,即同一种符号连续出现的个数很多,则序列有成群的倾向;反之,如果游程总数过多,则说明序列有混合的倾向。不管是过多还是过少,都说明原假设是假的,即序列不是随机的。在原假设成立的情况下,检验统计量的条件分布为:当是偶数时,设,则P(U=2k)=当U是奇数时,设,则P在这里我们规定个数大的记为m,反之个数小的记为n。根据上面的计算公式可以得到在原假设成立时P(R≥r)或P(R≤r)的值,并根据p值做出判断。但对于大样本情况,上面给出的公式难以计算,所以我们利用正态近似作检验统计量Z=于是可以查正态分布表得到相应的p值并做出判断。符号检验“符号检验又分为广义符号检验和狭义符号检验,那么广义符号检验指的是针对所有的分位点的检验,而狭义的符号检验是指仅对中位数进行的检验。”[7]假定检验的原假设是H0:Qπ=记样本中小于q0的数据的个数为S−,而大于q0的数据的个数为S+,记n=S−+S+,K=min(S+,S−),按照原假设的情况,S−和n表3-1p值计算表(Qπ原假设备择假设p值使检验有意义的条件HHPQHH1QHH2当n比较小时,我们可以通过计算二项分布的公式来计算p值(p值计算表如表3-1所示),但当样本量过大时,计算存在困难,所以我们利用正态近作检验统计量Z=于是可以查正态分布表得到相应的p值并做出判断。Wilcoxon符号秩检验[8]符号检验是将样本观测值和假设的对称中心的符号来进行检验,但是并没有很好的利用差(绝对值)的大小所蕴含的信息,仅代表了对称中心的两边,却没有表明该点距离中心的远近,其检验思想为:首先把样本数据按照其绝对值X1,X2,...,X(1)Xi−M(2)将Xi(3)令W+为Xi−M0>0的Xi−(4)对于双边检验H0:M=M0⇔H1:M≠M0,对于原假设W−和W+应该差不多,如果不符合的话,则说明应该拒绝原假设。对于双边假设,W应该取(5)根据W值,查表可以得到p值,再根据p值的大小选择是否接受原假设。”[7]小样本情况下p值可以查表得到,但如果是大样本情况,可以利用正态近似来构造渐近正态统计量Z=再通过正态分布查表得到p值。对于此检验,要求总体是连续对称分布,如果不是的话,则不能使用,应该选择符号检验。如果是打结的情况,则无法进行精确的Wilcoxon符号秩检验的计算。符号检验和Wilcoxon符号秩检验比较前面的介绍我们可以看出符号检验和Wilcoxon符号秩检验的异同之处,Wilcoxon符号秩检验在符号检验的基础上,利用了样本与中心位置的距离(即绝对值),再对符号秩进行求和,根据两种符号秩的大小,来判断是否要拒绝原假设,那么这两种检验在实际应用中的效果如何呢?符号检验可以用于判断位置参数,也可以应用在成对数据中,我们知道,成对数据问题中符号检验是配对检验的简化,在一般成对数据的问题中,如果配对t检验和符号检验都可以使用,配对检验更有效,但对于定性数据的问题,配对t检验就无法使用,符号检验就体现出了优势。此外符号检验也广泛的应用于其他领域,例如文献[9]在研究图像中值滤波及其快速算法中使用了符号检验,提高了图像处理速度;文献[10]将符号检验改进后应用于模型检验问题。我们可以很容易地发现,Wilcoxon符号秩检验是在符号检验的基础上做的了一些改进的检验方法,但需要在对称分布的情况下才可以使用,Wilcoxon符号秩检验也广泛应用于实际问题的解决,例如文献[11][12]中使用Wilcoxon符号秩检验来检验培训有效性、产品质检、绩效等问题。文献[13]中,对黄石国家公园间歇式温泉喷发时间位置参数的检验使用了符号检验和Wilcoxon符号秩检验,但却得到了相反的判断结果,从其他图表可以看出,该样本的数据并不是对称的,但Wilcoxon符号秩检验只适用于对称数据,这样我们可以得知,尽管Wilcoxon符号秩检验更大程度的利用了样本数据提供的信息,在处理非对称分布的问题时,符号检验比Wilcoxon秩和检验要可靠。文献[14]中,对一配对数据,比较两种流速生产无水醇的含醇率,同样使用了符号检验和Wilcoxon符号秩检验,得到了不同的判断结果,但通过验证,在近似正态分布的条件下,使用配对比较t检验的结果和Wilcoxon符号秩检验的结果是一致的,且直方图没有显示该样本分布不是对称的,说明此时Wilcoxon符号秩检验此时是可用的,且Wilcoxon符号秩检验比符号检验效果更好。可见,在不同的情况下,不同的检验方法检验的效果可能不同,每种方法都各有其优缺点,和适用的范围,在解决实际的问题时,不妨都使用再进行比较分析。符号检验和游程检验比较从前面的理论介绍我们可以知道,符号检验和游程检验思想上是有相同点的,他们都只利用样本数据和位置参数的差的符号进行判断。符号检验的应用前面已经介绍过,游程检验一般是应用于时间序列的随机性检验,游程检验又可以分为游程个数检验和游程长度检验,游程个数检验可以判断判断样本数据是否是随机出现的,也可以用于判断两组样本是否有显著差异,游程长度检验可以判断一段时间序列是否有上升或者下降的趋势。所以许多和时间序列有关的问题都可以进行游程检验,可以应用在一些医疗领域的问题中,例如在流行病学应用中,“游程个数检验适用于疾病发展趋势、发病时间聚集性或周期性、发病空间聚集性、成组资料差异显著性检验等,游程长度检验更适用于干预或控制的效果评价等局部时间范围内疾病发展趋势判定”[15];游程检验也常用于金融领域中股票市场或证券市场问题的分析。3.2.2双样本和多样本位置参数检验方法双样本位置参数检验方法有Brown-Mood中位数检验和Mann-Whitney-Wilcoxon秩和检验,其中Brown-Mood中位数检验是符号检验在双样本情况下的推广,而Mann-Whitney-Wilcoxon秩和检验是Wilcoxon符号秩检验在双样本情况下的推广。多样本位置参数检验方法有Kruskal-Wallis检验和Jonckheere-Terpstra检验,其中Kruskal-Wallis检验是Mann-Whitney-Wilcoxon秩和检验在多样本情况下的推广,用于检验三个或三个以上的样本分布是否相同,即多样本位置参数的无方向问题,而Jonckheere-Terpstra检验用于检验三个或以上的样本分布是否有相同的上升或者下降的趋势,即多样本位置参数的有方向问题。[16]4实证分析前面我们介绍了位置参数的估计方法和检验方法,本章我们利用位置参数估计方法和检验方法来探讨一些实际应用。4.1分位数在天然气产量中的应用在实际情况中,我们常常想要知道某个样本数据的总体位置情况如何,那么这就需要对分位数进行估计,又或者我们想知道某个位置参数估计的效果如何,那么就需要用到检验方法,接下来,我们以我国天然气每月产量为例,探讨分位点的应用。4.1.1数据收集及预处理我们收集了近几年我国月度天然气产量的数据(除每年1、2月),数据引用自国家数据网,我国2017-2020年天然气每月产量当期值如表4-1所示,记为,对我国天然气每月产量的中位数进行估计。表4-1我国2017-2020年天然气每月产量当期值时间2017.32017.42017.52017.62017.7当期值(亿立方米)135.8122.0119.9115.5117.4时间2017.82017.92017.102017.112017.12当期值(亿立方米)119.5111.5124.1126.3136.1时间2018.32018.42018.52018.62018.7当期值(亿立方米)135.2128.9126.2121.8129.6时间2018.82018.92018.102018.112018.12当期值(亿立方米)129.0121.8134.2142.7152.5时间2019.32019.42019.52019.62019.7当期值(亿立方米)150.6140.8144.2139.2139.0时间2019.82019.92019.102019.112019.12当期值(亿立方米)138.1135.2145.6150.8160.2时间2020.32020.42020.52020.62020.7当期值(亿立方米)168.6161.4159.4151.9142.4时间2020.82020.92020.102020.112020.12当期值(亿立方米)142.1145.9163.2168.6187.1使用SPSS软件作样本观测值的简单直方图(如图4-1所示),考察样本是否是对称分布,由直方图可以看出,没有明显的证据表明样本数据是非对称分布,且由于我们的样本容量为40,由正态曲线我们可以看出,我们可以将样本看作近似正态。那么下面我们分为三个部分,第一部分对分位数进行估计,并使用符号检验法对估计结果进行检验,后两个部分应用基于符号检验和Wilcoxon符号秩检验的方法对我国天然气每月产量的中位数进行区间估计并进行比较。图4-1天然气每月产量当期值直方图4.1.2分位数的估计和检验点估计:根据3.1.1小节介绍的分位数估计方法,以样本分位点作为总体分位数的估计,那么分位数和分位数分别为再使用符号检验对两个分位点的估计结果进行检验,通过SPSS软件得到结果如表4-2和表4-3所示表4-21/4分位点符号检验结果检验量(1/4分位点)126.2小于1/4分位点的个数10大于1/4分位点的个数30总数40符号检验值0.584表4-33/4分位点符号检验结果检验量(3/4分位点)150.6小于1/4分位点的个数30大于1/4分位点的个数10总数40符号检验值0.560可以看出两个分位数符号检验的值都大于给定的显著性水平0.05,所以可以认为我们将样本分位数作为总体分位数的估计是有效的。区间估计:根据3.1.1小节介绍的大样本情况下分位数估计方法,可以讲区间[110,188]六等分,则每个区间的长度为13,即,以刚刚我们作的分位数点估计结果作为总体分位数和的估计,它们所在的区间的频数分别为11和7,通过计算可以得到在置信水平为95%的情况下,和的置信区间分别为同理我们也可以计算得到中位数的置信区间为补!!!!!!4.1.3基于符号检验的中位数区间估计由于样本容量为40,那么使用大样本近似法,假定置信水平为95%计算得到取,则中位数的置信区间为通过R软件可以得到相同的结果,我们可以精确的置信水平为96.2%,即使用符号检验法估计的我国天然气每月产量的中位数在置信水平为96.2%下的置信区间为。4.1.4基于Wilcoxon符号秩检验的中位数区间估计由于样本容量为40,可以使用大样本近似法,计算得到由于Walsh平均值的个数有820个,所以我们使用R软件可以得到,置信区间为,置信水平为95%,那么我们可以得知,使用Wilcoxon符号秩检验法估计的我国天然气每月产量的中位数在置信水平为95%下的置信区间为,可以看出在置信水平差不多的情况下,基于Wilcoxon符号秩检验估计的区间比符号检验短得多,可以认为基于Wilcoxon符号秩检验估计的区间效果更好。通过比较我们可以得知,在总体分布是对称的情况下,使用Wilcoxon符号秩检验法估计的效果比符号检验法要好,但如果总体分布是非对称的,则只能只用符号检验,类似的,若想对数据进行区间估计,需要先对分布进行判断,在选择相应的方法。4.2位置参数检验方法在平稳过程中的应用如果一类过程,处于某种平稳状态,其主要性质只和变量之间的时间间隔有关,与所考察的起始点无关,那么这样的过程叫做平稳过程,以下给出平稳过程严格定义两条:定义4.1[17]如果随机过程Xt,t∈T对任意的t1,t2,⋯,tnX则称该过程为严平稳的,对于严平稳过程而言,有限维分布关于时间是平移不变的,但严平稳过程条件很强不容易验证,所以引入了另一种宽平稳过程。定义4.2[17]如果随机过程Xt4.2.1数据收集及预处理接下来我们引用一个时间序列实例,,某条河流上的一个水文观测站从1915年到1973年记录了每年最大径流量共59个数据x1,x2,⋯,序号i12345678910x156008960104001060010820988098501090088109960序号i11121314151617181920x122007510864063806810882014400744072406430序号i21222324252627282930x11100731092605290913074806980965072608750序号i31323334353637383940x99007310904073108850784010700619096107580序号i41424344454647484950x99906150825060308980618096309490231011100序号i515253545556575859x509010900649012600664074306760100009300表4-4最大径流量首先,根据时间序列数据画出时间序列图和自相关系数图以及直方图(如图4-2和图4-3所示)图4-2图4-3从时间序列图我们可以看出该序列在某一值附近波动且无明显上升和下降趋势,可以初步判断该序列是平稳的,再看直方图,可以大致判断该序列是单峰对称序列。我们知道严平稳条件太强难以证明,那么当能够证明某时间序列是宽平稳过程时,就可以认为这个序列是平稳的,宽平稳过程需要满足两个条件:1、均值函数μx2、相关函数RX(τ)=EX(s)X(s+τ)只与时间差那么下面我们分两个部分来证明:4.2.2均值函数的位置参数检验由已知数据,我们可以求得样本均值,将样本均值作为总体均值的估计,再将样本观测值与样本均值作比较,如果样本观测值都在样本均值附近波动,那么我们就可以认为均值函数是固定的常数,由于均值属于常用位置参数,我们自然可以使用单样本中的位置参数检验方法,下面我们使用单样本位置参数中的符号检验、Wilcoxon符号秩检验、游程检验这三种方法来进行验证:建立原假设原假设均值函数是常数计算检验统计量计算可得样本均值x=1Ni=1方法1:符号检验令样本中大于均值的数据为“+”,小于均值的数据为“-”,统计得到正号的个数s+为32,负号的个数sZ=查正态分布表得到p值为0.2578到0.2546之间,显然大于给定的显著性水平0.05。方法2:Wilcoxon符号秩检验由直方图我们可以看出,没有明显的证据表明该数据是非对称的,所以我们也不妨使用Wilcoxon符号秩检验。通过EXCEL对样本数据进行编制并计算秩和,得到结果W+=838,Z=查表得到p值大约在0.3632-0.3594之间,那么双边检验的p值也一定大于置信水平0.05。方法3:游程检验游程总数目U=35,大于均值的个数m=32,小于均值的个数n=27,总数N=59,计算大样本情况下的检验统计量Z=查正态分布表得到p值为0.8925到0.8944之间,大于给定的显著性水平0.05。根据结果,作出判断根据三种检验方法得到的值,我们可以得到相同的判断结果,无法拒绝原假设,也就是认为均值函数是常数。运用SPSS软件可以得到精确p值(如表4-5所示):表4-5SPSS软件运行结果检验量(均值)8669.3220小于均值的个数27大于均值的个数32总数59符号检验值0.603Wilcoxon符号检验值0.723游程检验值0.2134.2.3相关函数的位置参数检验已知相关函数RX(τ)=EX(s)X(s+τ)就是两个时间差为τ的变量乘积的期望,那么在此基础上,在给定的样本观测值中取不同的时间差,就能得到相应的期望,再对期望进行位置参数检验,就能够证明相关函数只与时间差有关,建立假设检验原假设H计算检验统计量相关函数RX(τ)=EX(s)X(s+τ),其中当时间取1-10年时,相关函数值如表4-6所示表4-6相关函数值时间差τ/年12345678910相关函数1728477527529229572901929751759357353368073934243732786967200

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论