（概率论与数理统计专业论文）非参数回归函数的稳健bootstrap.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：36 大小：745.46KB 积分：12 举报 版权申诉

（概率论与数理统计专业论文）非参数回归函数的稳健bootstrap.pdf_第2页

（概率论与数理统计专业论文）非参数回归函数的稳健bootstrap.pdf_第3页

（概率论与数理统计专业论文）非参数回归函数的稳健bootstrap.pdf_第4页

（概率论与数理统计专业论文）非参数回归函数的稳健bootstrap.pdf_第5页

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文撼要摘要 b o o t s t r a p 方法就是通过一定数量的仿真得到我们感兴趣的统计量( 倒如均值和标准差) 在特定零假设下的仿真分布，从面建立该统计量的置信区间并由此判断来自实际过程的该统计量的显著性该方法在现代的统计推断中有着越来越重要的运用现在随着不确定性的增加，数据的波动也越大，数据中经常包含有异常值的存在在有异常值的数据中，b o o t s t r a p 样本可能比原有样本含有更高的“污染”，这会降低所要做的统计推断的有效性本文讨论在菲参数回归n - w 估计中，如何利用影响函数得到重新抽样的概率，使用倾斜的b o o t s t r a p 方法得到曲线的拟合，从而达到有效地抵制异常值对回归函数影响的目的，数值模拟的结果表明这种处理方式的有效睦关键词：非参数回归；b o o t s t r a p ；影响函数；带宽选择英文援要 a b s t r a c t b o o t s t r a pi st oe m u l a t et h r o u g hac e r t a i nq u a n t i t yt og e tt h es t a t i s t i co f i n t e r e s t ( f o re x a m p l em e a na n ds t a n d a r dd e v i a t i o n ) u n d e rp a r t i c u l a rz e r oa s - s u m p t i o n s e so fe m u l a t i o n a ld i s t r i b u t i o n ，t h e nc o n s t r u c tt h ec o n f i d e n c ei n t e r v a l o ft h es t a t i s t i ca n dj u d g et h es t a t i s t i cf r o mt h ep r o c e s s b o o t s t r a pb e c o m em o r e a n dm o r ei m p o r t a n ti nt h em o d e ms t a t i s t i c a li n f e r e n c e a l o n gw i t ht h ei n c r e a s eo fu n c e r t a i n t y , t h ef l u c t u a t eo fd a t ab e c o m eg r e a t e r ， a n dt h ed a t aw i l lu s u a l l yi n c l u d es i n g u l a rd a t a f o rt h ed a t aw i t ho u t l i e r s ， b o o t s t r a ps a m p l e sm a yc o n t a i nm o r e ”p o l l u t i o n ”t h a no r i g i n a ls a m p l e sa n d r e d u c et h ev a l i d i t yo fo u rs t a t i s t i c a ld e d u c t i o n i nt h i sp a p e r ，w ed i s c u s sh o w t ou s et h ei n f l u e n c ef u n c t i o nt of i n dt h ep r o b a b i l i t yo fr e s a m p l i n gi nt h en o n - p a r a m e t r i cr e g r e s s i o no ft h en we s t i m a t e w eu s et i l t i n gb o o t s t r a pm e t h o d ( t h es a m p l ep r o b a b i l i t yi sm l e q u m ) t oo b t a i nc n r v ef i t t i n g ，w h i c hi sr e s i s t a n t t ot h ep r e s e n c eo fo u t l i e r so i lt h er e g r e s s i o nf u n c t i o n k e y w o r d s ：n o n p a r a n l e t r i cr e g r e s s i o n ；b o o t s t r a p ；i n f l u e n c ef u n c t i o n ；b a n d - w i d t hs e l e e t i o n 厦门大学学位论文原创性声明兹呈交的学位论文，是本人在导师指导下独立完成的研究成果。本人在论文写作中参考的其他个人或集体的研究成果，均在文中以明确方式标明。本人依法享有和承担由此论文而产生的责任。声明人( 签名) ：槲掰5 月四日 i 厦门大学学位论文著作权使用声明本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版，有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅，有权将学位论文的内容编入有关数据库进行检索，有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于 1 、保密() ，在年解密后适用本授权书。， 2 、不保密。 ( 请在以上相应括号内打”) 作者签名：林嘶导师签名：如睁5 月彳日年月日非参数回归函数的稳健第一章引言 1 1 研究动机统计学是一门从经验中学习的科学最早的信息科学起源于1 6 5 0 年左右的统计学本世纪，统计技术已成为生物科学、心理学、教育学、经济学、通信理论、社会学、基因学、流行病学以及其他领域的分析方法。在当今的传统科学，如地理学、物理学和天文学，由于它们所研究的领域要求信息化的效率，如罕见的奇异粒子的研究或遥远星系的研究，统计方法的应用正在增长大部分人并非天生就是统计学家利用自己的方法，我们无法从海量的受干扰的数据中获得所需的模式但另一方面，我们又非常擅于构造出满足我们目的 ( 而事实上不存在的模式) 统计模式统计理论从两方面处理上述问题：它既为在受干扰环境下寻找真实信息提供最优的方法，又对随机模式的过份不够合理的解释提供严格的验证统计理论试图解决下面的三个基本问题f l 】： 1 ，怎么收集数据? 2 怎么分析和归纳处理所收集的数据? 3 利用数据所作出的推断有什么样的精确度? 回归分析是第二个问题的部分回归被用来研究可以测量的变量之间的关系般地，回归分析含有很多步骤为研究一组变量之间的关系，要收集这些变量在组单元或案例中的每个数据这样研究的回归模型，个变量起着响应的作用，称为响应变量( r e s p o n s e ) ，而其他所有的变量看成是响应的预报因子，称为自变量( c o v a r i a t ev e c t o ro rp r e d i c t o r ) 我们可以方便地，而且也常是准确的认为，自变量有数据收集者所得的数据值，而把响应变量看作是这些自变量的一个函数除了若干未知参数，对于给定值的自变量，假设模型详细说明了响应 l 非参数回归函数的稳健变量的行为模型通常还会指出，由于假设误差项而不能给出准确拟合的某些特征然后，数据被用于得到未知参数的估计值第三个问题构成了所谓的统计推断的一部分b o o t s t r a p 是近代才发展起来的用于处理某些统计推断的新方法之所以这样，是由于它需要现代计算机技术对传统统计理论的那些过于复杂的计算的支撑b o o t s t r a p 方法和其他些以计算机为基础方法，它们的统计基本思想没有改变，只是( 执行) 计算方法改变了现代计算机技术使得我们能在最少的数学假设上更灵活、快速、简便的运用这些想法b o o t s t r a p 是非常实用的计量技术，应用范围包涵估计与统计推论等种种问题它的概念为经由资料( 也即是样本) 的重新抽样( r e - s a m p l i n g ) 来得挚i 估计统计量的仿真分布通常情况下，b o o t s t r a p 所提供的近似会比常用的极限近似来到更精确些由于日前越来越多的数据不适合用参数回归来进行数据拟合，雨非参数回归是基于数据本身，因此非参数回归方法的研究越来越受到人们的重视有关非参数回归的原理及其应用的专著有许多，如e u b a n k 闯、m u l l e r l 3 、h a r d l e 4 i 和 w a h b a 5 】等分别介绍了非参数回归在许多实际问题中的应用而自从七十年代末 e f r o n 6 l 引入b o o t s t r a p 方法后，b o o t s t r a p 方法有着广泛的运用，如点估计、统计推断、曲线拟合、致信区间的构造等然而，在回归函数中，如果数据中含有异常值时，进行传统的b o o t s t r a p 有很明显的缺陷，即数据拟合的效果可能很不理想嗍，造成这样问题的主要原因是每个数据点被以等概率抽取，这样得到的b o o t s t r a p 样本可能受到比原始样本更大的“污染”，由此导致可能数值结果失真然而若直接去掉异常值进行估计或推断，这就可能丢失了数据中的信息，因此也不被人们接受对于这类数据中含有异常值时，稳健估计的b o o t s t r a p 不失为一种有效的方法，但也有些数值例子表明，仅仅使用稳健估计的b o o t s t r a p 还是不够的，s i n g h 7 1 指出了即使估计有很高的崩溃点( b r e a k d o w np o i n t ) ，但在b o o t s t r a p 中可能很低由于非参数回归函数估计几乎基于数据本身，数据中有异常值就需特别注意，传统的b o o t s t r a p 可能产生较大的偏差我们考虑使用 2 非参数回归函数的稳健 a m a d o 和p i r e s 【9 】推荐的倾斜b o o t s t r a p 来处理异常值第二章是准备知识部分对非参数回归( 特别是n - w 估计以及其大样本性质) 、稳健性的描述、b o o t s t r a p 及其性质做了简单的介绍第三章主要讨论了n _ w 估计的稳健b o o t s t r a p 方法我们首先考虑了在 m w 估计中定义个稳健的带宽选择，然后根据其选择的带宽来确定每个样本点对带宽的影响程度( 即影响函数值) ，从而得到在b o o t s t r a p 中的抽样概率向量 - ，) ，并按此向量进行抽样来得到我们所需的b o o t s t r a p 样本，最后并利用数值模拟来对此方法的合理性进行判断第四张是总结部分对本文的研究内容进行总结，并指出该算法的有效性 3 非参数回归函数的稳健 4 第二章准备矢其 2 1 非参数回归函数的权函数估计 2 1 1 非参数回归函数的权函数估计设x 和y 分别是d 维和维随机变量假定e l y l 0 0 ，则m ( z ) = e ( y i x = z ) 存在，m ( x ) 称为y 对x 的回归函数回归分析的基本问题在于通过从( x ，y ) 抽出的i i d 样本( 置，k ) o = 1 ，2 ，- ，n ) 去估计回归函数r e ( x ) 在传统的回归分析中，往往假定m ( x ) 有某种特定的数学形式，一般是线睦的或可化为线陛的形式，其中包含若干个未知参数，如线性型，并假定“误差” 的分布为正态这时用最小二乘法对回归系数进行估计即可得到m ( x ) 的估计众所周知，在上述条件下这种估计有许多优良性质，但在实际问题中，不一定可以假定上述条件( 回归为线性，误差为正态) 成立丽这时经验和理论都证明，基于最小二乘法作出的估计不一定好这个睛况促使人们去寻找别的出路，非参数回归就是朝着这个方向的一种努力其特点是对模型的假设要求很低：回归函数的形式可以是任意的，随机误差也不必服从正态分布广义地说，自变量x 与因变量y 之间的回归关系可以理解为x 与y 之间虽无确定性的关系，但y 在给定x = z 时的条件分布取决于o 因此更般地可提出对此条件分布或其特征量进行估计的问题这种问题都可以用估计回归函数的形式提出来例如要估计条件概率，可以定义一个新的因变量这时所述条件概率转化为z 对x 的回归函数e ( z i x = z ) 由于现在越来越多的数据不适合用参数回归来进行数据拟合，而非参数回归是基于数据本身，所以越来越受到欢迎在这方面有很多的专论，比如e u b a n k 2 l 、 m u l l e r 3 、h a r d l e l 4 1 、w a h b a l 5 等介绍了非参数回归在各方面实际中的很多运用现在最受欢迎的非参数回归是n - w 核回归 1 0 1 1 1 1 它的估计方法可以来源非参数回归函数的稳健 5 于被t u k e y 称为r e g r e s s o g r a m 的方法【12 1 该方法的基本想法与用直方图来估计密度函数一样它把x 的值分成几个集合b j0 = 1 ，2 ，j ) ，然后在落在马上的y 值取平均对任意z 马，回归估计定义为 k ，( x 岛) r h t ( x ) = 兰一 j ( x i 马) l = l 在某种意义上，这是典型的非参数估计，因为对未知的函数m ，它不需要假设任何的参数然而，这种估计有个缺点，区间目的个数和端点需要事先确定从理论上来看，这可以看成是在每个鼠边界附近的估计偏差类似的讨论可以参考h a r d l e l 4 此估计的缺点是不容易对x 值进行分割，要么估计的偏差过大，要么估计的方差过大，不能比较好的取得平衡对r e g r e s s o g r a m 估计最自然的扩展就是窗口移动估计( m o v i n g - w i n d o we s - t i m a t e ) 此估计对y 仍是采取局部平均，但在估计点x 处则取个z 的领域，即对任意z ，它定义为 k ，( x 。p h ，z + h ” ，( 噩扛一h ，z + h i ) t = l 相对于r e g r e s s o g r a m 估计，窗口移动估计的优点在于它只依靠个参数，l ，称为窗口宽度显然，这个参数对估计有比较大的影响，在非参数回归的很多文献中，任务就是找个比较合理的h 值来消除r e g r e s s o g r a m 的缺点如果用一些核函数k 来做加权平均，则可得到更般化的估计，此即为n w 估计 1 0 1 1 1 1 1 ，定义为 k k ( ( z 一五) h z w ( z ) = 爿一， k ( p 一蜀) h ) l = l 至少当使用连续的核函数耳时，它可以产生连续的估计函数一般要求核函数 j e 墨塾旦坚鱼塾鱼塾堡_ 6 k 为有界可积的实值函数，且有。l i r a h k ( z ) = 0 通常核函数k 是个有紧支撑的对称概率密度函数，但有时取负值能产生更精确的估计，特别是在多元的情形下面是几个比较常用的核函数【1 3 】： = j c z 卜0 5 ，+ o 5 】) ； = i ( 1 一z 2 ) f ( z 一1 ，+ 1 1 ) ； = 要( 3 1 帆2 + 7 2 4 ) 砸 - 1 1 ) = 去唧( 彳2 ) 类似前面，h 是个取正值的参数，控制估计的平滑程度，称为带宽将上述估计般化，可以得到如下定义的权函数估计法【1 4 】定义1 设。：( z ) = 。( z ；x 。、) ( z = 1 ，2 ，n ) 是选定的几个依赖于z 和x l ，一，的函数，则 n m 。( z ) = 眠。k = l 称为回归函数m ( z ) 的权函数估计， t ) 称为权函数在实用问题中，权函数几乎满足自然的条件 n 眠( z ；x 圹一，) 三0 ，( z ；噩，瓦) = 1 扛= 1 满足这些条件的权函数称为“概率权函数” 2 1 2 权函数和n - w 估计的一些性质 1 s t o n e 定理权函数方法的大样本理论从1 9 7 7 年s t o n e 的重要论文【1 5 】发表以来，取得了不少了成果可以说，关于权函数估计的系统研究始于这篇论文s t o n e m 琏甄甄非参数回归函数的稳健 7 在其重要工作中，主要讨论了权函数估计的矩相合性问题问题是；权函数 = 啊“( z ；x a ，j 0 ) 需要满足什么条件，才能使当y 的r 阶矩( r 1 ) 刀i y f r o o 时候，有熙e | ( x ) 一m ( x ) 1 7 0 ( 2 1 ) s t o n e 把具有这性质的权称为( 矩) 相合的注：相合性要求对任何r 1 ，只要e i y l 7 o o ，就有( 2 1 ) 式成立，而不止是对某个特定的r 1 成立 s t o n e 提出了很般的、近乎充要的条件现在我们只考虑充分性，并局限于概率权定理1 设概率权 ) 满足以下条件， ( a ) 存在有限常数e ，使得对刑上任何非负的b o r e l 可测函数，必有，n、 e ( ( x ；x 1 ，) ，( 五) c e f ( x ) ； ( 2 2 ) i = 1 ( b ) 对任给0 ，当n o o 时，有粤蓼慨“啤；x 1 7 一，) 0 ( 2 4 ) i 3 二，则 l 是相合的权函数定理1 中的条件解释【1 4 】：条件b 是说：凡是与x 的距离达到一定限度( s ) 的那些五，其所占的权的总和很小就是说，在估计m ( z ) 时，主要是依靠最接近z 的那些样本点这显然是合理的条件c 是意味着：个别的样本点，不论它与z 的距离多么的小，所起的作用总是很小的就是说，不能把过多的注意力放在少数几个样本点上随着样本大小n 的增加，起作用 3 口 0与鎏 r kmk xx 。汹有时 1 ln 当沁非参数回归函数的稳健 8 的样本应当愈来愈多，这也屉合理的要求条件a 比较难理解且不好验证可以这样认为：若- 僻；x 1 ，瓦) 与，( 墨) 独立，则( 2 2 ) 式的左边等于 nn e w m e f ( x i ) = e f ( x ) e w 产e f ( x ) e ( ) = el ( x ) i = 1i = 1i = 1 而( 2 2 ) 式将对c = 1 成立事实上，上述独立性般当然不成立，因此可以把( 2 2 ) 式理解为；l k i 与，( 五) 的相关性“不能太强”这只是一种形式的看法实际上，条件a 没有自然的直观解释注；s t o n e 在论文 1 5 1 中得出的结果考虑了l 矿0 不必为概率权的情形由他的结果可以推出：在“t 是概率权时，为了w 似是相合的，条件扣c 不仅充分而且必要 2 n w 估计的逐点性质不象参数估计，非参数估计不存在无偏估汁我们给出如下定理，具体证明参考c o l l o m b 1 6 1 ：定理2 令口是关于上冗上绝对连续的l e b e s g u e 可测，有连续密度取y 并且满足下面条件的所有分布的集合： r v z ，i x y ( z ，y ) d y 0 ， j 则不存在回归函数m ( z ) 的无偏估计，即不存在m 的估计m 。，使得对冗的x 和d 上的，x ，y ，几乎处处有e m 。( z ) = m ) 定理表明了般的非参数模型是个更难估计的问题，原因是我们需要估计无穷个参数医此下面我们考虑它的逐点渐进无偏性【1 3 1 根据前面对核借计的描述，被估计函数的连续性在估计函数的渐进性质里面有着重要的作用更准确的说，我们需要如下假设： ( h 1 ) 在x 处，函数m 和，都连续，且有f ( x ) 0 ， ( h 2 ) 存在实数m 使得i y i m 0 的绝对矩就可以( m a c k 和s i l v e r m a n 1 7 】) ，而( h 3 ) 可以取消( c o l l o m b 1 6 1 ，p 2 2 ) 定理3 设条件( h ，1 ) - ( h 4 ) 都满足，则核估计r h a r w 在点z 处渐进无偏，即瓤e m 椰( z ) 一m ( 。) = 0 下面给出简要的证明思路不失般睦，假设核函数k 的积分值为1 首先，我们有规e 昂r ( z ) 一，( z ) = 0 其中昴rp a r z e n - r o s e n b l a t t 核估计的密度函数( p a r z e n 1 8 ；r o s e n b l a t t l l 9 1 ) 定义为 n 矗r ( z ) = ( n ) _ 1 k ( 一五) ) = 1 令g = m f 和= 开f p r ，因( 五k ) 是i i d 的，贝有 e o ( x ) = h - 1 e y l k ( ( x x 1 ) h ) = h - 1 e 陋【h i x ，】k ( 一x ) 矗) 】 = h 一1 ，n ( u ) ( ( z 一豇) ) ，( “) d u 再令z = 江一u ) ，有埘( z ) = j 厂k ( z ) 9 扛一砌) 兆由于核函数k 的积分为1 ，我们有功( z ) 一9 ( z ) = 厂k ( z ) ( 9 ( z z ) 一9 ( z ) ) 如非参数回归函数的稳健根据g 的连续性和( h 4 ) ，有熙9 忙一z h ) 一9 ( z ) = 0 最后，考虑如下展式： = 1 = 1 一乜一1 ) + 令z = 互e ：p d a 立( = ) ，可以得到 1 、p “( z - 1 ) p + i z 础) = 错+ 0 ( m 广) 计算过程比较繁琐，细节可以参考c o l l o m b 1 6 2 2 稳健性 2 2 1 稳健性的含义稳健陛是从英文“r o b u s t n e s s ”翻译过来的，含有强壮、健康、坚韧等意思它是统计方法可能具有的一种特性般说来，是人们在构建统计方法时所努力追求的一种特性在实施任一个统计方法时，必然要计算某个或某些统计量t 的值，而r 的值由样本x 。，x 。决定在通过观察或试验以得到x 1 ，的过程中，可能由于仪表故障或观察者的疏忽以及记录时的笔误等，使x 1 ，墨。中的个或几个包含了较重大的误差，称为过失误差( g r o s se r r o r ) 受到这种误差的影响的数据，一般是以离开数据群体的孤立值的面目出现，常称为样本中的异常值f o u t l i e r ) 我们希望；在样本中混入少量异常值对，统计量t 的值受到的影响不大因若不然，则一、二个数据的错误可以使统计分析的结论完全改观，这就会使人们对分析的可靠性产生疑问具有这种性质的统计量t ，或者说，基于这种统计量丁的统计方法称为有稳健性如果一个统计方法只有具备稳健性，那也不一定有用比如不管样本怎么样，总是用个固定的常数去估计某个参数，则有稳健性，但显然没什么用处因此 1 0 非参数回归函数的稳健稳健统计并不是单单追求稳健性，还需要有其他良好的性能h u b e r 【2o 】提出了一种见解：认为稳健统计的目标是寻找有如下性质的统计方法： 1 在实际模型与所假定模型符合时，该方法具有良好性能，但不必在某种标准下为最优的； 2 ，在实际模型与所假定模型有少许偏差时，其性能所受到的影响应该比较小； 3 在实际模型与假定模型有严重偏离时，其性能仍“过得去”，或者说，不致使该方法变得无用甚至引入歧途为了比较某些统计量的稳健优劣性，即哪个统计量更稳健些，下面我f 1 弓i 入关于稳健性的某种定量的指标 2 2 2 崩溃点记为我们所假定的总体分布，而f 为事实上的总体分布定义2 设f 0 为分布，对任给的e ( 0 ，1 ，给定了某个包含昂的分布集 r ，称为昂的“邻域”t ( f ) 为定义在，上的泛函记 b 忙) = 6 ( e ，g o ，t ) = s u p l t ( f ) 一t ( 晶) | ：f p ! ) 则称 + = - c * ( f o ，t ) = i n f e ：0 1 6 ( ) = b ( 1 ) ) 为泛函t 相对于邻域r 在f 0 处的崩溃点显然，若0 e 1 e 2 0 为阉值， ( ) 为衰减函数，且改衰减函数满足： ( i ) 非负， ( 积) 对固定的c 有2 骢。2 叩( c ，t ) = 0 及璺警盟f t ：。= 0 条件( i ) 是显然的，因为叩( - ) 仅仅是改变观测值重新抽样的概率；( i i ) 中的第个条件保证了异常值不会产生显著的偏差，而第二个条件为平滑条件步骤3 用修正后的经验分布p = ( p 1 ，p 。) 进行b o o t s t r a p 注：q ( ) 以及阉值c 的选择有许多种方法a m a d o 和p i r e s 9 j 推荐叩( ) 为如下类函数 1 t o o t o 。其中c 为位置参数( 即( 3 5 ) 式中的参数c ) ，8 为刻度参数，而t 为形状参数，个比较合理的选择为t = 2 而c 值选取方式为，若给定数据有实际背景，则我们可以通过实际意义来选择；如果没有任何信息可以利用( 实际运用中经常如此1 ，最直接的方法就是利用数据本身获得选择一系列不同的c 值，然后用广义交叉验证( g c v ) 来选择使得预测误差最小的c 值下面给出稳健b o o t s t r a p 算法算法3 非参数回归的稳健b o o t s t r a p 算法尝酗 = l 曼：髯卧唧，-，、l l | 幻 c 咖非参数回归函数的稳健步骤1 对数据集x k ，弧款1 用第1 中稳健带宽选择得到n w 回归函数豌w ( z ，。) ；步骤2 计算残差矗= y t 一卉n n w ( x ，。) ，= 1 ，2 ，札；步骤3b o o t s t r a p 过程，b 一1 ，2 ，b i 对残差( f 1 ，磊) 运用第二节中的稳健抽样计划产生独立的b o o t s t r a p 误差( 呓，) ； i i 对输入( z l ，z 。) 进行般的b o o t s t r a p 抽样( 即抽取到x k 的概率为：k = 1 ，2 ，礼) 产生独立的b o o t s t r a p 输入( x + 1 ，z ：) ； i i i 得到第b 次的数据集 z i ，醵) k l ，其中娃= 愉( z ；，h 。) + ；对 z ；，畦) 冬l 运用稳蹴选择得到带宽船和回归函数俄n w ( x ，五窘) ； v 直到产生b 个b o o t s t r a p 复斛为止，否则令b = b + 1 ，重复步骤3 中的i - i v ；步骤4 对于每个矗等表示得到回归函数的一个复制 f h = ，b ( z ) = 疣wf z 五等) ，b = 1 ，2 ，b 我们可以从( 矗譬，矗2 + ) 和( f h ，f 小) 做出我们所感兴趣的统计推断在这一节中，我们通过数据模拟来对稳健b o o t s t r a p ( r b ) 与传统b o o t s t r a p ( c b ) 进行比较对b o o t s t r a p 结果进行推断时，我们特别感兴趣的是它的均值和d 的致信区间在选择稳健带宽时，我们使用h u b e r 函数妒h ( r ，c ) = s g n ( r ) m i n ( 1 r t ，c ) 考虑如下数据生成过程( d a t ag e n e r a t i n gp r o c e s s ，d g p ) y ( x ) = 妒( 茁) + e + p u 非参数回归函数的稳健其中妒( z ) = s i n ( x o x ) s i n ( w b x ) ，u 。= 2 5 ，u b = 1 5 ，z o ，7 r 】一n ( 0 ，程扛) ) ，0 2 ( x ) = 0 0 1 + 0 0 2 5 1 一s i n ( u 。z ) 】2 肛是异常值，分布为咒一n ( 0 ，咋2 ) ，v 的分布为个二项分布，p ( 0 ) = p ，0 卢1 我们从【o ，丌】随机产生2 0 0 个样本来进行曲线拟合，然后从0 到”中以0 0 1 的间隔产生3 1 5 个等距数据来做检验下面我们考虑了参数程= 1 ，卢分布为o 、5 、1 0 、2 0 的情形图3 1 ：c b 方法中的2 0 0 个b o o t s t r a p 样本曲线图3 2 ：r b 方法中的2 0 0 个b o o t s t r a p 样本曲线非参数回归函数的稳健 2 6 图3 3 ：c b 方法中的回归函数的b o o t s t r a p 预测与置信区间图3 ，4 ：r b 方法中的回归函数的b o o t s t r a p 预测与置信区间非参数回归函数的稳健当卢= 5 时，图3 1 和图3 2 分别给出了用c b 和r b 得到的b o o t s t r a p 样本曲线；图3 3 和图3 4 则分别给出了c b 和r b 方法下的核估计拟合曲线 ( 虚线) 、b o o t s t r a p 均值曲线( 点线) 及9 5 的致信带在b o o t s r a p 中，我们取b = 2 0 0 表1 给出了p 所有情况的总结，其中考虑了2 0 0 个样本的平均预测误差( p e ) 、覆盖概率( p c ) 以及置信区间的平均长度( l ) p c 是检验样本观测值落入致信区间的百分比，平均长度定义为l = 。! t 、l “。p 一砖) ，其中上掣9 和l 分别为点( x k ，y ) 在置信区间的上下界， b o o t s t r a p 类型卢异常值预测误差( p e )覆盖概率( p c )平均长度( l ) c bo 0 3 4 7 9 5 3 19 2 7 l 0 2 2 6 6 2 3 9 r b0 o 3 4 3 7 7 3 29 2 3 5 o ，2 2 0 0 0 4 4 c b5 0 3 6 8 6 4 8 79 1 3 10 2 9 1 9 4 1 5 r b5 0 3 7 0 4 0 5 99 3 4 60 2 1 4 1 0 2 8 c b1 00 3 9 1 6 4 8 78 9 3 30 3 9 4 2 1 7 6 r b 1 00 3 9 2 5 3 1 79 1 7 60 2 1 8 7 9 4 3 c b2 0 0 4 1 2 6 3 4 18 8 8 40 ，4 8 2 3 6 4 1 r b 2 00 4 1 1 6 3 5 79 1 6 80 2 5 3 6 4 3 2 在图3 1 和图3 2 中，我们可以看出c b 和r b 方法得到的b o o t s t r a p 很类似，虽然r b 方法中有少量样本比c b 方法得到有更大的偏差( 即使降低了异常值的抽取概率，但有些样本还是会受到比较大的影响) ，但大部分还是更靠近真实曲线，b o o t s t r a p 样本的带宽( 图3 1 和图3 2 中黑色部分) 更窄而表1 中的数值也支持了我们的观点从表3 。1 我们可以看出，r b 方法和c b 方法在预测误差的估计很接近，但在覆盖概率和平均长度，r b 算法明显要好于c b 算法特别地，在覆盖概率和致信水平差不多的情况下，由r b 方法得到的平均长度要比c b 方法中的窄，且r b 方法受异常值的影响很小，数值稳定，而c b 方法受异常值的影响就大多了从图3 2 中我们也可以看出，用b o o t s t r a p 的均值非参数回归函数的稳健曲线来作为估计比核估计更接近于我们所要估计的回归函数图3 5 ：l o s s 方法与r b 方法的比较局部多项式估计( 1 0 e s s ) 是一种比较稳健的光滑化非参数曲线拟合方法下面考虑对上述数据( 卢= 5 ) 用l o e s s 方法与我们所推荐的r b 方法分别计算出 9 5 的置信区闻在l o e s s 方法中，我们使用二次多项式，窗口里面的数据比例为4 0 ，结果如图3 5 在图3 5 中，虚线的是l o e s s 估计，点线的是r b 方法估计在l o e s s 中，拟合出的曲线虽然比较光滑，而且区间长度较窄，但在某些地方，它则没有包含真值，特别是方差比较大的地方而我们所使用的r b 方法却能比较有效的包含其真值非参数回归函数的稳健第四章总结在含有异常值的样本中，b o o t s t r a p 样本会含有更高的。污染”，传统b o o t - s t r a p 估计的效果可能不理想本文介绍了非参数回归函数及其置信带的一种稳健b o o t s t r a p 方法我们使用a m a d o 和p i r e s 9 l 引入的一种倾斜b o o t s t r a p 来抵制异常值的在b o o t s t r a p 样本中的影响。而倾斜b o o t s t r a p 则是通过利用影响函数计算样本点对带宽的影响，从而得到稳健抽样计划的抽样概率，在此基础给出了稳健b o o t s t r a p 算法数值模拟说明了此估计的有效性和准确性 ! ! 查塾堕坚鱼墼壁垒堡 3 0 参考文献 1 le f r o nb - ，t i b s h i r a u ir ，- - j ( 1 9 9 4 ) a ni n t r o d u c t i o nt ot h eb o o t s t r a p m c r cp r e s s 2 】g u b a n kr ( 1 9 8 8 ) s p l i n es m o o t h i n ga n dn o n p a r a m e t r i cr e g r s s s i o n m n e wy o r k ： d e k k e r 3 m u l l e rh g ( 1 9 s s ) n o n p a r a m e t r i ca n a l y s i so fl o n g i t u d i n a ld a t a m ib e r l i n ：s p r h _ l g e r 4 h a r d l ew ( 1 9 9 0 ) a p p l i e dn o n p a r a m e t r i er e g r e s s i o n i m l c a m h r i d g eu n i v p r e s s 【5 jw a h b ag ( 1 9 9 0 ) s p l i n em o d e lf o ro b s e r v a t i o n a ld a t a m p h i l a d e l p h i a ：s i a m 【6 1e f f o r tb ( 1 9 7 9 ) b o o t s t r a pm e t h o d s ：a n o t h e rl o o ka tt h ej a c k k n i f e j la 竹n s t n t i s t 7 1 - 2 6 7 】s i n g hk ( 1 9 9 8 ) b r e a k d o w nt h e o r yf o rb o o t s t r a pq u a n t i l s s j lt h e n 幽o s t n t s t c & 2 6 ，1 7 1 9 - 1 7 3 2 8 s a f i b i a n - b a r r e r am ，z a m a rrh ( 2 0 0 2 ) b o o t s t r a p p i n gr o b u s te s t i n l a t e so fr b g r 一 s i o n 【j 】t h ea n n a l so fs t a t s t c s ，3 0 ，5 5 6 5 8 2 9 ja m a d oc ，p i r e sam ( 2 0 0 0 ) r o b u s tb o o t s t r a p p i n gu s i n gi n f l u e n c ef u i l c t i o n s ，p m c e e d i n g si nc o m p u t a t i o n a ls t a t i s t i c s2 0 0 0 ：s h o r tc o m m u n i e a c a t i o n sa n dp o s t e r s ，v o o r b u r g ： s t a t i s t i c sn e t h e r l a n d s ，8 3 - 8 4 1 0 jn a d a r a y a ，e a ( 1 9 6 4 ) o ne s t i m a t i n gr e g r e s s i o n ，【j jt h e o r yp r o b a v p l ，1 0 ，1 8 6 - 1 9 6 1 1 w a t s o ng s ( 1 9 6 4 ) ，s m o o t hr e g r e s s i o na n a l y s i s ， j s a n k h y as e r a2 6 3 5 9 - 3 7 2 【1 2 t m k e yj w ( 1 9 6 1 ) - c u r v e sa sp a r a m e t e r s ，a n dt o u c he s t i m a t i o n 【j 】脚d c e 曲呻so ft h e 4 t hs y m p o s i u mo nm a f h e m a t c s , s t a t i s t c sa n dp r o b a b i l i t y , b e r k e l e y , c a ，6 8 1 6 9 4 【1 3 m i c h a e lg s c h i m e k ( 2 0 0 0 ) s m o o t h i n ga n dr e g r e s s i o n ：a p p r o a c h e s c o m p u t a t i o n a n da p p l i c a t i o n w i l e yi n t e r s c i e n c e 1 4 陈希孺等( 1 9 8 9 ) 【嗍非参数统计，上海科学技术出版社 1 5 s t o n ec j ( 1 9 7 7 ) c o n s i s t e n tn o n p a r a m e t r i er e g r e s s i o n ( w i t hd i s c u s s i o n ) f j l 且肌s t a f i s t 55 4 9 6 4 5 1 6 c o l l o m bg ( 1 9 7 6 ) e s t i m a t i o nn o n p a r a m 6 t r i q u ed el ar d g r e s s i o np a rl am 6 t h o d ed u n o y a u t h e s i sa tu n i v e r s i t yp a u ls a b a t i e r ，( m t o u l o u s e ，f r a n c e 非参数回归函数的稳健 3 1 l7 】m a c ky p ，s i l v e r m a nb w ( 1 9 8 2 ) w e a ka n ds t o n gu n i f o r mc o n s m t e n c yo fk e r n e lr e - g r e s s i o ne s t i m a t e s 【j 】五w a h r s c h e i n l i c h k e i t s t h e o r i e e g e b i c t e , 6 1 ，4 0 5 - 4 1 5 18 p a r z e n e ( 1 9 6 2 ) o n e s t i m a t i o n o f p r o b a b i l i t y d e n s i t y f u n c t i o n s f i m c t i

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（概率论与数理统计专业论文）非参数回归函数的稳健bootstrap.pdf

文档简介

温馨提示

最新文档

评论

（概率论与数理统计专业论文）非参数回归函数的稳健bootstrap.pdf

文档简介

温馨提示

最新文档

评论

相关文档