(统计学专业论文)函数性非参数数据分析及其应用.pdf_第1页
(统计学专业论文)函数性非参数数据分析及其应用.pdf_第2页
(统计学专业论文)函数性非参数数据分析及其应用.pdf_第3页
(统计学专业论文)函数性非参数数据分析及其应用.pdf_第4页
(统计学专业论文)函数性非参数数据分析及其应用.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容摘要 内容摘要 函数性数据分析是近年来发展迅速的一个研究方向,国外的很多专家学者致 力于将传统的多元统计分析方法扩展到无限维空间的函数性数据分析中,形成了 颇具规模的研究成果。然而在我国,函数性数据分析的研究尚处于起步阶段,研 究成果不多,而且几乎所有的研究都是基于参数统计的方法。事实上,函数性数 据分析的主要研究对象是结构复杂的函数性数据,要想精确地把握数据特征,应 用参数方法进行分析,在某种程度上存在一定的困难,这直接影响了分析的效果 和效率。非参数统计方法的主要特点是不对数据分布做过多假设,所有分析都完 全建立在对数据本身所携带信息的分析的基础上,从而有效避免了由于错误假设 导致分析失效的尴尬局面。本文以“函数性非参数数据分析方法及其应用”为题 进行研究,尝试将函数性数据分析与非参数统计方法有机结合起来,达到有效分 析复杂数据的目的。创新之处主要有以下几点。 第一,针对函数性数据的特点,把三种不同的半度量形式用于刻画研究对象 的接近程度。在此基础上,扩展了非参数估计中的核估计方法,将其应用于函数 性数据分析。 第二,应用非参数核估计方法对函数性数据进行回归分析。将时间序列的预 测问题转化为标准的函数性数据的回归问题,应用非参数核估计方法对时间序列 进行预测。通过对美国工业生产指数的实证分析,证明了该方法在社会经济领域 广泛的应用前景。 第三,将非参数统计方法扩展到函数性数据聚类分析中,对生物学数据进行 实证研究,取得了良好的分析效果。 关键词:函数数据分析;非参数统计;核估计 a b s t r a c t a b s t r a c t i nr e c e n ty e a r s ,f u n c t i o n a ld a t aa n a l y s i s ( f d a ) h a sb e c o m eo n eo ft h ef i e l d s w h i c ha r ee x p e r i e n c i n gt h er a p i dd e v e l o p m e n t f r o mac o n c e p t u a lp o i n to fv i e w , f u n c t i o n a ld a t ac a nb ec o n s i d e r e da ss a m p l e - p a t h so fat i m e - - c o n t i n u o u ss t o c h a s t i c p r o c e s sw h o s eg r a p h i cr e p r e s e n t a t i o ni sas e to f c u r v e sd e f i n e do nt h ep a r a m e t e rs p a c e o ft h ep r o c e s s al o to fs t a t i s t i c i a n sw o r k e da te x t e n d i n gm u l t i v a r i a t et e c h n i q u e sf r o m v e c t o r st oc u r v e sa n dy i e l d e ds u b s t a n t i a lr e s u l t s i nc h i n a ,f u n c t i o n a ld a t aa n a l y s i si s g e r i n gs t a r t e dr e c e n t l y m e a n w h i l e ,a l m o s ta l lr e s e a r c hw o r kh a sb e e nd o i n gi nt h e f i e l do fp a r a m e t r i cm e t h o d i nf a c t ,t h e r ea r eal o to fd i f f i c u l t i e si nt h ea n a l y s i so f f u n c t i o n a ld a t ab yp a r a m e t r i cm e t h o d ,b e c a u s et h eo b j e c t so ff d ah a v ec o m p l e x s t r u c t u r e sa n dw ec a n n o th a v eac l e a rk n o w l e d g eo ft h ed a t ad i s t r i b u t i o n s i ns o m e s i t u a t i o n s ,p a r a m e t r i cm e t h o d sf a i lt og i v et h er i g h tr e s u l t s ,s ow es h o u l de x t e n d n o n p a r a m e t r i cm e t h o df r o mv e c t o r st oc u r v e s t h i sd i s s e r t a t i o ni sd e v o t e dt om a r r y t h ea d v a n t a g e so ff r e e m o d e l i n gt o g e t h e rw i t hf u l l yf u n c t i o n a lm e t h o d o l o g yi no r d e r t oa n a l y z ed a t a 、析t l lc o m p l e xs t r u c t u r e s t h em a i ni n n o v a t i o n sa r el i s t e da sf o l l o w s f i r s t l y , t h i sd i s s e r t a t i o ne x t e n d e dt h ec o n c e p to fl o c a ls m o o t h i n gf r o mt h ef i n i t e d i m e n s i o n a lc a s et o t h ef u n c t i o n a ld a t ac a s eb yb u i l d i n gd i f f e r e n ts e m i m e t r i c s t h r o u g hr e d u c i n gd i m e n s i o n so fd a t a , w ec o u l da n a l y s i st h ei n f i n i t ed i m e n s i o n a ld a t a i n t h ef i n i t ed i m e n s i o n a ls p a c e o nt h i sb a s i s ,m o r e o v e r , t h i sd i s s e r t a t i o ne x t e n d e dt h e k e r n e lr e g r e s s i o nm e t h o dt ot h ef u n c t i o n a ld a t aa n a l y s i s s e c o n d l y , t h i sd i s s e r t a t i o nu s e df u n c t i o n a ln o n p a r a m e t r i cs t a t i s t i c a la p p r o a c hf o r t h ep r e d i c t i o np r o b l e m f o rt i m es e r i e s ,w er e b u i l tt h ed a t ac o n s t r u c t i o n sa n di ns u c ha w a yt h a tt h ep r e d i c t i o np r o b l e mo ft i m es e r i e s t u r n st ob eas t a n d a r dr e g r e s s i o n p r o b l e mo far e a lv a l u e dr e s p o n s eg i v e ns o m ep - d i m e n s i o n a le x p l a n a t o r yv a r i a b l e b a s e do nt h eu s i n d u s t r i a lp r o d u c t i o ni n d e xd a t a s e t ,c o n s i s to f19 8 0 2 0 0 7m o n t h l y d a t a , w ec o n d u c t e dt h ef u n c t i o n a ln o n p a r a m e t r i cp r e d i c t i o na n dt h em e t h o dc o m p l e t e d t h ea n a l y s i st a s ke f f i c i e n t l y 函数性非参数数据分析方法及其应用 f i n a l l y , t h i sd i s s e r t a t i o ni n t r o d u c e dt h en o n p a r a m e t r i cu n s u p e r v i s e dc l u s t e r i n g m e t h o da n du s e dt h i sm e t h o dt oa n a l y z et h eb i o l o g i c a ld a t a t h er e s u l tt u m e do u tt o b ev e r yw e l l k e y w o r d s :f u n c t i o n a ld a t aa n a l y s i s ;n o n p a r a r n e t r i cs t a t i s t i c a lm e t h o d ;k e r n e l r e g r e s s i o n l v 厦门大学学位论文原创性声明 本人呈交的学位论文是本人在导师指导下,独立完成的研究成 果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均 在文中以适当方式明确标明,并符合法律规范和厦门大学研究生学 术活动规范( 试行) 。 另外,该学位论文为() 课题( 组) 的研究成果,获得() 课题( 组) 经费或实验室的 资助,在() 实验室完成。( 请在以上括号内填写课 题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特 别声明。) 声明人( 签名) :岳敏 砷文年5 其e l 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送交 学位论文( 包括纸质版和电子版) ,允许学位论文进入厦门大学图书 馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国 博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和 摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: () 1 经厦门大学保密委员会审查核定的保密学位论文, 于年月日解密,解密后适用上述授权。 () 2 不保密,适用上述授权。 ( i , f f 在以上相应括号内打“ 或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 声明人( 签名) :暑敏 干硼日 第一章引论 第一章引论 本章介绍了本研究的主要选题背景、研究目的及主要研究内容,同时对国内 外函数性数据分析的研究现状进行了总结和概括,并概括性地介绍了函数性非参 数数据分析的基本思想。 1 1 1 选题背景和研究目的 传统的数据分析方法是把数据看成离散且有限的,并在此基础上形成了许多 比较完善的理论体系,例如多元统计分析、时间序列分析、面板数据分析等。然 而,随着人们产生、搜集和存储数据能力的不断增强,人们面对的数据类型日趋 纷繁复杂。在许多应用科学领域( 如环境科学、化学计量学、生物计量学、医学、 计量经济学等) 中,出现了很多结构复杂的函数性数据,此时运用传统的数据分 析方法已经不能够很好地对这些数据进行处理和分析,因此函数数据分析方法应 运而生,并成为近年来发展迅速的一个新的研究领域。 函数数据分析把传统的有限维空间中的统计分析方法扩展到了无限维空间 中,在一个全新的视角下通过运用函数分析方法对数据进行分析。它把观测数据 咒= ( m 。,以2 ,) ,闰 2 ,一看作一个整体,表示为光滑曲线或连续函数 薯( r ) 脚玉叫,其中,刀表示观测数据的个数;f 既可以表示时间,也可以表示时 间以外的其它变量。对于所有的观测对象f - 1 ,刀,不要求它们的观测点r ,和观 测次数r 相同。因此,函数数据分析与传统的分析方法相比具有很多优越性,它 可以对无限维空间数据进行分析,而且能够对函数曲线求导,得到导数曲线,从 而为分析曲线之间的差异和曲线内部动态变化模式提供更多的信息;可以对非函 数性数据运用函数数据方法进行分析。正因为具备这些优势,函数数据分析方法 有着非常广阔的理论探索和实际应用的前景。 近年来,函数数据分析已经受到了专家们越来越多地关注,很多统计学家致 力于将传统统计方法在函数数据分析领域进行拓展,提出了很多开创性的理论和 函数性非参数数据分析及其应用 方法,使得函数数据分析的理论方法更加完善,应用范围更加广泛。但是,正如 为推动函数数据分析方法的发展做出很大贡献的r a m s a yj o 和s i l v e r m a nb w 在其著作f u n c t i o n a ld a t aa n a l y s i s 中所说的:“函数数据分析方法还没有获得足 够深入的研究和发展,我们希望更多的理论能够回归到应用方法论的发展进步中 去。”目前函数数据分析方法主要是集中于参数统计方法在无限维空间中的扩展, 而把应用更加灵活的非参数统计方法与函数数据分析方法相结合的研究成果并 不多见。事实上,与函数数据分析针对结构复杂的函数性数据进行建模分析一样, 非参数技术已被证明是极好的探索复杂模型、减少传统参数模型的模型偏差的工 具。如果能把两者有机结合起来,必将提高复杂数据分析的效率和效果。 本文尝试把函数数据分析方法与非参数核估计方法相结合,把非参数函数性 数据分析方法应用于经济领域,希望能够在这一全新而充满挑战的领域的应用研 究中做出一点贡献。 1 2 国内外相关研究现状 r a m s a yj o 在1 9 8 2 年首次提出函数性数据的概念。自r a m s a yj o & s i l v e r r n a nb w ( 1 9 9 7 ,2 0 0 5 ) 、f e r r a t ye & v i e up ( 2 0 0 6 ) 的专著出版后,函数 性数据分析开始受到广泛的关注,并得到了极大的发展,它的应用领域涵盖医学、 计量经济学、环境计量学、生物计量学、化学计量学等诸多领域。 从历史上讲,在函数性数据分析方法的发展过程中具有先导作用的是函数性 主成分分析。k a r h u n e n l o e v e 展式是函数数据分析方法发展的起点,它首次把随 机过程的主成分分析扩展成函数形式,奠定了日后函数数据分析的重要方向,在 之后的2 0 年中,该方法被频繁应用于工程学领域。此后,d a u x o i s e ta 1 ( 1 9 8 2 ) 提出的函数性主成分分析方法更成为很多函数性数据分析方法发展的基础; b r u m b a c k & r i c e ( 1 9 9 8 ) 、c a r d o t ( 2 0 0 0 ) 、g i r a r d ( 2 0 0 0 ) 、j a m e se ta 1 ( 2 0 0 0 ) 、 b o e n t e n & f r a i m a n ( 2 0 0 0 ) 以及h ee ta l ( 2 0 0 5 ) 分别从不同角度改进了函数性 主成分的计算方法;a g u i l e r a ( 1 9 9 9 ) 拓展了多变量主成分回归方法,应用函数 性主成分方法对不均匀分布的连续时间序列进行预测并得到了较好结果;y a oe t a 1 ( 2 0 0 4 ) 提出了稀疏重复数据的函数性分析;v i v i a n ie ta 1 ( 2 0 0 5 ) 将函数性 主成分分析应用于脑部f m r i 重复扫描,通过对比函数性主成分分析和多元主成 第一章引论 分分析的结果,发现函数性方法能对实验操作数据提供更好的图像;m a n t ee ta 1 ( 2 0 0 7 ) 将函数型主成分分析用于地球物理应用中;c h i o u & m u l l e r ( 2 0 0 7 ) 将 函数性主成分分析用于分析函数回归模型中的残差。可见,函数性主成分分析方 法的应用领域越来越广泛。 在函数性主成分分析方法研究不断成熟的同时,学者们对其他统计方法在函 数性空间内的拓展也展开了深入研究。在回归问题研究中,最早研究的函数性回 归模型是函数性线性模型。r a m s a y & d a l z e l l ( 1 9 9 1 ) 提出了自变量和响应变量 均为函数性变量的线性模型;m a l f a i t & r a m s a y ( 2 0 0 3 ) 、c a r d o te ta 1 ( 2 0 0 7 ) 以 及h a r e z l a ke ta 1 ( 2 0 0 7 ) 对基本的函数性线性模型进行扩展。b o s q ( 2 0 0 0 ) 详 细介绍了函数性线性模型在时间序列分析中的应用,该模型中用滞后的响应变量 作为自变量;此外,j a m e s ( 2 0 0 2 ) 、m u l l e r & s t a d t m u l l e r ( 2 0 0 5 ) 详细介绍了函 数性广义线性模型及其应用。 在聚类问题研究中,有限维观测对象的聚类研究在函数性聚类分析的发展中 发挥了重要作用,大多数函数性聚类方法都是基于对有限维聚类方法的拓展。 b a g n a ue ta 1 ( 2 0 0 3 ) 、s m y t h ( 2 0 0 3 ) 基于多项式混合模型,通过估计得到模型 参数之间的相似性进行聚类;j a m e s & s u g a r ( 2 0 0 3 ) 探讨了稀疏采样的函数性聚 类问题;h a l l & h e c k m a n ( 2 0 0 2 ) 、a b r a h a me ta 1 ( 2 0 0 3 ) 提出基于厶距离的聚 类方法;c u e s t a - a l b e r t o s & f r a i m a n ( 2 0 0 7 ) 提出用k 均值方法进行函数性聚类分 析。 上述的绝大多数研究成果都是基于参数方法的,它们在r a m s a yj o & s i l v e r m a nb w ( 1 9 9 7 ,2 0 0 5 ) 的著作f u n c t i o n a ld a t aa n a l y s i s 一书中都有详细 的介绍。 在非参数函数性数据分析领域中,b e n h e n n ie ta 1 详细介绍了半参数空间中自 变量为函数性随机变量的回归模型,提出了一种新的局部交叉验证方法来选择最 优窗宽,并证明了该方法较之v i e up ( 1 9 9 1 ) 提出的方法具有更好的渐进性;与 此相近,c a r d o te ta 1 探讨了自变量是实数,响应变量为函数性数据的回归问题, 并运用非参数核估计方法证明了相关性对响应变量的重要影响;f e r r a t ye & v i e u e ( 2 0 0 6 ) 详细探讨了非参数函数数据分析方法,包括回归预测分析、聚类分析 以及时间序列分析等。 函数性非参数数据分析及其应用 综上可见,函数性数据分析研究已经取得了丰收的成果,但仍处于起步阶段, 将函数性数据分析方法应用于社会经济领域研究的更不多见。在我国,函数性数 据分析方法还仅处于介绍和学习阶段,仅有严明义( 2 0 0 7 ) 等少数文献对函数性 数据分析方法进行了简单介绍。 1 3 函数性非参数数据分析的基本思想 1 3 1 函数性数据 计算机技术,尤其是存储和计算能力的巨大进步,使得人们处理类型复杂的 海量数据成为现实。在实际中,人们在很多应用科学领域( 如环境科学、化学计 量学、生物计量学、医学、计量经济学等) 中搜集的数据都是曲线形式的。例如, 在很多情况中,在观测范围( 。,k ) 内的不同时点上观测随机变量,可以得到形 如 x ( o ) 胁v 的观测值集合。观测格点越细致,观测点距离越近,于是可以把 数据视为是连续族z = x ( ,) ;,( t m ,k ) 的一个观测序列。当然,观测格点不 一定是时间变量,也可以是其它变量。例如在现代分子生物实验中,经常利用分 光光度计产生不同波长的光源,测量样品的吸光值,从而进行核酸、蛋白定量以 及细菌生长浓度的定量研究。在这种实验中,观测格点就不是时间变量了,而是 波长变量。但无论观测格点是否为时间变量,获得的实验数据均可以视为函数性 数据。因此,我们有如下定义: 定义1 1 :如果随机变量z 可以在无限维空间( 函数空间) 中取值,那么称z 为函数性变量| ( f u n c t i o n a lv a r i a b l e ) ;称z 的一个观测序列x 为函数性数据 ( f u n c t i o n a ld a t a ) 。 当随机变量z ( 观测序列x ) 表示一个随机连续曲线( 随机连续曲线的观测 值) 时,可以直接将z 视为函数性数据z = z ( f ) ;,丁 ( x = x ( f ) ;f 丁 ) ,其 函数性质可以通过观察直观地得到,它对应着一维集合t c r ( 即观测格点集 合) 。需要注意的是,函数数据分析的研究对象不仅仅是连续曲线,还包括很多 其它复杂对象,例如图像灰度或者曲线向量( 此时丁对应的是二维集合t c r 2 ) , 4 第一章引论 以及更为复杂的无限维空间中的数学对象。为简单起见,本文仅讨论连续曲线的 情形。 有了函数性变量和函数性数据的概念,下面我们给出函数性数据集的定义。 在实际应用中,它对应着样本集合。 定义1 2 :称分布同为z 的刀个函数性变量z i ,厄的观测值为一个函数性 数据集五,x n 。 与函数性变量和函数性数据相同,函数性数据集的定义包括了很多种情形, 其中最常见的情形是曲线型数据集,它也正是本文的主要研究对象。 1 3 2 函数性非参数数据分析的基本思想 传统统计方法在处理函数性数据时往往失效,因此必须寻找新的统计方法来 分析函数性数据的特殊结构。目前常见的函数数据分析方法通常是用线性模型来 对函数性数据建模,这些方法在r a m s a yj o 和s i l v e r m a nb w ( 2 0 0 2 ,2 0 0 5 ) 的 著作f u n c t i o n a ld a t a a n a l y s i s 一书中有详尽的介绍。 上世纪六十年代后,人们开始越来越关注无定型模型( 数据分布与数据参数 均未知) 的估计方法,因此形成了非参数统计方法,并成为了现代统计学发展的 一个重要方向,产生了大量的研究成果,如h a r d l e ( 1 9 9 0 ) 、s c h i m e k ( 2 0 0 0 ) 和 a k r i t a s & p o l i t i s ( 2 0 0 3 ) 都对非参数回归方法及其应用进行了详尽的研究。 然而,他们的研究仅限于对传统的一维或多维数据的研究。最近几年的发展 方向是运用非参数无定型模型的思想,在无限维空间中分析函数性数据。本文旨 在介绍并运用非参数核估计方法对函数性数据进行预测和聚类分析。 通常情况下,假定有一组关于两变量x 和】,的数据 ( t ,咒) ,f = l ,2 ,设这 两个变量之间存在函数关系只= ( t ) + q ,扛1 ,n ,其中岛可以看成是随机干 扰。如果假定该函数的形式是已知的,并且可以写成带参数的形式矽( x ,0 ) ,其 中秒为仅有的未知量( 可以是向量) 。只要估计出口的值,就可以估计出函数矽( x ) 了。这种方法被称为参数方法。然而,在许多情况下,即使引入大量的参数,拟 合效果仍不理想,此时就需要采用非参数的方法。在非参数方法中,并不假定也 函数性非参数数据分析及其应用 不固定函数( x ) 的形式,也不设置参数,函数在每一个点x 的值都由数据决定。 这就是非参数估计的基本思想。 我们把非参数估计的思想扩展到无限维的函数空间中去,就可以对函数性数 据进行分析处理了。下面给出函数性非参数方法的一个较为正式的定义。 定义1 3 :设z 是无限维空间f 上的随枧变量,是f 上关于z 的映射,矿e c 是对矽的一个估计模型。如果c 是由空间f 上的有限个参数决定的,那么称模型 矽c 为函数性参数模型;否则,称其为函数性非参数模型。 为了更清晰的表示参数模型与非参数模型的区别,下面以回归模型: y = r ( x ) + o e 为例,说明随机变量y 关于连续曲线彳= x ( 咄f ( o ,1 ) 或多元变量 x = ( x 1 ,x p ) 在参数模型和非参数模型两种情况下的具体形式,见表1 1 。 表1 - 1参数回归模型与非参数回归模型的区别 模型 线性回归模型非参数回归模型 例1 例2 多元回归模型 x r px r p 数据 c - - rl i n e a r )c = ,c o n i n u o u s ) 形式 例3例4 函数性模型x e f 2 q o ,。)x f - q o ,。) c = p h r p ( r ) x ( ,) 刃咄p ,) c = ,c o n t i n u o u s ) 在表1 1 中,例1 就是通常所说的多元线性回归模型 p y = a o + 口j x 歹+ f , 6 第一章引论 显然,这是一个参数回归模型( 其中包含了p + 1 个未知参数:a o ,a p ) 。 例2 是经典的多元非参数回归模型 】,= ,( x 1 ,x ,) + 占。 例3 是被解释变量为标量的函数性线性回归模型 】,= r p ( ,) x ( f ) 衍+ s , 其中p ( ) 是模型中唯一的函数性参数,因此它是一个函数性参数回归模型。 r a m s a yj 0 & s i l v e r m a nb w ( 1 9 9 7 ,2 0 0 2 ) 详细讨论了该模型。 例4 中,模型( 1 1 ) 中的,可以被看成是从空间f 映射到空间r 的一个连 续函数,根据定义1 3 ,例4 正是一个函数性非参数回归模型,下文就将对该模 型进行比较详细的介绍和讨论。 至此,我们讨论了参数回归模型和非参数回归模型的主要区别和联系,并把 非参数回归方法从有限维空间扩展到了无限维的函数空间中,为下文的进一步详6 “ 细讨论奠定了理论基础。 1 4 论文的研究内容及主要创新点 本文以“函数性非参数数据分析方法及其应用”为题进行研究。运用非参数估 计方法对曲线或具有函数特征的函数性数据从函数角度进行分析,主要对函数性 非参数回归分析和函数性非参数聚类分析进行系统介绍,并在此基础上对社会经 济领域数据及生物学数据进行实证研究。 本文以下部分的结构和内容为:第二章详细介绍了如何在函数空间中运用非 参数核估计方法。作为核估计方法的基础,首先详细介绍了三种适用于函数空间 的半度量形式及其构造方法;第三章运用非参数核估计方法对函数性变量进行回 归分析,并进一步把时间序列数据构造为函数数据形式,从而实现了对时间序列 数据运用函数性非参数方法进行预测的目的。第四章对美国工业生产指数月度数 据运用第三章介绍的函数性非参数回归方法进行预测,获得了良好的实证结果, 证明了该方法在社会经济领域中广泛的应用前景;第五章介绍函数性非参数聚类 分析;第六章运用函数性非参数聚类方法,对现代生物学中荧光p c r 数据进行 实证分析,获得了良好的效果。 7 函数性非参数数据分析及其应用 本文的创新之处主要有以下几点: 第一,针对函数性数据的特点,把三种不同的半度量形式用于刻画研究对象 的接近程度,为下文运用非参数方法分析函数性数据奠定了基础。首先运用降维 的思想,提出两种半度量形式基于函数性主成分分析的半度量形式和基于偏 最小二乘法的半度量形式,实现了在有限维空间中对无限维函数性数据的分析。 其次针对常见的连续曲线形式的函数性数据,基于连续导数函数来构造半度量形 式,运用导数函数可以更加清晰的刻画出原始数据的数据特点,提高了分析精准 度。 第二,将核估计方法扩展到函数性数据分析中,并对社会经济领域数据进行 实证分析,取得了良好的实证结果,从而证明了该方法在社会经济领域研究中的 理论生命力和研究潜力。 第三,详细介绍了如何运用非参数思想,对函数性数据进行聚类分析,并运 用该方法对生物学数据进行实证研究,取得了效果良好的实证结果,说明该方法 具有广泛的应用潜力。 8 第二章函数性空间内的核估计方法 第二章函数空间内的核估计方法 本章首先介绍了在函数空间中如何测度研究对象的贴近程度,而后提出了三 种半度量形式,分别是:基于函数性主成分分析的半度量形式、基于偏最小二乘 法的半度量形式以及基于连续导数函数的半度量形式。前两种半度量形式适用于 原始数据比较粗糙的情形,第三种则适用于光滑数据。本章第三节将核估计方法 扩展到了无限维函数空间中,实现了运用非参数方法分析函数性数据的目的。最 后引入了小球概率的概念,为下文的回归分析和聚类分析奠定了基础。 2 1 函数空间内贴近程度的度量方法 几乎在所有的统计方法中,度量研究对象之间的接近程度或贴近程度都是非 常重要的。在通常情况下,我们可以用范数来度量两个研究对象之间的接近程度。 在有限维的欧几里德空间r p 中,任意范数形式是等价的,即它们所刻画的研究 对象之间的接近程度是等价的,其区别仅仅在于计算处理上方便与否。例如,设 x = ( x i , x p ) 2 是空间r p 上的一个向量,最常用的范数是欧几里德范数i i 0 : i x2 = 圭( _ ) 2 : 。 j = l 设m 为一个正定矩阵,定义 i :f = x 7 m x , 根据范数的性质可以证明以上两者具有等价性。 然而,在无限维的函数空间中,范数则不具备等价性,不同的范数刻画出研 究对象的贴近度将是完全不同的,甚至可以说,使用度量空间在这种无限维的情 形下都是过于严格的。因此应该使用半度量空间。下面给出半范数和半度量的定 义。 定义2 1 :当满足如下条件时,称i i 0 为半范数: 9 函数性非参数数据分析及其应用 ( 1 ) v ( 见,x ) r x f ,i i 五x 0 = i 兄i l i x 0 ( 2 ) v ( x ,j ,) f x f ,i 卜+ j ,0 i i x i l i i j ,0 。 定义2 2 :当满足如下条件时,称d 为半度量: ( 1 ) v x f ,d ( x ,x ) = 0 ( 2 ) v ( x ,y ,z ) f x f x f ,d ( x ,y ) d ( x ,z ) + d ( z ,y ) 实际上,半范数1 1 0 与范数i | 0 的区别仅在于:l i x l l - - o x = o 。同样地, 半度量d 与度量d 的区别也仅在于:d ( x ,y ) = o x = y 。 2 2 几种常用的半度量形式 考虑函数性随机变量( f u n c t i o n a lr a n d o mv a r i a b l e ,r v ) z = z ( f ) ;r 丁) 的 一个样本观测石,厄。我们可以根据连续曲线的形状来选择不同形式的半度量 形式。下面介绍三种比较常用的半度量构造方法- 基于函数性主成分分析、偏 最小二乘回归和连续导数函数的半度量形式。前两种方法适用于粗糙曲线,而第 三种方法适用于光滑曲线。 2 2 1 基于函数性主成分分析的半度量形式 在多元统计分析中,主成分分析( p r i n c i p l ec o m p o n e n t sa n a l y s i s ,p c a ) 经常 被用来对变量进行降维处理。近年来,主成分分析的方法也被扩展到研究函数性 数据中来。本文就把函数性主成分分析方法作为一种在低维空间中度量曲线贴近 程度的工具。 当e k 2 ( ,矽有限时,根据主成分分析的基本思想,lv z ( ,) 可展开成如 下形式: q 名( f ) = 五( f ) 彘( f ) ( 2 1 ) k - i 其中,磊( f ) 为相互正交的基函数,五( f ) = 丘( f ) 彘( f p 为主成分得分。可以证 第二章函数性空间内的核估计方法 明,当彘( r ) 为主成分权重函数,即磊( f ) 为协方差矩阵 r z ( s ,) = e ( z ( s ) z ( f ) ) 的特征值 如厶所对应的正交的特征向量时,展开式( 2 1 ) 能使 m r ) 一名( 哪= f z ( r ) 一名( r ) 2 a r t 达到最小化,这就意味着展开式名( f ) 就是z ( f ) 的最优估计,从而把z ( f ) 从无限 维空间投影到有限的q 维空间,达到了降维目的。这样,就可以应用p 范数的 定义方式来定义基于主成分的半范数和半度量: 矿( 胖厨丽丽 在实际中,协方差矩阵r ,和彘都是未知,需要从样本数据估计得到 r :( s ,t ) = l n 石( s ) z ( f ) 。 i = l 事实上,在实际中我们并不能精确地观测到连续曲线 t = _ ( ,) ;,丁 瑚,一,而 仅能得到离散的观测值 薯= ( x i ( t 1 ) ,tn ) ) 乙,一,因此有如下的估计值: 石( r ) 一z ( r ) 磊( ,) 刃j _ ( 石( o ) 一x ( o ) ) 磊( o ) , 其中w l ,m 是一组正交权重。给定两条曲线和t 的离散观测值,d q p c ai _ ,t ) 计笪加下: 矿( 7 ) = 其中,卣,参,是经旋转的协方差矩阵 r 形:1 胛y x y , w j 一。 的正交特征向量,其中形= d i a g ( w 。,m ) ,与其对应的特征值为 ,五,。 1 1 函数性非参数数据分析及其应用 格点“,o ) 越细致,用矿( _ ,薯) 吉i d ,l c a i l 石,石) 的精度就越高。 综上,基于主成分分析构造的半度量形式在实际中有着非常广泛的应用,它 最大的优点是当作为研究对象的连续曲线比较粗糙时,方法仍然适用。当然它本 身也存在一定缺陷,那就是样本观测值必须均匀分布,即样本中的每一个观测样 品都必须在同样的观测格点上获取数据,否则将无法进行主成分分析。但即使存 在一定缺陷,基于函数性主成分分析的半度量构造方法仍不失为一种实际中应用 非常方便的方法。 2 2 2 基于偏最小二乘法的半度量形式 偏最小二乘法是一种新型的多元统计方法。与传统的多元线性回归模型相 比,偏最小二乘法的特点主要是:能够在自变量存在严重多重共线性的条件下进 行回归建模;允许在样本点个数少于变量个数的条件下进行回归建模;最终模型 中将包含原有的所有变量。偏最小二乘法把多元线性回归、主成分分析以及典型 相关分析有机的结合在一个算法中,通过对多元因变量和多元自变量同时提取因 子,产生p 个成分,它们对应着p 个因变量,每个成分取决于g 个因子。根据因 子携带原始数据变异信息的多少,选择因子参与建模,从而描述出自变量与因变 量之间的函数关系。 与主成分分析一样,偏最小二乘法的思想也可以从有限维多元统计分析中拓 展到无限维函数数据分析中。本文中,我们把偏最小二乘法应用于构造半度量形 式矿fx i 一) 。 、, 设笄,彰是偏最小二乘法提取出的g 个因子,p 代表因变量的个数,与2 2 1 中基于函数性主成分分析构造半度量方法类似,有如下半度量形式: d p c a ( x i ,t ) = 其中w l ,与2 2 1 中的含义相同,都是正交权重。 由于偏最d x - - 乘法是在主成分分析的基础上进行的,因此它与主成分分析在 构造半度量的过程中具有相似的优缺点,即优点是适用于粗糙曲线,缺点也同样 是要求样本的观测格点相同。 1 2 第二章函数性空间内的核估计方法 2 2 3 基于连续导数函数的半度量形式 另一种构造半度量的方法是用连续的导数函数来构造。假设两样本观测曲线 墨和,构造如下半度量形式: 矿7 ( 五,) 2 = 胎( ,) 一( ,) ) 2 刃 其中,x ( 们为曲线x 的第g 阶导数。注意到矿( 工,0 ) 就是x 的r 范数。由于要计 算连续导数函数,因此对求导函数的数学性质要求就很高,必须是连续且光滑的。 因此在求导数函数之前,有必要对原始数据进行预处理。本文利用b 样条基函 数平滑原始数据。 假设 骂,吃) 是一个b 样条基函数,对于函数z ( r ) 的离散观测值 t = ( 毛( ) ,薯( o ) ) 1 进行如下平滑处理: 孱= ( 胁,庞) = a r s r a 舭i n 。* ( 。) 一喜毗) ) 2 只要观测格点足够细致,上式就是对 a r g 。m i n 扣妒( 娟) 一善b 哪) ) 2 出 的解的良好估计。据此可以得到曲线薯( f ) 的光顺估计: 进而得到曲线而( t ) 的g 阶导数函数: 丑 9 ( ) = 麂磷9 ( ) 。 b = l 因此,对于曲线薯和7 ,构造如下半度量: d q d e r i v1 酶) = 瓜巧丽 上式中的积分可以用高斯积分方法计算得到。至此,基于连续导数函数的半度量 就构造完成了。 在构造基于连续导数函数的半度量形式当中,b 样条基函数展开式毫( ) 代替 、- ,i 吃6屏 口糊 = 、l,j _ , t 函数性非参数数据分析及其应用 了原始函数毛( ) ,因此即使样本中观测格点并不相同,我们也可以用b 样条基 函数来“修匀样本”,所以这种半度量形式适用于样本观测格点不相同的情况。但 是它的一个缺陷是对原始函数的光顺性要求较高,只适用于光滑曲线。 2 3 函数性核估计方法 在有限维空间中,局部加权技术一向受到致力于研究非参数估计的专家的青 睐。这一小节主要讨论如何把局部平滑的思想拓展到无限维函数空间中。 在有限维空间中,最常用的一种局部加权技术就是核估计方法。下文就着重 讨论如何将核估计方法应用于函数数据分析。 2 3 1 一维空间中的核函数 核函数和窗宽是核估计的基础。通常,记核函数为k ,窗宽为h 。窗宽也即 局部加权的平滑系数。设x 为一实数,对刀个实数随机变量( r lv ) 五,五,以 有如下局部加权形式: 悄雌) 中1 ( 竿) 对实数x 进行局部加权的主要思想是根据x 与r r v 五之间的距离来确定权数, 五距离x 越远,其权数越小。 对于核函数k 有很多种选择,事实上,任何一种密度函数都可以被视为一种 核函数。简单起见,在这一部分我们仅考虑如下经典正的对称核函数。 ( 口) b o x 核函数:k ( 甜) = 弓11 【刈( 甜) ; ( 6 ) 三角核函数:k ( 甜) = ( 甜+ 1 ) 1 【_ l ,0 1 ( ) + ( 1 一u ) l t 0 + 。】( z i f ) ( c ) 二次核函数:k ( z ,) = 4 ( 1 _ u 2 ) l 【_ l ,+ l 】( “) cd ,高斯核戤脚,= 去e x p ( 一爿 为说明核函数作为局部加权方法的具体作用方式,下面以b o x 核函数为例 1 4 第二章函数性空间内的核估计方法 做一简单介绍。核函数为b o x 核函数形式时,a 的具体形式为: 冬2 札帆一】( 置) 在这里,当随机变量超过区间 x h ,x + h 】的范围时,该随机变量的权数将为零, 这样就体现了核估计局部加权的性质。另外,归一化系数去与卜一矗,x + l 】的区 间大小成正比。注意到以上这些性质并非b o x 核函数所独有,而是所有核函数 共有的。 2 3 2 多维空间中的核函数 在多元情况中,五,x 2 ,五是空间r p 上的甩个随机向量。要使得核函数k 为从空间r p 映射到空问r 的函数,一个非常自然的做法就是计算p 个实值核函 数墨,如,k p 的内积: v u = ( ,“,) 7 r p ,k ( “) = k ( “。) 心( ) k p ( u p ) 另一种方法是用利用豫,空间中的范数( e :o l i 4 ) 来构造核函数,形式如 下: v 甜r 9 ,k ( 甜) = k ( ) 。 下面我们讨论多元核函数的局部加权作用。与实值核函数类似,设x 是r ,空 间中的一个确定向量,多元核函数局部加权作用主要体现在将胛个随机向量 五,x :,五进行局部加权变换,形式如下: 今= ( 半 o 当置落在x 的某个邻域之外时,有今= o ,而且,归一化系数古与该邻域的 大小成正比。 函数性非参数数据分析及其应用 2 3 3 函数空间中的核函数 设石,厄是空间e 中的拧个r v ,x 是空间e 上的一个定值。从多元核函 南文掣 令= 辎 仁动 2 4 局部加权方法与小球概率 现在引入一个新的概念一小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论