(计算机软件与理论专业论文)基于bbnsvm和pcv的多变量时间序列预测算法研究.pdf_第1页
(计算机软件与理论专业论文)基于bbnsvm和pcv的多变量时间序列预测算法研究.pdf_第2页
(计算机软件与理论专业论文)基于bbnsvm和pcv的多变量时间序列预测算法研究.pdf_第3页
(计算机软件与理论专业论文)基于bbnsvm和pcv的多变量时间序列预测算法研究.pdf_第4页
(计算机软件与理论专业论文)基于bbnsvm和pcv的多变量时间序列预测算法研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 摘要 时间序列预测在生活和工农业生产中扮演着越来越重要的角色,它的应用遍 及很多领域,极大地推动了各个领域的发展。支持向量机( s v m ) 是基于统计学习 理论的方法,由于其具有全局最优、泛化能力强的优点,被应用到很多领域。 目前使用s v m 进行时间序列预测大部分采用单一变量进行预测,然而仅由 单一变量建立的预测模型并不能很好地刻画时间序列的变化趋势。针对这一问 题,文章提出多变量的时间序列预测方法,来提高预测精度。主要引入贝叶斯网 进行数据的分析以选择多变量。通过贝叶斯网结构学习生成贝叶斯网模型,然后 根据该模型选择预测变量的相关变量集,进行训练。这种方法可以有效地考虑变 量之间的相互影响作用,提高预测精度。 支持向量机的参数选择优劣决定其泛化能力,如何选择最佳的参数组合使得 支持向量机的训练模型更优是当前的一个研究热点。本文设计了并行k 折交叉 验证算法( p c va l g o r i t h m ) 。该算法基于m p i 编程模型,克服了传统k 折交叉验 证方法在数据量很大的情况下效率低下的缺点。算法在保证了参数优化选择能力 的前提下,极大地提高了算法的时间效率。 文章讨论对比了几种基本核函数,重点对比了多项式核函数和高斯径向基核 函数。在此基础上,提出了组合核函数方法,并做了实验对比和分析。 最后,应用基于b b n s v m 的多变量时间序列预测算法和p c v 算法对气象 时间序列和股市时间序列进行预测,并对实验结果进行分析。实验结果表明,该 算法将预测平均误差控制到1 0 以内,具有更好的泛化能力,并行k 折交叉验 证方法在保证了参数选择优化能力的前提下,将运行时间降为传统k 折交叉验 证方法的1 p 。 关键词:时间序列预测,多变量,支持向量机,k 折交叉验证,核函数,贝叶斯 网,并行 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 a b s t r a c t t h et i m es e r i e sp r e d i c t i o np l a y sm o r ei m p o r t a n tr o l ei ni n d u s t r i a lp r o d u c t i o na n d a g r i c u l t u r a lp r o d u c t i o na n do u rl i v e s i t sa p p l i c a t i o ns p r e a d sm a n yf i e l d s s u p p o r t v e c t o rm a c h i n ei sas t a t i s t i cl e a m i n gm e t h o d b e c a u s eo fi t sb e t t e rp e r f o r m a n c ea n d b e t t e rg e n e r a l i z a t i o na b i l i t y , i ti sw i d e l ya p p l i e dt om a n yf i e l d s a tp r e s e n t ,am a j o r i t yo fp r e d i c t i o nm e t h o d su s i n gs u p p o r tv e c t o rm a c h i n e sa r e s i n g l e v a r i a b l et i m es e r i e sp r e d i c t i o na l g o r i t h m s t h ep a p e rr a i s e sam u l t i v a r i a b l e p r e d i c t i o nm e t h o df o ri m p r o v i n gp r e d i c t i o na c c u r a c y i nt h ei s s u eo fs e l e c t i n g m u l t i p l ev a r i a b l e s ,w ei n t r o d u c eb a y e s i a nn e t w o r ki no r d e rt oa n a l y z er e l a t i o n s h i p a m o n gt h ev a r i a b l e sa n dt h e ns e l e c tv a r i a b l e s a tf i r s t ,w ed e t e r m i n et h ep r e d i c t e d v a r i a b l e 。a f t e rt h eb a y e s i a nn e t w o r ks t r u c t u r el e a r n i n g ,w ec a ng e tam o d e l t h e n ,t h e c o r r e l a t i v ev a r i a b l e ss e ta r es e l e c t e da c c o r d i n gt ot h i sm o d e l ,a n dt h et r a i n i n gs e ti s p r e p a r e d t h i sm e t h o dc a ne f f e c t i v e l yc o n s i d e rt h ei n t e r a c t i o na m o n gt h ev a r i a b l e s ,s o t h a ti tc a ni m p r o v et h ep r e d i c t i o na c c u r a c y t h eg e n e r a l i z a t i o na b i l i t yo fs u p p o r tv e c t o rm a c h i n ed e p e n d so np a r a m e t e r s s e l e c t i o ni n g r e a td e g r e e h o w t os e l e c t o p t i m a lp a r a m e t e r s f o ri m p r o v i n g g e n e r a l i z a t i o np e r f o r m a n c eo fs v m i sah o t s p o ta tp r e s e n t i nt h i sp a p e r , w ed e s i g na p a r a l l e l k f o l dc r o s sv a l i d a t i o na l g o r i t h m ( p c va l g o r i t h m ) b a s e do nt h em p i p r o g r a m m i n gm o d e l t h ea l g o r i t h mo v e r c o m et h es h o r t c o m i n gt h a tt h et r a d i t i o n a l k f o l dc r o s sv a l i d a t i o ni si n e f f i c i e n ti nl a r g ed a t a b a s e t h ea l g o r i t h mh e l pu ss e l e c t o p t i m a lp a r a m e t e r so fs v m ,m e a n w h i l e ,i td e c l i n e sr u n t i m eg r e a t l y w ed i s c u s sa n dc o m p a r es o m ek i n d so fb a s i ck e r n e l ,e s p e c i a l l yt h ep o l y n o m i a l k e r n e la n dg a u s s i a nr a d i a lb a s i sk e r n e l m o r e o v e r , t h em e t h o do fc o m b i n a t i o nk e m e l i sr a i s e da n dt h ec o m p a r i n ge x p e r i m e n t sh a v eb e e nm a d e a tl a s t ,t h er a i s e dm e t h o d sa r eu s e di nw e a t h e rt i m es e r i e sa n ds t o c km a r k e tt i m e s e r i e s p r e d i c t i o n t h ee x p e r i m e n t r e s u l t ss h o wt h a tm u l t i v a r i a b l et i m es e r i e s p r e d i c t i o n c a nm a k et h ea v e r a g ee r r o rw i t h i nt e n p e r c e n t ,a n d h a v eb e t t e r g e n e r a l i z a t i o na b i l i t y t h ep a r a l l e lk f o l dc r o s sv a l i d a t i o nm e t h o dh e l p su ss e l e c t 兰州人学硕士学位论文 基于b b n s v m 和p c v 的多变量时间序列预测算法研究 p a r a m e t e r sa n dm a k e t h er u nt i m eb e1 仞t i m e so ft r a d i t i o n a lm e t h o d k e y w o r d s :t i m es e r i e sp r e d i c t i o n ,m u l t i v a r i a b l e ,s u p p o r tv e c t o rm a c h i n e s ( s v m ) , k - f o l dc r o s sv a l i d a t i o n ,k e r n e lf u n c t i o n ,b a y e s i a nn e t w o r k ,p a r a l l e l 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行 研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、 数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成 果做出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名:妥塾e t期:2 丝篁:堡 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰 州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学 校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被 查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本 人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时, 第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名:孟丝导师签名: 囡崆刿 日期:趔! ! 垦! 堡 兰州大学硕士学位论文 基于b b n s v m 和p c v 的多变量时间序列预测算法研究 1 1 研究背景 第一章绪论 时间序列数据存在于生活中很多领域,时间序列预测也应用于诸多领域,例 如,股票市场,经济和销售领域,气象领域,工作负荷预测领域,过程和质量控 制领域,科学工程实验,医学领域,地震前兆预报,环境污染控制,生态平衡以 及海洋勘测等等。时问序列是将某种统计指标的数值,按时间先后顺序排列所形 成的数y u 1 。时间序列预测,就是根据时间序列的已有数据来预测时间序列变 量的未来值,是时间序列分析中一个重要的研究方向。 目前已有的时间序列预测方法有,自回归模型( a u t or e g r e s s i v em o d e l , a r ) 【2 1 1 3 4 、自回归滑动平均模型( a u t or e g r e s s i v ei n t e g r a t e dm o v i n ga v e r a g e m o d e l ,a r m a ) 2 3 】和差分自回归滑动平均模型( a r i m a ) 。已有的时间序列预 测方法已经取得了不少成果,但是依旧存在缺陷。第一,对于复杂的时问序列数 据,如气象数据、股市数据,使用连续函数是无法精确表示其变化规律的;第二, 目前大多数时间序列预测都是单变量预测,没有考虑其他因素对预测变量的影 响,导致预测结果并不理想。所以,需要研究者进一步改进已有方法,发掘新的 方法。 机器学习理论也用于时问序列预测中。它将观测到的时间序列数据归纳为函 数规律,并利用这些规律对未来时间序列数据进行预测。其中,应用比较广泛的 是神经网络方法。神经网络理论是由e d e l m a n 和d a r w i n i s m 于1 9 9 0 年提出的。 文献 5 】将神经网络应用于时间序列仿真预测。在模式识别方面,倒传递神经网 络的方法表现出良好的性能,但是,该方法自身也具有一定的局限性。首先,它 在寻找最优n n 模型过程中有大量的控制参数和处理元素。其次,在计算突触的 权重时,采用梯度下降搜索方法,这种方法有可能使本地最小化解决方案聚集。 第三,此方法使用经验风险最小化原则以得到最小化训练误差,所以不能保证好 的泛化性能。 l9 9 5 年,支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 6 】 7 算法在a t & t b e l l 实验室诞生,它是v a p n i k 和他的研究小组努力的成果。它是基于统计学习 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 理论的机器学习方法,但是它又是一种新的方法,因为它克服了传统基于数据的 机器学习方法存在的瓶颈,借助于最优化方法解决机器学习问题。它不仅是一种 理论分析算法,还是一种构造具有预测能力的模型。与神经网络方法相比,它结 构简单,泛化能力强。随着支持向量机理论的不断发展和成熟,支持向量机正在 成为继神经网络之后新的研究热点。目前,s v m 已经在很大范围内的应用中显 示出了其杰出的泛化性能,比如生物信息学 8 】,自动脸型鉴别【9 】,客户贷款评 价【1 0 】,产品价值评估【1 1 】,医学诊断 1 2 l ,手写数字识别【1 3 】等。 使用s v m 有以下几点好处:1 ) 训练过程中仅有两种参数需要选择,c 值和 核函数参数,相比其它方法,在训练过程中需要确定的参数较少。2 ) 从s v m 的 训练原理来分析,它是要解一个最小化问题,所以得到的解是最优解,解决方案 也是唯一的。3 ) 结构风险最小化原则( s t r u c t u r a lr i s km i n i m i z a t i o n ,s i w ) 不同于 经验风险最小化( e m p i r i c a lr i s km i n i m i z a t i o n ,e r m ) 原则,它是更科学的机器学 习设计原则。s r m 在子集间折衷考虑经验风险和置信范围,使得实际风险更小。 而s v m 以结构风险最小化原则为基本原则,所以它较之传统的机器学习方法, 有更大的优势。以上优点,使得s v m 具有非常好的泛化性能和非常好的应用前 景。 1 2 当前研究现状 目前对支持向量机的研究大致分为四个方向。第一,参数优化选择方向。支 持向量机模型的泛化性能很大程度上依赖于选择的参数优劣,所以,有很多研究 者研究支持向量机的参数优化选择。第二,算法的改进研究。到目前为止,支持 向量机算法在很多研究应用中取得了较好的成果,但是该算法仍然有不足,如训 练速度慢、算法复杂等。为了使得支持向量机能更准确更快速地解决实际问题, 许多研究者研究支持向量机训练算法的改进,以提高其算法效率。第三,支持向 量机的应用研究。由于其很好的泛化性能,支持向量机被应用于很多领域,例如, 医学,工程,电力,控制,股票等等。应用研究主要研究它与实际应用如何更好 的结合。第四,支持向量机核函数选择优化问题。 目前,使用得比较多的支持向量机参数优化选择的方法有,遗传算法、粒子 群优化算法和交叉验证算法 1 6 】。提出的新算法大部分是在原有经典算法基础上 2 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 的改进。例如,文献 1 4 1 使用改进了的遗传算法进行参数优化选择。文献 15 n i j 是使用改进了的粒子群优化算法选择参数。 为了提高支持向量机学习的效率,研究者提出了几种效率较快的算法,比如 s m o 算法 1 7 】,瀑布结构算法 1 8 】,先移出非支持向量方法 1 9 】,另外还有,分 解算法,增量学习方法,在线支持向量机学习算法【2 0 】,基于正交表的并行学习 算法,基于m p i 的并行学习方法,等等。最新提出的算法,是由z e y u a n a l l e nz h u 在第九届i e e e 国际数据挖掘会议上提出的p p a c k s v m 算法【2 1 】,该算法是用一 种梯度下降的方法来找到最优解。 支持向量机由于其杰出的泛化能力,越来越多地运用到各个领域,进行评估 分析、分类、识别或者预测。应用领域包括,医学、工程、电力、农业、生物学、 环境、计算机、金融、气象等。支持向量机的主要功能是进行分类或者预测。对 于分类问题,需要构造合适的分类器,然后对数据进行分类,解决问题。对于预 测问题,需要建立好的回归模型。文章主要讨论回归问题。目前已有的使用s v m 的时间序列预测方法,大部分为依赖于单变量的预测,不考虑其他变量对预测变 量的影响,所以,预测效果并不理想。另外,在实际的应用中,时间序列常常呈 现非平稳特征,增加了预测难度。于是有研究者研究采用其他方法与支持向量机 结合的方法。比如,将小波与支持向量机结合 2 2 2 3 】,算法中将小波框架核作 为支持向量机的核函数,从而改进支持向量机的模型结构,提高预测能力。文献 2 4 提出一种改进的s v m 回归估计算法,使得回归估计算法的自由度更大,使 得支持向量机在学习速度和回归估计精度两个方面都得到了一定的改进。 s h u n i c h ia m a r i 和s iw u 2 5 为了改进支持向量机分类的效果,对核函数进 行了改进。引入了放大因子g ( x ) ,提出依赖于数据的修改核函数的方法,并做 了仿真实验。e d g a ro s u n 也提出一种改进的支持向量机训练算法 2 6 】,该算法是 用分解算法来解决q p 问题。文献 2 7 】提出一种组合核函数的思想,将局部核函 数和全局核函数结合起来,不过,该文献中使用的局部核函数是一个条件正定核。 c h a r l e s a m i c c h e l l i 提出构建一种最佳的核函数组合 2 8 的思想。文献 2 9 】将混合 核函数应用于血浆脂蛋白样本与其血浆胆固醇的含量的测定,取得了较好的效 果。尽管取得了如此大的成功,在机器学习中,核函数依旧存在一些重要的问题, 需要进一步改进与完善。 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时问序列预测算泫研究 1 3 研究内容和创新点 1 3 1 研究内容 研究时间序列的统计方法就是时间序列分析,时间序列预测需要大量的观测 数据,然而实际生活中,观测数据是非常有限的。如何利用有限的观测数据进行 时间序列预测,得到精确的预测结果,关键是选择合适的预测方法。较早的基于 机器学习的时间序列预测方法,基于经验风险最小化原则。但是,大多数来自实 际的观测数据达不到经验风险最小化原则的数据量要求。而如果数据量增多,不 仅增加了训练时间,降低了预测时间效率,还会产生过学习的问题。所以,目前 的状况是时问序列预测的复杂度在增大,同时,人们对预测精度的要求又在不断 地提高。支持向量机通过将线性问题转化为高维空间的非线性问题,被广泛地应 用到非线性时间序列预测q b 3 0 3 1 】。本文在参阅了大量文献资料,对比了神经 网络方法、传统统计方法,并分析了气象、股市时间序列的特点后,提出基于贝 叶斯网和支持向量机的多变量时间序列预测算法,同时提出了用于支持向量机参 数选择的并行k 折交叉验证方法。文章的主要研究内容有以下几点。 1 ) 研究采用多变量时间序列预测算法来提高预测精确度。 目前已有的时间序列预测方法大部分都是单变量预测。文献 3 2 】 3 3 】使用支 持向量机进行时间序列预测,但是预测效果不够理想。原因可以归结为:回归预 测时仅使用单变量,只考虑到了变量自身对其变化的影响。实际生活中,一个问 题往往是很复杂的,并非仅由某一种因素决定,而是由很多因素共同决定的。面 对实际中复杂的时间序列系统,仅由单一变量建立时间序列预测模型,并不能准 确地预测其变化趋势,所以导致预测的精度下降。因此,考虑多种因素的共同作 用是科学的,也是必要的。而已有的采用多变量的时间序列预测方法主要关注多 个变量的相空间重构 3 4 ,没有从多个变量之问的依赖关系入手去分析相关变 量。而且多变量的相空间重构方法需要通过大量数据信息经验判断和反复尝试的 方法,其过程过于复杂。文章研究采用贝叶斯网分析方法进行多变量选择,从而 实现多变量时间序列预测思想。 2 ) 提出并行交叉验证算法进行参数选择优化。 支持向量机的泛化能力很大程度上受参数的影响,近年来有很多研究者研究 4 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 支持向量机的参数优化算法,也出现了许多参数优化算法,有的使用遗传算法, 有的使用粒子群优化算法,最常用的是交叉验证算法。但是,传统交叉验证算法 时间效率非常低,当数据集非常大的时候,运行时间过长。针对此问题,本文设 计了种基于m p i 编程模型的并行k 折交叉验证算法,极大地提高了算法效率。 3 ) 对比几种核函数,提出组合核函数方法。 目前,常用的核函数有多项式核函数、高斯径向基核函数以及s i g m o d 核函 数。大部分研究者使用自i 两种核函数。目前很少有研究者在同一预测中对选择不 同核函数后的预测效果作对比。文章选择不同核函数进行训练和预测,并对结果 进行了分析。然后提出一种新的组合核函数,并进行了实验和分析。 4 ) 将多变量时间序列预测应用于气象时间序列和股市时间序列预测中。 为了证明多变量时间序列预测方法和并行k 折交叉验证算法的合理性和有 效性,将其应用到气象时间序列预测和股市时间序列预测分析中,做了大量的实 验。然后对实验结果进行分析和总结。 1 3 2 主要创新点 本文的主要创新点有以下几点。 1 ) 引入了贝叶斯网模型进行多变量的分析和选择。将变量作为贝叶斯网节 点输入,经过贝叶斯网结构学习,产生贝叶斯网模型。分析该模型,从而确定预 测变量的相关数据集,进行多变量的预测。实验表明,多变量的时间序列预测方 法大大提高了预测精确度,使得预测误差控制在1 0 以内。 2 ) 设计了基于m p i 编程模型的并行k 折交叉验证算法。并行算法根据k 折 交叉验证算法的原理,将k 次训练预测任务分发到几个节点,并行执行。该方法 在保证了参数选择能力的自i f 提下,大大缩短了算法运行时间,即缩短了参数选择 的时间,提高了整体的效率。 3 ) 对比分析了选择不同核函数的多变量时间序列预测结果,提出了组合核 函数。通过对比分析不同核函数应用到样本的预测结果,证明了文章选择r b f 核函数的正确性。同时,提出了组合核函数方法,进行了初步的实验分析。 4 ) 将多变量预测算法应用到实际观测资料分析中。目前很多研究者的实验 是采用标准数据集。文章将其应用到实际观测资料中进行分析,具有实际意义, 5 兰州大学硕士学位论文 基于b b n s v m 和p c v 的多变量时间序列预测算法研究 并且为支持向量机在该领域的应用前景打下基础。 1 4 文章的组织结构 文章的组织结构如下: 第一章介绍了文章的研究背景、研究现状,提出本文的主要研究内容以及创 新点。 第二章介绍了基于s v m 的时间序列预测相关原理,包括时间预测基本理论, 支持向量机基本理论,以及支持向量机回归原理,为下文提出的算法提供最基本 的原理支持。 第三章详细介绍了基于b b n s v m 的多变量时问序列预测方法。首先简单介 绍了贝叶斯网相关概念,然后介绍了基于s v m 的多变量时间序列预测算法原理 和步骤。之后详细介绍了本文提出的基于b b n s v m 的多变量时间序列预测算法 以及和该算法相关的数据处理等操作。 第四章分析了参数选择对模型的影响,介绍了常用的参数优化选择方法以及 m p i 并行算法相关知识。然后详细介绍本文提出的并行的k 折交叉验证算法, 并分析其优越性。 第五章讨论了几种基本的核函数,从理论和实验两个方面进行对比和分析。 提出组合核函数概念,并用实验的方法进行对比分析。 第六章主要将文章提出的基于b b n s v m 的多变量时间序列预测算法应用 于气象时间序列和股市时问序列的预测,对实验结果进行分析,对比。 总结部分将本文提出的算法和所做的工作进行总结,然后提出了该领域进一 步的研究方向和内容。 6 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时问序列预测算法研究 第二章时间序列预测与支持向量机原理 2 1 时间序列预测基本理论 时间序列是一种常见而又重要的数据类型。说它常见,是因为它普遍存在于 许多重要应用领域中,比如生物学中的d n a 序列、经济学中的金融数据、股票 数据、或者是传感器网络监控数据等等都可以视为时间序列。时问序列有平稳时 间序列和非平稳时间序列两种。说它重要,是因为有大量的数据存在于时i 、日j 序列 中,根据数据挖掘的理论,我们可以从中获取到潜在的知识。而且,时间序列数 据是反映了一定规律的数据,根据统计学原理,实际观测的数据中,相邻观测值 之间是有依赖性的。所以,对其进行分析,我们可以得到有用的知识。时间序列 分析就是用来分析这种数据之间依赖性的理论方法。它通过变化的数据揭示系统 内部的结构和规律,是一种统计方法。时间序列分析一般采用曲线拟合和参数估 计来建立数学模型。 时间序列分析的基本概念之一是随机过程。所谓随机过程,是指系统的变化 没有确定形式,从而不存在静态规律 3 5 】。对每一时间t t ,s ( t ) 是时问t 的变 量。随机过程 x ( f ) ,t t ) ,咒l ,f 2 ,t n t 的分布函数为: ,= f ( x l ,而,2 ,乙) = 尸 x ( i ) ,x ( 2 ) 恐,x ( 一) 吒,( 2 - 1 ) 五,x 2 ,吒r ,t l ,t 2 ,厶t ) ) 时i 、日j 序列预测的一般过程是:首先进行合理的建模,模拟历史数据随时间变 化的规律,然后用该模型对未来的数据进行预测。 而表示变量x 在t 时的值,且t 遍历所有时刻t i et 。时间序列预测的目的是 通过已有观测值x l 抛,x t _ l 来预测x t 甚至某个x t + f 时刻的值,记作p x , 。则我们 可以把p x t 表示为观测值的函数: p x , = 厂( 而,x 2 ,t 1 ) ( 2 - 2 ) 引入误差e ,e ,表示为真实值与朋的差,即: 7 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时问序列预测算法研究 白= x t 一厂( 而,工2 ,毛一1 ) ( 2 3 ) 如果误差岛不能满足所要求的精度,那么该函数就不能刻画五的值变化趋 势,从而无法得到好的预测效果。因而,改变预测函数厂为下式: o r , = 五一f ( x l ,x 2 ,一1 ) ( 2 4 ) 其中,q 是白噪声。对于实际的预测值来说,厂应满足对于有限的输入数据 仍能有很好的预测能力。于是,预测函数更一般的定义可以表示成: z ( x ) = f ( x i ,x 2 ,t l ,口,一l ,口,一2 ,口i ) ( 2 - 5 ) 这里,x 的预测值受的历史值所影响。所以,需要确定t 2 ,从而确定x 的预 测函数。一般情况下,在此设为白噪声。 2 2 支持向量机原理 2 2 1 支持向量机基本原理 支持向量机是一种算法,它使用一种非线性映射,将原训练数据映射到较高 维上,然后在此高维上,搜索最佳分离超平面,最简单的,两个类的问题,如果 两个类是线性可分的,如图2 1 ,可以画出无限多条分离直线用来分离两个类。 这些直线中,最好的一条直线应该可以对先前未见到的元组分类,同时具有最小 分类误差。如果,我们的数据是3 维的,则我们希望找出的是最佳分离面。推广 到n 维,我们需要找出的就是最佳超平面。这就是s v m 的摹本思想,通过搜索 最大边缘平面来处理分类问题。边缘,可以说是从超平面到其边缘的一个侧面的 最短距离等于从该超平面到其边缘的另一个侧面的最短距离。在处理具体问题 时,这个距离是从最大边缘超平面到两个类的最近训练元组的最短距离。如图 2 2 中,左边的图中的超平面也可以将两个类分丌,但是它的边缘非常小,如果 有新的数据元组加入,它可能无法将其正确分类。相比较,右边的图的超平面日 具有最大边缘,对于分类问题,我们就是要找出这样的日来。 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时问序列预测算法研究 图2 1 线性可分的2 d 数据集,有无限个分离超平面 i j o i o o i i 3 o o i o l 。, 垄垒t f 。一 1 : 图2 - 2 两种司能的分离超平回 图2 - 2 的右图中,白色点和黑色点代表两类样本,两个平面日l 飓,h 为 超平面,日i ,飓分别是过各类中离日最近的样本且平行于的平面,它们之间 的距离为m a r g i n ,叫做分类间隔。分类面函数表示为: ( w x ) + 6 = 0( 2 6 ) 落在超平面上方的点满足( w 五) + 6 = + 1 ,落在超平面下方的点满足 ( w x 2 ) + b = - 1 ,于是有w ( x l 一如) = 2 , 得到l 和仍之| 、日j 的距离 赢电训2 丽2 0 2 - 2 右图中,最优的平面目足能将两个类正确地分开,同时 使得分类间隔达到最大的分类面。也就是说要求距离志的最大值,相当于求 i t w l i 劲w i i2 的最小值,即: m m 去i i 叫1 2 ,s t y 。( ( w 墨) + 6 ) 1 ,芦1 ,2 ,z ( 2 - 7 ) 9 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 图中,落在平面h l ,飓上的训练样本点称为支持向量,分类间隔最大化保 证了学习的泛化能力。 对于线性可分的情况,利用l a g r a n g e 优化理论,其最优解可以通过求解它 的拉格朗日方程的对偶问题的解得到。所以,我们引入l a g r a n g e 函数: , l ( w , b ,口) = i 18 叫i2 一呸( 咒( w 玉+ 6 ) 一1 ) ( 2 - 8 ) s t 呸0 对上式中的w 和b 分别求偏微分,并且令它们等于零,则有: _ a l ( w , b , a ) = w - - 壹只薯:o o w百 业o 幽b = 喜q 删鲁“ 这里,q 0 由2 9 和2 1 0 可以得到: f w = 口 i y i x i f = l ( 2 9 ) ( 2 一l o ) ( 2 - 1 1 ) , m = o ( 2 1 2 ) i = 1 将2 1 1 式和2 1 2 式代入2 - 8 式,得到原i 、u j 题的对偶问题如式2 1 3 : m 。i n l c 6 ,口,= 三喜喜口一只乃c x 。x ,一善i c 2 - t 3 , , 趴t 咒= o ,a i 0 ,i = 1 2 , 所以,为了求最佳分离面,我们要求的问题转化为式2 1 4 的问题: 珊n 互1 备t 蔷t 哆口,只乃( x ,x ) 一善i , j t 哆乃= 0 ,q 0 ,i = 1 ,2 , 由上分析和推导,分类决策函数可以写为: 1 0 ( 2 1 4 ) 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 , f ( x ) = s g n ( ( w z ) + 6 ) = s 印( 嘶咒( x ) + 6 ) ( 2 1 5 ) i = 1 其中,呸是每个样本对应的l a g r a n g e 乘子,如果哆0 ,则样本就是支持 向量。 对于线性不可分的情况,上面的模型是不适用的。而且,事实上,在实际问 题中,训练样本集往往是线性不可分的。解决此问题的方法是,扩展以上介绍的 线性s v m ,创建非线性s v m 来对线性不可分的数据进行分类。这种s v m 能够 发现输入空间中的非线性超曲面,也就是我们需要找的非线性决策面。具体分为 两个主要步骤,第一步,用非线性映射将原输入数据映射到较高维空间。第二步, 在新的空间搜索线性分离超平面。此时,遇到二次优化问题,可以用线性s v m 公式求解。 利用非线性映射函数e ( x ) ,把输入空问向量映射到一个高维空间,在解线性 s v m 的二次优化问题时,训练样本只以玉x ,的形式出现。因此,定义了如下的 函数: k ( ,一) = 妒( 誓) 。口o ( x j ) ( 2 - 1 6 ) 它用来在高维空间计算内积,被称为核函数,在训练算法中,以k ( 薯,) 替 换伊( 玉) 伊( _ ) 。 考虑到一定的误差,加入松弛变量皇0 ,使得分类超平面满足: y i ( ( w 毛) + 6 ) 1 一磊, i = 1 ,2 , 此时,求解的目标函数为: m i n 帅2 + c 喜每 s 1 片( ( w 玉) + 6 ) l 一参 量0 ,扛1 ,2 , 同上,使用l a g r a n g e 函数求解,最后得到相应的分类决策函数为: , 厂( x ) = s g n ( z a i y i k ( x i t ) + 6 ) f = i ( 2 - 1 7 ) ( 2 - 1 8 ) 兰州人学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 目前主要使用的核函数有以下几种【3 5 】: 1 ) 多项式核( p o l y n o m i a lk e r n e l ) : k ( x ,x - ) = ( y ( x x - ) + c o e f ) d( 2 1 9 ) 2 ) 高斯径向基核( g a u s s i a nr a d i a lb a s i sk e r n e l ) : 一- - x 。 | 1 2 k ( x ,x ) = e 2 一 ( 2 - 2 0 ) 3 ) s i g m o i d 核: k ( x ,戈) = t a n h ( k ( x x 3 + 1 ,)( 2 - 2 1 ) 其中k 0 ,v 0 。这个函数不是正定核,在某些实际应用中会非常有效。 另外种核函数是:b 样条核函数:k ( x ,x ) = b 2 n + i ( x - x ) ,但是这种核函数 在实际中应用还是比较少。 2 2 2 支持向量机回归原理 支持向量机是种新兴的机器学习工具,研究出来后用它解决分类问题,后 来在线性和非线性回归问题中也逐渐开始使用。用于回归的支持向量机主要通过 大量的数据,学习输入训练数据薯与对应的连续值输出”之间的联系。 在支持向量机回归问题中,确定合适的损失函数是非常重要的,因为损失函 数决定了回归的结果,尤其是在数据存在不真实的情况下。1 9 6 4 年,h u b e r 提出 基于噪声模型选择损失函数的最佳方法。然而h u b e r 所提出的损失函数不能使得 支持向量稀疏。为了解决这个问题,v a p n i k 提出了g 不敏感损失函数,其数学形 式化表示为: 讹h ) 屯而) 当写蔫二y , i 占( 2 - 2 2 )“讹卜舻舨护筠二新) 一占 假没用另一个函数g ( x ) 逼近函数f ( x ) ,使得函数f ( x ) 位于g ( x ) 的占管道中 央,s 在此表示可以接受的误差范围。如果在某点f ( x ) 与g ( x ) 的差值的绝对值 小于占,则认为g ( x ) 逼近了f ( x ) 。s 不敏感损失函数表示图如下: 1 2 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 从原理上说,支持向量机回归,就是要找到一个非线性函数,使输入向量通 过该非线性函数逼近输出向量。其基本思想为:首先通过一个非线性映射妒( 石) 把 原始数据x i 映射到一个高维空间,在高维空间进行线性回归。在优化过程中涉及 到高维空间中的内积运算,同上,用核函数k ( 薯,) 代替内积缈( 薯) 妒( _ ) 来实现 非线性回归。因此求非线性回归函数的问题转化为求下面的优化问题。 如果存在一个超平面厂( 工) = ( w x ) + 6 ,其中w e r 甩,b e r ,下面的式子成立: i y ,一f ( x ;) l 占,f = 1 , 2 ,以 ( 2 - 2 3 ) 矗表示点瓴,y i ) g 到超平面他) 的距离,则厶距离应满足: = 雩一斋产墟,棚 弘2 4 , 通过上式表明,t i 是点( x i ,y i ) 至l j 超平面的距离的最大值。最优近似超 l + 2 平面是通过最大化南得至。的,其实就是求解最小化l + 0 训2 。最小化问题 l + 娜 。 为: m i n 劲硎2 ,“i ( w 石) + 6 一只i 占,扛1 ,2 ,棚 ( 2 2 5 ) 我们依旧引入l a g r a n g e 函数来求解该问题。考虑到可能存在误差,引入两 个松弛变量:量,告? o ,i = 1 , 2 ,棚,得到新的求解最小化问题: 幽帅2 + c 喜( 轰+ 鼽 1 3 劬 乏 q 聆 三、乙卫 b l = = 知等 + + s g 一 一 功 + 一 毗m 眇瓴 o 缈圹 兰州人学硕士学位论文基于b b n s v m 和p c v 的多变量时问序列预测算法研究 为: 为求解该最小化问题,引入l a g ;r a n g e 乘子口,口。,7 7 ,r ,对应的l a g r a n g e 函数 ( w 6 ,口,口) :要0 叫1 2 + c n ( 7 7 蠡+ 矿占) 一窆口, + 专一咒+ ( w 功+ 6 ) 。 9 1 ”1 ( 2 - 2 7 ) - z 威+ + y - ( w x ) - b ) 约束为嘭,z o ,r l ,矿o ,i = 1 ,2 ,n 。此时,函数的极值应满足以下4 个 条件: 于是得到: 坠岈olow o b - o ,善0 4 , = o ,詈一o :8 ( 2 2 8 ) w 2 善( 一西如善( 哆一西) = o ( 2 - 2 9 ) c q 一7 7 f = o ,i = 1 ,2 , c 一西一芴= o ,i = 1 ,2 ,以 把上述四个式子代入( 2 2 7 ) q b ,得到l a g r a n g e 对偶问题为: m i p 去( 口? 一) ( 口j 一口) 髟( ,_ ) + s ( 口? 一) 一乃( 口? 一口,) ( 2 3 0 ) 口口 zi :i i :li = l 约束条件为:( 口,一5 - ) = 0 ,0 呸,口? y ,i = l ,2 ,以。 求出该问题的解,就可以求得回归问题的解。 1 4 兰州大学硕士学位论文基于b b n s v m 和p c v 的多变量时间序列预测算法研究 第三章基于b b n s v m 的多变量时间序列 预测方法 3 1 贝叶斯网概念和学习 贝叶斯网,其实际全称是贝叶斯信念网( b a y e s i a nb e l i e f n e t w o r k s ,b b n ) ,它 是基于概率论和图沦的模型,用来表示不确定知识。它起源于人工智能领域的研 究,近年来对众多其它领域也产生了重要影响。2 0 世纪8 0 年代,贝叶斯网成功 地应用于专家系统中对不确定知识的表达;接着,贝叶斯推理迅速发展。到了 2 0 世纪9 0 年代,研究者考虑从数据中学习并生成贝叶斯网,该思想取得了初步 的研究成果。 贝叶斯网是用条件独立性假设和局部条件概率集合来表示一组变量在联合 空间q o i n ts p a c e ) 中的联合概率分布o o i n tp r o b a b i l i t yd i s t r i b u t i o n ) 。给定随机变量 集合x = ( x i ,t ,鼍) ,该集合的贝叶斯网由两部分构成,分别是凰和印。 历是贝叶斯网结构。它是一个有向无环

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论