(应用数学专业论文)股票权证基于分类模型的升跌趋势预测.pdf_第1页
(应用数学专业论文)股票权证基于分类模型的升跌趋势预测.pdf_第2页
(应用数学专业论文)股票权证基于分类模型的升跌趋势预测.pdf_第3页
(应用数学专业论文)股票权证基于分类模型的升跌趋势预测.pdf_第4页
(应用数学专业论文)股票权证基于分类模型的升跌趋势预测.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

股票权证基于分类模型的升跌趋势预测 专业:应用数学 硕士生:苏醒侨 指导教师:张磊副教授,姚正安教授 摘要 股票权证( 以股票为标的物的权证) 作为金融衍生物的一种,传统的分析预 测方式是基于数量经济学上的布莱克斯科尔斯( b l a c k s c h o l e s ) ( 1 9 7 3 ) 期权定 价公式构造预测模型但该定价公式不符合我国资本市场的实际情况:我国的证 券市场没有卖空机制,该公式的前提假设条件不能满足,故强制性的将 b l a c k - s c h o l e s 期权定价公式应用于我国的权证预测,效果往往差强人意本文应 用数据挖掘的方法,在对股票权证的真实历史交易信息进行聚类处理的基础上, 应用相关的分类学习算法,最终建立权证波动趋势( 升,跌) 的预测模型用真 实的股票权证交易历史数据对该模型进行检测,预测效果令人满意 本文的主要工作主要包括两个部分:首先是针对原权证交易历史数据各列属 性为连续值的情况,本文利用聚类算法s o m ( 自组织映射算法) ,对各属性列分 别聚类,很好将连续值转换为状态值,而且这样的聚类处理减少了连续值离散化 过程中的信息损失 权证波动趋势( 升,跌) 的预测作为一个分类问题,本文选用了n a i v e b a y e s i a n m o d e l + a d a b o o s ta l g o r i t h m 方法构造分类器其中n a i v eb a y e s i a nm o d e l ( 朴素 贝叶斯模型) 作为弱分类器,应用a d a b o o s t 算法来训练加强,以构造强分类器最 终构造的强分类器对股票权证的波动趋势( 升,跌) 预测效果令人满意 关键词:权证,自组织映射算法,朴素贝叶斯分类器,a d a b o o s t 学习算法 f o r e c a s t i n gs t o c kw a r r a n tp r i c e sr i s i n go rf a l l i n g w i t hc l a s s i f i c a t i o nm o d e l m a j o r :a p p l i e dm a t h e m a t i c s n a m e :s ux i n g q i a o s u p e r v i s o r :z h a n gl e i ,y a oz h e n g a n a b s t r a c t a saf i n a n c i a ld e r i v a t i v e ,s t o c kw a r r a n ti saw r i t t e nc e r t i f i c a t et h a tg i v e st h e h o l d e rt h er i g h tt op u r c h a s es h a r e so fas t o c kf o ras p e c i f i e dp r i c ew i t h i na s p e c i f i e dp e r i o do ft i m e m o s to fc l a s s i c a lm o d e l sa n dt e c h n i q u e sf o rw a r r a n t p r i c e sa n a l y s i sa n dp r e d i c t i o na r er o o t e di nt h eo p t i o np r i c i n gm o d e ld e v e l o p e d b yf i s c h e rb l a c ka n dm y r o ns c h o l e si n1 9 7 3 u n f o r t u n a t e l y , s u c hm o d e li sn o t s a t i s f i e dw i t ht h ea c t u a lf a c to ft h ec a p i t a lm a r k e ti no u rc o u n t r y :i nt h e c o n d i t i o no fl a c k i n gs h o r ts d f i n gm e c h a n i s mi no u rs e c u r i t i e sm a r k e t ,t h e p r e c o n d i t i o no ft h eb l a c k s c h o l e sm o d e lc o u l d n tb es a t i s f i e d f o rt h i sr e a s o n 。 s u c hs o l u t i o nc o u l d n tr e a c hap r e c i s er e s u l ti no u rw a r r a n tp r i c e sp r e d i c t i o n t h i sp a p e ra p p f i e ds o m ea l g o r i t h m si nd a t am i n i n gt ob u i l dt h em o d a lf o rs t o c k w a r r a n tp r i c e s r i s i n go rm i r i n gp r e d i c t i o n w e f i r s te m p l o y e dac l u s t e r i n g a l g o r i t h mf o rt h ep r e p r o c e s s i n go ft h er e a ls t o c kw a r r a n t s h i s t o r i c a le x c h a n g e d a t a a n dt h e n ,w eu s e ds o m ec l a s s i f i c a t i o nm o d e l si nd a t am i n i n gt oc o n s t r u c t t h ef i n a lp r e d i c t i o nm o d e l t h em o d e lp r o m o t e di nt h i sp a p e rw a st e s t e db ys o m er e a ls t o c kw a r r a n t s h i s t o r i c a le x c h a n g ed a t a ,a n di ts h o w e dag o o df o r e c a s t i n ga b i f i t yt h r o u g ht h e t e s t i n gp r o c e s s k e y w o r d s :s t o c kw a r r a n t ,s o ma l g o r i t h m ,n a i v eb a y e s i a nm o d 乩a d a b o o s t 第一章引言 本章首先介绍本文的研究背景,然后进一步阐述本文的研究范围及研究意 义,最后介绍本文的主要内容及其体系架构 1 1 背景介绍 权证是国际证券市场上的一种最初级的金融衍生物,它是由发行人发行的, 能够按照特定价格在特定时间内购买或卖出一定数量的标的证券的选择权凭 证标的证券可以是股票,基金,债券,一篮子股票,货币等投资品种以股票 为标的证券的权证简称为股票权证 股票权证本质上是一种股票期权,它反映了权证发行人与持有人之间的一种 契约关系,持有人以一定代价( 交付权利金) 从发行人那里获取一个权利,即持 有人可以在未来某一日期或特定期间内,以约定好的价格向权证发行人购买或出 售一定数量的资产在权证的存续期间,权证持有人可以在证券交易市场转售权 证而根据权证具体的供求关系和投资价值,权证的价格不断波动 权证持有人获得的是一种权利,而不是责任,当履约行权对持有人不利时, 持有人可以取消行权( 放弃权利) 是否行权完全取决于权证的持有人,权证持 有人决定是否使用权证赋予的权利的主要根据是“未来某个时刻”交易标的物的 市场价格 按照履约行权的期限可以把权证分为美式权证,欧式权证及百慕大权证美 式权证的持有人在权证到期日前的任何交易时间均可行使其权利,而欧式权证持 有人只可以在权证到期f i 当天行使其权利美式权证虽然较为灵活和方便,但相 应的权利金是十分高昂的,而欧式期权的权利金较低百慕大权证是行权方式介 于欧式权证和美式权证之间的权证,权证可以在事先指定的存续期内的若干个 交易日行权目前国际上大部分的权证交易都是欧式权证我国现行的股票权证 交易也以欧式权证为主 根据权利的行使方向,权证又可以分为认股权证( 认购权证) 和认沽权证,认 购权证持有人有权按照约定价格在特定期限内或到期日向发行人买入标的证券, 认沽权证持有人则有权按约定价格在特定期限或到期日向发行人卖出标的证券 我国股票权证市场的发展比较曲折:1 9 9 2 年6 月,大飞乐配股权证作为我国 第一个权证产品在沪市推出,此后相继有十几种权证在沪深证券交易所上市交 易但是到了1 9 9 6 年年底,管理层出于“抑制过度投机”的原因,取消了所有的 权证交易直至2 0 0 5 年6 月1 4 日,上海交易所制定上海证券交易所权证业务管 理暂行办法,在被叫停九年之后,权证交易在国内证券市场重新启动2 0 0 5 年8 月2 2 日,宝钢权证作为证券市场恢复权证交易的第一个权证产品终于面世其后 多个权证产品陆续推出:武钢权证,鞍钢权证,万科权证,白云机场权证 本文主要讨论的对象是欧式股票权证其中相关实验所用的权证交易数据是 来自宝钢权证,万科权证和武钢权证,这三个权证产品简介如下: 宝钢丌b 15 8 0 0 0 0 基本概况: 发行人:宝钢集团有限公司上市地点:上海证券交易所 标的证券:g 宝钢6 0 0 0 1 9 权证类型;认购权证 行权代码:5 8 2 0 0 0 行权简称:e s 0 6 0 8 3 0 发行数量:3 8 7 7 0 万份权证余额:3 8 7 7 0 万份( 截止2 0 0 5 1 2 8 ) 行权方式:欧式行权价格:4 5 0 行权比例:1 结算方式:实物 上市日期:2 0 0 5 年8 月2 2 日 存续期间:2 0 0 5 年8 月1 8 日一一2 0 0 6 年8 月3 0 日 行权期问:2 0 0 6 年8 月3 0 日 到期日期:2 0 0 6 年8 月3 0 日 万科h r p l0 3 8 0 0 1 基本概况: 发行人:华润股份有限公司上市地点:深圳证券交易所 标的证券:g 万科a0 0 0 0 0 2 权证类型:认沽权证 发行数量:2 1 4 0 2 8 6 0 0 8 万份权证余额:2 1 4 0 2 8 6 0 0 8 万份 ( 截止2 0 0 5 1 2 8 ) 行权方式:百幕大式行权价格:3 7 3 行权比例:1 结算方式:实物 上市日期:2 0 0 5 年1 2 月5 日 存续期问:2 0 0 5 年1 2 月5 日一一2 0 0 6 年9 月4 日 行权期间:2 0 0 6 年8 月2 9 日一一2 0 0 6 年9 月4 日 到期日期:2 0 0 6 年9 月4 日 武钢】t b l5 8 0 0 0 1 基本概况: 发行人:武汉钢铁( 集团) 公司上市地点:上海证券交易所 标的证券:g 武钢6 0 0 0 0 5 权证类型:认购权证 2 行权代码:5 8 2 0 0 1 行权简称:e s 0 6 1 1 2 2 发行数量:4 7 4 0 0 万份权证余额:11 6 4 6 0 3 7 6 2 万份 ( 截止2 0 0 5 1 2 8 ) 行权方式:欧式行权价格:2 9 0 行权比例:1 结算方式:实物 上市日期:2 0 0 5 年1 1 月2 3 日 存续期问:2 0 0 5 年1 1 月2 3 日一一2 0 0 6 年1 1 月2 2 日 行权期问:2 0 0 6 年1 1 月1 6 日一一2 0 0 6 年1 1 月2 2 日 到期日期:2 0 0 6 年1 1 月2 2e l 股票权证作为证券市场上的投资品种,其价值主要受以下几方面因素的影 响,下面以认股权证为例具体说明: 认股权证事实上可以看成是一份看涨期权,当权证执行价格不变时,认股权 证的价值随股票价格的上涨而上涨其价值上限就是标的股票价格,价值下限是 执行认股权证时的实际股价减去执行价格认股权证的价值包括两个方面:当股 票的实际价格高于执行价格时,投资者只要认购股票并在市场出售,即可获得之 间的价差,此称为“执行价值”;另一方面,只要认股权证尚未到期,则标的股 票价格有进一步上涨的空间即为“时间价值” 影响认股权证价值的因素主要有以下五个: 一是标的股价的波动率它是认股权证价值最重要的决定因素股价的波动 性可以是根据标的股票过去一段时间内的价格信息所计算出来的报酬率变异 性波动性越大,代表股价的涨幅越高,同时认股权证的获利机会也就越高因 此,标的股价的波动率与认股权证呈正向关系 二是标的股价认股权证与其标的股价同步涨跌,因为执行价格的收益来自 标的股价与执行价格的差距,因此标的股价越高,认股权证的价值也越高 三是执行价格与标的股价相反,执行价格与认股权证的价值呈反向关系 四是到期期限由于认股权证存在时间价值,愈接近到期日,认股权证的获 利机会愈少,因此认股权证的价值也愈少 五是无风险利率无风险利率通常用来衡量某项投资所用资金的机会成本, 也即是资金不用于这项投资而用于其他投资所能获得的最高收益若投资者直接 购买标的股票,必须支付全部的股价,当无风险利率越高时,资金的机会成本越 高若购买认股权证,则只需支付少量的保证金,这优于直接购买股票因此, 无风险利率越高,认股权证的价值越高 本论文应用数据挖掘的相关算法,首先对股票权证的真实历史交易数据各属 性列分别进行聚类处理,将各属性列的值离散化成状态值进一步应用数据挖掘 的分类算法,最终建立权证波动趋势( 升,跌) 的分类预测模型 1 2 本文工作及其意义 作为证券市场上一种活跃的金融衍生物投资产品,权证的价格预测问题一直 颇受关注相关的研究学者,都试图通过分析权证市场的历史数据,价格趋势和 各种指标,从中发现最能刻画在未来某个阶段权证产品价格走势的规律针对此 问题,经济学家和数学家提出过很多不同的模型,其中r o b e r tc m e r t o n ,f i s c h e r b l a c k 和m y r o ns c h o l e s 在1 9 7 3 年提出了b l a c k s c h o l e s 欧式看涨期权定价公式 【1 】1 ,是目前世界上最流行的期权定价公式而权证作为特殊的期权产品,也适 用于该定价模型作为第一个成功的期权定价公式,该公式考虑了期权价格与上 述五个因素的关系其具体形式如下: c ( e ) = s ( 吐) 一鲁。s ( d :) ( 1 1 ) d 2 = d 1 = = d 1 一o 一t ( 1 2 ) ( 1 3 ) 式中,s 为标的证券目前价格,e 为协定价格,c 陋) 为期权价格,e 为自 然对数的底2 7 1 8 2 8 ;t 为到期日以前的剩余时间,以年为单位表示;r 为无风险 的市场年利率,用小数表示;i n 为自然对数;盯为即期价格的波动幅度;n “) 为 对于给定自变量d ,服从标准正态分布s ( 0 ,1 ) 的概率,其数值可从正态分布表中 查得 对于欧式看跌期权的价格,可利用看涨期权与看跌期权之间的平价关系近似 地求得其计算公式为: p ( e ) = e 。e 1 。( d 2 ) - s ( 一面) ( 1 - - 4 ) 4 矿一 竽 s e f 一 卜一 n b 一 5 一 加万p 一矿 + 一 、i土 s e 一 盟 目前国外很多的期权预测模型都是基于b l a c k s c h o l e s 定价公式而建立 的但b l a c k s c h o l e s 模型只给出期权价格的表达式,却没有回答怎样求解该模 型对于b l a c k s c h o l e s 模型的求解问题,常用的是数值解法,包括:构建微分 方程求数值解【2 】,1 3 1 ;m o n t ec a r l o 模拟法求解【4 7 】;最小二乘法回归【8 】,【9 】但 b l a c k s c h o l e s 模型是基于一定的假设条件才成立的,与目前我国证券市场的现 状有一定的差距正如2 0 0 5 年8 月2 2 日宝钢权证在上海交易所上市,知名券商 国泰君安通过b l a c k s c h o l e s 模型将宝钢权证上市价格定为o 6 8 8 元,但事实上, 宝钢权证当天早市以1 2 6 3 元涨停开盘,打开交易后不到两分钟又涨停,当日以 1 2 6 3 元收盘,和国泰君安预测的理论价格相差甚远这是因为b l a c k s c h o l e s 期 权计价公式不符合我国证券市场的实际情况:我国没有卖空机制, b l a c k s c h o l e s 模型的前提假设条件不满足实际上,我国目前的权证产品的投 机价值远高于其理论价值 数据挖掘领域中的许多学者对权证价格预测问题也十分关注,结合一定的 金融背景知识,众多数据挖掘算法在该问题的应用上,取得不错的效果现阶段 应用于权证价格预测的数据挖掘方法主要有:神经网络算法( a r t i f i c i a ln e u r a l n e t w o r k s ) 【1 0 1 2 1 ,遗传算法( g e n e t i c a l g o r i t h m s ) 1 3 ,支持向量机( s u p p o r t v e c t o r m a c h i n e s ) 【1 4 ,1 5 】,这些算法的应用取得了一定的效果 本文主要的工作是应用数据挖掘的相关算法,构建分类模型,对欧式股票 权证的升跌趋势进行预测具体的处理方法如下: 通过对权证市场的历史数据,价格趋势和各种指标属性的离散化处理,分析, 应用分类器技术预测权证产品的升跌趋势在数据预处理的基础上,本文利用聚 类算法s o m ( 自组织映射网络) 对权证产品的各个属性分别独立聚类,很好的 解决了连续值转换为离散值的问题,而且该聚类方法很好的减少了离散化过程中 的信息损失权证波动趋势( 升,跌) 的预测作为一个分类问题,本文选用了 n a i v eb a y e s i a nm o d e l + a d a b o o s ta l g o r i t h m 构建最终的分类器其中n a i v e b a y e s i a nm o d e l ( 朴素贝叶斯模型) 作为弱分类器,用机器学习方面的a d a b o o s t 算法来训练加强,以构造强分类器本文应用此实验方案对我国证券市场上的三 个权证产品的真实交易数据进行分类预测,实验结果表明,该方案能很好的处理 股票权证的波动趋势预测问题 5 1 3 本文结构 本文接下来的部分安排如下:第二章介绍数据挖掘的相关技术,其中重点介 绍应用于本文的聚类,分类算法第三章重点介绍机器学习方面的a d a b o o s t 算 法,主要介绍该算法将弱分类器训练转化为强分类器的相关思想第四章将具体 介绍本文构建的股票权证升跌趋势分类预测模型:以s o m 算法将各属性列的连 续值离散化,在此基础上,应用n a i v eb a y e s i a nm o d e l + a d a b o o s t 构建最终的分 类器模型对股票权证的升跌趋势进行预测本文的第五章介绍上述模型对我国证 券市场上的三个权证产品的真实交易数据进行分类预测的相关结果,通过具体的 实验结果检验模型的可靠性第六章,总结全文的工作,提出进一步工作的想法 6 第二章数据挖掘概述 在具体介绍股票权证分类预测模型之前,我们先介绍相关的数据挖掘知识及 本文用到的相关算法 2 1 概述 数据挖掘( d a t am i n i n g ) 是近年来随着人工智能、机器学习和数据库技术的 发展而出现的一门新兴的技术,它主要利用各种分析工具在海量数据中发现模型 和数据间关系,提取隐含的但有用的信息和知识的过程【1 6 】 数据挖掘起源于二十世纪六十年代开始的统计分析和神经网络研究在不断 的发展过程中,数据挖掘充分融合了数据库、人工智能、机器学习、统计学等多 个领域的理论和技术2 0 世纪8 0 年代末出现了一个新的术语,即数据库中的知 识发现,简称k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) k d d 是从数据中发现 模式或描述数据间的联系的过程,其主要步骤包括数据选择、数据预处理、数据 转换、数据挖掘、结果解释及评估1 1 7 1 ,如图2 - 1 所示 图2 1k d d 过程 其中数据挖掘只是k d d 中的一个阶段,却是最重要的一个阶段,因为它发 现隐藏的知识人们往往不加区别地使用这两个概念,一般在工程应用领域多称 为数据挖掘,而在研究领域则多称为数据库中的知识发现因此,在本文以下部 7 分将不再区分数据挖掘与数据库中的知识发现这两个概念 目前数据挖掘已经广泛地应用于各种领域:市场分析方面的数据挖掘应用 【1 8 】,生物科学界针对蛋白质和d n a 序列分析的数据挖掘应用【1 9 】,金融领域的 数据挖掘应用 2 0 - - 2 2 ,财务领域的数据挖掘应用【2 3 】 作为一个知识体系,数据挖掘比较典型的方法有关联分析、序列模式分析、 分类分析、聚类分析等各种方法简单介绍如下: 关联分析( a s s o c i a t i o na n a & s i s ) 关联分析,即利用关联规则进行数据挖掘关联分析的目的是挖掘发现存在 于大量数据项集之间有趣的关联或相关关系,它能发现数据库中诸如“同一次的 超市购物过程中,如果顾客购买牛奶,他同时也购买面包( 具体是什么类型的面 包) 的概率有多大”这类的问题,常用的算法包括a p r i o r i 算法【2 4 】,频繁模式增 长 7 5 1 ,多层关联规则 2 6 ,2 7 1 ,多维关联规则【2 8 】 序列模式分析( s e q u e n c ep a t t e r na n a l y s i s ) 序列模式分析主要应用于挖掘时间变化过程中,研究对象的变化规律或趋 势,主要的一些应用包括:金融市场的分析预测,动态产品的加工过程,科学实 验等其研究内容主要包括:趋势分析,时序分析中的相似度搜索【2 9 】,序列模 式和循环模式挖掘 3 0 1 分类分析( c l a s s i f i c a t i o na n a l y s i s ) 设有一个数据库和一组具有不同特征的类别( 标记) ,该数据库中的每一个记 录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集分类分析就 是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或 挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类常用的 分类算法包括:决策树算法【3 1 】,贝叶斯分类算法 3 2 1 ,神经网络【3 2 】,k 一最近 邻分类算法【3 3 】,遗传算法【3 3 】等 聚类分析( c l u s t e r i n ga n a l y s i s ) 聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知 道,通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合, 确定每个记录所属类别它所采用的分类规则是由聚类分析工具决定的采用不 同的聚类方法,对于相同的记录集合可能有不同的划分结果常用的聚类算法包 括:k 一均值【3 4 】,k 一中心点 3 5 1 ,d b s c a n 【3 6 ,s t i n g 【3 7 ,竞争学习 3 8 1 , s o m ( 自组织映射网络) 【3 9 等 针对本文实验的具体应用,下面将具体介绍聚类算法s o m ( 自组织映射网 络) 及分类算法贝叶斯分类模型 2 2 聚类算法s o m 自组织映射网络s o m ( s e l f o r g a n i z i n gm a p s l 是由芬兰赫尔辛基大学神经 网络专家k o h o n e n 教授在1 9 8 1 年提出的【4 0 】,这种网络模拟大脑神经系统自组 织特征映射的功能,是一种竞争式的学习网络,在学习中能无监督地进行自组织 学习 s o m 的网络拓扑结构包含输入层和输出层,输出层也称为映射层输入层 由个神经元组成,竞争层由膳个输出神经元组成,且形成一个二维阵列输 入层与竞争层各神经元之间实现全互连接,竞争层之间实行侧向连接s o m 网 络的主要特性为:1 ) 自组织排序性质,即拓扑保序能力;2 ) 自组织概率分布性 质其网络拓扑结构如图2 2 所示: 输出层 输入层 图2 2s o m 的网络拓扑结构 s o m 网络首先把所有的映射结点( 输出结点) 向量用小的随机值进行初始 化,然后计算每一个实际输入向量同输出二维阵列中所有的映射结点的欧氏距 9 离,距离最小的那一个映射结点作为获胜结点( w i n n i n gn o d e ) ,把该输入向量 映射到获胜结点,并调整该获胜结点向量的权值,同时按比例调整获胜结点邻域 内结点的权值,把所有的输入向量提交给网络进行训练( 通常每个输入向量要提 交若干次) ,相类似的输入向量被映射到输出层中临近的区域,最后得到输入向 量的聚类,同时把高维的输入向量空间非线性地投射到二维的映射网络上,该网 络的拓扑结构反映了输入向量的分布情况算法的具体步骤如下: 设网络的输入层有个输入向量,维数为厅,记为:x ( f ) 一k ,屯t ,t ,e r “, t ;1 ,2 ,输出层有m 个神经元为a ,= 1 ,2 ,m 输入层向量与输出层 神经元爿,之间的连接权值向量记为:= ( 。,:,) ,其中,= 1 ,2 ,m s o m 网络训练的过程如下: ( 1 ) 初始化 将权值向量;( 叶。,叶:,) ( ,= 1 ,2 ,m ) 用【o ,l 】区间的随机值初始 化,记为孵。= ( w ow 弦o ,哝) 设置初始学习速率叩( o ) ,令o c 叩( o ) c 1 同时 初始化输出层的区域函数以o ) ,得到n g ( o ) 区域函数n 9 0 ) 具体指以获胜神经 元g 为中心,且包含若干其它神经元的区域范围一般的,no ) 的值为受影响 邻域所包含的神经元个数设置网络总的训练次数为r 最后对所有输入向量z p ) ,( t ;1 2 ,n ) 和初始权值向量彬归一化,有: 确= 晶= 爿揣一城, c z l , 科= 呙= 矗镌篇高小啦,m - z , ( 2 ) 采样 从输入层中随机选取训练样本i o ) ,1 s 尼s n ( 3 ) 寻求获胜元 计算训练样本雄) 与权值向量之间的距离: 1 0 d ,= o i c 七,一矿川= 砉c 对一面, “2 ,= 1 ,z ,m c z 一。, 以距离最小的输出层结点爿。为获胜神经元,即满足: g = 盯g m 如瞄j 】,= 1 ,2 ,m ( 2 - - 4 ) 从而实现神经元的竞争过程 ( 4 ) 网络更新 对获胜神经元的拓扑邻域以( f ) 内的所有兴奋神经元更新其权值向量: 哗川= 形哪) 即氓- - t j n g ( t ) ( 2 _ 5 ) 且0 ,7 ( f ) e ( c ,i x ) ,1 弓,s k 且j i ( 2 - - 1 0 ) ( 2 ) 根据贝叶斯定理p ( c ,l z ) ;兰紫,1 s s 七,因为p ( j ) 对 于所有七类都有相同的值,所以可以看作常数为求得m 哆 p l 工) ) ,我们只 需求得m 警 p ( 置i c j ) 。p ( c ,) ) 即可类的先验概率p ( c ,) 可以通过对训练集( t r a i n s e t ) 的统计分析求得,具体可以表示为:p n ) 2 詈,。表示训练集中属于c j 类 样本的个数,s 表示训练集中样本的总数 ( 3 ) 类条件独立假设的应用 对于具有众多属性的数据集合( 即,l 维数据样本,n 值比较大) ,直接计算 p ( xi c ,) ,1 s ,s 七的计算开销可能非常大应用每个属性对样本分类结果的影 响独立于其它属性的假设,即属性问互相独立,我们有: p 晖l c ) = p ( 协而,矗) i c ) 2 珥p “l c ) 2 1 1 其中p “i c ) ,p ( x 2i c a ,p 纯l c ) 可以通过对训练样本的具体统计得到,具体 p “ic ,) :翌 。 s ( 2 1 2 ) 其中3 表示训练集中属于。类样本的个数,s i 表示第c ,类样本中第f 个属性取值 为x i 的样本数目 ( 4 ) 连续值属性的处理 由上述的介绍可知,如果属性x i ( 1 弓fs 订) 的值域是有限的离散点,我们 可以计算出所有的p i c ,) ( 1 s fs 以,1 s ,s k ) 的值若属性置是连续值属性, 我们需要对该属性的值进行处理最简单的处理方法当然是将属性值离散化 ( 5 ) 样本x = “,x 2 , 的分类结果 对于给定的所属类别未知的数据样本x = “,工:,) ,分别计算 p ( xi c j ) p ( c j ) ,1 s ,s 七根据最大后验概率原则,样本x = 墨,x 2 ,) 被判 定属于c ;类,当且仅当: p ( z lc i ) 。p ( q ) ) - e ( x l c ,) p ( c ,) ,1 s ,s 七且,i ( 2 - - 1 3 ) 以上即为朴素贝叶斯分类模型的工作步骤从理论上讲,朴素贝叶斯分类模 型较之其它分类算法有最小的分错率 4 1 4 2 1 除了具体的分类应用,朴素贝叶 斯分类模型还可以用来为其它分类算法提供理论上的判定,例如许多神经网络和 曲线拟合算法也以最大后验概率为分类判定指标 2 4 本章小结 本章重点介绍了数据挖掘技术的两个算法,分别是s o m ( 自组织映射网络) 聚类算法及朴素贝叶斯分类模型这两种算法在各自的应用领域独具优点:s o m 网络在高维到低维的映射过程中尽可能保持原始样本空间的拓扑结构,并且有很 好的计算性能:朴素贝叶斯分类器( n a i v eb a y e s i a nc l a s s i f i e r ) 是目前公认的一 种简单而有效的概率分类方法正是基于两者的优点,本文在构建权证升跌趋势 分类预测模型中对两者加以结合应用 1 4 第三章a d a b o o s t 算法 本章将重点介绍a d a b o o s t 算法,它是机器学习q 。b o o s t i n g 系列学习方法的代 表算法a d a b o o s t 算法用于提高学习算法的精确度,它以弱分类器为基础,通过 多轮针对训练集的循环学习训练,构造一个预测函数系列,然后以一定的方式将 它们组合成一个预测函数,从而得到分类性能更优的强分类器下面将首先介绍 b o o s t i n g 学习方法的主要思想,在此基础上再详细介绍a d a b o o s t 算法 3 1b o o s t i n g 学习方法 b o o s t i n g 算法的主要思想是通过连接一些简单分类器构建一个性能较之所 有这些简单分类器更优的组合分类器设啊,也, 都是一些简单分类器,我们 通过结合所有这些简单分类器得到一个组合分类器: ,o ) 2 q o ) ( 3 1 ) 上式中,q 表示对应的简单分类器 f 在组合分类器中的权重系数上式中的 q ,鬼0 ) 0 宣fs f ) 都是通过b o o s t i n g 算法的训练过程得到b o o s t i n g 算法的组合 分类器构造过程如图3 1 所示: 图3 1b o o s t i n g 算法的训练过程 b o o s t i n g 算法思想来源于p a c ( p r o b a b l y a p p r o x i m a t e l yc o e d ) 学习理论l 玩忽;忽 十年代,v a l i a n t 在p a c 学习模型中提出了强学习算法与弱学习算法的概念【4 3 1 : 强学习算法:样本集合s 包含n 个数据点“,y 1 ) ,( b ,y 2 ) ,阮,儿) ,其中 而( f = 1 ,2 ,弹) 是按照某种固定但未知的分布d ) 随机独立抽取的, 儿= ,瓴) 其中,属于某个已知的布尔函数集, 即 弘 一1 ,+ q ,f = 1 2 ,1 若对任意的x e d ,任意的,e f ,任意的 1 o s s ,6s 专,根据学习算法生成的估计函数丘满足肿o r ( h ,) 皇盛( o ) ,o ) ) 的概率大于l 一6 ,并且学习算法的运行时间与三,三成多项式关系,则我们称该 f0 学习算法为强学习算法 弱学习算法:其定义与强学习算法定义相似,只需把上面s ,6 的任意性改为 存在性即可 随后,k e a r n s 和v a l i a n t 提出了弱学习算法与强学习算法的等价性问题,即 能否把p a c 模型中的一个弱学习算法提升为一个具有任意精度的强学习算法若 两者的确等价,那么只要找到一个比随机猜测略好的弱学习算法就可以直接将其 提升为强学习算法,而不必直接去找很难获得的强学习算法1 9 9 0 年,s c h a p i r e 通过构造一个多项式级的算法对上述等价性问题给出了肯定的证明,其证明中的 构造算法就是最初的b o o s t i n g 算法该算法可以将弱分类器转化为强分类器其 后f r e u n d 提出了一种效率更高的通过重取样或过滤运作的b o o s t b y - m a j o r i t y 算 法但早期的b o o s t i n g 算法在解决实际问题时存在较多的不足:组合分类器厂0 ) 的进一步改善需要b o o s t i n g 过程更多的迭代:需要事先知道弱学习算法学习正 确率的下限,这在实际中往往很难实现 1 9 9 5 年,f r e u n d 和s c h a p i r e 提出了通过调整权重而运作的b o o s t i n g 算法: a d a b o o s t ( a d a p t i v eb o o s t i n g ) 算法 4 4 该算法的效率与原来的b o o s t i n g 算法 相同,但不需要任何关于弱学习算法性能的先验知识,因此可以很好的应用到实 际问题中 b o o s t i n g 是提高预测学习系统预测能力的有效工具,是组合学习中最具代表 性的方法实际应用中,b o o s t b y m a j o r i t y 和a d a b o o s t 是b o o s t i n g 系列算法中 最流行的两种针对本文的应用需要,下面具体介绍a d a b o o s t 算法 3 2a d a b o o s t 算法 3 2 1a d a b o o s t 算法的基本原理 a d a b o o s t 算法的主要思想是给定一个弱学习算法与一个训练集合( _ ,y 1 ) , ( x 2 ,y 2 ) ,阮,n ) ,其中而( f ;1 ,2 ,n ) 属于某个域或实例空问x ,而 m 一l + q ,( i = 1 2 ,n ) 可以理解为分类问题的类别标志算法开始时先给 每个训练样本赋以相同的权值! ,然后调用弱分类器对训练集进行训练每次训 ,l 练后根据训练的结果更新各样本的权值,对训练失败的样本赋以更大的权值,实 质是让学习算法在后续的学习中更偏重对较难分类的训练样本的学习更新样本 分布后继续进行训练反复迭代丁轮,最终得到一个分类器序列睡,恕,岛, 其中每个分类函数也具有一定的权值:检测效果较好的分类函数的权值较大,检 测效果不好的分类函数的权值较小最终的分类函数日采用有权重的投票方式 获得 a d a b o o s t 算法的伪代码表示如下: 1 、输入: ( 1 ) 训练集s = ( 墨,_ ) ,1 ) ,( x 2 ,y 2 ) ,阮,心) ,其中鼍z o = 1 ,2 ,1 ) , y fe - 1 , + q ,f = 1 ,2 ,厅; ( 2 ) 弱学习算法 2 、对训练集初始化权值: d x ( i ) = i 1 ,f = 1 ,2 ,n ; ( 3 2 ) 3 、执行算法: ,d rt = 1 ,2 ,t ( 1 ) 对己指定权重的训练样本进行学习,得到一个预测函数: 鬼:薯一 一1 ,1 ,f = 1 ,2 ,n ( 3 3 ) ( 2 ) 统计预测函数旭的训练错误率: 一皿o ) 肛( 弓) 一y ij , ( 3 4 ) 1 7 若e t = o 或 1 2 ,则令t = f 一1 并终止循环 ( 3 ) 令: q ,n 斟 ( 4 ) 根据啊的训练错误率更新样本的权重: 当啊 ) y i 时, ( 3 5 ) 里 舻蚴螂= 喇 等) 2 ; 。“, 当岛 ) = y ,时, ( 5 ) 更新t 的值为t + 1 ,返回( 1 ) 4 、输出: 2 s 枷偿q ) 3 2 2 训练错误分析 ( 3 7 ) ( 3 8 ) 对于上述训练算法,s c h a p i r e ,s i n g e r 和f r e u n d 从理论上推导出其最终训练 所得预测函数的训练误差满足以下条件: 定义,o ) 2 荟q 啊o ) ,则上述h ( 力可以表示为:日o ) 2 j 咖( , ) ) , 而h 0 ) 的训练误差边界为【4 5 】: 昙t i :h ( x i ) 刮s 砉薹e x p ( w “) ) = t 互( 3 - - 9 ) 其中: 互= d | o ) 懈p ( 一a , y i 一 ) ) ( 3 1 0 ) 从上式我们可以看到:通过对a 。和 的适当选择,z f 将被最小化相应地,训 1 8 一、, 堕岛 疗:,q = q aq = 疗二,q 练误差也迅速减小 在二值情况下,设s 是最终的预测函数h 0 ) 的最大错误率,s c h a p i r e 与 f r e u n d 分析并证明8 满足【4 6 】: s s 立 z 厕习。亦厢5e x p ( - 2 萃r , 2 ) ( 3 - - 1 1 , 其中e t 是啊的训练误差,= 妻一n 因此,若每个弱分类器都比随机猜想稍好, 约束n 离0 较远,则训练错误将以指数级速度下降a d a b o o s t 以前的b o o s t i n g 算 法也有相似的性质然而,以前的算法在学习前需要得到已知的下界n 实践中 关于这样的边界的知识是很难得到的而a d a b o o s t 可以调整单个弱分类器的错误 率,所以说是自适应的 3 2 3a d a b o o s t 算法的特点及其应用 a d a b o o s t 算法的优点表现在:有很好的算法效率,易于编程实现它除了 迭代次数t 外不需要调整参数它不需要弱分类器的先验知识,因此可以灵活 地和任意方法结合寻找弱分类器给定足够数据和一个能够可靠地仅仅提供中 等精度的弱学习器,它可以提供学习的一套理论保证这是学习系统设计思想的 一个转变:不是试图设计一个在整个空间都精确的学习算法,而是集中于寻找仅 比随机好的弱学习算法同时,a d a b o o s t 对噪音不敏感,各轮训练集并不独立, 它的选择与前轮的学习结果有关;a d a b o o s t 的预测函数有权重,最后的强分类 器由弱分类器顺序生成 目前,a d a b o o s t 组合学习方法已在不同的领域取得广泛的应用: 1 ) 文本分类和检索:大多数文本分类研究集中于二值问题,其中文档被分 类成与某预定义的主题相关或不相关; 2 ) 图象识别和检索:现有识别算法准确度都不理想,且易受数据扰动干 扰 通过组合能提高性能; 3 1 语音识别和理解:语音识别问题可以用与文本分类问题类似的方法加以 解决; 钔网络导航:为用户行为和偏好排序; 5 ) 手写字符识别:s c h w e n k 和b e n g i o 将a d a b o o s t 与神经网络结合,应用 于手写字符识别 3 3 本章小结 本章在概要介绍b o o s t i n g 系列学习算法发展过程的基础上,重点介绍其中 的代表算法:a d a b o o s t 算法该算法以弱分类器为基础,通过多轮针对训练集 的循环学习训练,构造一个预测函数系列,通过加权组合得到分类性能更优的强 分类器a d a b o o s t 算法在数据挖掘的众多领域得到了很好的应用,本文将以朴 素贝叶斯分类模型为弱分类器,通过a d a b o o s t 算法对其训练加强,得到最终的 用于预测权证升跌趋势的强分类器模型 2 0 第四章权证分类预测模型 本文的第二,三章已经完成了对相关数据挖掘,机器学习算法的介绍,在此 基础上,本章将首先介绍权证升跌趋势预测问题的相关背景知识,然后重点介绍 本文提出的股票权证升跌趋势分类预测模型的理论基础及其建模步骤 4 1 问题的描述与挑战 4 1 1 问题的描述 本文的主要目标是根据股票权证产品任一个交易日的相关市场交易信息,预 测该权证下一个交易日的升跌趋势本文尝试把权证的升,跌分别用正,负两种 状态来记录,把权证

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论