(计算机应用技术专业论文)基于集成学习的邮件过滤及电子邮件智能应用研究.pdf_第1页
(计算机应用技术专业论文)基于集成学习的邮件过滤及电子邮件智能应用研究.pdf_第2页
(计算机应用技术专业论文)基于集成学习的邮件过滤及电子邮件智能应用研究.pdf_第3页
(计算机应用技术专业论文)基于集成学习的邮件过滤及电子邮件智能应用研究.pdf_第4页
(计算机应用技术专业论文)基于集成学习的邮件过滤及电子邮件智能应用研究.pdf_第5页
已阅读5页,还剩136页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 六联系方式: 北京工业大学教育技术培讣i 。摘要 中心网站:h t t p :e t s b j u t e d u c a ( 登录并办理培训报名) 日盎产量葡域电学稚怦臼研起研究人员的广泛关注,基于数据挖掘和机 器学习房舔件蛐搿黻朱是当前的一大研究热点。已有的关于垃圾邮件过滤的技 术或方浩j 哮t 柙蒙砚啡癣迓城耘学咎袁狒黉黼靴滤器、支撑向量机( s u p p o r t v e c t o r m a c h i n e ) 过滤器、神经网络过滤器、决策树过滤器等。这些方法通常视 邮件过滤为2 类文本分类问题,即将邮件归类为“垃圾邮件”和“正常邮件”2 类。然而,邮件过滤是个代价敏感( c o s t - s e n s i t i v e ) 的轧桊分蠖飙孽b 将正 常邮件错分为垃圾( f a l s ep o s i t i v ee r r o r s ,本文称为误拒j e 藜犄蝗撅麴醣巍两瀚训中心 邮件( f a l s en e g a t i v ee r r o r s ,本文称为误收) 的代价是孬斫 羊鹅o l 厢且,它又 新闻赚孕写鹫椰隔照矾甄硼矫丽蕊蕊丽罪而丽每一 数目的误收错误存在,即用户对过滤器精度要求极高。集成学习已熬证明是提 高分类器性能的有力武器,t 童挢i 模我呜甥衡 麒j 潞所觅罘爹 针对传统过滤技术的局限性,本文研究了集成学习( 尤其是代价敏感的集 成学习) 技术及其在垃圾邮件自动过滤中的应用。首先,提出了基于混合高斯 模型( g a u s s i a nm i x t u r em o d e l ,o m m ) 的多过滤器集成算法。该方法使用多元 统计分析方法对多个过滤器在训练例上的过滤表现矩阵进行降维和除噪,得到 训练数据及各过滤器的分布:然后,从该分布中学习出对邮件进行类别判定的 g m m 。g m m 根据期望代价最小准则进行过滤,避免将正常邮件判定为垃圾。 实验结果表明,该方法具有较好的过滤性能,且对于特征提取率的敏感度低。 其次,在基于g m m 的集成算法基础上,提出了两阶段集成学习( t w o p h a s e e n s e m b l el e a r n i n g ,t p e l ) 。它包括2 个阶段:第l 阶段学习个体分类器,第2 阶段学习集成函数。t p e l 的最大特点是利用学习算法学习集成的预测函数, 而不像b a g g i n g 类和b o o s t i n g 类等方法的集成函数的形式被预先设定。结合垃 圾邮件过滤这样一个2 类文本分类问题,在4 个公用数据集上对t p e l 进行了 一系列的实验。实验结果表明:( 1 ) t p e l 受集成的个体分类器个数的影响甚 微;( 2 ) 利用t p e l 集成异构( h e t e r o g e n e o u s ) 的多个分类器时效果显著:( 3 ) 利用t p e l 集成多个同构( h o m o g e n e o u s ) 分类器时,绝大部分情况下取得了 h t t d :e t s b i u t e d u c n v i e w j s p ? m i d = 4 9 北京工业大学工学博士学位论文 | _ _ 一i - ! | _ _ 日| 囊 ! 自g ! e 自! ! _ 自| ! ! ! 目目! _ ! e ,- 自目_ - _ _ _ 一 优于朴素贝叶斯等算法的结果;( 4 ) 对稳定或不稳定学习器的集成效果都很好: ( 5 ) t p e l 的时间复杂度较低。 进一步,我们将t p e l 推广到代价敏感的学习领域,提出了多阶段代价敏 感学习( m u l t i p h a s ec o s t - s e n s i t i v ee n s e m b l el e a r n i n g ,m p c s l ) 。与t p e l 相比, 后者可以间接学习多次,在学习过程的每一阶段都可使用代价敏感的技术。实 验表明,m p c s l 具有t p e l 的一切优点。与此同时,m p c s l 在集成异构的过 滤器时,集成效果非常理想,且在某些情况下,m p c s l 进行多次间接学习能进 一步提高过滤准确性。t p e l 和m p c s l 的优点还有:间接学习阶段的知识维数 非常小,使许多对内存要求较高且性能较好的算法可被应用到间接学习阶段。 本文的另一个研究侧面是探索利用w i 相关的技术实现基于电子邮件的智 能应用。我们提出了可操作电子邮件的设计理念,同时,就基于可操作电子邮 件在万维电子邮件网( w h o l ew o r l ds o c i a le m a i ln e t w o r k ,w w s e n ) 中实现异 步的智能应用进行了阐述,指出了待研究的问题。在基于电子邮件的智能应用 方面,本文还研究、设计和实现了一个电子邮件个性化智能助手。该助手的最 大特点是:( 1 ) 可处理可操作电子邮件,以实现某些自动功能。( 2 ) 采用了我 们提出的基于本体的归档方式,从而提供了基于概念的邮件分类存储和检索功 能。( 3 ) 采用了我们设计的基于时间窗口的用户动态行为学习方法。( 4 ) 使用 多个智能体进行垃圾邮件的自动过滤。 总之,本文从近期目标角度,研究了:对垃圾邮件问题的过滤技术和理论、 智能助手的实现技术和理论。我们深切期望本文提出的可操作电子邮件( 或相 似提法的电子邮件) 及万维电子邮件网能引起国内外研究人员的重视。从长期 研究目标的角度,提出了可操作电子邮件及万维电子邮件网;指出了有待研究 的问题。在前一方面,关于邮件过滤研究的成果不但对过滤垃圾有效,显然可 被推广到处理其他类似的代价敏感分类问题。关于电子邮件智能助手方面的研 究成果可被用户行为学习等领域的研究者借鉴。后一方面的研究拓宽了w i 的 研究领域。 关键词w e b 智能;邮件过滤;集成学习;邮件社会网络;可操作电子邮件 i l a b s t r a c t t h et r e m e n d o u s l yi n c r e a s e dv o l u m eo fs p a mo nt h ei n t e r n e th a sg a i n e dm u c ha t t e n t i o no f r e s e a r c h e r s t h ef i l t e r i n gm e t h o d sb a s e do nd a t am i n i n ga n dm a c h i n el e a r n i n ga r er e s e a r c hf o c u s t h em e t h o d su s e df o rs p a mf i l t e r i n gi n c l u d en a f v eb a y e s ,k - n n ,s v m ,a n n ,d e c i s i o nt r e ea n d s oo n a l lt h em e n t i o n e df i l t e r sv i e ws p a r ef i l t e r i n ga sag e n e r a lp r o b l e mo f2 - c l a s st e x t c l a s s i f i c a t i o n t h a ti s t h e yc l a s s i f ya nu n l a b e l l e de m a i li n t o s p a m o r “l e g i t i m a t e c l a s s h o w e v e r , e m a i lf i l t e r i n gi sac o s t - s e n s i t i v ec l a s s i f i c a t i o nt a s ko f 2 - c l a s s ,b e c a u s et h ec o s to f f a l s e p o s i t i v ee r r o r sa n df a l s en e g a t i v ee r r o r si su n e q u a l m o r e o v e r i ti sd i f f e r e n tf r o mag e n e r a l c o s t - s e n s i t i v ep r o b l e m s p e c i f i c a l l y , e m a i lu s e r sc a n n o ts u f f e rf r o ma n yf a l s ep o s i t i v ee r r o r , w h i l et h e yc a nb e a rf a l s en e g a t i v ee r r o r sa tac e r t a i ne x t e n t t h i sm e a n st h a tac o s t - s e n s i t i v ef i l t e r w j t i ia r e l a t i v e l yh i g ha c c u r a c yi sd e s i r e d e n s e m b l el e a r n i n gh a sb e e np r o v e dt ob ea ne f f e c t i v e w a yf o ri m p r o v i n gt h ep e r f o r m a n c eo fc l a s s i f i e r s h o w e v e r ,t oo u rb e s tk n o w l e d g e ,t h el i t e r a t u r e o f c o s t - s e n s i t i v ee n s e m b l el e a r n i n gi sf e w t os o l v et h el i m i t a t i o n so ft r a d i t i o n a lf i l t e r i n gt e c h n o l o g i e s ,t h i sw o r ks t u d i e se n s e m b l e l e a r n i n g ( e s p e e i c a l l yc o s t - s e n s i t i v ee n s e m b l el e a r n i n g ) a n di t sa p p l i c a t i o n so ne m a i lf i l t e r i n g a t f i r s t , w ep u tf o r w a r dam e t h o dc o m b i n i n gm u l t i p l en a i v eb a y e s ( n b ) f i l t e r sb a s e do ng a u s s i a n m i x t u r em o d e l ( g m m ) t h em e t h o du s e st h em u l t i v 撕a t es t a t i s t i c sa n a l y s i st om o d e lt h e r e l a t i o n s h i pb e t w e e nt h et r a i n i n gd a t as e ta n dt h e i rc l a s s i f i c a t i o nb yac o l l e c t i o no fn bf i l t e r s t h e nag m mc a bb el e a r n e df r o mt h er e s u l t e dr e p r e s e n t a t i o n i no r d e rt oa v o i dd e l e t i n gu s e f u l e m a i l s ,t h eg m mf i l t e rp r e d i c t sp r e v i o u s l yu n s e e ne m a i l sa c c o r d i n gt ot h ep r i n c i p l e o f m i 。n i m i z i n ge x p e c t e de r r o rc o s t e x p e r i m e n t a lr e s u l t sc o n f i r mt h ev a l i d i t yo ft h i sm e t h o d ,a n d s h o wt h a ts u c ha na p p r o a c hi si n s e n s i t i v et ot h er a t i oo f f e a t u r es u b s e ts e l e c t i o n s e c o n d l y , b a s e do nt h ef i r s tm e t h o do fe n s e m b l el e a r n i n g ,w ep r o p o s ea n o t h e re n s e m b l e l e a r n i n gt e c h n i q u e , n a m e dt w o - p h a s ee n s e m b l el e a r n i n g ( t p e l ) t h ef i r s tp h a s eo ft p e l l e a r n sm u l t i p l ei n d i v i d u a lc l a s s i f i e r s ,a n dt h es e c o n dp h a s el e a r n sap r e d i c a t i o nf u n c t i o n a c c o r d i n gt ot h ec l a s s i f y i n gk n o w l e d g eo f t h o s ec l a s s i f i e r so na 仃a i n i n gd a t a s e t i no u rv i e w , t h e m o s td i f f e r e n c eb e t w e e nt p e la n dt h ee x i s t i n gm e t h o d ss u c ha sb a g g i n ga n db o o s t i n gi st h a tt h e p r e d i c t i o nf u n c t i o ni nt p e li sl e a r n e db u tn o ts e ti na d v a n c e f o rt h et a s ko fe m a i lf i l t e r i n g ,a t y p i c a lp r o b l e mo f t w o - c l a s sc a t e g o r i z a t i o n ,w ec o n d u c tas e r i e so f e x p e r i m e n t so nf o u rp u b l i c l y a v a i l a b l ed a t a s e t s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a t ( 1 ) t h ep e r f o r m a n c eo ft p e li sf a i n t l y a f f e c t e db yt h ec o u n to ft h ec o m b i n e dc l a s s i f i e r s ( 2 ) t p e lb e a r st h eb e s tc a p a c i t yw h e ni t c o m b i n e sm u l t i p l eh e t e r o g e n e o u sc l a s s i f i e r s ( 3 ) i nm o s to ft h ee x p e r i m e n t s ,t h ep e r f o r m a n c eo f t p e li sb e t t e rt h a nt h ec o m p a r e da l g o r i t h m ss u c ha sn a i v eb a y e s ,b a g g i n g ,b o o s t i n ge t c ( 4 ) t p e lr e v e a l si t sp r o m i s i n gr e s u l t si nt h es i t u a t i o no f w h e t h e rt h ew e a kl e a r n e ri ss t e a d yo rn o t ( 5 ) t p e lp r o v i d e sw i t hr e a s o n a b l et i m ec o m p l e x i t y i l l 北京工业大学工学博士学位论文 i no r d e re x t e n dt p e lt od e a lw i t ht h ec o s t - s e n s i t i v ec l a s s i f i c a t i o np r o b l e m s ,w ep r o p o s e m u l t i p h a s ec o s t - s a n s i t i v ee n s e m b l el e a r n i n g ( m p c s l ) m e t h o d i n s t e a do fl e a r n i n gi n d i r e c t l y o n l yf o ro n et i m e ,m p c s lc a nc a r i yo u tt h ep r o c e s so fi n d i r e c tl e a r n i n gf o r 口( a 1 ) t i m e s a n o t h e rd i f f e r e n c eb e t w e e nt p e la n dm p c s lj st h a ts o m ee o s t - s e n s i t i v et e c h n i q u e sa r cu s e di n t h ed i r e c tl e a r n i n go r ( a n d ) i n d i r e c tl e a r n i n go u re x p e r i m e n t a lr e s u l t si n d i c a t et h a tm p c s lh a s a l lt h ea d v a n t a g e so f t p e l i na d d i t i o n , t h er e s u l t ss u g g e s tt h a te n s e m b l i n gh e t e r o g e n e o u sf i l t e r s i nm p c s li sb e t t e rt h a ne n s e m b l i n gh o m o g e n e o u so n e st od e a lw i t hc o s t - s e n s i t i v ep r o b l e m s a n d , o ns o m eo c c a s i o n s i n d i r e c t l yl e a r n i n gf o rm u l t i p l et i m e sc 锄u l t e r i o r l yi m p r o v et h e p e r f o r m a n c eo fm p c s l a l s o ,w ef i n dt h a tm o r es e l e c t e dr e l e v a n tf e a t u r e sw i l lr e s u l ti nm o r e p o w e r f u lp r e d i c t i o na b i l i t i e so f m p c s l a n o t h e ra s p e g to fo u rs t u d i e si sh o wt ou s ew i r e l a t e dt e c h n i q u e st oi m p l e m e n ti n t e l l i g e n t a p p l i c a t i o n sb a s e do ne m a i l w eb r i n gf o r w a r do p e r a b l ee m a i la tf i r s t t h e n ,w ed i s c u s sh o w t o d e v e l o pa u t o m a t i ca p p l i c a t i o n so f ft h ew h o l ew o r l ds o c i a le m a i ln e t w o r k ( w w s e n ) b a s e d o n o p e r a b l ee m a i l s o m ei s s u e sw r tt h i st o p i ct ob es t u d i e di nd e t a i li nf u t u r ea l eg i v e n t oo u rb e s t k n o w l e d g e , i ti st h ef i r s tt i m et op r o p o s ea n ds t u d ys u c hat o p i c b a s e d o nt h ep r e l i m i n a r y o p e r a b l ee m a i l ,t h i sa r t i c l ea l s od e s i g na n di m p l e m e n ta ne m a i l - c e a t r i ei n t e l l i g e n tp e r s o n a l a s s i s t a n tr e c i p a ) t h i sa s s i s t a n tc o m b i n e sm u l t i p l ew i r e l a t e dt e c h n i q u e ss u c ha so p e r a b l e e m a i l ,a g e n t - b a s e de t c t op r o d u c eah i g h l yp e r s o n a la n da u t o m a t e ds y s t e m ,w i t hm o r ef e a t u r e s t h a no t h e rt y p i c a ls y s t e mt o d a y t h eo u t s t a n d i n gc h a r a c t e r i s t i c so fs u c ha na s s i s t a n tr r et h a t f i r s t l yi ta d o p t st h eo p e r a b l ee m a i la sab a s i sf o ra u t o m a t e df u n c t i o n s s e c o n d l y , e c i p au s e s a g e n t - b a s e da r c h i t e c t u r e t h ek e ya n dn o v e lt e c h n i c a lf e a t u r e so fs u c ha na s s i s t a n ti n c l u d e a u t o m a t e da n dc o s t - s e n s i t i v e s p a mf i l t e r i n g ;o n t o l o g y - m e d i a t e dc l a s s i f i c a t i o n ,q u e r ya n d a r c h i v i n g ;s o r t i n g r e s p o n d i n gb a s e do nd y n a m i cu s e rb e h a v i o rl e a r n i n g ;i n t e l l i g e n tc o o p e r a t i o n b a s e do nt h eo p e r a b l ee m a i l i ns u m m a r y , f r o mt h ep e r s p e c t i v eo fs h o r t - t e r mg o a l s ,w es t u d i e dt h et h e o r ya n dt e c h n i q u e s o fs p a mf i l t e r i n g ,a n dt h ei m p l e m e n t i n gt e c h n i q u e so fi n t e l l i g e n te m a i la s s i s t a n t w es i n c e r e l y h o p et h a t t h er e s e a r c h0 1 1o p e r a b l ee m a i la n dw w s e nw i l lb et a k e n s e r i o u s l yb yo u r c o u n t e r p a r t s f r o mt h ea s p e c to fl o n g - t e r mg o a l s 。w ep r o p o s e do p e r a b l ee m a i la n dw w s e n 。 a n dp o i n t e do u tt h ef u t u r er e s e a r c ht o p i c sa b o u to p e r a b l ee m a i la n dw w s e n o u r s t u d yr e s u l t s a b o u te m a i l f i l t e r i n g a f eu s e f u ln o to n l yf o rb l o c k i n gs p a m b u ta l s of o ro t h e rs i m i l a r c o s t - s e n s i t i v ec l a s s i f i c a t i o np r o b l e m s f u r t h e r m o r e ,t h er e s u l t so fr e s e a r c ho nt h ei n t e l l i g e n t a s s i s t a n to fe m a i la l s oc 柚b eu s e df o rr e f e r e n c eb yt h er e s e a r c h e r sw h os t u d yu s e rb e h a v i o r l e a r n i n g ,o n t o l o g y - b a s e da r c h i v i n ga n ds oo n i ti sn o t a b l et h a tt h ep r o p o s e do p e r a b l ee m a i la n d w w s e ne x p a n dt i l er e s e a r c ha r e ao f w i k e y w o r d sw e bi n t e l l i g e n c e ;e m a i lf i l t e r i n g ;e n s e m b l el e a r n i n g ,s o c i a le m a i l n e t w o r k ;o p e r a b l ee m a i l 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意 签名: 关于论文使用授权的说明 日期 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阋和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文 ( 保密的论文在解密后应遵守此规定) 躲邋一名:铧嗡业 第1 章绪论 第1 章绪论 最早的电子邮件( e m a i l ) 通讯协议是在1 9 7 2 年由雷汤姆林森( r a y t o m l i n s o n ) 提出。由于它具有廉价、方便、简易等特点,随着因特网的发展与 普及,目前已被人们广泛采用。与此同时,e m a i l 的应用带来了许多问题,导 致了许多新颖且具有一定挑战性的研究课题。其中,比较突出的是垃圾邮件 ( s p a r e ) 的问趔埘。另一个突出的问题是,随着语义w 曲( s e m a n t i c w 曲) 【3 卅 的提出及w e b 智能( w 曲i n t e l l i g e n c e ) 1 5 - 7 ) 学科的不断发展,人们急切希望e m a i l 能适应新的智能应用和下一代w e b 的需要,但传统e m a i l 灵活的格式、不提供 语义支持的特点对实现这一需要造成了极大的障碍1 8 】。 1 1 课题背景 e m a i l 最初的功能仅仅是“在用户间传递非实时的消息”,如今,其功能已 远不止于此。人们用它“交换文件”、“实现工作流”、“协调工作”等,研究人 员将这一现象称为“邮件过载”( e m a i l o v e r l o a d ) 【9 】。随着e m a i l 功能的强大, 用户数量的增多,越来越多用户的工作基于电子邮件展开,他们利用e m a i l 与 客户取得联系、安排工作、跟踪任务、与同事交换思想等,我们称这一现象为 “以邮件为中心”( e m a i l c e n t r i c ) 【1 0 】。 e m a i l o v e r l o a d 和e m a i l c e n t r i c 给用户带来了许多问题【1 1 】。首先,现有电 子邮件传输协议设计之初,并未考虑安全性因素,邮件服务器不对发送者身份 进行任何形式的认证,即为之传输邮件。垃圾邮件制造者利用这一特点,选择 不认证的服务器向事先获得的大量的接收人地址发送各类信息,达到各种各样 的目的。垃圾邮件不仅浪费用户的时间,而且占用网络带宽、电子邮件服务器 和用户终端的系统资源。值得注意的是,垃圾邮件正在成为违法犯罪分子从事 欺诈活动和传播计算机病毒等有害信息的工具,对国家安全、社会治安和网络 安全构成了极大的威胁。事实上,垃圾邮件问题看似只是互联网电子邮件业务 领域的问题,却几乎涉及了互联网存在的方方面面,包括黑客问题、病毒问题、 木马问题、网上取证问题、网上个人隐私数据保护问题等等,每一个问题的解 北京工业大学工学博士学位论文 决都是非常困难的。因此,解决垃圾邮件问题具有复杂性和艰巨性,与垃圾邮 件的斗争将是一项长期而艰巨的工作【1 - 2 1 。其次,用户的邮箱被各类邮件充斥, 使人们难以理出工作的头绪。因为大量邮件的存在,人们经常会忘记处理重要 或紧急事件【“】 以上问题促使研究人员展开了对垃圾邮件过滤技术、邮件分类技术及电子 邮件处理助手等的研究。下面,分别对这几个研究热点进行简要阐述 一垃圾邮件过滤。该任务对新邮件标注为“垃圾邮件”或“正常邮件”, 从而减轻用户手动归类垃圾的烦恼。本质上,垃圾邮件过滤是2 一类文 本分类问题。但它自身又具有与文本分类截然不同的特点。首先,垃 圾邮件过滤是个代价敏感的问题,即将“垃圾邮件”判定为“正常邮 件”的代价与相反错误的代价是不同的【嘲。其次,垃圾邮件过滤对训 练和过滤的时问都有较高要求。再次,通常情况下,正常邮件的训练 例往往要多于垃圾邮件,因此训练过滤器往往是在非平衡数据情况下 进行的,等等。这些特点使垃圾邮件过滤成为一个极具挑战性的课题【l j 。 - 邮件分类技术。对大多数邮件用户而言,每天要收到大量的邮件。他 们往往要将邮件手动归档到不同的文件夹中,以便于今后的检索。然 而,手动归档费时费力。自动邮件分类指将新到达的邮件自动分类到 相应文件夹中。传统的文本分类技术被许多研究人员用于实现这一目 标【1 孓1 4 l 。这一类技术将邮件分类到物理文件夹中,因此造成了下面的 一些问题。首先,一个邮件不能同时归档到多个文件夹。其次,物理 文件夹的删除和移动将使得需要对其中的邮件进行重新分类。为了避 免这样的问题,有研究人员开发了将邮件分类到虚拟文件夹的技术 1 5 - 1 6 j ,这新技术已成为当前邮件分类的研究热点。 一 电子邮件工作助手( e m a i l a s s i s t a n t ) 。如前所述,越来越多电子邮件用 户的工作依赖于电子邮件展开。人们急需开发电子邮件助手,自动完 成除邮件过滤、分类以外的部分工作。a g e n t 技术自然而然地被研究者 采用以满足这一需求。目前,已有不少这方面的研究7 。冽。然而,关 于这方面的已有工作被批判为“小儿科”1 2 1 1 ,开发新型实用的智能助 手仍需进行更深入的探索和实践 第1 章绪论 此外,分析目前的研究及应用现状,在我们看来,今后与电子邮件相关的 研究需要在如下几个方面重点开展工作。 一实用、高效的反垃圾邮件技术及相关理论的研究。反垃圾邮件的任务 可以用“路漫漫,其修远兮”来形容,更复杂的机器学习系统有待于 开发用于阻止垃圾邮件制造者制造垃圾【2 】。这样的系统能快速适应垃圾 制造者对特征词等的种种变化,从而更鲁棒、实用及高效。 _ 个性化的电子邮件智能助手技术。n z h o n g 等于2 0 0 1 年提出了“智慧 网络( w i s d o mw e b ) ”的概念,智慧网络是w e b 智能的重要目标之一, 语义w e b 走出了迈向智慧网络的重要一步。j m l i u 在u c a i 0 3 的特 邀报告中指出i 趋l :“w e b 智能的下一个范例方向在于智慧的概念,下一 代w e b 智能的目标是除了信息搜索和知识查询之外,使用户能够获得生 活、工作、娱乐和学习的智慧”。而显然传统的电子邮件并不能满足下 一代w e b 智能的需要,如何开发个性化的电子邮件智能助手使用户真 正感觉到生活、工作、娱乐和学习的智慧便成为今后一大重要的研究 课题。 - 语义w e b 乃至智慧网络中具有语义的电子邮件的研究。近几年,与 w e b 相关的技术发生了翻天覆地的变化。新兴技术直接或间接地为语 义w e b 和智慧网络的发展奠定了基础。然而,与之相比,电子邮件相 关的技术则发展缓慢。研究与下一代w e b 相匹配的新一代的电子邮件 的理论体系及应用机制已势在必行。 基于电子邮件社会网络( s o c i a le m a i ln e t w o r k ) 的智能应用及社会智 能( s o c i a li n t e l l i g e n c e ) 的实现。电子邮件为人与人之间的交互提供了 平台,因此,电子邮件是一个与社会网络研究密切相关的领域【2 3 】。与 万维网一样,万维电子邮件网( w h o l ew o r l ds o c i a le m a i ln e t w o r k ) 上 可以实现如文件共享、搜索、问题解决、社会智能等许多功能 2 4 彩1 , 目前这一方面的研究尚处于起步阶段并已引起一定程度的关注。 从上面的叙述,可以看出,与电子邮件相关的研究和探索的内容是极其丰 富和富有挑战性的。这些研究和探索一方面是为了解决电子邮件带来的问题, 另一方面则是为了深层次挖掘电子邮件的功能,使之适应智能应用和新一代 北京工业大学工学博士学位论文 w e b 的需要。我们正是在这样的背景下,在以往的研究和各类基金的支持下, 开展相关研究工作的。 1 2 本文主要研究内容 我们收集和整理了大量的相关资料,在对相关理论、方法、算法、体系结 构等充分调研的基础上,本博士课题集中选取了下面2 个问题开展相关工作。 一垃圾邮件过滤问题 已有的邮件过滤技术或方法有很多:朴素贝叶斯、七- 最邻、支撑向量机、 神经网络、决策树等。这些方法的共同特点是:( 1 ) 都是使用单个过滤器对新 邮件进行类别判定。( 2 ) 训练单个过滤器都需要以下几个过程:提取对过滤“最 有用”的特征:训练“最优”的过滤器。( 3 ) 都认为将正常邮件误分为垃圾邮 件( 即误拒) 和将垃圾邮件错分为正常邮件( 即误收) 的代价是相同的。这些 特点使已有的过滤技术难以走向实用化,原因在于:( 1 ) 单个过滤器的过滤精 度往往达不到用户需要。( 2 ) 要同时提取“最优”特征和训练“最优”的过滤 器十分困难,这也使得最终的过滤效果不如人意。( 3 ) 邮件过滤是个代价敏感 的分类问题,即误拒和误收的代价是不相等的,可见传统方法无法满足实际的 需要。因此,研究、开发具有高过滤性能的代价敏感过滤器便成为当务之急。 集成学习已被证明是提高分类器性能的强有力武器,因此本文将研究集成 学习及其在垃圾邮件过滤中的应用。集成学习的思路是在对新的实例进行分类 的时候,把若干个个体过滤器集成起来,通过对多个过滤器的分类结果进行某 种组合来决定最终的分类1 2 6 - 2 7 ,以取得比单个过滤器更好的性能。集成学习被 认为是机器学习未来的4 大主要研究方向之一【2 引。遗憾的是,在我们所见的文 献范围内,针对于代价敏感问题的集成学习研究文献所见不多,即便是有,它 们是否适合于邮件过滤也是个谜。这就意昧着,尽管传统的集成学习方法能有 效提高预测效果,但可能不适用于垃圾邮件过滤,因此本文将代价敏感的集成 学习作为另一个主要的研究内容。 _ 电子邮件智能应用闯题 我们将基于电子邮件的应用分为3 类:人人应用、人机应用及机机应用。 人人应用指通信的双方都是用户的应用;人机应用指的是通信的一方是用户。 第1 章绪论 另一方是计算机程序的应用;在机机通信的场合,通信的双方都是计算机程序。 由于在后2 者中,都需要程序具有自动响应功能,因此,我们将人- 机应用和机 机应用统称为智能应用。传统的电子邮件被设计满足“人- 人通信”( 即应用的 两端都需要用户手动参与) 的需要。但实际上,许多基于电子邮件的通信或应 用完全可以自动化( 如:约会的协商:附件的自动查找、粘贴和发送等) ,即通 信的一方或双方可以是机器。遗憾的是,传统电子邮件不具有语义的特征使实 现基于电子邮件的智能应用非常困难。 针对于上述提及的问题,本文将研究以电子邮件为通信媒介的“人- 机”应 用和“机机”应用的机制和方法。具体将研究:新一代电子邮件的设计和应用; 电子邮件智能工作助手的关键技术。 1 3 研究意义 本文的研究主要基于以下的几点考虑:( 1 ) 电子邮件给用户带来方便的同 时也造成了极大的问题。如:垃圾电子邮件每年造成的损失达近千亿美元。因 此,垃圾邮件过滤技术的研究具有极强的应用价值。( 2 ) 电子邮件的用户数目 非常庞大,而且还在不断增长。因此,解决电子邮件带来的问题,具有十分重 大的现实意义。( 3 ) 传统的电子邮件已不能适应新的智能应用的需求。众所周 知,w e b 相关的技术近几年得到了迅猛发展,但相比之下,e m a i l 相关的技术 发展却较为缓慢,已不能适应语义w e b 及实现w e b 智能的需要。因此,有必要 研究相适应的具有语义的e m a i l 及其应用机理。 本课题除了具有较强的现实意义、应用价值外,还具有较强的理论价值。 首先,垃圾邮件过滤是一个代价敏感的2 类分类问题,而代价敏感的分类具有 一定的普遍性,本文在代价敏感分类方面的研究成果对于这一类问题都有借鉴 意义。此外,本文重点研究了集成学习与代价敏感的集成学习在垃圾邮件过滤 中的应用。集成学习被认为是机器学习未来的4 大主要研究方向之一唧】。我们 期望本文的研究对集成学习理论的发展能起到一定的推动作用。另外,本文对 于可操作电子邮件及在w w s e n 上实现智能应用和社会智能的相关研究拓宽了 w e b 智能的研究领域,对w e b 智能的发展将起到一定的推动作用,且这一方面 的研究成果可能导致因特网发生革命性的变革。 北京工业大学工学博士学位论文 1 4 创新性工作 与研究内容相对应,本文创新性工作分别表现在垃圾邮件过滤及基于电子 邮件的智能应用2 方面。 1 4 1 集成学习、代价敏感的集成学习及其在邮件过滤中的应用 前面提到,垃圾邮件过滤本质上看是2 类分类问题学习过滤器的过程即 是在一个由各种可能的函数构成的假设空问中寻找一个最接近实际分类函数 f ( x ) 的分类器矗( z ) 。传统的学习方法只在假设空间中学习一个与厂( x ) “最相似” 的分类器h ( x ) 。而由于这一近似学习过程受诸多因素的影响( 如:学习算法、 噪音数据、对缺失数据的处理方法等) ,使h ( x ) 对新样本类别的预测效果往往并 不理想。因此,为了提高分类精度,有研究人员尝试学习、组合多个分类器来 进行分类 2 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论