(计算机软件与理论专业论文)协同过滤算法中新型相似度计算方法的研究.pdf_第1页
(计算机软件与理论专业论文)协同过滤算法中新型相似度计算方法的研究.pdf_第2页
(计算机软件与理论专业论文)协同过滤算法中新型相似度计算方法的研究.pdf_第3页
(计算机软件与理论专业论文)协同过滤算法中新型相似度计算方法的研究.pdf_第4页
(计算机软件与理论专业论文)协同过滤算法中新型相似度计算方法的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

广西大学性声晰雠论姗授l 燃 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相 关知识产权属广西大学所有。除已注明部分外,论文中不包含其他人已经发表过的研究 成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮 助的个人和集体,均已在论文中明确说明并致谢。 论文作者签冬辫 渺年多月日 学位论文使用授权说明 口即时发布口解密后发布 9 论文作者签辨新签妊埚坳年多月新 协同过滤算法中新型相似度计算方法的研究 摘要 在网络飞速发展的今天,海量的信息让人们感到迷惑,这种局势使得 推荐系统成为了个性化研究领域的热点。协同过滤算法则是推荐系统中使 用得最多、最成功的算法。由于相似度计算在协同过滤算法中的重要性, 本文通过研究相似度计算方法的手段来提高协同过滤算法的性能。 本文主要研究协同过滤算法中相似度计算方法。针对目前协同过滤算 法面临的矩阵稀疏、用户冷启动问题,提出了混合相似度的计算方法,该 方法是将改进后的p i p 相似度计算方法与传统的相似度计算方法组合起来, 并应用到协同过滤算法中。当用户评分达到一定数量时,传统的相似度计 算方法还是能很好的反映用户之间的相似程度,为使p i p 方法与传统的方 法有效的结合,必须找到一个用户评分数量的临界值。当用户评分数量小 于这个临界值时,使用p i p 方法计算相似度;当用户评分数量大于这个临 界值时,使用传统的相似度计算方法计算。 提出了划分相似度的概念。将原来的相似度划分为三个部分:喜欢相 似度、不喜欢相似度、中性相似度,再通分配权重方式,将三种类型的相 似度组合起来得到最后的相似度。由于喜欢相似度和不喜欢相似度较中性 相似度更能反映出用户之间的相似度程度,在将它们组合起来的时候采用 了合理的权重系数分配方法。实验证明,划分相似度的计算方法更能反映 出用户之间的相似程度。 目前协同过滤算法中的相似度计算忽略了大量有用的信息,针对这一 情况,提出了考虑用户客观信息的相似度计算方法。该方法提出两种用户 模型:用户基本模型和用户喜好模型。使用某种方法将两个模型量化后, 分别计算出用户之间两个模型的相似度。根据两个模型相似度的和,找出 目标用户的伪邻居,目标用户再和伪邻居进行评分的相似度计算,计算评 分相似度时考虑了目标用户与伪邻居相似的延续性。同时,由于伪邻居概 念的提出,本文对伪邻居规模的选取也做了深入的讨论。 关键词:个性化推荐系统协同过滤算法相似度计算平均错误率 ? ,叼,y 麓”i 二印:? i i 一、j _ 。妒 ? ”罗 r e s e a r cho f n ews i m i l a l u t yco m p u t a t i o n m e t h o d si nc o l l a b o r a t i v ef i i e r i n g a l g o r i t h m s a b s t r a ct n o w a d a y s ,w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,p e o p l ea r eb e w i l d e r e d b yt h em a s so fi n f o r m a t i o n ,a n dt h i ss i t u a t i o nc a u s e st h er e c o m m e n d a t i o n s y s t e m b e c o m e st h er e s e a r c hh o t s p o t o ft h ea r e ao fp e r s o n a l i z a t i o n c o l l a b o r a t i v e f i l t e r i n ga l g o r i t h m s ( b r i e f e da sc fa l g o r i t h m s ) i st h em o s t p o p u l a ra n dt h e m o s ts u c c e s s f u l a l g o r i t h m i nr e c o m m e n d a t i o n s y s t e m c o n s i d e r i n gt h ei m p o r t a n c eo fs i m i l a r i t yc o m p u t a t i o ni nc fa l g o r i t h m s ,i nt h i s p a p e r ,t h ep e r f o r m a n c eo fc fa l g o r i t h m sw a si m p r o v e db yr e s e a r c h i n gt h e m e t h o d so f s i m i l a r i t yc o m p u t a t i o n t h em a j o rc o n t e n to ft h i sp a p e ri st h er e s e a r c ho fs i m i l a r i t yc o m p u t a t i o n m e t h o d si nc fa l g o r i t h m s i nv i e wo f r a t i n gm a t r i xs p a r s i t ya n du s e rc o l d - s t a r t p r o b l e m ,t h em i x e ds i m i l a r i t yc o m p u t a t i o nm e t h o di sp r o p o s e d ,t h i sm e t h o d c o m b i n e st h ei m p r o v e dp i pw i t ht r a d i t i o n a lm e t h o d w h e nt h eq u a n t i t yo fu s e r s r a t i n gr e a c h e sac e r t a i nd e g r e e ,t r a d i t i o n a ls i m i l a r i t yc o m p u t a t i o nm e t h o d sc a n r e f l e c ts i m i l a r i t yb e t w e e nu s e r sw e l l ,i no r d e rt oc o m b i n ep i pm e t h o dw i t h t r a d i t i o n a lm e t h o d s ,at h r e s h o l dv a l u eo f q u a n t i t yo f u s e r sr a t i n gm u s tb ef o u n d a c c o r d i n gt ot h eq u a n t i t yo f u s e r sr a t i n g ,w ed e c i d ew h i c hm e t h o dw i l lb eu s e d i i i d i v i d e ds i m i l a r i t yi sp r o p o s e d t h eo r i g i n a ls i m i l a r i t yi sd i v i d e di n t o t h r e ep a r t s - l i k e s i m i l a r i t y ,d i s l i k e - s i m i l a r i t ya n dn e u t r a l s i m i l a r i t y ,b r i e ft h e m r e s p e c t i v e l ya sl s i m ,d s i ma n dn s i m t h ef i n a ls i m i l a r i t yb e t w e e nu s e r si s t h ec o m b i n a t i o no ft h et h r e ek i n d so fs i m i l a r i t yb yc e r t a i nw a y b e c a u s et h e l s i ma n dd s i mc a l lm o r ep o w e r f u l l yr e f l e c ts i m i l a r i t yb e t w e e nu s e r st h a n n s i m ,s ot h el s i ma n dd s i m g e tm o r eh i g h e rc o e f f i c i e n tt h a nn s i mw h e n c o m b i n i n gt h e m e x p e r i e n c er e s u l t ss h o wt h a td i v i d e ds i m i l a r i t yc o m p u t a t i o n m e t h o dr e f l e c t ss i m i l a r i t ym o r ee f f i c i e n t l yt h a nt r a d i t i o n a lm e t h o d s c u r r e n t l y ,m a n ys i m i l a r i t yc o m p u t a t i o nm e t h o d si g n o r el o t so fi n f o r m a t i o n o fu s e r s ,i nv i e wo ft h i ss i t u a t i o n ,am e t h o dt h a t t h i n k i n g a b o u tu s e r s b a c k g r o u n di n f o r m a t i o ni sp r o p o s e d t h i sm e t h o dp r o p o s e st w om o d e l s :u s e r b a s i cm o d e la n du s e rp r e f e r e n c e sm o d e l a f t e rc o m p u t e ds i m i l a r i t yo ft w o m o d e lr e s p e c t i v e l y ,w ec a nf i n dt h ep s e u d on e i g h b o r h o o do ft h et a r g e tu s e r t a r g e tu s e rf i n d st h eg e n u i n en e i g h b o r h o o db yc o m p u t i n gs i m i l a r i t yw i t hp s e u d o n e i g h b o r h o o d b e c a u s eo ft h ep r o p o s a lo fp s e u d on e i g h b o r h o o d ,t h es e l e c t i o no f s c a l eo ft h ep s e u d on e i g h b o r h o o di sd e e p l yd i s c u s s e di nt h i sp a p e r k e y w o r d s :p e r s o n a l i z a t i o n ;r e c o m m e n d a t i o ns y s t e m ; c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m ;s i m i l a r i t yc o m p u t a t i o n ; m ev a l u e i v 扣 目录 摘 1 8 i a b s t r a c t i 第一章绪论1 1 1 弓i 言1 1 2 国内外研究现状2 1 3 本文的主要工作5 1 3 1 本文研究内容5 1 3 2 本文的创新点6 1 4 论文组织结构6 第二章基于混合相似度计算的协同过滤算法8 2 1 协同过滤算法概述8 2 1 1u s e r b a s e d 协同过滤算法9 2 1 2i t e m - b a s e d 协同过滤算法1 0 2 1 3 基于模型的协同过滤算法1 l 2 2 协同过滤算法中常用的相似度计算方法介绍1 2 2 2 1 常用相似度计算方法1 2 2 2 2 传统相似度计算方法的局限性1 3 2 3 基于混合相似度计算的协同过滤算法1 5 2 3 1p i p 相似度计算方法介绍1 5 2 3 2 混合相似度计算方法在基于用户协同过滤算法中的应用1 6 2 3 3 混合相似度计算方法在基于项协同过滤算法中的应用1 8 2 3 4 实验结果及分析1 9 2 4 本章小结2 3 第三章基于划分相似度计算的协同过滤算法2 4 3 1 划分相似度计算方法的介绍2 4 3 2 加权系数的分配方法2 5 3 3 实验结果及分析2 7 3 4 本章小结2 9 v 第四章考虑用户客观信息的协同过滤算法3 0 4 1 考虑用户客观信息的必要性3 0 4 2 考虑用户客观信息的相似度计算方法3 0 4 2 1 两种用户模型的建立3 1 4 2 2 考虑用户客观信息的相似度计算方法3 4 4 2 3 实验结果及分析3 6 4 3 本章小结3 8 第五章总结与展望3 9 5 1 本文总结3 9 5 2 展望0 0 6ogom 4 0 参考文献4 1 致谢”一”4 6 攻读硕士学位期间发表论文情况4 7 v i 广西大掌硕士掌位论文 协同过滤:算法中新型相似度计算方法的研究 第一章绪论 1 1 引言 随着i n t e r n e t 在世界范围内的普及和电子商务的迅速发展,网上购物、网上娱乐, 以及从网络搜索需要的信息成为人们必不可少的日常行为。一方面它给人们提供了很大 的便利;而另一方面,过多的网上行为造成了互联网上信息过载的问题【2 】。英文版的在 线维基大百科全书包括了一千多万条词条;f l i c k r 一个非常流行的图片共享网站,包括 了1 3 亿张图片;在大型的电子商务网站中,商品的种类和数量也是数以万计。对于个 人用户而言,在如此庞大的信息量中找到自己想要的信息犹如大海捞针,是件十分困难 的事。在这种背景下,个性化 3 4 1 推荐技术就应运而生了,个性化是指根据用户的信息去 更好的为用户设计产品和提供服务,个性化技术的出现很好的解决了用户面对庞大信息 量时造成的迷惑。在众多的个性化技术中,推荐系统是其中的佼佼者,而协同过滤算法 是推荐系统中运用得最成功的算法之一。 协同过滤算法根据用户的历史行为信息,通过计算用户之间的相似度,来给用户 推荐信息或者商品,给用户带来了极大的便利,节约了用户宝贵的时间。推荐系统的产 生为互联网的又一次蓬勃发展创造了良好的技术基础。从协同过滤算法问世到现在,对 其研究的历史已有二十多年,研究的问题主要集中在如何提高算法推荐的准确率及算法 的运行效率,而这些问题的实质都与相似度的计算有着直接的联系,也就是说协同过滤 算法的研究主要集中在相似度计算方法的研究。本文是通过研究协同过滤算法中相似度 计算方法来提高算法的性能。 相似度的计算是协同过滤算法中最为关键的一步,因为它直接影响到协同过滤算法 后面的步骤和最终推荐质量。所以,相似度计算方法的选择在协同过滤算法中至关重要。 目前相似度计算方法很多,有通过利用用户历史信息的“距离 来计算相似度的,例如 欧几米得距剐8 】;有通过利用用户对某产品评分的绝对距离来计算相似度的,例如皮尔 逊相关系数法;还有充分利用用户评分信息的各要素来计算相似度的,例如多标准相似 度计算方法【9 】 3 8 】,等等。随着i n t e m e t 的继续发展,对协同过滤算法的研究也不会停止, 皆在能更快、更准的为用户服务。所以找到更好的,更能反映出用户相似程度的相似度 计算方法仍然是一个非常具有挑战性的研究课题。 广西大掌硕士掌位论文协同过滤算法中新型相似度计算方法的研究 1 2 国内外研究现状 w e b 个性化技术逐渐成为电子商务和信息技术的一项重要的研究内容,成为越来越 多学者关注的焦点。i n t e m e t 上的信息资源量和复杂度都在飞速地增长着,一个站点能否 留住访问者,能否成功地引导访问者获得有用的恰到好处的信息,已经成为这个站点是 否成功的一个衡量标准。一个好的高质量的个性化信息推荐服务包括如下内容: 推荐信息的准确性:信息推荐系统提供的信息要尽可能地满足用户的需求,这就 需要对用户需求的准确把握、对信息内容的准确把握、对信息内容和用户需求之间相关 性的准确把握: 推荐信息响应的及时性:网络应用面对的服务客户是数以十万计的。面对大量用 户的信息需求,推荐系统要及时地对用户做出有效的反馈: 用户为中心:信息推荐系统要以用户为中心进行服务,这就要方便用户的使用。 目前,在w e b 个性化推荐服务中应用的方法和技术大致包括7 类:手工决策规则系 统、基于内容的过滤技术、协同过滤技术、基于人口统计信息推荐、基于效用推荐、 基于知识推荐、其他技术。主要是指使用了新技术或新理论的推荐技术,包括基于数据 挖掘的推荐技术、基于人工智能原理的推荐技术等。 推荐系统是个性化技术最为成熟的技术之一,推荐系统应用知识发现的技术去解 决实时交互过程中如何产生信息、产品、服务的个性化推荐的问题。目前,许多b t o c 的电子商务网站都使用这一技术,例如 1 :推荐c d 和书的,推荐新闻的,推荐商品的 等等。推荐系统根据用户的信息提供产品的推荐,让用户决定是否购买推荐出来的商品, 既节约了用户宝贵的时间,也为商家增加了利润。推荐系统使电子商务网站获得成功表 现在三个方面:通过用户购买推荐的商品而增加销售额;把偶尔访问网站的人转变为买 家;巩固了用户的忠诚度和保留了客源。a n d r e w i s c h e i n 等人在文献 1 0 中提出了 对推荐系统评价的新标准。 按照推荐系统使用的推荐方法可将推荐系统分为三类【3 】: 基于内容的推荐系统:推荐与过去用户青睐的项相似的项; 协同过滤推荐系统:推荐相似用户过去青睐的项; 通过各种不同的方法将以上两种技术相结合。 按照推荐系统使用是算法技术可讲推荐系统分为两类【4 1 : 基于内存技术的推荐系统:根据用户先前的活动,用启发的方式在线做出推荐; 2 广西大掌硕士掌位论文协j 司过滤:算法中新型相似度计算方法的研究 基于模型技术的推荐系统:使用统计或者机器学习的方法学习用户先前的行为 来建立一个预测模型,通过这个模型给出推荐。 了解更多关于推荐系统的知识,参见文献 5 ,6 ,7 。 协同过滤算法的研究在这二十几年特别是i n t e n l e t 迅速发展起来的这十几年,一直 都是个性化技术研究的热点。随着上世纪9 0 年代中期一篇介绍觚u p l e i l s 推荐系统文 章的发表,越来越多的研究者投入到推荐技术的研究中,而协同过滤算法作为推荐技术 的核心算法,自然而然的受到更多的关注。最初的研究主要集中在怎样进行信息的过滤, 也称为社会信息过滤f 4 8 1 ,其主要原理是利用“口碑”来进行推荐,这也是基于用户的协 同过滤算法的雏形。近几年的研究主要集中在如何解决数据稀疏问题【l 、可扩展性问题 【2 1 、充分利用用户信息问题【3 1 、冷启动问题【12 1 ,等等。而这些问题的实质都与相似度的 计算有着直接的联系,所以对协同过滤算法的研究,则可以从如何计算用户之间相似度 的研究入手。 很多领域都需要相似度计算,其方法也有很多。各国学者也对相似度的计算做出了 非常卓越的研究,文献 1 3 采用h a u s d o r f f 距离来计算两张位图之间的相似度, h a u s d o r f f 距离是描述两组点集之间相似程度的一种量度,它是两个点集之间距离 的一种定义形式。文献【1 4 】描叙了一种计算社区之间相似度的方法。文献【1 5 】在分 析了神经网络和支持向量机计算相似度方法的基础上,提出一种c 1 1 e r g y - b a s e d m o d e l s ( e b m ) 模型用于计算人物面部相似度。更多关于相似度计算方面的研究参见文献 1 6 ,1 7 ,1 8 ,1 9 。在协同过滤算法领域中的相似度计算,主要是利用基于评分数据的相 似度计算方法【2 0 1 ,目前协同过滤算法中常用的相似度计算方法有:皮尔逊相关系数法 ( c o r ) 、向量余弦法( c o s ) 、调整的向量余弦法( a c o s ) 、约束的皮尔逊相关系数 法( c p c ) 、斯皮尔曼相关系数法( s r c ) 等。 以协同过滤算法为核心的推荐技术作为一种比较理想推荐技术,尤其在电子商务上 有着广泛的应用。全球现在已经基本步入信息化时代,网上消费已成为一种潮流,所以 对这一技术领域的研究显得非常之重要。当数据非常稀疏的时候,利用现有的相似度计 算方法来计算用户之间的相似度就非常困难,为解决这样的难题,文献 1 2 】、【2 1 提出 了一系列方法,其主要思想主要是利用聚类、数据的预填充、个性化预测等技术来丰富 数据量,从而改进相似度计算的方法,来提高计算用户之间相似程度的准确率,最终提 高推荐的准确率。传统的协同过滤的在选择相似用户的时候,只有相似度作为唯一的参 考指标,文献1 2 2 1 提出了一种信任因子的概念,改变了传统协同过滤算法只考虑的相似 3 广西大掌硕士掌位论文协同过滤算法中新型相似度计算方法的研究 度的情况,从某种意义上来说,信任因子的提出也是为了更好的比较用户之间的相似程 度,在原有相似度计算的基础上能更准确的找到相似程度更高的用户。为了解决大数据 量问题,文献1 2 3 1 提出了一种基于特征表的协同过滤算法,该算法首先将原始数据划分 成若干个特征集,然后通过建立特征表而避免顺序扫描,大大地减少了相似度计算的时 间,实验表明该算法对推荐系统的可伸缩性和推荐质量都有较大的提高。湖南大学的 j i n - m i ny a n g 提出了一种基于合理推断的协同过滤算法【2 4 1 ,该文献在分析了传统协同过 滤算法存在的缺点后,提出了几种合理的推断,并且根据此推断改进了用户之间相似度 的计算方法,试验结果表明,这种方法比其他几种流行的协同过滤算法在效率和准确度 上有很大的提高。文献 2 5 3 提出了项目类别相似性的计算方法,并将项目类别相似性与 传统的项目评分相似性进行加权组合,得到项目综合相似性,从而在提高最近邻居项目 搜寻准确度的同时也缓解了数据稀疏性问题。文献 2 6 也提出了一种稀疏矩阵下的个性 化改进策略:首先进行一对一的个性化预测,得到虚拟用户评分矩阵,在此基础上再进行 综合预测,该方法避免了传统推荐算法中推荐值与用户相似度不密切相关的弊端,提高 了协同过滤的预测精度,尤其是在矩阵极端稀疏情况下的预测精度。针对用户对事物的 兴趣可能变化的情况,文献 3 0 提出了一种适应用户兴趣变化的协同过滤算法,在计算 用户之间相似度的时候,考虑到了基于时间的数据权重和基于资源相似度的数据权重。 国内有关协同过滤算法的研究比较典型的还有 3 1 ,3 2 ,3 3 ,3 4 。 2 0 0 1 年s a r w a r 教授提出了基于项目的协同过滤推荐算法【2 1 7 】( i t e m b a s e d c o l l a b o r a t i v ef i l t e r i n g a l g o r i t h m ) ,成为协同过滤算法研究的一个里程碑,基于项目的协 同过滤算法采用了向量夹角余弦值的方法来计算相似度,通过计算项与项之间的相似度 来预测用户对项的评分,很好的解决了数据稀疏的问题。s a r w a r 教授在基于项的协同过 滤算法中运用了不同的相似度计算方法,产生了差别较大的结果,这也进一步说明了协 同过滤算法中相似度计算方法选择的重要性。p a n a g i o t i ss y m e o n i d i s 等人在文献 2 8 1 中 考虑到基于用户的协同过滤或者基于项的协同过滤在选择邻居的时候都只考虑到一方 面,即用户的相似度或项的相似度,这样就没有充分利用已有信息,所以提出了一种最 近二分聚类的协同过滤算法,将用户和项的相似度联合起来考虑,实验结果证明,利用 这种方法准确率和召回率分别提高了3 0 和1 0 。类似研究的还有文献【2 9 】,文中提出 了使用双重信息的协同过滤算法,即根据相似用户和权威用户的信息来做出推荐,使推 荐系统更加高效,提高了适应性。文献【3 5 】提出了一种新的基于用户信任度的协同过滤 算法,在选择邻近用户时,用信任度去代替相似度,很好的解决了推荐系统冷启动的问 4 协同过滤算法中新型相似度- i t 算方法的研究 题。文献f 3 6 】提出使用错误矫正相关性的协同过滤算法,从数据库中使用分形维度去获 得错误矫正相关性,此方法提高了推荐的准确性。值得注意的时,文献【3 7 】提出了一种 新的基于用户信任度的协同过滤算法,在选择邻近用户时,用信任度去代替相似度,一 定程度上解决了推荐系统冷启动的问题。文献【4 2 】将基于用户的协同过滤算法与基于项 的协同过滤算法结合,充分考虑两者的相似度,提高了算法的健壮性。 虽然对协同过滤算法的研究已有比较长的一段时间,国内外学者对协同过滤算法 中相似度计算方法的改进也取得了比较突出的成果,但随着时间不断的推移,一系列新 的问题将陆续出现,摆在研究人员面前的困难依然艰巨。相似度计算作为协同过滤算法 最为关键的步骤,它直接影响到接下来如何选择邻居的问题,而邻居的确定也就决定了 最后的推荐结果。所以相似度计算的方法以及如何创造条件让相似度计算起来方便、准 确仍是一个研究的重点、难点。 1 3 本文的主要工作 1 3 1 本文研究内容 在认真阅读了相关文献的基础上,本人对前人在协同过滤算法的研究有了深入的 认识,特别在相似度计算方法方面做了深入的学习。因为相似度计算是协同过滤算法中 最重要的步骤,所以,研究协同过滤算法中相似度计算方法实质上也就是对协同过滤算 法本身的研究。本文在分析了协同过滤算法中传统的相似度计算方法的局限性后,提出 了几种新的相似度的计算方法,将几种新的相似度计算方法应用到协同过滤算法中。主 要的研究内容如下: 1 、将改进的p i p 的相似度计算方法与传统的相似度计算方法相结合。找到一个评 分数量临界值,当评分数量小于临界值时用p i p 方法来计算相似度,当评分数量大于临 界值时采用皮尔逊相关系数法( 或者调整的向量余弦法) 来计算相似度; 2 、提出了划分相似度的概念,即:喜欢相似度( 1 i k e s i m i l a r i t y ) 、中性相似度 ( n e u t r a l s i m i l a r i t y ) 和不喜欢相似度( d i s l i k e s i m i l a r i t y ) 。通过分别计算三个相似度的值, 然后根据它们的重要程度赋予权重,最后来确定最后用户之间的相似程度,并应用于协 同过滤算法当中; 3 、考虑到传统的计算方法浪费了大量的用户信息,所以本文充分利用用户的一些 客观信息来计算用户之间的相似度。把用户的性别、年龄、职业作为相似度计算的因素, 并且进一步考虑用户在体裁方面的喜好对相似度的影响。 5 广西大掌硕士掌位论文协同过滤算法中新型相似度计算方法的研究 1 3 2 本文的创新点 本文有如下创新点: ( 1 ) 在分析传统相似度计算方法的基础上,提出了几种新型的相似度计算方法。 混合相似度计算方法将改进的p i p 方法与c o r 和a c o s 方法相结合,在计算相似度之 前,先判断目标用户的评分数量,然后决定使用p i p 方法还是c o r 或a c o s 方法来计 算,该方法缓解了矩阵稀疏和冷启动问题。 ( 2 ) 划分的相似度计算方法是将相似度划分为三个部分,提出了三种相似度的概念, 分别计算三个类型的相似度,最后考虑它们的权重关系分配系数,最后组合起来得到用 户之间的相似度,该方法提高了协同过滤算法推荐的准确率。 ( 3 ) 目前协同过滤算法相似度的计算浪费了大量有用的信息,所以在此基础上提出 了考虑用户客观信息的相似度计算方法。该方法把用户的性别、年龄、职业作为相似度 计算的因素,并且进一步考虑用户在体裁方面的喜好对相似度的影响,分别为用户建立 基本模型和喜好模型。这样计算出来的相似度更具合理性,实验结果表明,将该方法应 用到协同过滤算法当中,提高了算法的性能。 1 4 论文组织结构 论文系统、完整地论述了协同过滤算法的原理,详细阐述了协同过滤算法中传统相 似度计算方法的局限性。在此基础上,研究协同过滤算法中相似度的计算方法。论文分 为五章,各章节内容简介如下: 第一章绪论 首先阐述了研究此课题的必要性和重要性,然后介绍了相关领域的研究现状,最 后介绍本文的研究内容和论文的整体框架。 第二章基于混合相似度计算的协同过滤算法 对协同过滤算法做了详细、系统的介绍;对协同过滤算法中传统相似度计算方法 做了详细分析,并总结出其局限性。然后针对目前协同过滤算法面临用户冷启动问题, 将改进后的p i p 相似度计算方法与传统相似度计算方法相结合,并将这种混合相似度计 算方法运用到协同过滤算法中。该方法在讲p i p 方法与传统计算方法结合之前,先找到 一个用户评分数量临界值,根据临界值来判断是使用p i p 方法还是c o r 或a c o s 。 6 广西大掌硕士掌位论文协同过滤算法中新型相似度计算方法的研究 第三章基于划分相似度计算的协同过滤算法 针对目前协同过滤算法计算相似度时,将两个用户的评分作为一个整体考虑,没 有考虑到局部评分的影响。因此提出了划分相似度的概念,将整体相似度划分为三个部 分:喜欢相似度、不喜欢相似度、中性相似度。根据不同部分相似度的重要程度使用了 合理的权重分配方法,改善了计算用户之间相似度计算的准确性。 第四章考虑用户客观信息的协同过滤算法 考虑到目前的相似度计算方法在计算用户之间相似度的时候浪费了大量的信息, 从而提出了考虑用户客观信息的相似度计算方法,并应用到协同过滤算法中。客观信息, 包括用户评分时留下的姓名、性别、年龄、职业等。为用户建立两个模型:用户基本模 型和用户喜好模型先计算两个模型的相似度,然后选出伪邻居,最后与伪邻居计算评 分相似度。实验结果证明,这种相似度的计算方法更能准确、合理地反映出用户之间的 相似程度。 第五章总结与展望 总结全文,指出本文的主要内容和贡献以及今后的研究方向。 7 广西大学硕士掌位论文协同过滤算法中新型4 q 目 0 , x 度计算方法的研究 第二章基于混合相似度计算的协同过滤算法 2 1 协同过滤算法概述 迄今为止在个性化推荐技术中,协同过滤推荐技术是应用得最成功的技术之一,为 推荐系统的发展和应用提供了良好的基础。目前国内外许多互联网上有许多大型商务网 站已采用这项技术为用户智能地推荐产品或者信息。协同过滤技术是基于这样的假设: 经常访问相似资源的用户兴趣相似,一个用户会访问其相似用户曾经访问过的资源【4 1 1 。 因此,通过对相似兴趣用户的判定,来确定某个用户对某一未知资源是否感兴趣。协同过 滤技术领域主要包含以下几方面内容:n 个用户的集合 u l ,u 2 ,u n ) ,m 个商品或项 的集合 a l ,a 2 ,a m ) 以及某用户对某项的评分,既评分矩阵,评分矩阵反映了用户 的喜好。例如r ( u i ,a 1 ) 表示用户u 1 对项a 。的评分,协同过滤推荐系统的主要任务就 是预测目标用户u a 对某项i 的评分r ( u a ,i ) ,并且根据此评分做出推荐。评分矩阵如 图2 1 所示: 1 - diu i r i dii t 帅i dr t i n 卜1 11 0 b 2423 1 e 6 : 3 0 23 32 2 + 3 t - r1 42 4 4 ,5 12 51 6 b 。 3 4 61 52 9 84 了4 71 1 s2 8 5 2 8 2 5 3 6 55 口3 0 54 5 l 3 1 0 be b3 l lb 2 “2 5 72 图2 - 1 评分矩阵示例 f i g 2 - 1e x a m p l eo f r a t i n gm a t r i x 第一行记录表示i d 为1 9 6 的用户对i d 为2 4 2 的项的评分为3 。 协同过滤算法主要由三个步骤构成: ( 1 ) 根据输入的评分矩阵计算用户之间的相似度; ( 2 ) 根据相似度的大小选择目标用户的邻居; ( 3 ) 再根据与邻居的相似程度和邻居对该项的评分来预测目标用户对该项的评 分,最后做出推荐。 协同过滤推荐主要分为两类,基于内存的协同过滤和基于模型的协同过滤。基于内 存的协同过滤又可以分为两个类型:基于用户的协同过滤和基于项的协同过滤。还有一 种混合的协同过滤算法【3 9 】 4 0 】,该种算法同时使用了多种过滤技术。本文主要讨论的是 基于内存的协同过滤算法。 衡量一个协同过滤算法优劣的指标一般有m a e 和n m a e 及f 1m e a s u r e 。 8 协同过滤算法中新型相似度计算方法的研究 2 1 1u s e r - b a s e d 协同过滤算法 基于用户的协同过滤( u s e r - b a s e d ) 是最早使用的协同过滤技术之一,先用相似统计 的方法得到具有相似兴趣爱好的邻居用户,再根据与相似用户的相似程度和相似用户对 该项的评分来预测目标用户对该项的评分。在一个典型的基于协同过滤技术的推荐系统 中,输入数据通常可以表述为一个m x n 的用户内容矩阵r ,m 是用户数,以是内容数, 矩阵的值与内容的类型有关,通常由行为记录模块决定,可以是用户对该内容的评分, 也可以是用户的某种行为。用户相似度的计算方法一般有余弦法和皮尔逊相关系数法。 当目标用户与其他用户的相似度计算出来之后,就根据一个给定的阈值来确定选择邻居 的数目,与目标用户相似度越高的用户就越有可能成为目标用户的邻居。选择邻居的策 略主要有以下几种: ( 1 ) 基本策略( b s ) :选择k 个最近的已经对给定的项评分的邻居; ( 2 ) 最小重叠的基本策略( b s + ) :选择k 个最近的已经对给定的项评分,且和目 标用户有重叠评分项的邻居,重叠部分的大小根据实际需要定义,此策略是b s 策略的 改进版本; ( 3 ) 相似度策略( s s ) :仅仅依靠相似度这一标准,选择k 个最邻近的邻居; ( 4 ) 混合策略( c s ) :包含了b s 策略和s s 策略,选择的用户为两者的并集; ( 5 ) 最小重叠的混合策略( c s + ) :运用c s 策略选择,并且选择的邻居和目标用户 有重叠的评分项,重叠部分的大小根据实际需要定义;此策略是c s 策略的改进版本。 一旦目标用户的邻居确定后,目标用户x 对项i 的预测评分可由下面公式计算: 正“= t + 巫等等u 崭im 等铲 协, 工, 工 ye工i j( 工,j ,) i 其中:疋i 表示用户石对项f 的评分;r 表示用户x 的平均评分;u x 表示目标用户的邻 居的集合。 基于用户的协同过滤算法推荐过程如图2 2 所示: u 1 ,- , , _ ; 4 p m ( p r e d i c t i o n o n ,7 柏e r , hj f o rt h ea c 懒,b u墨er 二。jf r | 。t 。一1 - “,r 叫v 7冀碱o f i e m s f o r t h e : a c t i v eu b _ 日r i n p u t ( r a t i n g st a b l e )c f a 1 9 0 r t 搬mo u t p u ti n t e r f a c e 图2 - 2 基于用户的协同过滤算法推荐过程 f i g 2 - 2r e c o m m e n d i n gp r o c e s so fu s e r - b a s ec fa l g o r i t h m 9 广西大学硕士学位论文协同过滤算法中新型相似度计算方法的研究 图2 2 描述了基于用户的协同过滤算法的推荐过程,主要分为三个部分:数据的 输入、预测和推荐、输出结果。输入的数据一般为用户对某产品的评分矩阵;推荐和预 测主要采用协同过滤算法来进行,这也是推荐系统的核心部分;输出有两种形式,一种 是给出目标用户对某项的评分,另一种则是根据评分给出一个列表,用户评分最高的排 在前面。为预测目标用户对某项的评分,必须先找到目标用户的邻居集,邻居的查找主 要通过计算目标用户与其他用户的相似度来实现。计算相似度的时候,先找到与目标用 户所评分项全部相同的用户,再进行计算,相似度计算即是本文研究的主要内容。 2 1 2i t e m - b a s e d 协同过滤算法 基于项( i t e m b a s e d ) 的协同过滤算法是s a r w a r 教授2 0 0 1 年提出的,该算法的提 出开辟了协同过滤算法研究的新方向。基于项的协同过滤推荐技术根据用户对相似项的 评分预测该用户对目标项的评分,它是基于这样一个假设:如果大部分用户对一些项的 评分比较相似,则当前用户对这些项的评分也比较相似。基于项的协同过滤推荐系统使 用统计技术找到目标项的若干最近邻居,由于当前用户对最近邻居的评分与对目标项的 评分比较类似,所以可以根据当前用户对最近邻居的评分预测当前用户对目标项的评 分,然后选择预测评分最高的前若干项作为推荐结果反馈给用户。即i t e m - b a s e d 方法需 要进行三个步骤获得推荐: ( 1 ) 得到内容项( i t e m ) 的历史评分数据; ( 2 ) 针对内容项进行内容项之间的相似度计算,找到目标内容项的“最近邻居”; ( 3 ) 产生推荐。 与基于内容的过滤不同,协同过滤系统中,项之间的相似度的计算不是基于项的内 容,而是基于用户一项的评估矩阵r 项之间的相似度可用相关系数公式或余弦值公式 来计算。假设项目f 有k 个邻居,并设邻居集合为n ,利用偏好相似程度s i m ( i ,j ) 我们 可以预测出目标客户对未评分项目f 的评分预测结果可以按下面公式计算: 一s im ( i ,j ) ( r u i j 一丌) 、 足叫2 丌+ 掣1 _ 石百百万f q 。2 其中:墨表示第i 项被用户评分的平均值。 1 0 广西大掌硕士掌位论文协同过滤算法中新型相似度计算方法的研究 基于项目的协同过滤算法产生推荐的过程如图2 - 3 所示: ,23t - i ,弘f。,- fn ,2 t i l d ,”i ,7 ,4 l ,3 ;4 ,f7 甲 图2 - 3 基于项目的协同过滤算法推荐过程 f i g 2 - 3r e c o m m e n d i n gp r o c e s so fi t e m - b a s e dc fa l g o r i t h m 从图2 3 可以看出,为预测用户u 对第f 项的评分,必须先找到第i 项的邻居。与 基于用户的协同过滤算法不同,基于项的协同过滤算法是要找到某项的邻居,其查找方 法也与基于用户的协同过滤算法不同。为了计算第f 项与第,项之间的相似度,必须先 找到一个用户集合,用户集合里面的用户必须都对两项做出了评分,然后再进行计算。 2 1 3 基于模型的协同过滤算法 基于模型的协同过滤( m o d e l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论