(计算机应用技术专业论文)隐交互式个性化搜索引擎研究.pdf_第1页
(计算机应用技术专业论文)隐交互式个性化搜索引擎研究.pdf_第2页
(计算机应用技术专业论文)隐交互式个性化搜索引擎研究.pdf_第3页
(计算机应用技术专业论文)隐交互式个性化搜索引擎研究.pdf_第4页
(计算机应用技术专业论文)隐交互式个性化搜索引擎研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 隐交互式个性化搜索引擎研究 摘要 随着i n t e m e t 的飞速发展和在全世界范围的普及,越来越多的信息不断加 入到网络中,在信息极大丰富的同时,用户面临着“信息过载”和“资源 迷向”的问题。“面向用户”的个性化搜索引擎成为解决上述问题的关键, 个性化搜索引擎及其个性化服务技术成为了当今的研究热点,并且取得了一 定的研究成果。 本文介绍了个性化搜索引擎的研究现状、关键技术以及现有个性化搜索 引擎的不足,通过分析用户在使用搜索引擎时的行为特征,提出了一种新 的基于隐式用户信息收集和隐式反馈技术的个性化搜索引擎研究框架 隐交互式搜索引擎,具有一定的理论意义和很强的实用价值本论文主要 做了如下几方面的工作: 第一,描述了隐交互式搜索引擎的工作原理,提出了隐交互式搜索引 擎的三层系统体系结构以及各层之间的通信机制。 第二,介绍了建立在隐交互式搜索引擎体系结构上的用户隐式信息收 集方法、收集的内容和存储方式。描述了建立在收集到的用户信息基础之 上的用户描述文件建立的方法和步骤,提出了基于用户描述文件的用户建 模方法和基于用户兴趣度的查询扩展方法。 第三,通过隐式收集用户的即时反馈信息,提出了一种基于隐式反馈 技术的用户模型更新方法;通过分析用户行为的特征和搜索引擎排序的特 点,提出了一种基于用户缓存的个性化排序方法;根据用户的行为特征和 i 太原理工大学硕士研究生学位论文 个性化搜索引擎的特点,提出了两个评价个性化搜索引擎性能的评价指标: 用户行为指数和用户行为准确率。 最后,本文实现了一个隐交互式搜索引擎i s e p ,证明了隐交互式搜索 引擎体系结构的可行性,另外,通过收集用户的查询信息和点击信息,证 明了基于用户兴趣度的查询扩展方法在某种程度上提高了成员搜索引擎的 查准率,通过平均用户行为指数和平均用户行为准确率两个评价指标,证 明基于用户缓存的个性化排序方法具有一定的优越性,同时也表明两个评 价指标的一致性。 关键词:隐交互式搜索引擎,用户行为,查询扩展,用户模型,个性化排 序 太原理工大学硕士研究生学位论文 r e s e a r c ho n 蛐l i c i t l yn 呵t e r a c t i v e p e r s o n j u 2 见ds e a r c he n g i n e a b s l r a c t w i t ht h ed e v e l o p m e n ta n dp o p u l a r i z a t i o no fi n t e m e ti nt h ew o r l d , m o r e a n dm o r ei n f o r m a t i o nh a sb e e np u b l i s h e do nt h ei n t e r n e t u s e r so fi n t e m e tf a c e t h ep r o b l e mo fi n f o r m a t i o no v e r l o a d i n ga n dc a nn o te a s i l yf r e di n f o r m a t i o n a v a i l a b l ew i t hm u c ha b u n d a n ti n f o r m a t i o no nt h ei n t e m e t , s op e r s o n a l i z e d s e a r c he n g i n eb e c o m ea ne f f e c t i v em e t h o dt oi m p r o v et h es i t u a t i o no rr e s o l v e t h ep r o b l e m p e r s o n a l i z e ds e a r c he n g i n ea n dp e r s o n a l i z e dt e c h n o l o g yb e c o m e h o tr e s e a r c ht o p i c s ,a n ds o m er e s e a r c ha c h i e v e m e n t sc o m et oe x i s t e n c e 1 1 坞t h e s i s p r e n t st h e s t a t u so ft h ep e r s o n a l i z e ds e a r c he n g i n ea n d e m g i n gk e yt e c h n o l o g i e s ,a sw e l la st h ed e f i c i e n c i e so fp e r s o n a l i z e ds e a r c h e n g i n e s b ya n a l y z i n gt h ef e a t u r e so fu s e ra c t i o ni nt h ec o r i s eo fu s e ru s i n g s e a r c he n g i n e ,an e wr e s e a r c hf r a m e w o r ko fp e r s o n a l i z e ds e a r c he n g i n ec a l l e d i m p l i c i t l yi n t e r a c t i v es e a r c he n g i n ei sp r o p o s e dw h i c hb a s e do ni m p l i c i t i n f o r m a t i o nc o l l e c t i o no fu s e l a c t i o na n di m p l i c i tf e e d b a c kt e c h n o l o g y t h e r e s e a r c ho ft h ef r a m e w o r ki sm e a n i n g f u li nb o t ht h e o r ya n da p p l i c a t i o n 1 1 1 e m a i nw o r k si nt h et h e s i sa r el i s t e da sf o l l o w s ; f i r s t l y , t h et h e s i sp r e s e n t sb a s i ct h e o r yo fi m p l i c i t l yi n t e r a c t i v es e a r c h e n g i n e ,a n dt h et h r e e - l a y e ra r c h i t e c t u r ea n di t sc o m m u n i c a t i o nm e c h a n i s ma r e p r o p o s e d s e c o n d l y , t h et h e s i sp r e s e n t st h ei m p l i c i tb s e ri n f o r m a t i o nc o l l e c t i o n i i i 太原理工大学硕士研究生学位论文 m e t h o dw h i c hb a s e do nt h ea r c h i t e c t u r eo fi n t e r a c t i v es e a r c he n g i n e ;a n dt h e c o l l e c t i o nc o n t e n t sa n ds t o r i n gf o r m a ti sa l s op r e s e n t e d o nt h eb a s i so f i n f o r m a t i o nc o l l e c t e df r o mu s e r s ,t h et h e s i sd e s c r i b e st h em e t h o d sa n ds t e p so f c r e a t i n gu s e rp r o f i l eb a s e do nw h i c ht h em e t h o do fu s e rm o d e l i n ga n dq u e r y e x p a n s i o n a r ep r o p o s e d 。 t h i r d l y , o nt h eb a s i so f t h eu s e ri n s t a n tf e e d b a c kc o l l e c t e dt h r o u g hi m p l i c i t m e s s a g e ,am e t h o do fu s e rm o d e lu p d a t i n gb a s e do ni m p l i c i tr i s e rf e e d b a c k t e c h n o l o g yi sp r o p o s e d b ya n a l y z i n gu s e rb e h a v i o ra n dc h a r a c t e r i s t i c so ft h e r a n k i n gf e a t u r e so fs e a r c he n g i n e ,ap e r s o n a l i z e dr a n k i n gm e t h o db a s e do l l c a c h ei sp r o p o s e d a c c o r d i n gt ot h eu s e rb e h a v i o ra n dt h ec h a r a c t e r i s t i c so f p e r s o n a l i z e ds e a r c he n g i n e ,u s e ra c t i o ni n d e xa n du s e ra c t i o np r e c i s i o na s e v a l u a t i o ni n d i c a t o r so f p e r s o n a l i z e ds e a r c he n g i n ea r ep r o p o s e d f i l l a l l y , a ne x p e r i m e n t a ls y s t e mc a l l e di s e pp r o v e st h ef e a s i b i l i t yo f t h r e e l a y e ra r c h i t e c t u r eo fi m p l i c i t l yi n t e r a c t i v es e a r c he n g i n e t h ee x p e r i m e n t s h o w st h a tq u e r ye x p a n s i o nm e t h o db a s e do nu s e ri n t e r e s t sc a ni m p r o v et h e p r e c i s i o no fm e m b e rs e a r c he n g i n et os o m ee x t e n d i na d d i t i o n , a v e r a g eu s e r a c t i o ni n d e xa n da v e r a g eu s e ra c t i o np r e c i s i o nd e m o n s t r a t et h a t r a n k i n g m e t h o db a s e do nu s e rc a c h eh a so 。r t a i n a d v a n t a g e s i ta l s os h o w st w o e v a l u a t i o ni n d i c a t o r si nt h ep e r f o r m a n c ee v a l u a t i o no fp e r s o n a l i z e ds e a r c h e n g i n ea r ec o n s i s t e n c y k e yw o r d s :i m p l i c i t l yi n t e r a c t i v es e a r c he n g i n e ,u s e ra c t i o n ,q u e r y e x p a n s i o n , u s e rm o d e l ,p e r s o n a l i z e dr a n k i n g i v 士= l :l明只月 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:篇霄螈 , 吟 一l , 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容【保密学位论文在解密后遵守此规定) o 签名: 导师签名:鲥日期:盘z :圭望 太原理工大学硕士研究生学位论文 1 1 引言 第一章绪论 由于互联网i n t e m e t 的飞速发展和在全世界范围的普及,越来越多的数据库和信息 不断加入到网络之中,网络上的各种信息正以指数级的速度增长i n t e m e t 已经发展为 当今世界上资料最多、门类最全、规模最大的信息库和全球范围内传播信息的主要渠道。 w w w 以超文本的形式呈现给用户各种各样的信息,构成了一个异常庞大的具有异构 性、动态性和开放性的分布式数据库 然而,在信息极大丰富的同时,用户也面临着“信息过载”和“资源迷向”的问题 【1 1 i n t e m e t 上的信息过于庞杂,而且具有不稳定和变动快的特点,没有也不可能有一 个权威机构能对这些信息进行全面的整理和归类因此,面对缤纷复杂的网络空间,面 对信息的海洋,用户往往感到无所适从,不知道如何去获取自己需要的内容 i n t e m e t 上的文档一般都是通过超链接结构互相联系起来的,借助i n t e r n e t 浏览器来 浏览w e b 页面的内容这种浏览方式适合于目的不明确、时间要求不紧迫的情况,当 需要查找一个具体的内容时,效率很差,一般不能在短时问内获褥所要的信息,特别是 对i n t e m e t 不太熟悉、缺乏上网经验的用户因此,用户试图通过浏览w e b 来发现信息 已经变得非常困难,往往花费了很多时间和精力却所获甚少,人们期待效率更高的信息 获取工具的出现 自1 9 9 2 年第一个搜索引擎w e b c r a w l e r 在网上正式发布并开始服务以来,搜索引擎 己经成为发展最快、最引人注目的网络服务之一当时的搜索引擎数据库容量小,查询 算法简单,效率不高,但却改变了传统的检索方式1 9 9 6 年后,搜索引擎开始进入。容 量建设期”,网页数量都超过百万甚至千万国内搜索引擎起步较晚从1 9 9 2 年2 月中 国科学院网首次与互联网互联到现在的十多年时间里,出现了诸如百度( b a i d u ) 、网络指 南针等中文搜索引擎尽管在数量上、速度上国内的搜索引擎与凡家大型搜索引擎有一 定的差距,但是经常使用的一些国内搜索引擎网页数量也都在十万以上然而在简单的 匹配算法下这对用户来说不是一个很好的事情 当前,搜索引擎正经历着从。数量累积”向。质量精炼”的变革口】随着i m e m e t 上的信息数量呈指数级增长,大量信息垃圾也混杂其中如何向用户提供质量好且数量 l 太原理工大学硕士研究生学位论文 适当的检索结果成为搜索引擎技术发展的方向之一由于大多数搜索引擎的搜集范围是 综合性的,它们的r o b o t 尽其可能的把各类网页抓回来,只经过简单的加工后存放到数 据库中备检:另外,搜索引擎直接提供给用户的检索途径大多是基于关键词的布尔逻辑 匹配,返回给用户的就是所有包括关键词的文献。这样的检索结果在数量上远远超出了 用户的吸收和使用能力,让人感到束手无策。这也就是现在经常谈论的“信息过载气 “信息超载”现象 传统搜索引擎的排序技术主要是基于超链分析的,如p a g e r a n k 算法,h i t s 算法等 等。g o o g l e 采用p a g e r a n k 算法,该算法和百度搜索引擎使用的超链分析技术在本质上 没有多少区别。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保 证了用户在搜索时,越受用户欢迎的内容捧名越靠前。但这样的搜索引擎基本上都采用 “一个搜索适用所有用户”的模式,也就是不同的用户提交相同的关键字进行查询时, 搜索引擎返回的结果相同,毫无个性而言然而,搜索本身是一个个性化的活动,不同 用户对所需信息需求不同,传统的搜索引擎无法满足用户的个性化需求 传统搜索引擎未考虑用户的背景( 年龄、性别、职业、学历、爱好等) 、用户的查询 时期或阶段等对用户信息需求有很大影响的个人因素,对不同用户的同一检索词返回同 样的结果集,对同一用户在不同时期的同一检索词的返回结果没有考虑用户信息需求的 变化,传统搜索引擎不能体现用户的信息需求个性,即传统搜索引擎提供的服务是“面 向检索”的,而不是“面向用户” 针对上述情况,如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的 需求无关的信息,真正做到“面向用户”与“各取所需”,成为基于i n t e m e t 的网络信息 检索的热点问题因此,为了解决丰富的信息资源和低能的信息获取能力之间的矛盾, 个性化的信息检索系统应运而生,获得了长足的发展,正在被越来越多地应用于w e b 空间,并成为讨论的焦点自9 0 年代开始,相关主题的国际会议不断举行,有力地推 动了信息检索的不断完善和进一步深入 个性化搜索引擎以及个性化技术就是在这一背景下被提出来的个性化的目的就是 让搜索引擎能够更加深入,更加细致地参与到每个用户的整个检索过程中。从关键词的 选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真 正相关的页面;从与用户相关的大量文档中找用户最相关、最需要、最感兴趣的页面, 并将这些页面尽早地显示到用户面前 2 太原理工大学硕士研究生学位论文 1 2 个性化搜索引擎的研究现状 搜索引擎个性化是搜索引擎研究的一个熟点方向,搜索引擎的个性化利用资源和用 户兴趣的相似性来过滤信息,从而为用户提供个性化的信息,此外,搜索引擎通过区别 于传统搜索引擎的系统实现方式为用户提供个性化的信息本节主要从信息过滤技未、 用户建模和个性化的实现方式三个方面来讨论个性化搜索引擎的研究现状 1 2 1 信息过滤技术 ,目前有许多搜索引擎能够提供一些个性化的服务,它们使用各种技术实现个性化服 务个性化搜索引擎系统根据使用的过滤技术可以分为两种:基于规则的系统和信息过 滤系统,信息过滤系统又可分为基于内容的过滤系统和协作过滤系统四 基于规则的系统利用预定义的规则来过滤信息,其优点是简单、直接,缺点是规则 的质量难以保证,而且不能动态更新。此外,随着规则的数量增多,系统将变得越来越 难以管理 基于内容过滤的系统利用资源和用户兴趣的相似性来过滤信息,它的关键问题是相 似性计算,优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用 户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源 协作过滤系统利用用户之间的相似性来推荐信息,它能够为用户发现新的感兴趣的 内容,其关键问题是用户聚类,且需要用户的参与 个性化搜索引擎经常使用的过滤方式是基于内容的过滤方式系统通过分析用户的 历史访问信息、行为信息、查询信息等与用户相关的信息,建立用户模型或用户描述文 件,系统再通计算用户模型或用户描述文件与要过滤文档的相关性,以相关度预测用户 对搜索结果的满意程度即个性化程度,进而自动组合出对用户有用的最新文档并发送给 用户个性化程度取决于相关性预测算法的智能化程度相关性测算算法是基于某种过 滤模型的,可以实现某种方式的过滤目前,人们已经研究了许多种过滤方法,提出许 多模型,其中比较典型的有: 加m 1 也勰a 系统是一个信息发现和过滤系统,它能根据用户的兴趣爱好,从分布的 节点上发现有用的信息并进行过滤,然后以摘要的形式提交给用户【4 】在运行过程中, 能在用户兴趣改变后,根据用户的反馈和自身的“显形? 口h e t y l 哟和。基因型勺g e n o t y p c ) 的值修改其“适应度”,达到“进化”的目的 3 太原理工大学硕士研究生学位论文 s a v v y s e a r c h 模型系统是一个基于经验学习的中介搜索系统嘲它能根据用户提供的 术语和反馈,建立中介索引,分析时问和经验因素,并对从搜索引擎得到的结果进行优 化,从而发现用户真正需要的信息 m e t a c r a w l e r 系统是w a s h i n g t o n x 学开发的基于i n t e m e t q 口a 个w w w 搜索引擎的“寄 生虫”式的过滤工具同它提供了统一的接口,用户将自己的查询提交给m e t a c r a w l e r , 后者转交给各个搜索引擎,收集所有的结果并以统一的形式反馈给用户通过在实际的 信息和用户之间生成一些信息过滤处理层,以提高信息发现和过滤的灵活性 在实际的应用中,三种个性化服务技术往往相互结合以及与其它技术结合起来使 用基于内容的过滤技术与i n t e l l i g e n ta g e n t 结合产生的个性化搜索引擎系统有 s y s k i l l & w e :b e r t ,w e b w a t c h e r ,c i t e c e e r c , o o g l e :和b a i d u 提供的个性化w e b 搜索服务 是通过个人定制的方法来实现的个人定制是指用户可以按照自己的目的和需求,在一 定的系统功能和服务形式中,自己设定信息的来源方式、表现形式,选择特定的系统服 务功能等,这种个人定制方式在系统实现上实质上就是基于内容过虑方式与基于规则过 滤方式二者的结合 1 2 2 用户建模技术 用户模型( u s e rm o d e l ) 或用户描述文件( u s e rp r o f i l e :) 是实现个性化搜索引擎的关键, 它们是对用户兴趣的表示,系统只有建立能够准确反映用户兴趣的用户模型或用户描述 文件,才能实现个性化服务根据收集用户信息方式的不同,常用的用户建模方法有基 于w e b 日志挖掘的方法、基于显式反馈的方法、萋于隐式反馈的方法等 基于w e b 日志挖掘的方法就是系统通过分析用户使用搜索引擎的日志,建立用户模 型来表示用户的兴趣,东南大学的冯永杰等人搭建了一个基于过滤a g e n t 的信息检索过 滤系统模型,该模型就是通过挖掘用户测览w e b 的历史记录来表示用户兴趣的【2 1 基于显式反馈的方法就是系统要求用户填写一些表单或其它一些信息,并根据这些 信息建立用户模型,如s y s i d l l & w e :b e r t 基于隐式反馈的方法是系统通过收集用户的行为信息( 点击了哪些页面、停留了多 长时间、拖动了几次鼠标等) ,建立用户模型来表示用户兴趣,如:u c a i 蜊用用户在 一次查询中的隐式反馈信息( 用户点击的页面摘要) 建立和更新用户模型,根据用户模型 进行查询扩展和重排序用户未浏览的页面r 7 】;p a i p * j 用用户e t 志和用户在一次查询中的 点击信息动态地重排序用户未浏览的页面嘲 4 太原理工大学硕士研究生学位论文 1 2 3 个性化实现方式 目前,个性化搜索引擎在实现方式上有很大的不同,主要通过文档层次分类、查询 优化、结果集聚类、个性化排序等方式体现搜索引擎的个性化 ( 1 ) 文档层次分类 有的个性化搜索引擎系统通过对w e b 页面进行预分类来引导用户与搜索引擎进行 交互,从而实现个性化的信息服务y a h o o ,o d p ,c , o o g l e 采用向用户提供文档类别层 次的方法,用户可以选择感兴趣的类别,然后进行下一步搜索,从而实现了个性化的信 息服务 c z ) 结果集聚类 有的个性化搜索引擎系统通过对搜索结果进行聚类来引导用户与搜索引擎进行交 互,从而实现个性化的信息服务n o r t h e r nl i g h t ,w 岱e n u t ,v i v i s i m o 对搜索结果进行 聚类显示,用户可以选择感兴趣的聚类类别,然后进行下一步搜索,从而实现了个性化 的信息服务嘲这种结果集显示方式引导用户与搜索引擎进行多次交互,不同的用户选 择的类别不同,返回的搜索结果也不相同,即不同用户使用同一查询进行查询时,由于 用户选择的聚类类别不同,最终的结果也不同 ( 3 ) 查询优化 有的个性化搜索引擎系统通过对用户的查询进行优化来实现个性化信息服务由于 不同的用户具有不同的用户模型或用户描述文件,对查询进行优化后的查询也不相同, 导致搜索结果也不相同,从而实现了一种个性化的信息服务w e b m a t e 利用u s e rp r o f i l e 优化用户查询;w a t s o n 利用局部的相关信息来优化用户查询,但是没有u s e rp r o f i l e : i n q u i r u s 利用用户的偏好信息去选择数据源并且优化查询,但是没有形成u s e r p r o f i l e , 需要用户提供自己的偏好;u c a i r 和p a i r 通过自动查询扩展来对查询进行优化,从而 提供个性化的信息服务 ( 个性化排序 有的个性化搜索引擎系统通过对用户使用搜索引擎过程中的浏览行为对用户未浏 览的结果进行重排序来实现个性化的信息服务u a 蝴过学习用户使用搜索引擎时的 及时点击信息,更新用户模型,重排序用户未浏览的搜索结果m i r 通过学习用户使用 搜索引擎时用户及时点击信息迭代地重捧序用户未浏览的搜索结果 5 太原理工大学硕士研究生学位论文 1 3 个性化搜索引擎系统现存的问题 随着互联网的进一步发展,各种形式的电子文档以惊人的速度增长,而传统搜索引 擎的发展则显得相对滞后,个性化搜索引擎的研究取得了一定的进展,搜索引擎都在提 供自己的个性化服务,但目前的搜索引擎在个性化方面还存在很多的局限性,主要体现 在以下几个方面: ( 1 ) 对所有用户都是同一副面孔,不能很好地适应用户兴趣变化 目前的搜索引擎存在着很大的不足。它们不考虑用户信息偏好和用户的不同,对所 有用户提供一样的界面和同样的成千上万、良莠不齐的结果,使用户在寻找有用信息时 如同大海捞针,不能根据不同的用户给出相应的建议同时,用户要获取最新的信息, 只能重复同样的查询命令,浪费了用户大量的时间 ( 2 ) 缺乏交互性 现有搜索引擎的检索模式是:用户输入搜索关键词,搜索引擎返回相关页面结果集, 用户浏览返回的页面。用户往往通过输入不同且相关的关键词来获得满足其信息需求的 结果,即通过对查询关键词的修改,如概化、特化等,从而获得满意的结果,但现有搜 索引擎不能理解这些不同的关键词实质上用户是想获得同样的结果在返回的页面集 中,用户选择感兴趣的页面进行浏览,不同用户的测览顺序和页面不尽相同,现有搜索 引擎不能跟踪用户的浏览行为,也就不能针对不同用户的不同行为提供个性化的页面重 排序,从而实现个性化的服务,更好地满足用户的信息需求 ( 3 ) 用户的每次查询都是独立的 现有搜索引擎将用户的每一次查询都看作是一次独立的行为,不能识别用户为了获 得某一信息而使用不同关键词进行的相邻查询之间的联系,不能更好地满足用户的信息 需求。同一个用户在不同时期不同环境下输入同一关键词,得到的结果都是一样的,没 有考虑用户兴趣随时问和环境的变化 ( 4 ) 查询方式单一、死板 现在使用的查询方式主要是基于文本匹配的方式,不能提供诸如图形、图像、声音 等其它媒体形式的查询。现有系统普遍采用相关反馈技术作为用户和系统进行交互的主 要手段,针对不同需求的用户,提供不同的输入方式是目前现有系统所缺少的。返回的 方式也比较单一、死板 6 太原理工大学硕士研究生学位论文 1 4 本文的主要研究内容 本文针对现有个性化搜索引擎缺乏交互性的不足,提出了一种新的基于隐式用户信 息收集和隐式反馈技术的个性化搜索引擎研究框架隐交互式搜索引擎它构建了一 个将用户的隐式反馈信息和用户在查询会话中的点击信息整合成一个统一模型的方法, 应用该方法能实现自动的查询扩展和个性化排序,结合该模型的特点,本文给出了两个 度量个性化搜索引擎的评价指标在隐交互式搜索引擎研究框架的指导下,本文最后实 现了一个隐交互式搜索引擎i s e p ,通过实验证明了该模型及其方法的可行性和有效性 本文的主要研究内容是隐交互式搜索引擎的体系结构、用户建模的方法以及个性化 搜索引擎评价等内容,具体研究内容如下: ( 1 ) 隐交互式搜索引擎体系结构研究 ( 2 ) 隐交互式搜索引擎用户的行为研究 ( 3 ) 基于隐式反馈的用户建模方法研究 ( 4 ) 个性化查询扩展与搜索结果集重排序算法研究 ( 5 ) 基于用户行为的个性化搜索引擎性能评价方法及评价指标研究 1 5 本文结构 本文共六章,具体章节内容如下: 第一章为绪论,介绍了论文研究的背景和意义。概述了当前个性化搜索引擎技术的 情况,最后介绍了本文的主要研究内容和论文的组织结构 第二章详细分析了用户在使用搜索引擎时的行为特征,提出了一个个性化搜索引擎 的研究框架隐交互式搜索引擎,介绍了该模型的主要研究内容和系统体系结构 第三章讨论了隐交互式搜索引擎的隐式信息的收集方法和用户建模的具体步骤,并 对自动查询扩展展开讨论,提出了一种基于用户兴趣度的查询扩展方法 第四章讨论了隐交互式搜索引擎用户模型更新的方法和具体的步骤,结合隐交互式 搜索引擎用户行为的特点应用相关反馈技术实现了一种简化的基于相关反馈技术的用 户模型更新方法结合隐交互式搜索引擎体系结构的特点,提出了一种基于缓存的个性 化排序方法本章最后讨论了个性化搜索引擎的评价方法和评价指标,提出了两个评价 个性化搜索引擎性能的评价指标 第五章设计并实现了一个隐交互式搜索引擎i s e p ,通过实验证明了隐交互式搜索 7 太原理工大学硕士研究生学位论文 引擎体系结构的可行性,用户建模和更新方法、查询扩展方法、个性化排序方法的可行 性,最后评价i s e p 的性能 第六章对整个论文工作傲了总结,并探讨了下一步需要完善和进一步研究的问题 8 太原理工大学硕士研究生学位论文 第二章隐交互式搜索引擎及其体系结构 个性化搜索引擎是“面向用户”的搜索引擎,用户是搜索引擎的直接使用者,也是 服务质量好坏的最终评判者,用户使用搜索引擎时的行为为实现搜索引擎的信息服务提 供了很多有用的信息,这些信息对提高个性化搜索引擎的性能具有很大的帮助。本章详 细分析了用户使用搜索引擎时的行为特征,讨论了用户行为信息收集的方法,并把这些 信息作为用户隐式反馈的信息,提出了一种新的基于隐式反馈技术的个性化搜索引擎研 究框架隐交互式搜索引擎另外,本章给出了隐交互式搜索引擎的抽象描述,详细 讨论了隐交互式搜索引擎的体系结构。 2 1 用户行为分析 2 1 1 用户行为 和传统服的用户群相比,虽然搜索引擎的用户群经验少,但他们的数量却十分巨 大大型商业搜索引擎,如g o o g l e 、a l m v i s t a 、酉度等,每天都有上千万次的用户检索 通过对这些用户检索行为的统计分析,我们可以从中获取许多有用的信息,这些信息可 以大大提高搜索引擎检索结果的准确率,提高检索质量 d i r e c th i t 技术就是基于以上思想创立的这项技术的主要特点是跟踪用户对检索 结果的后继行为:哪些站点被用户点击了2 用户在这个站点上花费了多少时间? 通过对 这些数据的统计,搜索引擎就可提高那些经常被用户选择,而且花了大量时间去浏览的 站点的权值,降低那些不太被用户关心的站点的权值此外,这项技术可以对一个固定 的用户行为进行跟踪和统计,进而发现这个用户的喜好和对检索结果的期待g r a y g u u i s 将搜索引擎使用的4 种信息网页本身的信息、超链接信息、人工编辑产生的 目录信息和用户行为信息进行了比较,发现用户行为信息的利用对提高检索的查全率和 查准率最有优势【1 q 【1 1 】 搜索引擎的用户行为研究主要包括用户行为的分类,用户行为的特征,用户行为之 间的关系以及用户行为的收集等典型的用户行为有:用户提交查询、点击感兴趣的 u r l 、拖动浏览器窗口的滚动条、测览页面、翻页等 闫宏飞等人提出了一个基于用户日志的用户行为研究框架,详细统计和分析了天网 9 太原理工大学硕士研究生学位论文 搜索引擎中用户的行为特征【埘t h o r s t e nj o a c h i m s 通过监视用户在使用搜索引擎时用户 眼睛的运动情况和用户点击内容的情况,研究了用户的点击顺序的特征,用户点击顺序 与内容相关性之间的关系,发现了一些有趣的规律【1 2 j 2 1 2 用户行为特征 通过分析用户使用搜索引擎的访问日志,监视用户使用搜索引擎浏览信息时眼睛的 运动情况以及鼠标的移动情况等方式,我们发现用户的行为具有一些明显的特征和规 律,典型的用户行为具有下列特征; ( 1 ) 用户点击u r l 的选择性 用户每次查询时,搜索引擎都会返回成百上千个查询结果,这些结果当中有一部分 是质量较高的结果,有一部分是质量很差的查询结果,用户根据结果的标题和摘要进行 判断,浏览他所需要的结果,就可以认为用户视此查询结果质量较高;被用户多次点击 浏览的页面无疑就是用户认为质量较高的页面根据北大天网搜索引擎的统计数据显 示,在天网系统数据库中的1 0 0 多万个有效页面中,被点击的u r l 只有1 6 万左右,仅占 总有效页面的1 ,6 这说明用户的点击行为具有选择性f l 田 ( 2 ) 用户翻页行为的局部性 北大天网的搜索引擎的统计数据同时显示,用户点击的i 珉i 相当的集中,大部分用 户点击都落在前几页,第一页的用户点击次数占总点击次数的4 7 3 ,第二页的用户点 击次数占总点击次数的1 2 2 ,第三页的用户点击次数占总点击次数的7 4 ,第四页的 用户点击次数占总点击次数的5 ,第五页的用户点击次数占总点击次数的3 7 ,前五 页的点击数占到了总点击数的7 5 以上【堋不到总量l 3 的页面的点击次数占到了总点击 次数的2 3 这表明用户翻页行为具有很强的局部性用户翻页行为的局部性提示我们注 意排在前5 更的查询结果,保证排在蓠几页的查询结果都是高质量的查询结果 ( 3 ) 用户浏览行为的顺序性 研究人员通过视频输入设备记录用户浏览时眼睛的运动情况,然后分析记录下的数 据。数据显示:用户浏览结果集中的页面记录的时间与搜索引擎返回结果集时间的差值 的平均值成增大趋势旧从搜索引擎返回搜索结果开始到用户点击某条结果的平均时间 与该结果的排序顺序有关( 如图2 1 所示) ,总得来说,用户的浏览( 点击) 顺序是从上到下 的。 1 0 太原理工大学硕士研究生学位论文 2 5 2 0 童1 5 g1 0 5 o | | j j j 卜一m i 一| | 一 - _ _ _ _ 太原理工大学硕士研究生学位论文 2 1 3 基于用户行为的启示 用户点击u r l 的选择性表明,某页面被点击和浏览的次数越多,那么它的质量就 越高。用户是通过搜索引擎提供的信息来判断页面质量的好坏的,这些信息包括页面的 标题以及摘要的质量、在搜索结果列表中的排序位置等由此可见,在收集用户行为信 息时,这些页面信息是必不可少的,它为用户建模以及个性化排序提供了有用的数据, 系统只需记录这些信息而不是整个页面的信息,提高了系统收集用户行为信息、建立用 户模型与个性化排序的效率 用户翻页行为的局部性表明,用户在浏览搜索结果集时,往往是“找到为止( 找不 到也为止) ”,而不是“不找到全部不罢休”由此可见,在对搜索结果集进行个性化 重排序时,只需要对返回的结果集中的前几页进行捧序即可,而没有必要对所有的结果 进行捧序。在进行个性化的缓存设计时也只需缓存前面几页的结果即可,此外,在对搜 索结果的质量进行评估时只需要考虑前面几页的查准率即可,而没有必要考虑所有结 果集页面的查准率 用户浏览行为的顺序性表明,用户对搜索引擎返回的页面结果集的浏览顺序往往是 从上到下。由此可见,在对搜索引擎结果集的质量进行评价时应该考虑用户的浏览顺序 与结果集排序顺序之间的一致性,二者越接近,则表明搜索引擎的排序准确率越高 三类用户行为的时序性表明,提交查询信息、点击感兴趣的页面和翻页三类用户行 为在发生的时间上存在着紧密的先后关系理论上讲,每一次用户行为都潜在地为系统 提供了新的信息来帮助用户进一步推断用户的信息需求,现有的搜索引擎系统没有充分 利用用户的行为信息,所以不能提供更优的个性化的查询结果例如,用户点击了页面 记录集中前几条记录,然后点击翻页时,系统没有对后面没有显示的页面集进行重捧序 由此可见,在建立用户模型时应该考虑用户的历史行为信息,在用户模型的更新过程中 应该考虑用户的即时的点击信息,从而使得用户模型不仅考虑了用户的长期兴趣而且考 虑了用户的短期兴趣。在用户的浏览过程中根据用户的点击行为信息用户模型迭代地动 态地更新,使得用户模型越来越接近用户真实的信息需求 用户点击行为的偏见性表明,用户对搜索引擎返回的页面结果集的点击顺序在一定 程度上依赖于搜索引擎返回页面的质量( 包括内容相关性和排序的准确性) 由此可见, 在对搜索引擎结果集的质量进行评价时应该考虑用户的质量偏见和信息偏见对用户点 击行为的影响 1 2 太原理工大学硕士研究生学位论文 用户的行为特征表明,用户行为为搜索引擎系统提供了很多反映用户兴趣的信息, 系统可以将这些隐式的反馈信息作为理解用户查询的背景信息需求,系统可以根据用户 及时的反馈信息及时地调整用户的信息需求,从用户的历史信息需求和当前信息需求中 理解用户真正的信息需求,从而为用户提供更准确的个性化服务 2 2 隐交互式搜索引擎 隐交互式搜索引擎( i m p l i c i t l yi n t 傩e c t i v es e a r c he 玎垂,简称i s e ) 是一种新的基于隐 式反馈的个性化搜索引擎,它自动获取用户与搜索引擎的交互信息,即用户行为信息, 通过自动分析这些隐式的反馈信息,建立和更新用户模型,实现个性化信息服务 隐式反馈技术与个性化技术的结合是个性化搜索引擎的一种必然趋势,许多学者在 这一领域作积极的探索和研究,取得了一定的成果,但这方面的个性化搜索引擎的产品 并不多x u c h u as h e n 等人提出了基于隐式反馈的个性化建模方法,实现了一个称为 u c a i r 的b h o ( b g o w 睨 h e l p o b j e c t ) 【”;y u a n h u a l v 等人提出了一种迭代反馈方法,根据用 户日志和即时的访问信息建立和更新用户模型,实现了一个称为p a i r ( p e r s o n a l i z c d a s s i s t a n tf o ri n f o r m a t i o nr e t r i e v a l ) 的b h o i s u c a i r 和p a i r 并不是搜索引擎,它们只是 应用b h o 技术构建的搜索工具条,工具条与特定的搜索引擎结合在一起 以上两种b h o 都应用隐式反馈技术建立用户模型,并且能够动态地为用户提供服 务,具有一定的交互性它们的交互性主要体现在:当用户点击感兴趣的搜索结果时, b h o 通过分析处理该结果的标题和摘要,修改用户模型,从而实现自动的查询扩展和重 排序用户未浏览的搜索结果,即b h o 通过学习用户及时的隐式反馈信息,动态地更新用 户模型,从而提供动态的个性化服务,区别于传统搜索引擎和已有个性化搜索引擎缺乏 交互的特征 隐交互式搜索引擎不同于传统的搜索引擎,也不同于基于隐式反馈技术的b h o 本 节主要讨论隐交互式搜索引擎的工作原理,研究的主要内容,体系结构以及特点 2 2 1 特定术语 为了描述隐交互式搜索引擎的工作原理,引入一些特定的术语 用户会话( u s 口s e s s i o n ) :用户为了获得某一信息需求在一段时间间隔内与搜索引擎 进行的一系列连续的交互活动( 用户行为与系统响应) 1 3 太原理工大学硕士研究生学位论文 查询会话( q u e r ys e s s i o n ) :用户为了获得某一信息需求在一段时间间隔内从提交的 查询到提交下一个查询或退出搜索引擎为止进行的系列连续的交互活动( 用户行为与 系统响应) 有时,用户为了获得某一信息需求,需要与搜索引擎进行多次查询会话, 即用户会话由一个或多个连续的检索会话组成 查询( q u e r y ) , 是指用户在使用搜索引擎时在搜索框内输入的由一个或多个词或短 语组成的字符序列,它可能包括某种逻辑操作符如:“s e a r c h g i n c ”,“中文搜索”等 初始查询( b m i a lq u e r y ) 在一个用户会话中,用户首次输入的查询称为初始查询 重复查询g 印e a lq 叻:在一个用户会话中,若查询的内容等同子初始查询的内 容,则称该查询为重复查询 修正查询( m o a i f i e dq u e r y ) 在一个用户会话中,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论