中国科学院大学现代信息检索课后习题答案_第1页
中国科学院大学现代信息检索课后习题答案_第2页
中国科学院大学现代信息检索课后习题答案_第3页
中国科学院大学现代信息检索课后习题答案_第4页
中国科学院大学现代信息检索课后习题答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

好资料学习一-《信息检索导论》课后练习答案王

2013/9/28

最后更新日期

布尔检索第一章

o画出下列文档集所对应的倒排索引(参考图1-3中的例子)习题1-1[*]newhomesalestopforecasts1文档home

salesriseinjuly2文档increaseinhomesalesinjuly3文档julynewhomesalesrise4文档

解答:

forecaststf------->wfdf1=wf-idfidfq.wftfwf=归一化的d

home1digital------->iio0001?33?211?30.5204

invideo0------->0100000?2203110.5203.112

increase------->3

julycameras1------->1500002?2.301?321.30140.677

2.301

new------->1?4

rise------->?24

sales------->Doc11??2?3Doc34

Doc2

top------->1

习题考虑如下几篇文档:[*]1-2

breakthroughdrugforschizophrenia文档1

newschizophreniadrug

2文档

newapproachfortreatmentofschizophrenia文档3

newhopesforschizophreniapatients4文档

a.画出文档集对应的词项一文档矩阵;

解答:

文档1文档2文档3文档4

001approach0

00breakthrough10

0110drug

1

1

for

1

0

更多精品文档.

好资料学习---10hopes00

1011new

00Oof

1

10patients

00

1111schizophrenia

0

0

1

treatment

0

中的例子)。b.画出该文档集的倒排索引(参考图1-3o解答:参考a

中的文档集,如果给定如下查询,那么返回的结果是什么?习题对于习题l-2schizophreniaANDdruga.2)

,文档解答:{文档1

)b.forANDNOT(drugORapproach4}

文档解答:{

所对应的倒分别是Brutus和Caesar[*]对于如下查询,能否仍然在O(x+y)次内完成?其中x和y习题1-4排记录表长度。

如果不能的话,那么我们能达到的时间复杂度是多少?BrutusANDNOTCaesara.

BrutusORNOTCaesar

b.

解答:次内完成。通过集合的减操作即可。具体做法参考习题1-11。a.可以在O(x+y)的倒排记录表需要提取其他所有

词项对应的倒因为NOTCaesarb.不能。不可以在O(x+y)次内完成。排记录表。所以需要遍历几乎全体倒排记录表,于是

时间复杂度即为所有倒排记录表的长度的和。O(x+N-y)N,即O(N)或者说

将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询习题1-5[*]

(BrutusORCaesar)ANDNOT(AntonyORCleopatra)

c.我们能在线性时间内完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗?

也就是说可以为所有倒排记录表长度之和。q解答:时间复杂度为O(qN),其中为表达式中词项的个数,N的线性时间内

完成合并。由于任意布尔表达式处理算法复杂度的上N在词项个数q及所有倒排记录表长度界为0(N),所以上述复杂

度无法进一步改进。

假定我们使用分配律来改写有关AND和OR的查询表达式。习题中的查询写成析取范式;a.通过分配律将习

题1-512

b.改写之后的查询的处理过程比原始查询处理过程的效率高还是低?

c.上述结果对任何查询通用还是依赖于文档集的内容和词本身?

解答:析取范式为:a.(BrutusAndNotAnthonyAndNotCleopatra)OR(CaesarANDNOTAnthonyANDNOTCleopatra)

,得到的倒排记录表都括号内。操作这里的析取范式处理比前面的合取范式更有效。这是因为这里先进行b.ANDOR不大,再进行操作

效率就不会很低。而前面需要先进行操作,得到的中间倒排记录表会更大一些。OR更多精品文档.

学习-一好资料

C.上述结果不一定对,比如两个罕见词A和B构成的查询(AORB)ANDNOT(HONGORKONG),假设HONG

中结果一起出现很频繁。此时合取方式可能处理起来更高效。如果在析取范式中仅有词项的非操作时,bKONG不对“

习题1-7[*]请推荐如下查询的处理次序。

d.(tangerineORtrees)AND(marmaladeORskies)AND(kaleidoscopeOReyes)

其中,每个词项对应的倒排记录表的长度分别如下:

词项倒排记录表长度

213312eyes

87009kaleidoscope

107913marmalade

271658skies

tangerine46653

316812

trees

解答:由于:46653+316812=363465?(tangerineORtrees)

107913+271658=379571?(marmaladeORskies)(kaleidoscopeOReyes)?87009+213312=30321

所以推荐处理次序为:AND(tangerineORtrees)AND(marmaladeORskies))(kaleidoscopeOReyes

1-8(*]习题对于查询friendsANDromansAND(NOTcountrymen)

提出一种在确定查询顺序时对逻辑如何利用的文档频率来估计最佳的查询处理次序?特别地,countrymen非进行处理

的方法。

解答:令friends、romans和countrymen的文档频率分别为x、y、z。如果z极高,则将N-z作为NOTcountrymen的

长度估计值,然后按照X、V、N-z从小到大合并。如果z极低,则按照x、v、z从小到大合并。

习题对于逻辑与构成的查询,按照倒排记录表从小到大的处理次序是不是一定是最优的?如果是,请给出解释;

如果不是,请给出反例。

解答:不一定。比如三个长度分别为x,y,z的倒排记录表进行合并,其中x>y>z,如果x和y的交集为空集,那么有可能

先合并x、y效率更高。

习题1-10[**]对于查询xORy,按照图1-6的方式,给出一个合并算法。

解答:

1answer<-()

2whilepl!=NILandp2!=NIL

3doifdoclD(pl)=doclD(p2)

4thenADD(answerzdoclD(pl))

5pl<-next(pl)

6p2<-next(p2)

更多精品文档.

--好资料学习elseifdoclD(pl)<doclD(p2)7

ADD(answerzdoclD(pl))then8

pl<-next(pl)

9

ADD(answer,doclD(p2))10else

p2<-next(p2)11

〃*还有剩余12ifpl!=NIL

thenwhilepl!=NILdoADD(answer,doclD(pl))13

elsewhilep2!=NILdoADD(answerzdoclD(p2))14

return(answer)15

?为什么原始的处理方法非常耗时?给出一个针对该查询的高xANDNOTy1-11[*]如何处理查询习题

效合并算法。

几乎要遍历所有倒排表,因此如果采用列举倒排表的方式非常耗时。可以采用两个NOTy解答:由于。算法如下:xAND

NOTy有序集合求减的方式处理

Meger(pl,p2)

answer1()

2whilepl!=NILandp2!=NIL

3doifdoclD(pl)=doclD(p2)

4thenpl?next(pl)

5p2?next(p2)

6elseifdoclD(pl)<doclD(p2)

7thenADD(answer,doclD(pl))

8pl?next(pl)

9elseADD(answerzdoclD(p2))

10p2?next(p2)

11ifpl!=NIL〃*还有剩余

12thenwhilepl!=NILdoADD(answer,doclD(pl))

13return(answer)

习题1-12[*]利用Westlaw系统的语法构造一个查询,通过它可以找到professor、teacher或lecturer中的任意一个词,

并且该词和动词explain在一个句子中出现,其中explain以某种形式出现。

解答:professorteacherlecturer/sexplain!

习题1-13[*]在一些商用搜索引擎上试用布尔查询,比如,选择一个词(如burglar),然后将如下查询提交给搜索引擎

(i)burglar;(ii)burglarANDburglar;(iii)burglarORburglaro

对照搜索引擎返回的总数和排名靠前的文档,这些结果是否满足布尔逻辑的意义?对于大多数搜索引擎来说,它们往往

不满足。你明白这是为什么吗?如果采用其他词语,结论又如何?比如以下查询

(i)knight;(ii)conquer;(iii)knightORconquero

更多精品文档.

学习--好资料

第一章词汇表和倒排记录表*]请判断如下说法是否正确。习题2-1[a.在布尔检索系

统中,进行词干还原从不降低正确率。b.在布尔检索系统中,进行词干还原从不降低召回率。c.词干还原会增加词

项词典的大小。词干还原应该在构建索引时调用,而不应在查询处理时调用。d.

错d错a错b对c解答:

2-7[*]考虑利用如下带有跳表指针的倒排记录表习题

和一个中间结果表(如下所示,不存在跳表指针)进行合并操作。101

10095979935892-10所示的倒排记录表合并算法,请问:采用图)(plskip)?跳表指针实际跳转的次

数是多少(也就是说,指针p的下一步将跳到a.i>75

24一—次,当两个表进行合并时,倒排记录之间的比较次数是多少?【如下答案不一定正确,有人利用程序b.

21次,需要回到算法,本小题不扣分,下面不考虑重新比较同意对数字】计算需要<3,3>,<5,5>,<9,89>,

次:解答:

18<15/89>/<24/89>/<75/89>/<92/89>/<81/89>/<84/89>/<89/89>/<92/95>/<115/95>/<96/95>/<96/97>/<97/97>,<100/99>/<100/100

><115z101>

c.如果不使用跳表指针,那么倒排记录之间的比较次数是多少?19次:解答:

<3,3>,<5,5>,<9,89>,<15,89>,<24,89>,<39,89>,<60,89>,<68,89>,<75,89>,<81,89>,<84,89>,<89,89><92,95>,

<96,95>/<96/97>,<97/97>/<100/99>/<100,100>/<115/101>

文〉;位置位置下面给出的是一个位置索引的一部分,格式为:词项:文档〈习题位置

1,2,-*]1:2-9[>o1,2,…

档2:〈位置;〉〉;7:<17angels:2:〈36,174,252,651〉;4:〈12,22,102,432;〈3,13,23,193〉1,17,74,222〈〉;4:〈8,78,108,458〉;

7:fools:2:

"8,328,528〉〈〉;4:13,43,113,433〉;7:<fear:2:<87,704,722,901;〉;7:〈10,20,110,470,500〉〈5,15,25,195in:2:

〈3,37,76,444,851〉;4:

;)>;7:〈4,14,404〉rush:2:〈2,66,194,321,702;4:〈9,69,149,429,569;〈199,319,599,709〉14,24,774,944to:2:

〈47,86,234,999〉;4:〈〉;7:

〈15,35,155〉;7:20,320〉((tread:2:57,94,333);4:

;〈16,36,736〉〉where:2:〈〉67,124,393,1001;4:<11,41,101,421,431;7:

那么哪些文档和以下的查询匹配?其中引号内的每个表达式都是一个短语查询。。“foolsrushin”a.

解答:文档2、4、7

aw

b.”foolsrushin”ANDangelsfeartotread0

更多精品文档.

好资料学习--4

文档解答:

第二章典及容错式检索索引的话,那么对应该查询应该会fi*mo*er,如果采用2-gram习

题3-5再次考虑321节中的查询节的轮排索引查询,但是产生什么样的布尔查询?你能否举一个词项的例子,使该词

匹配3.2.1并不满足刚才产生的布尔查询?$fANDfiANDmoANDerANDr$

索引下的布尔查询:2-gram解答:321节的轮排索引查询,但是并不满足上述布尔查询词项和ibuster(海盗)满足

o的长度,请证明s1和s2的编辑距离不可能超过max{|s11,|s2|)3-7习题如果|si|表示字符串si中的每个字符依

次替换为,将s1转换为s2的一种做法为:将s1证明:不失一般性,假设|s1|v=|s2|,的后|s2|=max{|s1|,|s2|}|s2|-|s1|

个字符,上述操作的总次数为s2中的前|s1|个字符,然后添加s21s2|=max{|s1|,|s2|}根据编辑距离的定义,其应该小

矩5X5中的算法结果,其中的alice3-8计算paris和之间的编辑距离,给出类似于图3-5习题阵包含每个前缀子串

之间的计算结果。解答:

个可3-11考虑四词查询catchedintherye,假定根据独立的词项拼写校正方法,每个词都有5习题57

需要考虑多少可能的短语拼写形式(提那么,选的正确拼写形式。如果不对空间进行缩减的话,

种变化可能)?示:同时要考虑原始查询本身,也就是每个词项有6解答:6*6*6*6=1296习题soundex3-14编码一

致的专有名词。找出两个拼写不一致但,相同解答:Mary,Mira(soundex)本题答案不唯一,可能有其他答案,编码必

须一致。但是soundex更多精品文档.

好资料学习-索引构建第四章

,每次比较都有两次磁盘寻道ID对的数目)7■次比较(T是词项ID一文档习题4-1如果需要7log2过程。假定使用磁

盘而不是内存进行存储,并且不采用优化的排序算法(也就是说不使用前面4-lReuters-RCVl构建索引需要多长时间?计

算时假定采用表提到的外部排序算法),那么对于中的系统参数。解答:8丁=10对于Reuters-RCVl,一388s=26575424s=7382

h=308)*5*102*(10*logl0为:因此排序时间(文档分析时间可以忽略不计)2day

个词项分区,假定使用的集=3=10个分区文件,/4・3二15对于〃个数据片,r习题语料进行分

布式索引构架下对Reuters-RCVl群的机器的参数如表4-1所示,那么在MapReduce需要多长时

间?不一样,不同同学用的不同版本,还有本题过程具有【给助教:教材不同印刷版本表4-2争

议。暂不扣分】

:解答【整个计算过程是近似的,要了解过程】(一)、MAP阶段【读入语料(已经不带XML标记信息了,参考表5-6),

词条化,写入分区文件】:

⑴读入语料:

5,占6B每个词条词条,(考虑标点和空格)基于表4-2,ReutersRCV1共有8*10篇文档,每篇文档有20085而那第3行的

数据,注表(近似1GB,4-2对应于表5-1因此整个语料库的大小为8*10*200*6=9.6*10B

,这里近似计算,但是不处理,因此实际的原始文档集大小应该略高于0.96G里的数据已经经过去数字3行的结果)

5-1要认为没有处理就得到表第8/15B9.6*10将整个语料库分成15份,则每份大小为3=1.28S

/15*2*10每一份读入机器的时间为:9.6*1085参考对每一份语料在机器上进行词条化处理,(2)词条化:得到

8*10*200=1.6*10个词项ID-文档ID(98个字节,词条*8=1.28*10,共占1.6*10)ID4-2表和图4-6,注意此时重复的词项ID-

文档对还没有处理看词条化主要是做了去数字和大化的时间暂时忽略不计【从题目无法得到词条化这一部分时间,从

表5-1。小写转换,当然也感觉这一部分的处理比较简单,可以忽略】写入分区文件:每一份语料得到的词项(3)ID-

文档ID(Key-Value)存储到分区所花的时间为:-89=1.71S(1.28*10/15)*2*10

⑷MAP阶段时间:MAPMAP台机器进行1015由于分成份,但只有操作,所以上述操作需要两步,因此,整个MAP更

多精品文档.

学习——好资料(1.28+1.71)*2=6.0s

过程所需时间为

阶段【读入分区文件,排序,写入倒排索引】:(二八REDUCEo按Key聚合,即变成Key,list(Vl,V2..)⑴读入分区文件

【读入过程中已经实现所有Key-Value对中的Value聚合过程在内存中实现,速度很快,该时间不计。另外,网络传输

时间这里也不计算】:8台索引器上每台所分配的倒排记录数目为,因此3根据表4-2,所有倒排记录的数目为1.6*108

组成,因此每台索引器上需要读入的倒排记录表数字节文档ID1.6*10/3,而每条记录由4字节词项ID和49字节。据为

1.28*10/3-89=8.551.28*10/3*2*10于是,每台索引器读数据的时间为(2)排序:-888=13.7s

/3)*10/3*log(1.6*10每台索引器排序所花的时间为1.6*102列表,和文档ID写入倒排索引文件【此时倒排文件已经实现

文档(3)ID的去重,假定只存储词项ID]:并不存储其他信息(如词项的DF及在每篇文档中的TF还有指针等等展85

/3*4+10/3*4=4/3*10字节个需要写入磁盘的索引大小为(据表4-2,词项总数为4*10)4*10-88=2.7s*2*10索引写入磁盘的

时间为:4/3*108.5+13.7+2.7=24.9⑷REDUCE阶段时间为:

(三)因此,整个分布式索引的时间约为6.0+8.5+13.7+2.7=30.9s

索引压缩第五章文档集词典在两种不同按块存储压缩方法下的空间大小。其中,第一种估计

Reuters-RCVl习题5-2

女=16方法中卜=8,第二种方法中。解答:字节,所有个词项节省7*3-8=137*3个字节,同时增加8个字节,于是每

8每8个词项会节省7.6MB-0.65MB=6.95MB

13*400000/8=650K,因此,此时索引大小为词项共节省字节,15*3-16=2916个词项节省同时增加16个字节,每16于是

每个词项会节省15*3个字节,,因此,此时索引大小为7.6MB-0.725MB=6.875MB所有词项共节省29*400000/16=725K

距间其对应的,270,400)及26512,10,11,,15,62,63,,268表倒5-6习题考虑排记录(4。假定倒排记录表的长度和倒

排记录表分开独立存储,这130)3〃2,3,1,,47,1,20214表(,6,

样系统能够知道倒排记录表什么时候结束。采用可变字节码:1字节来编码的最大间距是多少?⑴能够使用字节来

编码的最大间距是多少?2(ii)能够使用(只计算对这些数字序列进行编码上述倒排记录表总共需要多少空间(iii)采用可

变字节编码时,的空间消耗)?解答:7……)0即可表示间距1,也算对,因为不存在(i)2-1=127(答1280间距,14)也

算对16384(ii)2-1=16383(答(iii)1+1+1+1+1+1+1+2+1+1+2=13

对于下列采用]5-8[习题*y编码的间距编码结果,请还原原始的间距序列及倒排记录表。更多精品文档.

好资料学习——1110001110101011111101101111011

解答:1110001;11010;101;11111011011;11011

1001;110;11;111011;111

32+16+8+2+1=59;79;6;3;

9;15;18;77;84

文档评分、词项权重计算及向量空间模型第六章叱中的D℃3中

几个词项的tf情况,采用图6-8、6-10考虑图6-9中的3篇文档DoclDoc2、习题值。insurance及best的tf-idf值来计

算所有词项car、auto>

Doc3Doc2Doc1

car24274

auto0333

insurance29033

best

17

0

14

值6-10中所使用的tf图6-9习题解答:idf=1.65,idf=2.08>idf=1.62,idf=1.5,bestautoinsurancecar于是,各

词项在各文档中的tf-idf结果如下表:

car24*1.65=39.6

27*1.65=44.554*1.65=6.6

auto0

3*2.08=6.24

33*2.08=68.64

insurance29*1.62=46.98

0

33*1.62=53.46

best

14*1.5=21

0

17*1.5=25.5

习题6-12公式(6-7)中对数的底对公式(6-9)会有什么影响?对于给定查询来说,对数的底是否会对文档的排序造

成影响?

解答:没有影响。

假定idf采用与(6-7)不同的底x计算,根据对数换底公式有。

idf(x)=log(N/df)=log(N/df)/logx=idf/logx,ttttx

更多精品文档.

一一好资料学习的计算中该常数可以作为公因,在公式(6-9)idft(x)和idft之间只相差一个常数因子l/logx由于子提

出,因此文档的排序不会改变。

的向量空间相似度并及文档digitalcamerasandvideocameras6-19计算查询digitalcameras习题对应的列)wf6-l的空列

中。假定N=10000000,对查询及文档中的词项权重(将结果填入表看成and采用对数方法计算,查询的权重计算采用

idf,而文档归一化采用余弦相似度计算。将121

是停用词。请在tf列中给出词项的出现频率,并计算出最后的相似度结果。习题6-19中的余弦相似度计算表6-1

档文查询dq?"词wftfq=wf-idfdftfwfidfwf

4=归一化的„digital10000

100000video

50000cameras

【本质上这里没有考虑查询向量的归一化,即没有考虑查询向量的大小,严格上不是余弦相似解答:度】档文查询

d?q词u

值,采用如下权重计算机制来计算获得和idf个词项和3篇文档中的tf4习题6-23考虑习题6-10中(ii)ntc.atc。得分最

高的两篇文档:(i)nnn.atc;

,然后计算内积,于是有:根据题意文档采用nnn,查询采用atc(i)解答:

文档查询q

Docl得分词项归一化tf-idftf-idfidftfidftftf-idf2727car11.651.6510.560

30.3533auto0.52.081.04123.3101insurance0.55011.621.6200best0.5091141.511.514

文档Doc2查询q

得分词项归一化idftf-idfidftftftf-idftf-idf更多精品文档.

好资料学习-一一40.560411.65car11.65

1.0410.3532.08auto0.5333332.0371.62insurance331.6211330.5500.5091.5best1011.5

0

文档Doc3查询q

词项得分归一化tf-idfidftftfidftf-idftf-idf1.651.65240.56024car1111.04Oauto02.080.50.353

38.0461.62291.62290.550insurance1111.50.509best1.511717

Score(q/Doc3)>Score(q/Doc2)>Score(q/Docl)nnn.atcT,于是,在

ate,然后计算内积,于是有:(ii)根据题意文档采用ntc,查询采用

Docl文档查询q

词项得分归一化归一化idftf-idftfidftf(a)tf-idftf-idf

tf-idf

0.897car2711.651.6544.551.650.5600.1250.353auto0.56.242.0832.081.040.76

insurance10.5501.621.6201.6200

best

11.51.50.509141.5210.423

查询qDoc2文档

词项归一归一得分

化化

idftf(a)tf-idftf-idftfidftf-idf

tf-i

df

car1.6511.650.5601.6546.60.075

auto0.52.081.040.353332.080.786

68.

64

0.660.61333insurance0.55011.6253.461.621.62best

11.51.50.50901.500

查询q文档Doc3

得分词项归一化归一化tf(a)idftf-idfidftf-idftftf-idf

tf-idf

更多精品文档.

好资料学习

carauto11.651.650.5602439.60.5950.92

doc20.351.211.65

??doc3?doc1

1car(0)

为零的不应

该出现在倒

排记录中,有

的也算

对】?docl

【按道理,

tfauto?doc2

?doc3

docl?doc2?i

nsurance?do

c3doc2

docldoc3??

best?

auto0.52.081.040.353000

insurance0.251.212.08

(0)1.7

insurance11.621.620.550291.620.706

46.98

bestbest11.51.50.5090.5171.525.50.383

所以,倒排记0.71(0)1.4

录表如下:1

Score(q/Doc3)>Score(q,Docl)>Score(q,Doc2)

下,于是,在nnn.atc

一个完整搜索系统中的评分计算第七章

已经能够充分保证找到前)水给定单个词项组成的查询,7-3请解释为什么采用全局胜者表。习题,如何对上述思

路进行修正?>1)K篇文档。如果只有s个词项组成的查询(s解答:用于区(idfidf已经不起作用了r篇文档构成t的胜

者表。单词项查询,词项t所对应的tf最高的),所以此时已经足够了。别不同词的先天权重

【这一问本人也不知道该怎么答,不权重了。。因此,不再独立。对于s个词项组成的查询,有idf扣分吧】

的静态得分分别和Doc2nnn.atc权重计算的数据,假定Docl习题7-5重新考察习题6-23中基于的静态得分进行取值,

才能分别保证它能够成Doc3。请确定在公式(7-2)下,如何对2是1和的排名第一、第二或第三的结果。为查询best

carinsurance算出(7-2)(6-12)解答:这道题不扣分吧。。整个书上有关余弦相似度的计算这块都有问题【即按照公式的数,

例子中都没有考虑查询向量的16-4)却是大于到01之间的数,但实际例子(例的应该是算出的根本不是什么余弦相似度。

整个一团乱】中nnn.atc大小。另外,按照习题6-23

1.471.39、如果相似度先采用nnn.atc计算,最后除以文档向量的大小,则三篇文档的得分分别为:1.68。和g(d3)>1.79

排名第一:

-g(d3)+1.68>3.47z

2.39<g(d3)+1.68<3.47,0.71<g(d3)<1.79排名第二:一

0<g(d3)<0.71排名第三:-

,画出当使用静态10.5DOC3和的静态得分分别是0.25、和Doc2Docl6-10习题7-7设定图中、值求和结果进行排序的

倒排记录表。得分与欧几里得归一化tf

7-2计算得下表:解^答:按照公式doc3doe1doc2

1.58

1.13

0.59

更多精品文档.

好资料学习-一

信息检索的评价第八章

个检索结果(左边的结果10考虑一个有4篇相关文档的信息需求,考察两个系统的前习题8-8[*]

排名靠前),相关性判定的情况如下所示:NNNRRRNRNN1系统

RRNNN

系统2NRNNR

计算两个系统的MAP值并比较大小。a.

得分?b.上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的MAP正确性进行排序的结果进行对比。

中按照c.计算两个系统的RMAP值,并与a解答:(1+2/3+3/9+4/10)/4=0.6a.系统1

(1/2+2/5+3/6+4/7)/4=0.492系统2

3-5篇之内b.相关文档出现得越靠前越好,最好前面2R-Precision=0.25c.系统1的R-Precision=0.5,系统

,下面给出了某系统8在10000篇文档构成的文档集中,某个查询的相关文档总数为习题8-9[**]

篇相6表示)和不相关(用N表示)情况,其中有针对该查询的前20个有序结果的相关(用R关文档:NNNNR

RNNNRRRNNNNNNRN

20篇文档的正确率是多少?前a.

P@20=6/20=30%

?

F值是多少前20篇文档的b.iFl=3/7=0.429

R@20=6/8=75%,150

召回率水平上的插值正确率是多少?在25%c.1

召回率水平上的插值正确率是多少?在33%d.

3/9=33.3%

MAP值。假定该系统所有返回的结果数目就是20,请计算其e.(l+l+3/9+4/ll+5/15+6/20)/8=0.4163

篇文档,那么篇文档只是结果中最靠前的20篇文档,上述假定该系统返回了所有的1000020是多少?该系统可能的

最大f.MAP,此时有:位开始,接连两篇相关文档,此时可以获得最大的从第21MAp更多精品文档.

——好资料学习(1+1+3/9+4/11+5/15+6/20+7/21+8/22)/8=0.503

是多少?该系统可能的最小g.MAP(l+l+3/9+4/ll+5/15+6/20+7/9999+8/10000)/8=0.4165

的到(g)h.在一系列实验中,只有最靠前的20篇文档通过人工来判定,(e)的结果用于近似从(f)(采用绝所造成的误差有

多大⑴通过(e)而不是和(g)来计算MAPMAP取值范围。对于上例来说,对值来计算)?10.4163-(0.503+0.4165)/21=0.043

相关反馈及查询扩展第九章CDscheapsoftware并对这两篇文档进行了判断:包含内容

用户查看了两篇文档dl和d2,习题9-3:为不相关文档。假设直接使dl的文档为相关文档,而内容为cheapthrillsDVDs

的文档d2cheapCDs(不进行归一化也不加上文档频率因子),也不对向量进行长度归一化。采用词项的频率作为权重

Y=0.25,o请问修改后的查询向量是多少?其中(9-3)进行Rocchio相关反馈,a=1,B=0.75用公式

解答:

搜索系统,并且为了提高效率,系统只基于返回网页WebOmar实现了一个带相关反馈的习题9-4:的查询是的标题文

本进行相关反馈。用户对结果进行判定,假定第一个用户Jinxingbananaslug

返回的前三个网页的标题分别是:bananaslugAriolimaxcolumbianus

SantaCruzmountainsbananaslug

SantaCruzCampusMascot

的搜索引擎只基于词项频率(不包括

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论