计算机信息检索_第1页
计算机信息检索_第2页
计算机信息检索_第3页
计算机信息检索_第4页
计算机信息检索_第5页
已阅读5页,还剩260页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论计算机信息检索参考书l 计算机情报检索 同济大学出版社 慎金花编l 计算机信息检索 机械工业出版社 李莹(浙大)l 电子信息资源检索教程 南开大学出版社 何翠花l 计算机情报检索 北京大学出版社 赖茂生编l 实用光盘检索技术 上海科技出版社 郑燕华l 计算机信息存储和检索 科大出版社 高星l 科技查新教程 机机械工业出版社l 国际联机检索原理与技术 湖北科技出版社 龚国伟l 现代信息检索当代信息检索 张曼玲 哈工大出版社电脑网络信息 王云 国防工业出版社网络信息资源搜集和利用 张厚生东南大学出版社计算机信息检索l 课时安排 :1 2 3 4 5 6 7 8 9 10概要,序 ,意 义信息基 础知 识计 算机休息 检索 应用检索策略检 索技 术检 索指令检 索案例检 索系 统使用技巧检 索修正复 习l 课程安排的原则是 :l A理论结合实际 :l (1)理论部份是的检索基础知识和技巧l (2)实践部份是一些国际上较权威的检索系统包括中文库 :VIP,万方 , 期刊网 ,l 英文库 : EI,Sci,Sa,WPI,CAl DIALOG,STNl B部分资源的教学是通过网络链接来实现的为什么学习l 案例 :前日大学生参军的访谈l 中关村老总的谈话l 全世界的成功者的持续十年的成功者概率是低于 10%l 去年的中国富豪的命运l 大学生的就业的基本的条件与学习内容l 西方 的 MAB和各国企业文化的不同与中国的一致性l 丁磊和张朝阳等 ,李嘉诚及其儿子的实例为什么要学习计算机信息检索第一 :从内容分析看 :l (1)学生学习的本质 :l (2)学习内容的本质和作用 :l (3)学习的原则 : 由厚到薄 -由薄到厚l (4)学习的自我延伸 :l (5)学生的自我社会延伸 :A能力 :l B角色 :心理与惯性l C再学习的角色和素质 l 要求l D学习的社会变通性l 从 案例看 :l(1)广州标致的引进与生产l(2)关于非典的知识产权 (美国疾病控制中心)l(3)王选的策略及其经验l(4)中国目前的西药的局面和原由l(5)中国的中药的局面l(6)日本的发展和策略l(7)中国的手机的引进和电视机的发展l-袁隆平的分析l 项目失败:永康厂,电池厂 ,健特生物l 项目 成功:美菱,丰原生化,第一节检索课的教学模型购买化妆品的属性可对应所有文献课的各索引系统 :A前提 :买什么东西?哪个厂家生产?该产品叫什么?是否有批准文号(法定)?使用该产品的市场反馈如何?产品的发明人或生产者是谁? 该厂家的地理位置在哪里?是否含有特殊的有效成分?B模型化的具体对应与索引:买什么东西 -分类索引( CLASSIFICATION INDEX)该产品叫什么 -主题索引或轮排索引( SUBJECT INDEX, PERMUTERM INDEX )哪个厂家生产 -单位索引或团体索引( UNIT INDEX, CORPORAT INDEX)是该厂家的哪地方的分厂生产 -地理索引(GEOGRAPHIC INDEX)是否有批准文号(法定) -专利号索引( PATENT INDEX)使用该产品的市场反馈如何? -引文索引(CITATION INEDEX)产品的发明人或生产者是谁? -作者索引或来源索引( AUTHOR INDEX, SOURCE INDEX)是否含有特殊的有效成分? -化学物质索引(CHEMICAL SUBSTRANCE INDEX, ALLOY INDEX)通过上面的变化,可将非常复杂枯燥的内容变得非常易记且没有任何记忆负担,同时众多变化多样的系统变成一个简单的模型,从学习指导和使用来说都使之变得非常易懂,易学。上述模型的核心是将许多的系统变成一个系统然后再变成生活中易记的模型。该模型较宜非情报专业的学习和初学者的学习。非情报专业情报学习思维的难点:( 1)情报学习模式是一种有别于其它学科学习的思维模式 数学思维要求严密诗歌思维要求想象力信息检索思维要求 (著录 )格式学习和联结( 2) 情报检索学习之困难在于 : 局部文字描述整体,静止文字描述联结和运动之困难 。a 主观 :情报检索学习之困难在于调整至与之相应 的思维方式,其学习过程实际上是要求了解不同的著录格式和构成之信息,并根据已有信息和目标直接或间接地通过操作,使各个部分联结起来,这会使著录格式之学习很枯燥,b客观 :学习联结各著录格式之操作时,则显示文字描述操作的局部性,文字描述图示之低效性,尤其较复杂之著录格式在隔离不同之时空进行讲解时,则更显困难。( 3)情报检索学习之困难第二为似曾相似之干扰情报检索学习过程中,可遇到多种检索系统如SCi (Science Citation Index)Ei (Engineering Index)MA(Matal Abstract)WPI(World Patent Index)SA(Science Abstract)虽然是不同出版商出版,其彼此系统应有的区别,但其检索功能和特性又使彼此似曾相似,或者冠以不同名称,但功能相似。如 : Ei中 Subject Index和 Sci中之 Permaterm Index如 : CA中 GENERAL Subject Index和Chemical SubStance.又如: WPI中的 employee Index与SCI中 Source Index 与MA和 EI中 Author Index等(4) 情报检索学习另一障碍为语言障碍 不少文献系统是以英文的形式出版世界上 70%的著名系统是英文的五、 情报检索思维之形成和巩固 用以下方式较有效 : 学习 -介绍 -著录介绍 -使用与巩固 (尽快 )实习 (自己兴趣与课题相关 )第二节计算机信息检索的的产生和发展过程l A计算机联机检索产生的时代背景 :a文献的数量急剧增长 :(a)目前的处于科技的高速发展阶段:(1)工业革命( 2) 信息化革命(b) 统计数据:( 1)每一分钟产生一本书( 2)每 30秒产生一篇专利( 3)每 15-16秒产生一篇论文 ( 4)每年全世界的图书总量:图书近百万种论文近数十万专利近百万论文近五百万说明信息爆炸的事实 ( c) 科技文献 的有效期在缩短一般文献的平均寿命为 3-5年一般经济类寿命较短只有 1-4周 有些经济类信息的寿命仅 90秒(d)例:美国因信息不灵每年造成损失在 30 亿以上,科技的成果的重复量达35% b科技文献分布异常分散( a)体现在三个领域:分支学科,边缘学科交叉学科( b)体现在学科 的发展上:( 1)传统学科的应用技术 50%来自 别的学科 。( 2)新兴学科 的 80%来自别的学科 l c文献的寿命在缩短:l 苏联:图书寿命: 10-20年 l 科技报告 : 10年l 学位论文: 57 年l 期刊等连续出版物: 35 年l 西方学者一般的观点:l 80%-90%的文献周期在 3-5年l B计算机通讯和高密度存储技术的发展为联 机信息检索的产生和发展提供了物质基础。l 3联机发展的四个阶段:l a联机产生阶段:l ( 1) 50年代中期计算机处于电子管 l 阶段l ( 2) 1954年美国海军军械中心( NOTS)l 研制了计算机检索系统 (雏形 ).l (3)1961年美国化学文摘社在世界上第一 l 个 公开将计算机用于检索。l (4)1965年美国医学图书馆用计算机编 制l 医学文献检索刊物 (医学索引 )月度索 l 引。 l b国际联机检索阶段:( 19651972 )l ( 1)由于集成电路和计算机技术的产生和发展和数字通讯 l 技术的进步,促进了联机检索的发展。l ( 2) 美国 的 LECKHEAD公司(洛克希德)于 1965-1966年l 建立了 DIALOG系统(当时主要用电话联结)。l c 国际联机检索的发展和普及:( 1973-1985)l ( 1)卫星通讯:l ( 2)光纤通讯:l 使可通过联机终端,检索几年或几十年的各国资料。l 一般以 DOS专用软件较多。l d光盘版数据库的出现和 WEB版数据库的出现:l ( 1) 1985年世界上首次出现了光盘数据库。l ( 2) 1998年以后出现了 WEB版 数据库。第三节排名的国际上高校和研究所依据(1)目前国内的 226(以前的 386)(2)排名的国际上高校和研究所依据论文标准是 :l EI(Engineering Index)l SCI(Science Citation Index)l SR(Science Review)l ISTP(International Science and Technology Proceeding )(3)国际著名的刊物有 Science,Nature(4)在管理上和科研中的应用第四节国际上著名 的计算机检索系统l ( 1) DIALO系统 :是目前世界上计算机中信息总量的75%l 是世界上最大的商业数据库 ,至 2000年有 800多个数 据库 ,用户达 120多国家。l ( 2) BRS 美国文献题录检索服务公司,经营达 100多个公用 数据库和 40多个私人数据库。l ( 3) STN美国化学文摘社,德国卡尔斯鲁厄能源,物理,数学情报中心和日本情报信息中心,三家联合经营,有 150多个数据库,内容以建筑,纺织,能源,化学为最具特色。l ( 4) ESA/IRS 意大利弗拉斯卡蒂的欧洲航天局情报中心,有 120多个数据库,内容涉及各方面。l ( 5) ORBIT 美国系统发作公司。 第五节公共搜索引擎的信息 搜索与dialog等专业信息库之信息检索的比对分析l 随着计算机的普及和计算机技术的发展,电子手段进行信息需求之检索成为一种非常重要的手段与工具。然而由于计算机对各种计算机系统的了解不同和使用不同,尤其在信息检索方面,如果严格用信息检索之算标准,(如查全实、查准率等)看,则在使用效果之差别较大,因此对不同检索工具予以了解,并且知道彼此差异,将对检索大有裨益,目前信息检索中,可以通过搜索引擎辅助定位,或者直接进入知名信息资源系统,如国家图书馆,Dialog、 STN等,虽然都可以检索,但不具备地同等替代性,但是在检索效果和性能上有较大区别。主要体现在以下几个方面:l 收费与否:l Sohu、 Sina、 Chinaren、 Google、 Yahoo等搜索引擎均是免费使用,而一些商业信息资源库发 dialog、 STN等,维普、万方等则有偿使用,即只有授权用方才可以使用。l 信息专业程度不同:从内容上看, Sohu、 Sina、 Google等提供综合性较强的大量信息,其中不少信息是属于时效性较短之公共信息,其中不少信息是属于时效性较短之公共信息,而其本身信息的更新频率较快,而对于针对性较强之专业信息需求和检索,则是用与专业网站链接方式提供dialog, STN,BRs等信息资源库则是以权威性而著名,能提供方向性极强的专业需求,其本质的资源和容量查一般较全面,这是一般搜索引擎根本不能分之相比。l 检索表达方式和效率不同:Sohu、 Sina、 Chinaren、 altarista本身有搜索窗口,并能执行简单的分类检索,其搜索窗口主要是输入关键字,而分类检索则是层级分类只能进行简单运算,当然还有它检索途径但较简单,从检索过程看,如果要对内容表达较复杂之课题进行检索只有进行二次检索 ,较难进行一步复合检索 .而在 Dialog STN等信息资源库,可进行复合检索式之检索,可执行 Boll代数,截词算法,位置算法及限定算法等,使一个内容的课题可以用复合检索策略表达出来,并且使之运行,各执行步骤和检索词及结果均有相应的子集合,且可随时调用,因此运行检索表达方式效率肯定较高,这是在使用中两种检索工具最主要差别之一。 检索的修正与检索噪音的不同:Sohu、 sina 、 Chinaren等之检索过程,通常是以简单的分布逻辑模型(二元逻辑)方式运行,即要么无关,要么与关键字相关,本身没有相关性判断和排序,因此在实际检索过程中,则常常出现大量溢出和 0检索现象,即要么检出许多不相关文献,仅仅是其中在不重要位置与所较入关键字相匹配而命中,要么根本不能检出的所需文献,这种现象对检出文献的二次筛选和再检索带来困难,亦为检索词修正带来困难,因此检索效率较低,而 Dialog、 STN等信息资源,则克服了前无序缺点。而是检索中进行检索词的逻辑运算和比对,使检索者能够按照不同的检索结果进行修正检索式,对每步命中率及检索词分布情况一目了然,因此查准率和查全率都有保证,这也是客户常常保留检索策略之原因。l 检索溢出:一次检索多达 3000以上的结果l 检索途径的多寡和检索标准不同l Sina、 Sohu、 YAHOO等一般搜索引擎,其本身检索途径主要是检索中的关键词检索和一般简单分类检索,而其它的一些检索途径也较简单,其中的逻辑运算一般为单项运算,而实际 Dialog、 STN等系统中,检索途径包含至少则 5-6种,多则达到 10余种检索途径,而检索式的表达可为多项重复运算 的复合表达式,而且从内容与编制方面,则早已标准化了,从检索语言数据库的兼容结构使这些国际性著名电子资源系统有较强的扩张性,如 Dialog将 CAS, 中国专利数据库均纳入其系统,再如IPC分类号的国际统一化。而目前国内 sina、 sohu、chinaren等在技术和设计上没有达到标准化技术要求,彼此容易互不相容,这种资源的不兼容,使客观上造成了人力、物力、文献资源的浪费,尤其在文献资源的建设上不仅不易共享,而且又造成重复建设的浪费,使得国内各信息系统在权威性方面与国外电子资源系统有较大差异(包括国内的期刊网和超星数字图书馆)l 库检出方式不同:sina、 sohu、 chinare等搜索引擎中, 一般 没有信息资源库的以款目作为检索点的字段输入过程,其中不少信息资源是复制,图像扫描,等方式进行资源库之建设,虽然生产成本较低,但不具备最重要的多途径检索功能,而其本身的关键字 “ 匹配 ” 结果又没有逻辑判断性和排序性 ,且占用空间较大,显示效果不佳。而 S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论