网络信息检索基本方法.ppt_第1页
网络信息检索基本方法.ppt_第2页
网络信息检索基本方法.ppt_第3页
网络信息检索基本方法.ppt_第4页
网络信息检索基本方法.ppt_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2010-9-13,第二讲 网络信息检索基本方法,【目的与要求】 掌握布尔逻辑检索等网络信息检索的基本技术。 熟悉网络信息检索的途径和步骤。 【重点】 布尔逻辑语言、邻近检索、截词检索 【难点】 邻近检索,影响信息检索质量的因素,信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐) 检索软件对信息检索的影响(不同的搜索引擎,数据库系统) 用户水平对信息检索的影响,网络信息检索的基本技术,网络信息检索的基本途径,网络信息检索基本步骤,MACTH,计算机将检索提问词,文献记录标引词,信息检索过程的实质:,智能检索,基本技术,邻近检索,字段限制检索,布尔逻辑检索,截词检索,模糊检索,词组检索,1,2,3,4,5,6,7,一、网络信息检索的基本技术,1.布尔逻辑检索(boolean logic),逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索 标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。 主要运算符有 “和(and,*)”、“或(or,+)”、“非(not,-)”。,运算优先级顺序为NOT、AND、OR,可以用括号“( )”改变它们的运算顺序。 如A and (B or C),检索顺序为先B或C,然后再与A,实例:,【实例】在搜索引擎中输入“电视台-中央电视台”,查询结果不包含“中央电视台”。,逻辑算符举例,查找关于“动物保护”的文献: “动物 AND 保护” 查找有关冬虫夏草的文献: “冬虫夏草 or 冬虫草 or 虫草” 查找关于能源方面的文章,但关于“核能”的不要: “energy not nuclear”(energy - nuclear) 检索西红柿种植技术的相关文章: (西红柿+番茄)*(种植+栽培+培育),Exercise1:,查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard,Goolge的默认运算符就是逻辑“与”,用空格、“AND”和“+”都表示,而逻辑“非”只能用“-”而不能用“NOT”表示。 百度的默认运算符是逻辑“或”,空格、“OR”均表示逻辑“或”。 在ISI Web of Knowledge平台上,逻辑算符“AND”、“NOT”、“OR”不区分大小写,但不支持以“*”、“-”、“+”代替。 在Science Direct中,逻辑“非”是用“AND NOT”表示,而不是我们常用的“NOT”。,2.词组检索(phrase search),通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精确检索”(exact search)。 例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖息地保护、动物资源保护等形式。,Science Direct用双引号“”表示宽松短语检索,标点符号、连字符、停用字等会被自动忽略,如检索式为“heart attack”会检出包含“heart attack”和“heart-attack”的检索结果。 在该数据库中,精确检索是用“”表示。,邻近检索有时又被称为位置算符检索。 因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也是如此。,3. 邻近检索(proximity search),布尔逻辑运算符和词组 检索虽然能有效的扩大 和缩小检索范围,但 无法对检索词之间的 相对位置进行限制,文献记录中词语的相对次序或位置不同,所表达的意思可能不同,又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特定位置关系,同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。,Eg:“粉末的掺合与颜料包装 ”,(W)WITH算符,表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或者是逗号。 【实例】在OCLC中输入communication w satellite;,wN (with N)算符,表示两个检索词之间插有n个词,但顺序不能颠倒。 表达式: A WN B AB两词靠近,次序为A先B后,中间最多可加n个词。 【实例】在EBSCO中输入communication w3 satellite;,N(Near)算符,N( Near)表示两个检索词可以互换顺,二者之间只能间隔连字符、空格或者是逗号。 表达式:A N B :AB两词靠近,次序可变。 【实例】在OCLC中输入communication n satellite;,nN ( Near N)算符,表示两个检索词之间可以插入 n 个词并且词序可以颠倒 表达式:A(nN)B:AB两词靠近,次序可变,中间最多可加n个词。 【实例】在EBSCO中输入communication n3 satellite; 比较:在EBSCO中输入source and law、source w2 law,(F)Field,(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。,(S)算符,(S)算符表示在此运算符两侧的检索词必须同时出现在 文献记录的子字段或同一段话中,两个词次序不限,中间 插入词的数量也不限。,4.截词检索(truncation/wildcat),截词检索又称部分一致检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符用“?”或“*”标识。 截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不同形式等。,后截断,无限截断同根词检索,如:physic?,截词检索与截词检索算符,Physic,physics,physicst,physicalism,Physic,physics,physicst,如:physic*,有限截断单复数,也称“右截”,中截断用于中美拼写不同和单复数,前截断同根词检索,如:m?n,man,men,如:*computer,minicomputer,computer,microcomputer,“左截”,特别提示:“*”、“?”的比较 “*”,无限截词,代表0-无数个字符如regard*, 代表regard, regarding, regardless等。 “?”,有限截词,代表0-1个字符,如library?,library,librarys。,5.字段限制检索技术(field limiting),组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。 一般来说,数据库的记录基本包括下列字段: 题名(TI,title)、 关键词(KW,keyword)、 主题词(DE, descriptor)、 文摘(AB,abstract)、 全文(FT, Full text)、 作者(AU,author)、 作者机构(CS,Coporate Source) 期刊名称(JN,Journal)、 出版国(CO,Country)、 出版年份(PY,Publication Year)、 语种 (LA,Language),字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 检索方式主要有:限定字段检索和限定范围检索 (1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。 前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊名(JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese 后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如:Furniture/TI即家具一词出现在题目中。,(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到优化检索的方法。 不同的检索系统略有不同,常通过使用的有:“=、=、:” 等。 表达式:字段名=(=、) 例如: PY=1995 即限定出版年份为1995及以后的文献; PY=1996:2005即1996年至2005年的文章,思考:比较3个检索式检索结果的不同,“Information retrieval”/TI Information AND retrieval /TI Information(F) retrieval 不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中,Exercise 2:,查找华中科技大学罗俊院士1999年以来发表的文章? AU=Luo Jun AND(CS= Huazhong Univ* )AND PY=1999 查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。 “The legislation of human cloning” or human clone and legislat* and LA=English and PY=2002,大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在特定的范围中,如: 标题(title) 图像(image) 文本(text) 统一资源定位符(url) 网站(site) 链接(link),举例:url: Link: site:,6. 区分大小写检索(case-sensitive),china-china,China,CHINA ChinaChina Windows, windows,7. 模糊检索(fuzzy search),又称概念检索(相关检索) 。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。 如 “检索”, 查找,寻找, 找寻, 找一找. 如 “土豆”,模糊检索的检索结果中会返回包括“土豆”、“马铃薯”、“洋芋”等含义相近或相关的内容。 现在大多数搜索引擎都有这种功能,只不过模糊程度不同。,8.自然语言检索(natural language search),即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。 智能检索 Could you please give me some information on English literature? 这种智能检索也是搜索引擎发展的趋势。,实际检索时,需要将上述各种方法综合使用才能获得最佳检索效果。如“查找2000年以来Peter Suber教授撰写的关于开放存取”的论文?可以构建检索式为:Open Access OR OA OR *free resources OR Open Source) AND(AU=Peter Suber)AND PY=2000。 检索式的构建不是一蹴而就的,需要根据检索结果的多寡和精准程度进行不断调整。另外需要特别注意的是,不同的检索系统所使用的算符类型和符号各异,本文拘于篇幅无法一一列举,因此使用检索系统尤其是数据库前必须浏览帮助系统,详细了解字段及算符的设置情况,以确定最合适的途径进行检索。,Play time:找的就是你,VS,游戏规则: 1.至少使用两种以上的检索技术,如:字段名+布尔逻辑+截词检索 2.检索式至少由三段构成,如(位置=)+(衣服颜色=)+(性别=) 3.猜中方得分;猜不中则出题方得分 4.双方轮流出题,每方5题为限 5.被猜者继续出题 6.不能简单使用在教室的位置,二. 网络信息检索的基本途径,即我们常说的检索点Access Point 检索点即是检索信息或文献时所通过或使用的渠道,而检索工具提供的检索点是多种多样的,它以检索的对象文献的特征而定。 科技文献有两方面的特征,一是外表特征文献载体的外表上记明的易见的线索;二是文献的内容特征即从文献内部包含的知识信息中的内隐的潜在的线索。,1.按文献外表特征的检索途径:,名称途径即根据书名、刊名、篇名来查找文献信息的途径,它是把文献名称按照字顺排列起来成为一个体系,构成书名检索点、刊名检索点和篇名检索点。 著者途径以著作者(个人著者、团体著者、专利发明人、专利权人、合同人及机构等),提供以作者字顺为途径的检索点,以实现对知名专家或专业学术机构研究成果和科技成果的检索。 序号途径指通过号码(包括报告号、合同号、专利号、标准号、馆藏号、索取号、排架号等)查找文献的途径,这种途径主要是利用各种号码索引来组织检索,号码索引 一般是按照字母顺序和号码顺序编排。,2.按文献的内容特征的检索途径,以文献的内容特征作为检索途径。即按照课题要求来查找文献的方法,更 宜于用来检索未知线索的文献。 分类途径按学科体系查找文献的途径 ,主要利用分类目录或分类 索引 的方法,通过利用专业知识确定所研究的课题所需文献属于什 么类别,它在个学科体系中的地位,再进行检索的方法。 主题途径通过文献资料的内容主题进行检索的途径,即利用从文献资料 中抽出来的或经过人工规范化的能代表文献资料内容实质的标 引词来检索,检索词可分为关键词、标题词、元词、叙词等几 种类型。 综合来说,分类途径和主题途径是文献检索的常用途径,但一些检索 工具还提供了分子式索引、环系索引、化学物质索引、会议索引、图书索 引等,作为某些专业与学科检索用的辅导性检索途径。,1.,2,3,从已知文献特征选择检索途径,如果事先已知文献名称、著者、序号等条件,应相应采用名称索引、号码索引或有关的目录索引。,从检索工具提供的索引选择检索途径。,从课题检索要求选择检索,课题学科范围要求广的应用特性检索-主题途径,范围窄的采用分类途径。,3. 选择检索途径的原则,三. 网络信息检索基本步骤,思考: 我们想想完成一个检索任务,哪些要素必不可少? 检索词、检索式(检索策略)、检索途径、检索系统,检索前的准备工作,1.,网络信息检索基本步骤示意图,课题分析,2. 选择检索系统,3. 确定检索途径和检索方法,4. 确定检索词,6. 实施检索、分析检索结果、索取原文,5. 制定检索策略,编制检索式,7. 调整检索 式,优化 策略,主要指明确检索目的与要求。 分析课题的主要内容及所涉及学科范围,以便确定有关检索标识(分类)、检索途径和选择合适的检索工具。 分析课题所需信息的类型、文献量、年代范围、涉及语种、有关著者、机构等。 确定课题对查新、查准和查全的指标要求,例如: 若要了解某学科、理论、课题等最新进展和动态,则要检索最近的文献信息,强调“新”字; 若要解决研究中某具体问题,找出技术方案,则要求检索有针对性、能解决实际问题的文献信息,强调“准”字; 若要撰写综述、述评或专著等,要了解课题、事件的前因后果、历史和发展,则要检索详尽、全面、系统的文献信息,强调“全”字。,1.课题分析,2.选择检索系统,主要是根据课题的检索要求选择合适的检索工具或数据库,如: 查找图书 可用OPAC书目数据库; 查学科术语或数据等 可用事实型数据库、参考工具书或网络搜索引擎; 撰写学位论文、申请研究课题 尽可能选用一些收录年份较长的综合型和专业数据库。,考虑权威性数据库; 数据库的学科专业范围是否与课题的学科相吻合; 需要的是题录、文摘信息还是全文信息,还是事实、图形、数据等; 数据库收录的文献类型、年限、更新周期,所需文献信息在国别和语种是否符合检索需求等。,举例:,考虑学科范围、信息类型和数据量 【例题】用_检索-呋喃甲醇羧酸酯的合成、含有碳和氢元素的化合物的英文综合学术性文献。 A.外文Elsevier数据库 B.外文农业类CAB文摘数据库 C.外文农业类AGRICOLA数据库 D.外文食品科技文摘数据库FSTA 了解收录的文献类型 【例题】已知参考文献:徐经长等.国际会计学.中国人民大学出版社.1999.要找原文,使用_检索国际会计学。 A.中文科技期刊数据库 B.中国人民大学报刊全文数据库 C. 图书馆的馆藏查询,【例题】使用检索CN03250961.8苗间除草机构密封传动箱。 A.维普中文科技期刊数据库 B.图书馆馆藏查询 C.中国人民大学报刊全文数据库D.中国国家知识产权 大 局专利数据库 E.中国国家科技图书文献中心(NSTL),【例题】用检索编号是GB/T17302.2-1998的文献 A.中国国家知识产权局 B.中国国家科技图书 专利数据库 文献中心(NSTL) C.国务院发展研究中心信息网 D. 中国标准信息服务网,考虑信息的时间范围 同一个数据库版本不同,时效性也不一定相同。 例如清华大学图书馆收藏的工程索引(EI)各种载体及馆藏的简况比较: 印刷版(EI)月刊,年度更新,收录文献源2600种,馆藏年限1968-1996。 光盘版(Ei Compendex)季度更新,收录文献源2600种,馆藏年限19701997年。 网络版(Ei CompendexWeb)包括光盘版(Ei Compendex)和Ei PageOne两部分,半月更新,收录文献源5000种,馆藏年限1970至今。 因此网络版(Ei CompendexWeb)信息更新最快,量最大。,3.确定检索途径和检索方法,检索途径主要有:分类、主题、著者、序号。 分类途径:按文献内容的学科分类体系查找文献的途径。在印刷型检索工具中主要有分类目录和分类索引。在计算机检索系统中,则把文献按分类聚类,通过层层点击进行检索,或利用系统提供的分类号进行检索。 主题词/关键词途径:按表达文献主题内容的主题词或关键词作为标识查找文献的途径。 题名途径:是根据文献的标题或名称,包括书名、刊名、篇名等来查找文献的途径 著者途径:是根据已知文献著(编、译)者的名称查找文献的途径。 代码途径:如标准号、专利号、ISSN号等 时间途径:以文献的时间范围查找文献的途径。,检索方法,一般有直接检索法、间接检索法、追溯检索法和循环检索法四种。 直接检索法 又称浏览法,是通过广泛阅读、浏览近半年的各类文献资料来获得所需的最新信息。同时,在课题确定后,可阅读百科全书、专业手册、年鉴等参考工具书,了解课题的相关背景知识。 缺点:费时费力,具有一定的盲目性和偶然性。 间接检索法 又称系统检索法,指借助于检索工具或系统查找所需文献的方法。常用的有顺查法、倒查法和抽查法。 顺查法:是以所查课题的起始年代为起点,由远而近按时间顺序查找文献的方法,适合于大课题的检索。优点是查全率高,缺点是工作量大。 倒查法:是由从最新的文献开始,由近到远进行查找的方法。特点是效率高,查得的文献比较新颖,时常用于科技查新。 抽查法:是根据检索需求,抓住课题研究发展迅速、出版文献较多的时间段进行集中检索。 用这种方法能获得一指具有代表性、反映学科发展水平的文献。,追溯法:利用文献末尾所附的参考文献为线索查找文献的方法,这种检索方法基于文献之间的引用和被引用揭示了文献主题之间存在着某种内在的联系。 追溯引文法:先查出一批与检索课题有关的文献,再以这批文献后面的参考文献作为线索,查找文献的方法。 引文索引法:利用引文索引,从被引文献开始查找引用它的全部论文的方法。 交替检索法:间接检索法和追溯法的结合。先利用检索工具查得一批相关 文献,然后再利用这批文献所附的参考文献进行追溯查找, 如此交替使用,直至满足检索需求为止。,4.确定检索词,概念的分析:任何一个特定的检索课题,往往都是用若干个概念表达的,将检索课题从不同角度对课题内容进行概念分析,并针对每一个概念,选择尽可能多的检索词。主题概念转化而成的检索词应能准确、完整地表达检索课题的内容。 如:检索课题:“土壤环境条件对豆科作物固氮作用的影响” 土壤环境、豆科作物、固氮作用漏检 我们应利用自已所学的专业知识对课题进行深入细致的分析,把那些与课题关系密切、能全面、准确表达课题内容实质的词一起作主题词。 决定土壤环境条件的温度、湿度、PH值等; 豆科作物中的大豆、花生等; 固氮作用中起重要作用的根瘤菌、固氮菌等。,隐含概念的分析,课题的隐含的概念和相关的内容需要从课题所属的专业角度作深 入分析,才能够提炼出能够确切反映课题内容的检索概念。 如:检索“人造金刚石”方面的文献, 其中“人造(man made)的含义包括有“人工合成(synthetic)在内,单选用“man made”检索会漏掉许多有用的文献; 检索“古代家具设计”的相关文献 古代包括明代、清代、宋代等朝代,不能仅以古代作为检索词。,确定检索词的规则,a.要用哪些词? 同义词应尽量选全:同一概念的几种表达式 同一名词的单数、复数、动名词、过去分词等用截词解决,如:child ,children 规范称谓、俗称、全称、简称等,如:盘丽鱼俗称七彩神仙鱼 充分利用选定主题概念的上位或下位概念,找不到课题对应的主题词时,可采用最近一级的上位词。 如:“山核桃产品加工”方面的文章,如果“山核桃加工”没有检索记录的话,就得选“核桃加工”作检索词 充分考虑相关的词,如研究三带双锯鱼的生活习性,假如找不到相关的文献,可以查找同属或同种的鱼类的研究资料,借以参考。,b.不用哪些词? 少用或不用对检索课题意义不大的词 一般不选用动词、形容词、禁用词,少用或不用不能表达课题实质的高频词 词义泛指过度大的词:如“展望”趋势、现状、近况等,“应用”作用、用途、用法等 词义延伸过多的词:如“制造”制备、生产、加工、工艺等,“提炼”精炼、提取、萃取、回收,以及诸如“有机物”、“无机物”、“病虫害”等外延十分宽的概念等,一般都应转换成具体的方法或材料、化合物及具体的病害与虫害的名称表示。,例:神经网络在旋转机械故障诊断中的应用研究 1.本课题包含“神经网络” “旋转机械” “故障诊断”三个概念,“应用”和“研究”属于意义过于宽泛的词,不应该作为检索词。 2.扩展 神经网络:相关的上位词有人工智能 旋转机械 故障诊断:相关词有故障定位、故障检测,上位词有容错技术 3.检索式: (神经网络 OR 人工智能)AND(旋转机械)AND (故障诊断 OR 故障定位 OR 故障检测 OR 容错技术),5.制定检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论