计算机信息技术基础.ppt_第1页
计算机信息技术基础.ppt_第2页
计算机信息技术基础.ppt_第3页
计算机信息技术基础.ppt_第4页
计算机信息技术基础.ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.计算机信息技术基础,社交网络:人人网 开心网 聊天:QQ、skype、飞信、MSN 门户网站:新浪网 123 搜狐 腾讯网雅虎、新华网、凤凰网、东方网 购物:淘宝,1号店,当当网,卓越网,萌购、麦考林 地图:丁丁网 读书:豆瓣 论坛:天涯、猫扑 搜索引擎:百度、谷歌 邮箱:Gmail、QQ邮箱 百科:维基百科、百度知道 视频: 酷6,土豆、优酷、PPTV、迅雷 语言学习:沪江、可可英语网、听力特快 网络存储:115网盘 下载:霏凡、极影 、迅雷,概论 信息检索系统 信息检索服务的类型 信息检索基本技术 网络信息资源检索基础 特殊信息资源及其利用 网络信息交流与学习,2.1概论,2.1.1 计算机信息检索 计算机检索是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再由终端设备显示或打印的过程。,2.1.2 计算机信息检索发展概况,国外计算机检索发展概况,我国计算机检索发展概况 1) 与国外联机 我国开展计算机检索的研究始于20世纪70年代中期,1975年我国首次引进国外文献数据库进行计算机检索的试验。 2) 机检系统和数据库的建设 我国的计算机检索系统和数据库的建设取得可喜成绩 3) 网络通信事业的发展,2.1.3 计算机信息检索特点,检索速度快 检索途径多 更新快 资源共享 检索更方便灵活 检索结果可以直接输出,2.2计算机信息检索系统,2.2.1 计算机信息检索系统的物理构成 包括计算机硬件和软件、数据库、通信网络和检索终端。,2.2.2 数据库类型,数据库是计算机技术与信息检索技术相结合的产物,是计算机检索的基础。 要建立计算机检索系统,首先必须对所收集到的大量文献资料按一定的体系和规则加以处理,使之成为机读形式的数据。这种在计算机存储设备上按一定方式存储的相互关联的数据集合,就是数据库。 数据库是至少由一种文档组成既满足某一特定目的或某一特定数据处理系统需要的数据集合。,按存储数据的类型分 1)数值数据库 数据库中存储的内容是数值数据和一些符号组成的代码。或者说,支持这类系统的数据库是数值型数据库,如人口数据库、商品价格数据库、高考分数库、气象数据库等。 2)事实数据库 指包含大量事实数据,直接提供原始资料的数据库。存储内容是相互关联的事实集合。收录人物、机构、事务等的现象、情况、过程之类的事实性数据,如机构名录、大事记等。,3)术语数据库 是一种专门存储名词术语、词语以及术语工作和语言规范工作成果的数据库,如名词术语信息库、各种数字化辞书等。 4)书目数据库 也称参考数据库,书目数据库向用户提供一些简单的基本信息以及原始文献的线索指引用户根据文献线索去寻找原始文献,获取详细的信息。 5) 全文数据库 是一种存储文献全文或其中主要部分的数据库,如法律法规全文库、中国学术期刊数据库、中文科技期刊数据库等。,按存储的介质分 1)光盘数据库 数据存储在计算机的光盘或光盘塔上,因而存储量有限,更新速度慢 2)网络数据库 数据存储在服务器的硬盘上,存储量大,更新速度快,按照国际上通用的分类 1)参考数据库: 指包含各种数据、信息或知识的原始来源和属性的数据库, 主要指书目数据库、文摘数据库等二次文献库。 2)源数据库 指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。如全文数据库,数值型数据库,可直接获得原如资料或数据 3)混合数据库 兼有以上二者,2.2.3 数据库结构,在信息检索领域,数据库实际上就是一条条书目或篇篇文章的机读记录的有序集合。 文档记录字段 文档(file) 数据库中若于记录的集合称文档。按其组织方式和存取方法,可分为顺排文档(Sequential File)和倒排文档(Inverted File)。,记录(record) 记录是组成数据库或文档的基本单元,由若干字段组成。每条记录描述了一个原始信息的外部特征和内部特征,字段越多,记录越详细。,字段(field) 字段是组成记录的基本信息单元,每一字段都是对文献某一特征的描述。 一般可分为基本索引字段和辅助索引字段。 基本索引字段是指描述文献内容特征的字段,如篇名、文摘、叙词、关键词等。,2.3 计算机信息检索服务的类型,2.3.1 光盘信息检索 光盘是20世纪80年代在计算机技术、激光技术等现代最新科技成果的基础上发展起来的。它具有信息存储密度高、容量大、读取速度快、存储信息类型多等优点。 最初是单机检索,后来逐渐发展出了联机光盘检索,联机光盘检索指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据库及其检索系统。,特点,使用光盘检索系统,可以避免使用联机检索所必须使用的通讯设施,并可节约按与联机系统连接时间计算的电讯费、联机系统使用费,同时也可免除远距离电讯传输时可能出现的通讯失误 一旦订购了光盘数据库,光盘检索系统的使用量就没有限制有太大的经费压力 光盘具有很大的存储容量,耐用,复制费用低。 光盘数据库可以提供文本、图像、声音和动态图像等信息,光盘检索系统选介,1)中国科技名人数据库光盘(whos who) 由万方数据制作发行,是我国第一部以CD-ROM形式出版的科技名人录,收录了中科院院士、中国工程院院士等我国著名科学家的详细信息。 2)德温特生物技术文摘(Derwent Biotech.Abs.) 由德温特信息公司制作,提供生物技术方面的综合信息,涉及基因工程、生化工程、发酵、细胞培养和废水处理等,收录的文献类型有期刊和专利文献。,2.3.2 联机信息检索,所谓联机检索,是指信息用户利用检索系统网络的终端设备,通过通信线路,运用一些特定的指令和检索策略与存储了大量信息的计算机数据库检索系统的主机进行人-机对话,从后者存储的数据库中查找所需的特定信息并将检索过程与结果下裁、显示和打印出来的过程。 兴起于20世纪70年代,主要用于追溯检索、定题服务、联机订购原始文献、光盘检索服务和电子邮件服务。,特点 联机检索的最大的特点是快、多、全的检索功能 检索范围广 检索内容新、实时性强 查全率和查推率高 检索结果输出方式灵活、实用 费用昂贵 需要一定的检索技巧,联机检索系统选介,1)DIALOG系统 目前世界上规模最大、影响最广泛的综合性商业联机检索系统,也是我国科技界广泛使用的系统。其中心设在美国加利福尼亚州。包含全文、题录、事实及数据型数据库数百个,都是质量很高、很权威的核心数据库,包括著名的 EI、SCI、INSPEC、WPI等,其数量平均每年约增长20一28。文献量已近数亿篇,内容涉及自然科学、社会科学、工程技术、商业经济等各个领城。 DIALOG可进行各类信息检索、定题服务、原文订购等。其检索功能强大,深度和广度要求高的检索均可做到,数据库更新及时,收录的文献年限长。可进行项目查新、文献调研、课题立项、申报专利、了解市场动态和竞争对手、新产品开发、公司的背景情况、经济预测等信息。,2)OCLC的FirstSearch系统,OCLC(Online Computer Library Center),即图书馆联机计算机中心,总部设在美国俄亥俄州都柏林,是世界上最大的提供文献信息服务的机构之一。 FirstSearch联机检索服务创建于1992年,可以检索到86个数据库,这些数据库绝大多数由一些美国的国家机构、联合会、研究院、图书馆和大公司等单位提供。资料的类型包括书籍、连续出版物、报纸、杂志、胶片、计算机软件、音频资料、视频资料、乐谱等。数据库被分成13个主题范畴,覆盖了各个领域和学科。,3)STN系统 创建于1983年,提供完全的科技信息领域的在线服务,是世界著名的国际联机检索系统之一。目前有200多个数据库,涉及化学、工程、生命科学、生物技术、数学、物理等各基础学科领域和综合技术应用领域,每个数据库都是本专业领域内的权威数据库。如CA、BIOSIS、MEDLINE等。 4)LEXIS-NEXIS系统 是一个提供有关法律、新闻、商业信息的联机服务系统,建于1973年,最初是一个交互式法律全文数据库检索系统,目前它已成为一个综合性的联机检索服务系统,包括世界性的新闻、社团、财政、工业、立法规章及政府信息源。该系统拥有7300多个数据库,近1亿篇文献,并且每星期更新950万篇文献。其检索功能较为完善,在美国等西方国家有很重要的影响,它在使用范围、使用率及收益等方面部是首屈一指的。,2.3.3 网络信息检索,网络检索是基于Internet的信息检索方式,用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索 特点: 交互式作业方式 用户透明度高 信息检索空间的拓宽 友好的用户界面,2.4 计算机信息检索基本技术,2.4.1 布尔逻辑检索(Boolean searching) 采用布尔运算符组配逻辑表达式进行信息检索的过程。 1)逻辑“与” and / * A and B / A * B,2)逻辑“或” or / + 表示它们在被检字段中只要出现一个就算匹配。 A or B / A + B,3)逻辑“非” 表示所连接的两个检索词中应从第一个概念中排除第二个概念。 Not / - A not B / A - B 运算顺序:非 与或,2.4.2 截词检索(Truncation searching),指在检索式中用专门的符号(截词符号)表示检索词的某一部分,允许有一定的词形变化。 ? * $ % 截词检索按截断部位划分有:右截断、左截断、中截断、复合截断等 按截断长度划分有:有限截断和无限截断。 1)右截断(后截断) Comput*可检出: Computer,computers,computering等检索的文献 2)左截断(前截断) *history可检出:Prehistory,posthistory, history等检索词的文献,3)中间截断 sul*ur,可检出含有sulphur、sulfur等检索词的文献。 m?n 可检出含行man、men等检索词的文献。 4)复合截断 *cognit* 可检出含有cognition、cognitive、recogition等检索词的文献。 有限截断和无限截断的区别在于对被截断部分的字符数是否限制。,2.4.3位置检索,又称为邻近检索,是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。 布尔逻辑算符表示两个概念之间的逻辑关系的话,位置算符表示的是两个概念在信息中的实际物理位置关系。 常用的有 1)相邻位置算符,(nW)、(nN) 2)句子位置算符 (S) 3)字段算符 (F)、(L),2.4.4 字段检索,利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名关键词摘要全文 2.4.5 全文检索 指对文献全文内容进行字符串匹配检索,包括字符串检索、截词检索和位置检索等技术。 全文检索技术是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。,2.4.6 短语检索(Phrase Search),短语用“ ”表示,检索出与“ ”内形式完全相同的短语,以提高检索的精度和准确度,也称为“精确检索”(exact search) 2.4.7 括号检索(parentheses) 用于改变运算的先后次序,括号内的运算优先进行。 2.4.8 多语种检索(multilingual search) 提供多种语言的检索环境共用户选择,系统按用户选定的语种进行检索并反馈结果,如Alta Vista、Google、天网。,2.4.9 自然语言检索(natural language search),直接采用自然语言中的字、词、句进行提问式检索,如同口语一般,适合不太熟悉网络检索技术的用户,又称为智能检索。 2.4.10 模糊检索(fuzzy search) 指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、下位词进行检索、以达到扩大检索范围、避免漏检的目的。又称为概念检索。,2.5 网络信息资源检索基础,2.5.1 Internet概述 Internet,中文正式译名为因特网,又叫做国际互联网。它是由那些使用公用语言互相通信的计算机连接而成的全球网络。一旦你连接到它的任何一个节点上,就意味着您的计算机已经连入Internet网上了。 百度百科,2.5.2 搜索引擎及其使用技巧,已经知道地址时直接访问。 不知道地址的时,需借助检索工具 搜索引擎 网络资源指南(门户) 专业数据库 搜索引擎是指通过网络搜索软件或网站登陆等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。,发展历史,产生:1990年Archie蒙特利尔大学的Alan Emtage开发的ftp搜索系统。 1993年10月 ALIWEB系统:网站自己提交索引信息。(yahoo) 1993年底 基于spider的搜索引擎出现 1994年4月 yahoo:自附简介信息,效率高;WebCrawler:支持全文检索 1994年7月,Lycos:网页自动摘要 1995年,元搜索引擎Metacrawler 1995年12月,Altavista:自然语言搜索,高级搜索语法(AND、NOT、OR) 1997年,天网ftp搜索、主题搜索 1998年,google:PageRank、动态摘要、网页快照等。 1999年,Fast/AllTheWeb:利用ODP自动分类 2001年,Teoma:类似自动分类的refine Baidu:最大的中文数据库,搜索引擎分类,按照原理分 爬虫式的搜索引擎 目录搜索引擎(directory search engine) 元搜索引擎(meta-search engine) 按类型分 WEB搜索引擎 FTP搜索引擎 学术搜索引擎 Blog搜索引擎 新闻搜索引擎,基于爬虫(也叫Spider)的搜索引擎利用一个称为Spider的程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其它网页或转移到其它站点上。Robot搜集的网页被加入到搜索引擎的数据库中供用户查询使用。 这类搜索引擎因为依靠程序搜集数据,所以其数据库相当庞大,搜索的结果查全率较高,但查准率较低。例如著名的搜索引擎Google, Baidu,AltaVista, InfoSeek等。,爬虫式的搜索引擎,目录搜索引擎的数据库是依靠专职编辑或志愿人员建立起来的,这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在这类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。 目录的结构为树形结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别。另外,用户也可以利用目录提供的搜索功能直接查找一个关键词。不过,由于目录式搜索引擎只在保存了对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录式搜索引擎与基于Robot的搜索引擎之间的一大区别。,目录搜索引擎,元搜索引擎,元搜索引擎也叫做Multiple Search Engine,元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,将结果进行相关处理,以整体统一的格式反馈给用户。它的特点是本身并没有存放网页信息的数据库。严格意义上来讲,元搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。 爬虫式搜索引擎是当前各种搜索引擎的主流,但随着网络信息量的不断增加,单一的搜索引擎已经难已满足其要求,结合目录式搜索引擎,机器人搜索引擎的优势,以元搜索引擎核心的多层代理搜索引擎是搜索引擎的发展方向。,搜索引擎的原理,从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序,抓取网页,建立索引数据库,搜索排序,搜索引擎搜索引擎系统流程,百度中文搜索引擎: / Google中文搜索引擎: .hk/ 搜狐搜狗搜索:/ 雅虎:/ 新浪:/ 网易:/ TOM搜索: / 北大天网搜索引擎:/,中文常用搜索引擎,Google 以搜索精度高、速度快成为最受欢迎的搜索引擎。 Fast/AllTheWeb 总部位于挪威的搜索引擎后起之秀,风头直逼google。 AltaVista 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。 Overture 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。 Lycos 发源于西班牙的搜索引擎,网络遍布世界各地。 HotBot 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。,国外英文常用搜索引擎,搜索引擎的使用技巧,所谓搜索技巧,其实就是怎样能够更准确快速的定位到对自己真正有用的网页。 一般在搜索引擎首页输入关键词检索,会返回大量的结果,要过滤这些网页费时费力。我们可以从以下几方面着手,调整检索范围,获得更准确结果。 1)到搜索引擎相关的分类下检索,比如搜索图片,google、baidu有专门的页面; 2)使用搜索引擎的高级检索功能,设置更复杂的检索条件; 3)利用搜索引擎的检索规范;,逻辑检索(以Google为例) 用空格表示逻辑“与”操作, A B 用减号“”表示逻辑“非”操作,“A B”表示搜索包含A但没有B的网页。 注意 : 不是中文的“” 用大写的“OR”表示逻辑“或”操作 使用: 目标信息一定含有的关键字(用“ ”连起来);目标信息不能含有的关键字(用“-”去掉);目标信息可能含有的关键字(用“OR”连起来) 搜索的关键字包含在网页标题中 “intitle”和“allintitle”的用法类似于inurl 示例:查找明星xxx的影片集。 搜索:intitle:xxx 影片集,通配符检索 对通配符支持有限,用“*”来替代单个字符,而且包含“*”必须用“”引起来 比如,“”以*治国“”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。 查找短语或者句子 检索关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。 示例:搜索关于第一次世界大战的英文信息。搜索:(“world war I”),查找特定格式的文件 filetype:类型名 能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等 对搜索的网站进行限制 site:网站名 示例:搜索新浪科技频道中关于搜索引擎技巧的信息。 site: 搜索的关键字包含在URL链接中 Inurl:关键字 示例:查找 MIDI曲“沧海一声笑” 搜索:“inurl:midi “沧海一声笑” 注意:“inurl:”后面不能有空格,2.5.3 网上信息检索,网络信息资源,从字面上可以理解为“通过计算机网络可以利用的各种信息资源的总和”;从目的上看是“为了提高信息系统效率,实现资源共享而采用计算机网络整理、传递、获取的各种信息”,在范围上它不仅包括Internet上的信息资源,也包括各种局域网、城域网和广域网上的信息资源。 也叫 “电子信息资源”、 “因特网信息资源”、 “联机信息”、“万维网资源“等。,类型,依据不同的划分方法可以划为不同的类型: 1)按照网络信息的内容划分 网络数据库 联机馆藏目录库 电子出版物 政府机构信息 休闲娱乐信息 2)按照所采用网络信息的协议不同划分 基于超文本传输协议(http)的信息资源 基于文件传输协议(ftp)的信息资源 基于远程登录(telnet)的信息资源,特点,1)从内容上看 数量的海量化 种类繁多 分布开放,但内容间关联性强 信息庞杂,不易控制 2)从形式上看 非线性 交互性 动态性 3)从效用上看 共享性 时效性,评价,评价的过程一般是对开发出来的信息进行价值判断的过程。 与一般文献型信息评估不同的是,网络信息密原的评估还须注意网络链接的稳定性、可靠性、用户界面的友善性等。 1) 第三方评价法主要是相对于网络信息资源的发布者(所有者)以及网络信息资源用户而言的,目前的主要形式是商业性的专业网络资源评价网站。 评价的范围多侧重于综合性网络资源,面向普通网络用户,所选择的评价指标体系包括日访问量、网站设计的感官效果等注重网络资源的形式而不注重信息内容。,2)用户评价法主要是由有关网络资源评价的专业机构向用户提供相关的评价指标体系和方法,由用户根据其特定信息需求从中选择符合其需要的评价指标和方法。 3)网络计量法。网络计量法是将网络环境中一个页面中指向另一个外部页面的超级链接看做是类似于印刷型文献中的引文,通过建立这两个网页间的引用关系再根据专家评价的结果,赋予某项指标特定的值和权重,并借鉴传统的引文分析法对网络资源的价值和重要性进行分析。 网络计量法是目前正在探讨和研究的一种网络资源评价方法。与第三方评价法和用户自我评价法不同的是,网络计量法依据网络信息资源的自身特征和想律,因而在一定程度上克服了第三方评价法和用户自我评价法的主观性、价值偏向性。,网络信息检索工具及其利用,网络信息检索工具的工作原理为:通过自动索引程序Robots(或人工)来广泛收集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目录索引,并大多以web页面的形式向用户提供有关的资源导航、目录索引及检索界面。 网络检索工具由三个部分组成:数据采集子系统、数据组织子系统和用户检索子系统。,网络信息检索工具,1)数据采集子系统 两种采集方式 人工采集:由专门的信息人员跟踪和选择有用的站点或者页面,并按规范的方式进行分类标引并组建成索引数据库。 自动采集:通过被称为Robots的软件来完成,Robots探寻页面并建立、维护、更新索引数据库。 2)数据组织子系统 网络检索工具的数据组织主要是利用强有力的数据库管理系统来组织所采集标引的网页信息,形成索引数据库。 索引数据库是用户进行检索的基础,它的数据质量直接影响到检索效果,而数据采集标引又是决定数据库质量的关键技术。,网络信息检索工具,3)用户检索子系统 当用户提出检索要求时,由用户检索子系统代理用户在数据库中进行检索。用户检索子系统主要包括四个部分: 检索界面子系统,接受用户检索要求,一殷分为一般检索界面和高级检索界面。 检索策略子系统,将用户输入的检索要求编制成计算机可执行的规范化检索式。 检索执行子系统,利用检索式检索索引数据库,并保证检索的速度和准确做。 检索结果组织于系统,对命中记录进行整理和组织。,网络信息检索的类型,1)按检索机制划分 检索型检索工具 如 AltaVista、Excite、HotBot 目录型检索工具 如 Yahoo! 混合型检索工具 如搜狐 2)按检索内容划分 综合型检索工具 如AltaVista、Excite、Yahoo! 专题型检索工具 如 Medical World Search 特殊型检索工具 如检索地图的MapBlast、检索电话号码的Switchboard,网络信息检索的类型,3)按包含的检索工具数量划分 单独型检索工具 如google、baidu 集合型检索工具 如Dogpile 4)按检索资源类型划分 万维网检索工具 主要检索万维网站点(web)上的资源,常称为搜索引擎 ,检索结果通常为网页 非万维网检索工具 主要检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论