网络环境下叙词表协同编制系统的构建_第1页
网络环境下叙词表协同编制系统的构建_第2页
网络环境下叙词表协同编制系统的构建_第3页
网络环境下叙词表协同编制系统的构建_第4页
网络环境下叙词表协同编制系统的构建_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1网络环境下叙词表协同编制系统的构建赵捷/曾建勋/吴雯娜2012-9-25 9:48:28 来源:图书情报工作(京)2011 年 22期【英文标题】Thesaurus Collaborative Construction System under the Network Environment【作者简介】赵捷,男,1959 年生,高级工程师,信息资源中心副主任,发表论文 7篇,中国科学技术信息研究所,北京 100038;曾建勋,男,1965 年生,研究馆员,信息资源中心主任,发表论文 90余篇,主编及参编著作 6部,中国科学技术信息研究所,北京 100038;吴雯娜,女,1973 年生,副研究馆员,发表论文 18篇,参编著作 3部,中国科学技术信息研究所,北京 100038【内容提要】指出网络化、数字化的信息环境影响着用户的信息需求,从而使叙词表的编制方法、技术和手段发生变革;合理、有效和灵活的叙词表编制体系将对网络信息的组织、检索等服务具有重要的支撑作用。阐述网络环境下叙词表的协同编制机制,分析网络环境下叙词表的基本特征,以此构建叙词表协同编制平台,对叙词表的编制系统进行优化。The users information needs are satisfied through networking and digital information environment, so that thesauri have changed within construction methods, techniques and means. Reasonable, effective and flexible thesauri construction system will be the important supporting role to network information organization and retrieval service. The paper describes the collaborative construction mechanism and basic characteristics of thesauri in network environment, 2constructs collaborative platform for building thesauri, and ties to optimize the thesauri construction system.【关 键 词】叙词表/协同构建/编制平台 Thesaurus/Collaborative construction/Construction platform目前,基于关键词的网络信息检索和信息组织,由于计算机无法识别检索项目的语义,所以在信息查全、查准方面存在严重问题。诞生于 20世纪 50年代的叙词表,已经在人工和数据库信息标引和信息检索方面取得巨大成功1。在网络信息时代,基于网络的新的数据内容的叙词表,将会焕发出新的活力,发挥自身在知识组织、知识导航、智能检索、双语检索、语义检索等方面的优势,为网络时代的知识组织和检索做出贡献2。网络环境下,叙词表的编制和应用环境发生了巨大的变化,编制方式已向网络在线协作完成发展,选词和词间关系的建立有海量数据支撑,使用方式从纸质版本的人工使用时代向网络版机器使用时代发展,主体用户从专业的标引检索人员向普通读者或机器后台使用转变3。这些变化需要不断研究和探索网络时代的叙词表编制方法4。基于此,本文结合中国科学技术信息研究所的叙词表协同编制实践,对网络环境下叙词表编制的协同处理深入探讨,以期更好地发挥叙词表在知识组织中的作用。1、网络环境下叙词表协同编制动因目前,国内外已经出现了较多的不3同学科领域的叙词表,广泛应用于各种类型信息资源的组织。以往,叙词表的编制重点放在规范叙词表编制的标准化上,而当前环境下,叙词表所要解决的关键问题则是不同系统、不同标准下面向不同用户的词表协同编制与互操作问题,旨在满足用户对多种类型信息资源无障碍检索的需求。1.1 叙词表编制网络时代的变革网络信息的爆炸式增长使用户对于基于 Web的不同信息的需求随之增长,越来越多的叙词表成为信息检索系统的一部分,旨在提高检全检准率,满足用户不同层次的检索需求5。因此,要求通过叙词表的协同编制建立知识组织体系,将互联网和信息机构内部网的大量信息通过统一的规范和词间关系关联起来,实现不同类型词表的互通互联以及信息检索等服务上的互操作。在这一背景下,有关叙词表以及其他知识组织体系的研究不断涌现,如分类体系6、知识分类和本体等7。从叙词表编制的最新进展来看,其编制对象都得到了不同程度的扩展,开始涵盖其他类型的知识组织体系,不同类型的词表相互渗透和包容,词表之间的界限变得模糊。如美国叙词表标准涵盖了列表、同义词环和知识分类等受控词表8,英国叙词表规则涵盖了分类体系、知识分类、本体、主题标题表等多个结构化词表9。因此,在网络化、数字化环境下,进行叙词表的协同编制,实现不同系统、不同用户对叙词表系统的互操作已成为叙词表编制的未来发展趋势。信息技术、网络技术的发展,为叙词表协同编制提供了可能性:从编制时间看,通过协同编制,可以加快编制速度,适应网络时代信息组织与信息检索的发展;从地理空间上讲,通过网络环境下的协同编制,可以实现不同地理区域内的领域专家异地完成同一知识组织4体系的构建,这在人类手工编表时代是不可想象的;通过叙词表的协同编制,可以不受时空限制,实现知识组织体系的快速构建。1.2 叙词表的应用方式决定编制方法为了适应信息资源管理向知识资源管理进化的趋势,信息组织系统也不断地发生变革,要求组织信息资源,促进信息向知识的转化,实现知识的获取和利用,推动知识创新10。网络环境下,叙词表的协同编制系统构建涉及三个层面:数据交换叙词表的协同编制首先要实现不同叙词表以及其他应用系统之间的数据交换;跨语种的叙词表映射跨语言检索要求不同语种的叙词表间实现一定规范格式下的相互映射;叙词表系统间的互操作为方便用户对多个系统、数据库或网站的一站式检索,不同类型的词表或知识组织工具之间要实现互操作。目前,众多研究者在不同程度上对叙词表的协同编制问题进行了探讨,但其完善还依赖于数据交换、词表映射和互操作实践的发展。2、叙词表协同编制系统架构与运作机制2.1 叙词表协同编制系统的基本功能要求在网络环境下,叙词表编制将实现利用海量的数字信息资源,通过计算机抽取相关的专业术语和词间关系,通过领域专家的人工辅助干预,构建适应现代网络信息资源特点和各类用户需求的叙词表,在功能上,为实现以上目标,叙词表编制系统主要有以下几个方面的要求:灵活的扩展能力。系统管理员可以根据自身所需叙词表的特点,灵活5地配置叙词表的基本单元(概念)属性,而无需要求软件提供商进行客户化的开发。并且,系统管理员可以根据其需求授予不同的编辑人员或编表用户不同的操作权限,既保证系统操作的规范性,也能使叙词表协同编制灵活开展。基于 Web的应用程序架构。通过 Web实现不同类型、不同地域编表用户的协同工作,通过叙词表开放编制平台进行符合自身需求的叙词表加工,使得共同加工一个叙词表成为可能。支持建立多语言的叙词表。除中文外,建立同时由多种其他语言数据构成的叙词表,包括英、法、德、日、韩等主要语言。完善的叙词表加工功能。除建立增、删、改叙词表中的概念等基本功能外,系统还应支持移动子树、调整狭义概念顺序、查找替换、导入导出数据、生成各类报表等高级功能。全面的搜索功能。系统在支持各种主流关系数据库,如Oracle、MS SQL Server、My SQL 等基础上,应通过各种检索方法满足不同层次用户的检索需求,以确保编表用户能够快速地找到所需信息。2.2 叙词表协同编制系统的运作机制叙词表在网络环境下的协同编制,是随着网络技术的发展而进行的革新,例如 Web2.0技术的成熟与应用,为叙词表的协同编制提供了新的发展机制。叙词表联机操作是叙词表在网络环境下应用的主要形式之一11,具有兼容化和集成化的发展趋势,从而,在叙词表的编制上要求建立与之相适应的协同机制,满足不同叙词表之间的协同操作和不同层次编表用户对词表的联机编制需求,包括任务分配与编表用户权限的划分、任务审核以及故障预警和冲突解决机制。2.2.1 任务分配与用户权限划分机制编表用户的系统操作权限与其所分配任务密不可分,系统按学科领域以词汇6或概念为基本单位对数据集加工任务进行划分,分配给不同学科领域编表用户进行加工。因此,编表用户在任务操作的过程中,不同层次的编表用户具有不同的任务权限。系统首先根据单位编表用户的学科特点对加工任务进行一级分配,单位编表用户再根据本单位加工人员的实际情况对任务进行二级分配。首先,加工编表用户只能够对自己任务范围内的数据进行编辑,而对于其他任务范围的数据只能浏览。其次,在关系构建阶段,考虑到概念间的相互参照,编表用户可在任务范围内数据与范围外数据间建立参照,但不能在范围外的数据间构建关系。由于词汇和概念可能属于多个学科领域,因此任务划分允许有重复。再次,对于重复部分的数据,多个编表用户对其都有操作的权限;但是在同一时间,只能有一个编表用户对同一条词汇或概念进行编辑,且以时间先后为优先依据,因此,一旦编表用户对词汇或概念进行编辑操作,该词汇或概念即被锁定,包括词汇/概念的基本信息、概念参照项的基本信息。2.2.2 审核机制首先,个人加工任务权限的有效时间小于其所属单位编表用户权限的有效时间,并且个人加工编表用户任务完成后提交给所属单位编表用户,数据加工状态更改为“初审”,原个人加工编表用户不能再对已提交的数据进行编辑。其次,单位编表用户/初审编表用户对本单位的加工任务进行初审,如初审不合格,可将加工任务驳回或再次分配,加工任务驳回或再次分配后个人编表用户重新拥有编辑权限。最后,初审合格后提交到复审编表用户,复审编表用户对所有单位编表用户的加工任务进行复审,如不合格,将加工任务驳回单位编表用户或重新进行任务分配。2.2.3 危险预警和冲突解决机制系7统建立了一套完善的危险预警和冲突解决机制,能够及时发现叙词表协同编制过程中的错误、违规操作和冲突,并根据危险和冲突程度予以相应的解决处理。首先,定义和界定“危险操作”,包括:新增词、删除词、修改词、多个编表用户多次修改同一数据超过 3次,即对同一词汇/概念/关系,如果出现多个编表用户反复作相同的修改超过 3次,则将该词汇/概念/概念间关系的编辑升级为“危险操作”,或者编表用户对自己某项操作标记为“危险操作”;然后,被标记为“危险操作”的操作将直接上报到审核编表用户,原有编表用户对该数据的编辑权限被收回,由审核编表用户对该词进行判断和进一步操作。如果冲突发生在一个单位范围内,则将“危险操作”上报到单位编表用户/初审编表用户,个人加工编表用户的权限将被收回;如果冲突发生在多个单位间,则将“危险操作”上报到复审编表用户,收回单位编表用户和个人加工编表用户对该数据的编辑权限。3、叙词表协同编制系统构建3.1 叙词表协同编制系统架构与运作流程当前,网络信息资源增长迅猛,亟须对其进行组织以供用户检索利用。而传统的叙词表编制速度缓慢,无法及时收录和补充覆盖各学科领域的新词汇,因此,需要改变单一的、独立封闭的叙词表编制体系,将各个学科领域的专业人员、用户纳入到编制系统中,实现叙词表编制的协同操作。叙词表的协同编制包括从叙词表的数据导入到同义词的归并、网络在线协同建立词间关系、词表校验和词表输出等一系列工作流程所需的各种功能模块。网络环境下叙词表协同编制系统架构如 图 1所示。8图 1网络环境下叙词表协同编制系统架构叙词表的协同编制旨在实现网络环境下多人分工协作流程化的叙词表编制。根据叙词表建立的原则,系统按照以下流程进行构建:表的建立与数据导入;同形词、同义词的处理;词表校验以及任务管理,如图 2所示。图 2叙词表协同编制系统运作流程3.2 叙词表的建立根据叙词表编制方式,系统采用以下标准,即叙词表包含一个主表和一个范畴表,另包含一个或多个附表,也可能是唯一的“分面属性表”。主表的结构包含两种方式,可以选择标准主表结构,也可以在标准主表结构的基础上进行扩展,自定义主表结构。系统将两种方式相结合,并建立与之对应的范畴表。93.2.1 标准主表结构的确立标准主表包括以下字段词汇描述项:款目词、汉语拼音、语种、英文译称、定义、范畴号、备注;其概念间关系类型包括:用、代、属、分、参、族、用和、组代,如表 1所示。3.2.2 自定义主表结构系统在标准表结构中已有的词汇描述信息的基础上,可对数据进行描述项的增加,但新增的描述项旨在记录描述性信息,而不记录关联性(与其他表的字段关联)信息。同时,在“用、代、属、分、参”5 类关系下进行扩展以增加新的关系类型。3.2.3 建立相应的范畴表根据主表的结构和所录数据情况,对叙词进行范畴定义,建立范畴表。通过唯一的范畴 ID标识范畴,利用代码记录范畴在层级体系中的位置,并为每一个范畴表添加相应的范畴号和范畴名。103.2.4 完善叙词表的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论