大数据时代合作模式下的图书馆数字资源长期保存模型分析_第1页
大数据时代合作模式下的图书馆数字资源长期保存模型分析_第2页
大数据时代合作模式下的图书馆数字资源长期保存模型分析_第3页
大数据时代合作模式下的图书馆数字资源长期保存模型分析_第4页
大数据时代合作模式下的图书馆数字资源长期保存模型分析_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 大数据时代合作模式下的图书馆数 字资源长期保存模型分析 摘要本文在分析大数据环境下 图书馆采用合作保存必要性的基础上, 探讨了国际主流的数字资源保存合作模 式,进而提出目前我国图书馆应采用的 数字保存合作模式和资源存储方式,最 后设计了图书馆基于 OAIS 的数字资源 长期保存协作保存平台模型,并对该模 型构成、运行模式以及主要功能进行了 深入的描述和分析。相信本研究将对合 作模式下图书馆数字资源长期保存系统 的建设起到抛砖引玉的作用。 中国论文网 /4/view-12980386.htm 关键词 图书馆;长期保存;数 字资源;合作模式 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 大数据时代的到来,整个社会不 可避免地被卷入数字洪流之中,如何保 存人类社会的数字文明,图书馆的保存 工作面临着越来越多的挑战和考验。一 方面要面对数字保存对象的不断多元化 和泛在化,另一方面要解决用户与日俱 增的数字资源长期保存需求和资源共享 需求。在这种情况下,国际上很多数字 文化遗产收藏机构都开始积极采取合作 的方式开展数字资源长期保存的研究与 实践,国际上也相继出现多个跨地域、 跨机构的数字保存联盟,如英国的数字 保存联盟(digital preservation coalition,简称 DPC)以及协同化的国 际合作项目,如欧洲的 NEDLIB 项目。 目前,各国学者对采用合作方式开展数 字资源长期保存的发展方向已有普遍共 识。我国虽然诸如国家图书馆等个别机 构近年已着手采用独立保存方式对机构 内所藏数字资源实施保存,但是尚未形 成成熟的合作保存体系,未建立一套统 一的支持机构间协作的合作保存网络, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 极易导致对重要资源内容保存的遗漏; 且资源的利用率不高,无法满足大数据 时代对图书馆数字资源收集、保存、维 护、处理和利用的需求;特别是会由于 重复存储导致大量人力资源和物理资源 的浪费。因此,选择合理的数字资源长 期合作保存模式,选用灵活且适应性强 的数字保存合作策略,建设相对全面的 数字资源长期保存协作平台是目前大数 据环境下国内图书馆等文化资源保护机 构亟需考虑和解决的问题。 1 大数据环境下图书馆采用合作 保存的必要性 大数据环境下,数字内容的体量 飞速发展,用户需求呈现出多元化的态 势。面对用户不断泛化的资源保存需求, 图书馆对保存对象的定义也更加宽泛, 数字对象的类型变得更加复杂,资源类 型逐步由单一的图像、文本类型向包括 音视频、网络资源等在内的结构化与非 结构化多元类型拓展。同时,用户发现、 利用、反馈图书馆资源的信息,即图书 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 馆用户“大数据 ”也将作为一种重要的资 源被纳入到图书馆的保存对象范围之中, 保存对象的类型和结构将变得更加复杂 多样,数字资源长期保存正经历着越来 越严峻的挑战。 同时,随着社会数字化的不断发 展,社会经济和文化的发展对数字资源 的依赖性更强,各国保存机构对数字资 源长期保存可信赖性提出了更高的要求。 面对更加艰巨的保存任务和更为复杂的 保存环境,仅依赖于单一机构已无法完 成数字保存任务,采用合作方式开展数 字保存不但可以避免单一机构实施保存 所造成的单点故障,规避出现数字孤岛 的风险,而且有利于集结多种类型的数 字资源,实现不同内容、不同类型资源 的有机关联,进而提高大规模数字资源 保存的可增值性,改变原有保存机构基 于本地、私有、封闭的保存模式,打破 机构问资源保存与共享的诸多壁垒,实 现资源保存与服务的有机结合。在此情 况下,图书馆间合作构建数字资源长期 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 保存协作平台形成数字资源协作保存网 络已成为图书馆等文化遗产保存机构的 必然选择。 2 大数据环境下图书馆数字资源 合作保存模式分析 近年,在大数据环境下欧美等发 达国家的图书馆、博物馆、档案馆等数 字文化遗产机构纷纷探索多种合作模式, 以期提升其在公共文化机构中的地位, 改善其现有的数字保存和服务现状,更 好地满足越来越多的多样化用户需求。 目前国际上主流合作模式主要包括集中 分散、 确稚 、高度整合等模式。 其中,集中分散式即由一个机构主导, 由其制定相关政策、方针、管理机制, 并实施技术指导,协助其他机构解决长 期保存中的实际问题,其他机构作为合 作参与方,承担一定的保存责任并具有 相应的权利,如美国的 NDIIPP 项目、 澳大利亚的 PANDORA 项目、美国阿 拉巴马州的 ADPNet(the Alabama DigitalPreservation Network)等项目都 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 属于集中分散式的合作保存模式。对等 分散式指参与数字资源长期保存合作的 成员机构在合作中所处的地位平等,且 具有同等的责任和义务,主要通过协商 来完成相应的保存任务,如欧洲的 NEDLIB 合作项目。高度整合模式,是 近两年新兴的一种合作模式,其一般由 国家主导,通过实施法令和制定政策, 完成机构间运行机制和内部结构的重组, 如挪威、新加坡、加拿大等国对图书馆、 档案馆、博物馆等机构开展的机构整合。 由于我国目前的数字资源长期保 存政策和策略尚不完善,且机构问在数 字资源长期保存领域的研究与实践工作 缺乏有效的沟通和协调,跨机构、行业、 区域的合作关系松散,缺乏统一规范的 合作模式和制度,特别是各图书馆长期 保存的技术能力参差不齐,因此在现有 状态下,图书馆长期保存合作模式可以 考虑采用集中分散的模式,即由某一权 威机构作为合作保存的中心机构,由其 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 主导并协调指导其他机构共同完成保存 任务,该合作模式下的资源存储方式可 以考虑采用集中管理分布存储 集中整合的构建模式。在该合作模式和 存储方式下,中心机构负责完成保存政 策、运行机制、合作机制、保存策略等 方面的全局性指导,并通过共享基础设 施、功能设计标准框架等方式完成机构 问的共享与协作;在统一的资源采集政 策下,各分支机构独立完成资源的收集、 加工、审核、管理和存储;利用分布式 的保存策略和多副本安全策略,保证种 类各异的资源分布式存储于地理位置分 散的各合作保存机构内部;通过规范的 数据集中整合流程,保证资源保存形式 的一致性,便于更新以及为用户集中揭 示资源,实现保存资源的全方位揭示。 该模式通过机构间的合作保存,有效规 避了单机构保存所造成风险;通过共享 基础设施,降低开发成本;通过共享功 能设计标准框架,有效降低管理成本; 通过资源的多副本保存可以有效提高资 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 源的安全性和完整性,降低昂贵的备份 成本,如图 1 所示。 图书馆数 字资源的合作保存是以最终实现保存资 源的长期存储、管理和长效利用为导向, 采用该合作模式,可以有效实现对联盟 内保存资源的统一存储、集中监控和动 态管理,从而保障数字信息资源的真实 性和永久可获得性;可以集结多种类型 的资源,通过保存平台实现对资源的有 效关联、整合、管理和利用,从而满足 大数据环境下,对更加庞大的异构资源 实现有效组织整合;通过将资源集中保 存于数字保存合作平台中,可以有效打 破原有资源保存和共享的诸多壁垒,消 除资源保存机构的存储孤岛现象;通过 跨系统、跨地域的合作保存,可以有效 避免资源的重复存储,解决目前普遍存 在的基于本地的、私有的、封闭的保存 模式,有利于合作机构在指导机构的统 一管理下,完成对保存的资源统一处理 和整合,保证对保存资源的持续性、系 统性的维护和开发利用,为最终实现知 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 识发现、体现数字资源长期保存意义提 供重要保障。 3 基于 OAIS 的数字资源长期保 存协作平台模型分析 基于以上合作模式,图书馆数字 资源的合作保存可以通过建立基于 OAIS 的数字资源长期保存协作平台而 实现,该协作平台可由跨地域或跨机构 的多个机构或长期保存系统耦合形成, 共同创造一个协同保存的工作环境,以 实现机构或系统问的协同工作,完成对 跨地域资源的统一协调、调度和管理, 其不但可以有效节约资金、人力等物理 资源,而且可以促进沟通和交流,确保 大数据环境下我国数字文化遗产得到长 期存储和有效保护,方便获取利用。 3.1 大数据环境下图书馆合作保 存对象需求 大数据背景下,数字资源总量呈 指数级增长,资源构成变得更为复杂, 从资源结构看,包括结构化数据、半结 构化数据、非结构化数据,且数据与数 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 据之间彼此交叉,彼此融合;从资源来 源看,涉及同类型不同来源的资源、不 同类型不同来源资源以及相同类型相同 来源的资源,且资源的异构性、碎片化、 多维性等特点越来越突显。同时,数据 的保存环境变化加快,数据生命周期缩 短、格式更新频率加快,人类对数字资 源长期保存的要求不断提高,而保存环 境却日益恶化,因此大数据环境下,图 书馆的数字保存对象应达到以下要求: 真实性:数字对象文件应可以通 过评估身份信息和操作记录的完整性进 行验证,其验证过程应贯穿于系统的整 个工作流程。在任何时候都能够确定数 据的内容完整无缺、身份来源可靠、且 未被非法更改,同时保证数据的创建时 间、创建人员、创建模式等内容明确, 数字对象所参与的行为或事件有明确标 示,数字对象与其相关联对象的关联关 系表达明确且相关附件信息完善。 位阶完整性:数字对象的位级存 储可以确保提交的数据不发生任何变化, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 即每一位(bit)可保持原状,持续维持 原始位流的完整性和可读性。 安全性:保证数字对象未被未经 授权的用户访问或更改。 可用性:保证数字对象的封装、 迁移、备份、交换、访问、传输都是容 易的,不会随着保存环境的变化而产生 改变。 要达到以上对数字保存对象的要 求,协作平台不但需要配置一系列的审 计、校验、身份认证、信息跟踪、格式 监测、统计报告、迁移等保存功能和策 略,还应支持灵活嵌入一系列的软件和 工具以完成对数字对象的持续存储和管 理,如为保证数字对象的真实性,在资 源的摄入阶段需要持续监控整个摄入过 程中数据内容、结构及其状态,因此需 要嵌入 AutoTODD 等类别的摄取软件; 为保证平台数据对象归档和保存阶段所 保存数据对象的完整性和正确性,平台 需要配备 ACE(Audit Control Environment)等完整、系统的校验机制 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 12 (如奇偶校验、指纹验证等) ;为保证 信息包的有效传输需要配备 BaTIt 等包 处理工具,以实现对信息包的创建、操 纵和校验。同时还需要配备合理的数据 处理软件,通过获取数字指纹、文件格 式转换、元数据抽取等功能完成对数字 对象的完整传输,确保数字对象按原有 的层次结构复制和上载等,如 Archive This!、WebIndexing Portal、E- PubsPortal 等。此外, 平台还应支持 灵活配置用于查询定位的软件如 Lucene,用于病毒查验的软件等工具软 件。 同时,为满足以上数据对象的保 存需求,在进行系统模型设计时,不但 要考虑整个平台的灵活扩展能力,以能 够应对不断增加的资源类型和飞速增长 的资源保存需求;同时要充分考虑到协 作平台对不同类型资源对象的处理能力 和节点问的协同工作能力,使其在中心 节点的统筹规划下,充分利用每个分支 机构的资源处理能力,依据数据资源的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 13 内容、结构特征、质量保证标准定制合 理的保存工作策略和工作机制,有效保 障资源的安全性、有效性,提高平台资 源的服务能力。 3.2 系统平台模型设计 OAIS 模型作为数字资源长期保 存领域的标准,其提供了对数字资源长 期保存系统的外部环境、功能模块以及 保存对象模型的定义。针对基于 OAIS 模型的分布式长期保存系统框架的讨论 最早始于 2010 年,由 MetaArchiveCooperative, 、 Chronopolis 和 the Library of Congress 共同发起讨论。 近两年,随着欧美等国家合作保存项目 的发展,分布式长期保存体系框架逐渐 受到各保存机构的重视,其中比较有代 表性项目包括 Archivematica,Chronopolis,Data- PASS,the Danish Bit Repository,DuraCloud , InternetArchive ,LOCKSS, MetaArchive Cooperative,and UC3 Merritt 等。上述 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 14 各项目的系统的实现方式各不相同,如 LOCKSS 分布式保存项目,其资源被重 复保存在多个站点中,网络中所有服务 器在权利和职责方面都是对等;而 Chronopolis 项目采用了混合的协作模式, 三个节点协同提供网格服务,同时又有 不同的分工,三个节点问通过 GridFTP 进行网格中大规模的并行数据复制,每 份资源都存在 3 个独立管理的副本。可 以看出,上述每个项目都根据项目的实 际保存需求和机构特点设计了不同的实 现方式,且各有特色、各不相同。因此, 图书馆基于 OAIS 的数字资源长期保存 协作平台模型的设计应紧密结合集中分 散的合作模式,充分利用现有的工具和 成果,综合考虑合作机构所具有的不同 职责、角色和能力,根据大数据环境下 图书馆合作保存对象需求,以 OAIS 标 准为基础,构建一个具备协同工作能力、 支持灵活、扩展的协作、互联、分布式 的数字资源长期保存体系架构,如图 2 所示。 该模型是一个包括协作、 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 15 互联、分布式的数字保存模型,模型由 一个中心机构和若干分支机构共同组成 基于 OAIS 的数字资源长期保存协作平 台,每个机构都是协作平台中的一个节 点,各个节点都根据预先制定的分工协 作策略进行协同工作,各节点均有分工, 且彼此协作。模型中的中心节点和各个 分支节点都遵循 OAIS 参考模型,且在 中心节点的集中指导下独立组织开发、 维护并确保数据的完整性和有效性,其 主要包括摄入模块、保存计划模块、数 据管理模块、归档存储模块以及资源利 用模块。平台中的每个节点均可根据本 机构所具有的不同职责、角色和能力进 行自治,独立执行保存功能,维护保存 系统,并提供服务。每个分支机构的节 点对等,各分支节点的关闭、停止、增 加,并不影响整个平台的正常运行,平 台可以随着资源规模的扩大不断增加分 支节点,有效保证了平台的灵活性。采 用该种模式不但可以有效简化平台管理 和开发的复杂性,增强协作平台的可扩 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 16 展性,而且可以允许各分支机构根据自 身需求,灵活配置存储策略和工作流程, 增强了整个平台的包容性,有利于充分 利用现有工作和研究成果。 该模型采用松耦合的工作模式, 模型的中心节点负责对整个平台的日常 管理和监控,各分支节点采用独立运行 的管理机制,由于每个分支机构具有很 高的自治性,因此每个机构可以在遵循 一定的标准、政策的前提下,采用不同 的系统、嵌入不同的保存工具,保存不 同类型的数字对象,有效保证大数据环 境下保存平台的扩展能力。在分布式架 构下,中心节点通过执行日常管理和检 测,协调各分支节点独立运行,使该平 台可支持不同的保存功能,达到不同的 保存目标。平台通过采用基于分布式的 保存策略和多副本安全策略,将多个副 本分布式地保存在地理位置分散的多个 分支节点的归档存储中,可以使得各分 支节点资源互为备份和补充,共同完成 资源保存,保证保存资源的多地多副本, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 17 最大限度的保障资源的安全性,避免因 恶意攻击、本地资源丢失等因素造成的 资源受损。 中心节点负责平台的统筹规划和 全局监管,通过相应的节点注册机制完 成对各分支节点信息的管理,利用资源 提交机制接收各分支节点的数据和资源, 其主要功能模块包括系统管理(如各节 点信息管理、备份管理、人员权限管理、 各N 报告管理等等) 、长期保存(如 保存规划、环境监测、策略评估等) 、 仓储管理(如数据库管理、唯一标识符 管理等) 、归档存储(如存储系统管理、 介质管理、存储机制管理等) 、资源摄 取(如分支节点资源的接收、审核、 AIP 生成等) 、资源利用(如 DIP 生成、 资源呈现等) 。中心节点的主要任务包 括:每个分支节点通过各自节点的资 源利用模块向中心节点提供信息,中心 节点通过其摄入模块完成资源的收集, 并通过仓储管理和归档存储完成对平台 内资源的组织和管理,平台内资源索引 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 18 的整合与请求分发由仓储管理模块负责。 中心节点负责对所有分支节点内容信 息和保存管理信息的收集、组织,并完 成对已解决版权资源的融合分析和统一 揭示,保证在低成本的条件下实现数据 的高效存储和访问。各分支节点问可 以在中心节点的管理下,完成对保存资 源的迁移和备份,中心节点负责协作平 台内资源备份迁移实施情况的统计。 中心机构负责对分支机构进行检查和审 计,管理协作平台内部各节点的名称、 机构性质、保存资源的基本情况等信息。 中心节点负责完成对协作平台内保存 资源的统计管理,汇集各分支节点的数 据保存情况,各分支结构可以通过向中 心节点提交请求,系统了解协作保存平 台内资源的保存情况。中心节点负责 提供协作平台的保存规划管理,在汇集 各分支节点制定的保存规划的基础上, 制定协作平台的全局保存规划和策略, 以指导各分支机构制定相应的保存实施 策略。中心节点负责提供服务注册机 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 19 制,以灵活嵌入一系列的保存软件和工 具,完成对数字对象的持续存储和管理, 保证协作平台内部资源的安全性、完整 性,各分支机构可以通过服务调用或服 务嵌入的方式,完成对所需软件和工具 的使用,保证机构内资源的有效性。 各分支节点可以通过向中心节点 注册,自主加入整个协作平台中,其具 备完整的保存功能,执行机构内的资源 摄入、存储、管理、备份、利用等保存 功能,是一个独立的保存功能节点。各 分支节点主要完成对保存对象的管理, 并对数据安全提供保障。分支节点的主 要任务包括:负责对机构内保存资源 对象内容数据和元数据的监控和管理, 可通过嵌入相应的校验工具实现对保存 仓储中数字对象进行完整性校验。负 责机构内保存资源的安全性和可靠性, 配备一定的安全保障机制,如数据存储 状态的审计、数据状态的跟踪机制、存 储介质的安全保障机制等。负责机构 内保存资源的不变性检查,定期检查数 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 20 据内容是否未经任何改变。负责机构 内保存资源信息的统计,完成对保存资 源处理过程的追踪和检查,并生成报告。 提供资源对象迁移功能,即在中心节 点的统一调配下,支持将对象从一个分 支节点迁移到另一个分支节点,或从一 种媒介迁移到另一种媒介资源。负责 资源原始资源的摄入和清洗,即各分支 节点的资源摄入模块要面向资源提交者 提供对原始提交信息的管理,如数据完 整性检查、数据内容和元数据格式检测、 元数据抽取、格式转换、病毒检测、剔 除噪声数据、数据提取、有用数据提取, 以及图书馆相关资源整合等功能。各 分支节点的输出模块主要完成向中心节 点推送资源的功能,可以根据中心节点 的摄入策略,进行资源的主动推送,推 送模式可采用实时、定时、触发性推送 以及手工推送等方式。 各分支节点可与中心节点协商, 共同制定符合各分支节点自身技术能力 和资源规模的资源复制策略和保存规划, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 21 在最大限度保证资源安全性,确保数字 对象长期可用的同时,有效平衡各分支 机构节点的独立性,保障资源在协作平 台中的共享与协调。协作保存平台中各 节点都设置独立的技术检测机制作为其 长期保存计划的一部分,如摄入文件的 格式、文件的完整性、存储媒介的安全 性等。各分支节点的保存计划侧重于对 本中心内部保存文件的日常检测,而保 存中心节点的保存规划除包括对中心节 点内部文件的技术检测外,还要指导平 台中各节点完成对其内部存储媒介的检 测。由于各分支节点所依赖的存储单元 不同,因此中心节点的保存计划应不但 涵盖其自身的内部保存计划还应当包括 各分支节点的保存计划,以指导各分支 机构用自己的技术检测功能对他们使用 的存储媒介进行检测。 该模型的设计参考了 Chronopolis 项目区分主控节点和分支节点的分工协 作模式,参考了 LOCKSS 项目的基于 策略的存档复制模式,使得整个模型既 -精选财经经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论