丹麦国家档案馆在数字存档领域的愿景是以经济高效的方式进行数字保存,确保数据具有高可重用性,以便用户更快地获取数据。为此,基于前期发布的《数字存档政策》(Digital Archiving Policy),丹麦国家档案馆发布《数字保存战略2025》(Digital Preservation Strategy 2025),提出未来在数字保存领域的重点领域及实施意见。下文将对《数字保存战略2025》的内容进行介绍。
该战略并不会取代丹麦国家档案馆现有的迁移策略,而是与其互补。丹麦国家档案馆将继续基于迁移策略开展工作,通过使用长期保存格式确保数据可以被长期访问和重用。然而,丹麦国家档案馆希望采取新措施来补充迁移策略,以弥补其局限,例如,有意或无意的数据丢失,或在迁移过程中可能会丢失格式的重要属性。新措施旨在确保丹麦国家档案馆能比以前保留更多的(格式)属性,并提高可重用性。
数字保存主要涉及以下内容:制定关于保存格式、信息包结构及内容的规则,并为接收、存储和分发原生数字数据建立安全的基础设施。
同时,数字保存与数字存档领域的其他活动有着错综复杂的联系,这些活动涉及数据的全生命周期:从数据形成到提交至档案馆,再到在档案馆进行数据保存和分发,直到在社会需要时对数据进行重用。
由于保存战略的一些行动领域不仅影响数据保存,而且也影响数字存档的其他阶段,接下来将详细阐述对数字存档领域及其不同阶段具有重要意义的新的行动领域。
该战略基于丹麦国家档案馆《数字存档政策》中的8项基本原则(即可重用性、可靠性、安全性、灵活性、创新、协作、标准化、透明度)制定行动领域的优先级。
表注①:FAIR原则是一套可衡量的指导方针,旨在确保数据的可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)。
具有保存价值的数据必须尽量在最早的阶段确定。这使数据生产者能够建立适当的计算机系统,以便根据适用的规则将数据提交至档案馆。
丹麦国家档案馆主要通过接收来自国家机关关于新计算机系统的报告来识别各机构中的具有保存价值的数据。如果丹麦国家档案馆认为这些数据值得保存,那么该计算机系统就需走审批流程。该流程既能使提交数据以供存档时不会出现任何问题,也能确保(档案馆)与数据生产者围绕数据提交的挑战及早展开对话。目前,(丹麦国家档案馆)已经发布面向国家机关、研究机构和高校的行政命令,要求这些机构在特定情况下报告研究数据。
对于各市、各地区的机构,丹麦国家档案馆已发布通用保存规定,数据生产者必须据此评估如何长期保存新计算机系统中的数据。
(1) 应用新方法灵活添加保存格式
如果无法按照适用规则即时提交具有保存价值的数据,丹麦国家档案馆将实施一种新的方法来系统地评估适用于长期保存的新的文件格式。
在准备提交数据时,丹麦国家档案馆明确了(提交的)时间界限、提交模式、数据内容及信息包的说明文档。提交信息包必须包含内嵌数据的充分说明及背景(信息),以便能在短期和长期内利用和解释(这些数据)。
(2) 探索适用于信息包灵活设计的导出模式
对此,丹麦国家档案馆必须以结构化的方式记录关于数据鉴选(selection)、转换(conversion)及数据来源的所有决策,并确保这些信息对用户是透明的。数据鉴选意味着信息包的内容既可以是计算机系统中数据的1:1版本,也可以是从数据库中选择的表、导出的最重要的数据,还可以是来自多个计算机系统的数据汇集。丹麦国家档案馆将有意识地定义和记录不同类型的导出模式,以便信息包的形成尽可能对用户透明。
丹麦国家档案馆的目标是使信息包的说明文档(尤其是以结构化元数据形式呈现的)尽可能地符合关于信息包结构和内容的国际著录标准。
(3) 基于国家通用基础设施的标准和服务展开合作
在该战略实施期间,丹麦国家档案馆将探索“按设计存档”(译者注:指在设计阶段提前考虑存档问题)的可能性。这意味着,在设计含有具有保存价值的数据的计算机系统时,要从一开始就考虑将数据以标准格式输出至公共档案馆的可能性。同时,丹麦国家档案馆将更加注重参与丹麦公共部门的基础设施(建设),并作出贡献,参与和贡献的方式是应用描述数据目录、数据集和服务的国家标准(例如DCAT-AP-DK),以及描述计算机系统并通过borger.dk提供数据访问的国家标准。
2.数据存储阶段——提交和长期保存
丹麦国家档案馆每年从数以百计的数据生产者那里收集数据。这些数据生产者包括国家机关、研究机构以及大量自治市、地区和私人的数据生产者。数据以许多不同的格式、结构和数据模型生成。在向丹麦国家档案馆提交数据时,应确保数据按照保存安全规范进行保存,即确保随着时间推移,仍能访问数据。数据可以用不同的方式表示,例如,有不同的结构并以不同的格式存在,但仍然包含相同的信息。因此,丹麦国家档案馆的首要(职责)是保存信息。数据主要以不同于原始数据的形式进行保存,因为必须将数据迁移至具有特定结构、格式及说明文档的信息包中,从而在考虑到技术过时的情况下实现经济高效的保存。
丹麦国家档案馆对提交信息包进行验证。对是否按丹麦国家档案馆的规范提交数据进行验证,可以最大限度地保证数据的正确提交,并在未来仍可访问。丹麦国家档案馆持续监测这些数据;当丹麦国家档案馆认为数据面临技术过时风险时,或决定在其保存方法论中应用其他标准时,将对数据进行迁移。
丹麦国家档案馆完成对提交信息包的检查后,将生成的档案信息包作为丹麦国家档案馆的馆藏进行长期保存。
为解决对数据完整性和可访问性的可能威胁,丹麦国家档案馆基于分布式数字保存进行数据的物理存储。这意味着可以获取位于多种载体技术和多个位置的多份数据副本,且这些副本位于不同的组织机构。长期保存还包括对数据完整性的定期检查,如此一来,丹麦国家档案馆就能确定数据在迁移前后保持不变。
(1)部署实施用于接收和保存数据的新的安全系统
丹麦国家档案馆正在投资建立一个用于数据接收和保存的新系统。该系统旨在确保可扩展性,减少人工依赖性,使用标准化软件,实现流程简化和自动化。
3.数据重用阶段——访问获取
如果按照丹麦国家档案馆的标准提交数据,确保具有保存价值的数据得到充分的说明,实现独立于系统的存档,这些数据就会有很高的可重用性。
丹麦国家档案馆的目标是确保存档数据尽可能易于重用。这一目标的实现有赖于丹麦国家档案馆未来建立方法和制定规则中,基于档案馆和用户在实现存档数据可用和重用数据时(积累)的具体经验。
(1)发布支持数据FAIR原则的新行政命令
丹麦国家档案馆不懈努力,旨在确保充分的元数据及元数据和数据的展开都遵循FAIR原则。这意味着丹麦国家档案馆认可“数据必须是可发现、可访问、可互操作和可重用的”这一目标,也认可必须要在数据全生命周期(即数据形成、传输、保存或重用的任何时候)中实现FAIR原则。
丹麦国家档案馆在对档案信息包进行处理之后形成分发信息包,并基于尽快传播尽可能多的数据的愿望,向用户提供分发信息包,能够确保:
•在网络上快速、自动地展示开放数据
•信息包的匿名化
•以新的方式传播数据
•以数字方式向用户公布数据
(2)用能够优化数据内与跨数据搜索的工具展示数据和元数据
经过在数字存档全流程的深思熟虑的努力,丹麦国家档案馆将确保分发信息包能够根据用户需求形成和使用。丹麦国家档案馆注重数据的可搜索性,并支持信息包之间的互操作性,使(用户)可以汇聚不同来源的数据,推动新知识的形成。
丹麦国家档案馆也将争取在(数字存档)流程中尽早开展推动数据匿名化的工作,旨在确保(用户)能够更轻松、更快速地获取数据。然而,在获取数据时,始终要根据《档案法》提供数据,因此,数据不会到达未经授权的人手中。
可靠的长期数字保存需要全面的保存计划。丹麦国家档案馆将保存计划理解为:为数据结构和文件格式准备保存计划,更一般地说,是指根据技术发展,评估何时需要进行载体或格式迁移。
实现上述任务必然要求丹麦国家档案馆与数据生产者及其他利益相关者展开对话与合作,产生知识,进行态势分析,并对收集、保存和访问获取等活动进行持续性的技术监测。
(1)让用户参与格式重要属性的评估
丹麦国家档案馆选择和指定的数字存档格式必须能够尽可能全面地体现原始数据格式的重要属性。丹麦国家档案馆还必须与原始数据的用户合作,(共同)评估哪些格式属性对保存是重要的,旨在确保数据可以重新用于预期目的。
丹麦国家档案馆不断努力扩大和调整(用于)长期保存的指定格式,以满足技术发展的需要。由此,丹麦国家档案馆能够根据现有资源确定长期保存的新格式。丹麦国家档案馆在加权标准的基础上,根据不断收集的知识和经验,尽可能透明地进行格式评估。
(2)应用多个保存等级
然而,存在无法指定适宜的长期保存格式的情况。为应对这一挑战,丹麦国家档案馆将实施不同的保存等级。
例如,一个保存等级可以是以原始格式保存数据,直到可以将数据转换为适宜长期保存的格式。如果数据生产者正面临关闭,或由于数据保护立法,数据将从数据生产者那里删除,则很可能采用这种保存等级。
也可能存在数据生产者无法以适当的方式提交数据的情况。这可能是因为数据不能独立于系统保存,或数据保存需要特定领域知识,或数据体量庞大。在这些情况下,可以将数据保存在形成环境,但要遵守《丹麦档案法》关于保存和访问获取的规定。
(3)奠定原始数据重用的基础
如果在经济上可行,丹麦国家档案馆将同时接收保存格式和原始格式的数据。如此一来,更容易在接收和检测时发现转换错误,同时允许用户在特定时间段内访问原始数据。
2.协作和标准化
(1)围绕知识构建、方法及工具开发展开合作
开发和维护数字存档的解决方案和方法很复杂,必须通过与其他保存机构的合作和知识共享来(共同)应对。
(2)应用欧洲通用保存格式
丹麦国家档案馆将继续参与国家层面与国际层面的合作(尤其是在欧洲E-ARK项目下开展的合作),并积极作出贡献,同时也将在北欧层面进行合作。丹麦国家档案馆将努力把相关的欧洲通用保存标准纳入自身的数字存档法规中。丹麦国家档案馆将OAIS模型作为档案馆内部数字存档流程的参考框架。
丹麦国家档案馆高度重视与其指定社区在进一步制定和维护标准、规则、指导性文件等方面的合作。这也适用于非政府(组织)和私人形成的数据。数字存档已成为公共机构信息管理的重要组成部分,如同《通用数据保护条例》(GDPR)、关于访问获取公共管理文件的法律、关于公共管理的法律和良政实践等一样。丹麦国家档案馆致力于确保在相关立法及标准化倡议与主责机构之间进行尽可能多的和适当的互动。
*本节注:E-ARK项目即欧洲档案文件与知识保存(European Archival Records and Knowledge Preservation.)项目,参见https://eark-project.com/index.html。
3.可靠的数据
(1)记录在全生命周期中对数据进行的处理
丹麦国家档案馆致力于在保存数字档案的过程中确保其可靠性。对丹麦国家档案馆来说,可靠性源于对数据传递过程的记录。
丹麦国家档案馆的目标是与公共机构及其供应商进行合作,对数据从计算机系统到档案馆这一过程中所发生的变化进行追踪和记录。例如,通过比较存档数据和原始数据,可实现提交过程中数据真实性的保证和记录。此外,丹麦国家档案馆注重使用校验值、记录程序、转换说明等(方法),以支持数据在提交至档案馆后与验证、保存、重用及未来迁移有关的可追溯性。
4.创新
(1)分析以非连续方式提交数据的可能性
丹麦国家档案馆将为推动数字保存创新举措快速实施的实验提供空间。这些实验包括:关于以非连续方式提交(数据)的分析,关于数据重用和保存的研究,或开发基于人工智能的匿名化工具或验证工具。
(2) 应用和开发创新技术
丹麦国家档案馆致力于不断开发、实施和使用自动化、人工智能、机器学习等相关新技术,以支持存档过程中的(各项)活动。
(本文内容为学生研究员自主翻译,仅供参考学习,文件原文请访问以下链接:
https://en.rigsarkivet.dk/wp-content/uploads/2022/05/Digital-Preservation-Strategy-2025-FINAL-a.pdf)