2017年8月,美国国家档案与文件署(National Archives and Records Administration,NARA)发布首个《数字档案资源长期保存策略》(Strategy for Preserving Digital Archival Materials),突破了传统长期保存战略制定以图书情报机构为主导的局限,专门针对数字档案资源的长期保存进行了战略规划。[1]2022年6月,NARA在此基础上发布《数字保存战略2022—2026》(Digital Preservation Strategy 2022-2026),该文件是对2017年《数字档案资源长期保存策略》的修订,增加了对最新指南和标准的参考,提出了8项关键性战略来确保数字资产的长期保存和有效访问,本文将对《数字保存战略2022—2026》的具体内容进行介绍。
美国政府大量的档案文件由NARA识别、保存并提供访问。我们保存这些文件是为了保护公民权利、确保政府问责机制、并记录国家经验。NARA保管的电子文件包括文本材料、电子邮件、数据文件、地图、航拍、静态照片、以及电影、声音和视频文件。这些档案属于公众,我们的使命是推动公开,培养公众参与,并通过向公众开放高价值的政府档案来促进国家民主。保存NARA的数字资产——包括原生数字文件(指文件形成之初是电子格式)和数字化副本——是实现这些目标的基础。保存和确保将来对这些文件的访问也直接回应了《第13985号行政令:通过联邦政府促进种族平等和对服务欠佳社区的支持》(E.O.13985,Advancing Racial Equity and Support for Underserved Communities Through the Federal Government)中的规定。
NARA致力于保存和维护所有馆藏原生数字文件和数字化副本[2](the born-digital records and digital surrogates),它们被档案管理员判定具有足够历史价值或其他价值,美国政府有必要对其继续保存。在该战略中,访问(access)指的是文件和内容的持续可用,保持真实性、准确性和功能性的特质对于维护和识别创建文件的目的至关重要。
NARA的《2022—2026财年战略计划》(FY 2022-2026 Strategic Plan)将数字保存(digital preservation)确定为战略目标。其目标3“最大化NARA对国家的价值”指出:“NARA将提升对机构现有资产的物理和知识控制,以实现数字保存风险规划、可信赖存储库中的风险缓解,以及电子文件的持续访问。”
NARA采用了几项关键战略来确保数字资产的有效保存,并认识到战略必须灵活,以适应不断变化的规模、技术和标准的不断变化。目标是降低(内容)丢失风险,实施国际最佳实践和标准以维护对数字内容的访问。
1)标准和程序文件。NARA记录了内部程序和标准,适用于原生数字文件、数字化副本和公用副本的生命周期管理。根据44 USC 3302(3),NARA提供关于机构创建数字化副本的指南;为确保电子文件移交至NARA,提供关于最小元数据和首选文件格式的指导(公告2015-04);推广使用基于开放标准的格式和广泛接受的基于社区的标准,以帮助保存和支持未来的访问;并为联邦机构管理联邦文件和向NARA移交提供指导,以支持数字文件保存的生命周期。
2)数字保存计划。NARA的计划包括在整个机构内部就数字保存主题和基础设施需求进行咨询;管理整个机构和生命周期内与馆藏相关的程序文件;项目自评;分析馆藏的流程和基础设施;识别和管理风险;制定保存行动计划;并在内部和外部公布这些计划。
3)确定优先级。NARA采用基于风险的方法设置数字保存优先级以执行数字保存行动。对馆藏格式定期评估并提醒我们注意存在风险的格式,因为我们还没有实用的保存战略,而且有些必要操作在技术上很复杂。
4)文件管理。NARA将数字内容存储在可信的数字对象仓储(Digital Object Repository)中,并在整个生命周期内提供对内容的持续管理和访问。NARA的存储库参考了基于开放档案信息系统(OAIS)参考模型ISO 14721:2012中关于可信数字仓储(Trusted Digital Repositories)的概念。可信数字仓储的任务是根据组织发布的指定社区声明ISO 16363:2012(可信数字仓储的审计与认证),在现在和未来提供所管理数字资源的可靠、长期访问。NARA的《数字保存指定社区声明》(Digital Preservation Designated Community statement)可以在网站上找到。NARA通过将文件转换为保留原始格式重要属性的选定格式,同时将原始格式文件保留在低访问存储器中,最大限度地减少必须主动管理的文件格式的数量。
5)真实性。真实性是指文件作为原件的准确再现的可信度。NARA将根据ISO 16363:2012记录所有数字保存操作,以确保真实性。
6)保存元数据。保存元数据要确保重要的背景、管理性、描述性和技术信息与文件一起保存。NARA为每份文件分配持久的数字标识符和文件保存元数据,助力数字资产的长期保存。
7)组织关系。NARA积极与国内和国际数字保存界合作,分享信息和经验、寻求并提供指导,合作应对数字保存的挑战。这种参与有助于NARA识别新的风险、实践和标准,以不断改进项目。我们与信息技术(IT)行业合作,以确保该行业在开发新技术工具和系统时了解数字保存需求。
8)员工培训。NARA不断更新各种内外培训模块,为整个机构的工作人员按职责分工提供相应的数字保存培训。
NARA数字保存项目使用合适的基于社区的评估工具进行持续评估,以衡量项目的能力和成熟度(例如ISO 16363:2012,或《国家数字化保管联盟数字保存等级》(National Digital Stewardship Alliance Levels of Digital Preservation))。
数字保存将通过确保数据的完整性、格式和传播媒介的可持续性以及信息安全的综合方法来实现。
1)基础设施。NARA的数字保存基础设施包括:
a)用于分析馆藏、识别和管理风险、制定保护行动计划、并在内外部发布这些计划的工具。
b)存储、网络容量、系统,以及用于原生数字文件和数字化副本系统之间的摄取、处理、呈现、主动文件管理、保存和导出的工具。
c)定期审查和更新NARA可能开发或采购的系统和工具以满足业务需求的过程。
d)可负担、管理、复制的数字文件和数字化副本的内容存储基础设施。复制包括位于远程地理区域的一个或多个不同存储环境中的一个保存副本,例如通过NARA云服务提供的复制。
e)盘点所有原生数字文件和数字化副本摄取(ingest)的工具。
f)用于鉴定和格式描述的工具包括文件格式鉴定(识别技术文件类型)、格式验证(确认文件符合文档格式规范)和技术元数据提取(记录如何创建文件,包括应用程序和操作系统),用于支持基于政策的格式过时风险评估,并在上下文中使用适当的应用程序或查看器将文件呈现给用户。
g)随着时间的推移,用于文件格式保存转换的工具面临过时和长期访问风险的增加。转换是指将特定格式或格式版本的所有文件转换为选定的文件格式。
h)将原生数字和数字替代文件与文件标识符和元数据相关联,并确保文件保存在适当的保存存储和访问服务器位置(本地或云端)的标准化工作流程。
2)数据完整性。NARA有一个数据完整性项目:
a)盘点ERA(Electronic Records Archive)数字对象存储库中的所有传入文件,记录摄取事件的结果,并尽可能记录格式转换、文件移动和设计等后期生命周期的事件。
b)为ERA数字对象存储库中的文件生成固定信息,这些文件在移交时不附带固定信息。所谓“固定信息”(Fixity)是指校验或“哈希”值,是由算法计算出来的一份文件或一组文件的数值,用于验证文件的状态和内容,以检测在移交或存储过程中可能带来的偶然误差。
c)摄取文件这一过程必须包括恶意软件扫描和检查文件的哈希值。文件哈希值检查是指确认一份文件原来的状态没有被改变。
d)从传入的物理介质上复制内容,并结合使用写入阻止(write-blockers)程序,这些设备可以防止物理介质上的内容被意外损坏(视情况而定)。
e)对存储在ERA数字对象存储库中的所有原生数字文件和数字化副本的哈希值进行年度样本审计,以验证存储库中的文件随着时间的推移保持不变和未损坏。
f)修复和(或)替换有哈希值问题的文件。
g)对NARA合法保管的含有永久文件的载体进行年度抽样审计(36 CFR 1236.28(e))。
h)在包含永久文件的存储介质满10年之前,将任何仍存储在该载体上的文件复制到经过测试和验证的新电子介质上(36CFR 1236.28(f))。
3)格式和载体可持续性。NARA通过以下几种方式评估风险并采取行动:
a)在处理/摄取到ERA数字对象存储库的过程中,尽可能地描述文件的特征。
b)特征描述是指对文件的形成环境等技术特征的识别和描述。
c)在可持续的基础上,制定识别NARA馆藏的文件格式保存行动计划,以及在这些格式不再可持续时所需的行动,如不再由当前软件创建或通过当前软件访问。
d)在可持续的基础上,分析所接收的文件格式和媒介格式,并判断过时的可能性。
e)随着时间的推移,将馆藏迁移到新的存储介质上,以降低载体过时的风险。
f)监测更广泛的保存社区和技术环境,以及时发现格式、载体和设备过时以及不再可持续的迹象。
4)信息安全。NARA负责ERA系统数字存储库的持续安全评估:
a)识别并强制执行以下内容:
i)访问物理介质;
ii)访问摄取和处理的系统和服务;
iii)对服务器(本地或云端)上的文件夹和文件进行读取、写入和执行授权。
b)定期检查对服务器上的文件夹和文件进行了读取、写入和执行授权的个人和组织。
c)确保无人拥有对所有文件副本的写入权限。
d)维护记录文件操作日志的系统,包括删除和保存操作。
有许多因素将有助于《数字保存战略2022—2026》的最终成功。本节旨在强调NARA为实现其目标而必须不断解决的关键因素。
1)组织支持。NARA将数字保存确定为全机构的战略目标,投入足够的人员配备,并确保具有数字保存功能的基础设施的到位和维护。
2)人力资源。在该战略中,NARA承认数字保存是一个跨越多个业务单元的重要业务流程。随着项目的成熟,NARA将继续评估其数字保存人员配备和培训需求。
3)信息技术基础设施。NARA要求设置一个规划过程,以确定支持数字保存的基础设施需求,包括风险分析和规划、系统和工具、存储、网络容量、数据完整性和信息系统安全。这一过程记录相关的操作和治理流程,包括存储和网络容量预测、以及规划实施额外的容量和技术更新。
4)为NARA工作人员和机构文件创建者提供标准指南。NARA将继续开发并与NARA工作人员和联邦机构共享技术、格式和元数据标准指南,以确保原生数字文件和数字化副本的可持续性。
5)数字保存指南和政策。随着技术、最佳实践和标准的发展,NARA将继续发展和分享进一步的内部指南和政策。
《数字保存战略》将按照与《NARA战略计划》(NARA Strategic Plan)相同的时间表进行审查和更新。该战略由美国国家档案馆副馆长办公室(the Office of the Deputy Archivist of the United States)的数字保存部门所有。
《数字保存战略2022—2026》是对2017年战略的修订。改动如下:
说明:
本文内容为学生研究员自主翻译,仅供参考学习,文件原文请访问以下链接:https://www.archives.gov/files/preservation/electronic-records/digital-preservation-strategy-2022-2026.pdf
参考文献与注释:
[1] 祁天娇.美国数字档案资源长期保存战略的分析与启示[J].档案学研究,2019(1):108-113.
[2] 译者注:digital surrogates即模拟信号文件的数字化副本。详情参见:https://dictionary.archivists.org/entry/digital-surrogate.html