2020年至2021年,数字保存联盟(Digital Preservation Coalition)和Artefactual Systems联合编写了一系列的数据长期保存指南,涉及数据库、电子表格、电子邮件、音频、图像、3D、CAD、GIS等不同类型数据,旨在为相关人员提供数据长期保存的共识性内容,更好地服务数字保存社区。本期推送的是数据库长期保存指南——《保存数据库》(Preserving Databases),涉及数据库长期保存面临的挑战、格式选择以及对数据库形成者和档案工作者的建议等内容。
数据库管理系统(Database Management System,DBMS)是对数据库中的数据进行管理的一个或一组软件工具(BCS,2013)。Microsoft Access和Claris FileMaker是典型的数据库管理系统(Wikipedia,2021a)。数据库的结构既可以是简单的表格,也可以是更复杂的模式(schema)、查询、视图、表格及其他要素的集合,这些要素共同作用,允许用户对数据进行添加、删除、更改、存储和解释。这些数据库被称为关系型数据库,并使用SQL(结构化查询语言)进行查询。关系型数据库是最常见、最常用的数据库(Freitas et al,2009)。
此外,也有其他不依赖相关表格的数据库实现方式,如非表格型数据库、平面数据库或多个复杂数据结构的集合。这些数据库都有特定的属性,并满足一组被称作ACID的要求——原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)(Haerder et al,2020)。
数据库有许多不同的格式、结构、规模和复杂程度。在生产环境中,数据库可作为大型软件系统的组成部分,提供功能和数据访问。表1列出了一些广泛采用的格式和数据库管理系统。
表1 常见的数据库管理系统
|
|
|
|
|
|
|
|
(一)复杂性
数据库的保存涉及许多可拆分的内容:以特定的数据库格式保存数字信息;保存数据库的结构和信息的逻辑结构;保存数据库中的复杂或大型对象,并将数据、结构及相关文档封装成用于长期管理的档案包(archival packets)(RDB SIARD, 2019)。保存相关文档对描述数据库背景和数据来源非常重要。
(二)动态性
数据库中的信息可能是动态的,也就是说经常发生变化或更新(Thomson,2016)。
● 在短时间内对实时数据进行多次备份可能需要更多的磁盘空间。
● 列和行的数量、(数据项之间的)关系的复杂度和数据体量可能会在数据存储或尝试检索时带来挑战。
● 数据的动态性也给鉴定带来了挑战,特别是在数据库生命周期内修改或删除数据而非简单地添加数据时。
(三)法律问题
个人数据的重用和保留可能受不同司法管辖区的不同法律框架的影响。例如,重用可能受《通用数据保护条例》(GDPR)、德国《联邦数据保护法》(BDSG)、英国《数据保护法》(DPA)或美国《联邦贸易委员会法》(FTCA)的约束。这些法律框架将反映在组织的隐私和安全政策、保管期限表及其他政策中,这些政策规定档案馆是否以及如何保存数据库并供未来研究人员使用。
表2 适用于保存和访问的数据库文件格式
|
|
|
|
.tsv .txt |
DSV格式虽然保留了表格中的数据,但没有保留数据库的其他特征,如公式、用户界面元素、报告功能和复杂关系。在从这些格式中进行选择时,实践人员应考虑应保留或记录数据库的哪些特征。 |
|
|
|
|
|
|
|
.sqlite3 .db |
|
● 是否将数据库移交至档案馆取决于许多因素,包括组织机构是如何及为何生成和使用数据、数据的价值、法规和保留政策、未来其他人将如何使用这些数据。
● 熟悉相关监管环境将确保数据的收集和保留是合规的。
● 如果有可能(将数据库)移交至档案馆,可能需要数据库形成者和用户、文件管理者和档案工作者、IT人员、法务人员的密切合作,为成功移交奠定前期基础。
(二)文档
● 档案馆不仅要求移交数据库的内容,还要求移交理解数据及其形成背景所必需的相关文档。这些文档包括关于用户、架构和模式的文档,以及影响保留政策、个人标识信息保护、关于数据利用和传播的法律限制的法律文档。
● 在保存导出的数据时,需要考虑文件命名规则。文件名应反映原始数据库的名称、数据来源的工作表或表格的名称以及导出或快照的日期(Archaeology Data Service,2009)。
● 如果数据库含有指向外部存储资源的链接,则应考虑将这些资源与数据库一同移交至档案馆。
(三)安全
● IT人员可能需要提供关于数据库如何防止未经授权的访问和利用的文档。
● IT人员应意识到,档案工作者可能需要拥有适当的最高级别(“根”)管理权限,以便他们自由地使用数据库并提取数据。
● 当档案馆提出要求时,IT人员可能需要负责执行数据导出。
下列资源提供了关于数据库保存和提供访问的指导。
● 考古学数据服务(Archaeology Data Service)的《数据库和电子表格的最佳实践指南》(2009)。
● 数字保存联盟(DPC)的技术观察报告——《保存事务数据》(Thomson,2016)。
● 软件可持续性研究所(Software Sustainability Institute)(2020)提供了一系列的问题,档案工作者可以(基于此)询问数据库所有者关于其数字材料的问题,以决定是否建议软件保存。
● 软件保存网络(Software Preservation Network)(2020)提供了关于软件保存的指南及其他资源。
● 有许多软件工具可用于处理数据库数据(COPTR,2021)。
(二)收集与鉴定
● (档案工作者应)尽量在数据库生命周期早期建立与数据库形成者和用户的密切联系,旨在确保各方都了解将应用于数据库的鉴定与收集实践。(档案工作者应)考虑制作一些指导性文件或培训材料,使数据库形成者和用户意识到可采取一些措施来降低长期保存的风险。
● 决定何时及如何捕获数据。在某些情况下,可能会在数据库生命周期中多次捕获“实时”数据,而在其他情况下,将捕获非现行或“历史”数据。这些决策应基于组织机构的保管与处置期限表、IT实践和档案收集政策。
● (档案工作者)需要保存数据库的模式并提供访问,这些模式文档描述了数据库表格中所有的列、标题和值类型(数字、文本字符限制、格式化日期等)(RDB SIARD,2019)。
● (档案工作者应)确定数据库的哪些信息内容以及所用DBMS或用户前端提供的哪些功能是值得保留的,以满足用户需求。这将有利于收集决策并选择适当的保存方法。
(三)保存行动
● 可采用仿真方法(Morrissey,2020)来保存数据及相关系统软件。
● An emulation approach (Morrissey, 2020) can be applied to preserve data and relevant system software.
● 迁移方法可用于将数据转为另一种数据库格式或SIARD等保存格式(SFA SIARD,2020)。
● A migration approach can be applied to transform data to another database format, or a preservation format such as SIARD (SFA SIARD, 2020).
● 创建静态快照(Microsoft,2016)可能会(使数据库)具有一定的保存价值,但不会消除对源DBMS的依赖。
● Creation of a static snapshot (Microsoft, 2016), may provide some preservation value but will not remove the dependency on the source DBMS.
(四)特征化
● (档案工作者可以用)DROID(The National Archives,n.d.)、FIDO(Open Preservation Foundation,2020)或Siegfried(Lehane,2020)等使用PRONOM文件格式登记的工具识别文件格式(The National Archives,2020)。
● Identify file formats with a tool such as DROID (The National Archives, n.d.), FIDO (Open Preservation Foundation, 2020), or Siegfried (Lehane, 2020) that uses the PRONOM file format registry (The National Archives, 2020).
● 如果使用SIARD格式进行保存,SIARD套件和数据库保存工具包(DBPTK)(KEEP,2020)等工具可以自动进行数据库验证(RDB SIARD,2019)。
● If using the SIARD format for preservation, tools such as the SIARD Suite and Database Preservation Toolkit (DBPTK) (KEEP, 2020) can perform database validation automatically (RDB SIARD, 2019).
(五)质量验证
(档案工作者)可能需要对接收的数据库进行质量验证,即检查数据结构、表格、关系和值类型是否符合模式及数据库架构文档。
● 进行检查的范围包括:布局和格式,表格和表单,公式、查询、宏,注释或说明,隐藏或受保护的数据,特殊字符或分隔符,以及链接(ADS,2009)。当将数据库(从一种格式)迁移到另一种格式时,也应检查上述文件属性。
● (档案工作者需要)与文件形成者进行协商,旨在理解并记录(数据库的)保存版本与实时数据库之间的所有差异。如果这些差异是在数据导出过程中出现的,可能需要重新导出。
BCS Academy Glossary Working Party (2013) BCS Glossary of Computing and ICT 13th edition. Available at: https://learning.oreilly.com/library/view/bcs-glossary-of/9781780171500/11_GlossaryofICT_partA9.xhtml [accessed 24 March 2021]
Claris (2021) Use Claris FileMaker to Build Business Applications — Claris. Available at: https://web.archive.org/web/20210101004554/https://www.claris.com/filemaker/
COPTR (2021) Database. Available at: https://web.archive.org/web/20210706064251/https://coptr.digipres.org/index.php/Database
E-ARK (2017a) Welcome to the E-ARK Project. Available at: https://web.archive.org/web/20201218052540/http://eark-project.com/
E-ARK (2017b) SIARD 2.0. Available at: https://web.archive.org/web/20200925185826/https://eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
Freitas R. and Ramalho, J. (2009) Relational Databases Digital Preservation. Available at: https://web.archive.org/web/20210205195333/https://www.researchgate.net/publication/239928984_Relational_Databases_Digital_Preservation
Haerder, T. and Reuter, A. (1983). Principles of transaction-oriented database recovery. Available at: https://doi.org/10.1145/289.291. DOI: 10.1145/289.291
ISO (2016) ISO/IEC 9075-1:2016 Information technology — Database languages — SQL — Part 1: Framework (SQL/Framework). Available at: https://web.archive.org/web/20210114164841/https://www.iso.org/standard/63555.html
KEEP Solutions (2020) DBPTK (Database Preservation Toolkit). Available at: https://web.archive.org/web/20210112095121/https://database-preservation.com/
Lehane, R (2020) Siegfried. Available at: https://web.archive.org/web/20201028192837/https://github.com/richardlehane/siegfried
Library of Congress [LC] (2020-2021) Recommended formats statement: Datasets. Available at: https://web.archive.org/web/20201116041423/http://www.loc.gov/preservation/resources/rfs/dat a.html
Library of Congress (2017). SQLite, Version 3. Available at: https://web.archive.org/web/20201117025418/https://www.loc.gov/preservation/digital/formats/f dd/fdd000461.shtml
Library of Congress (2015) SIARD (Software Independent Archiving of Relational Databases) Version 1.0. Available at: https://web.archive.org/web/20201101014106/https://www.loc.gov/preservation/digital/formats/f dd/fdd000426.shtml
Microsoft (2016) Database Snapshots (SQL Server). Available at: http://web.archive.org/web/20210506145800/https://docs.microsoft.com/en-us/sql/relational-databases/databases/database-snapshots-sql-server?view=sql-server-ver15
Microsoft (2021a) Database Software and Applications | Microsoft Access. Available at: https://web.archive.org/web/20201223120917/https://www.microsoft.com/en-us/microsoft-365/access
Microsoft (2021b) Introduction to importing, linking, and exporting data in Access. Available at: https://web.archive.org/web/20201109011756/https://support.microsoft.com/en-us/office/introduction-to-importing-linking-and-exporting-data-in-access-08422593-42dd-4e73-bdf1-4c21fc3aa1b0?ui=en-us&rs=en-us&ad=us
Open Preservation Foundation (2020) Format Identification for Digital Objects (FIDO). Available at: https://web.archive.org/web/20200916134739/https://github.com/openpreserve/fido
Oracle (2020) Oracle Database. Available at: https://web.archive.org/web/20210105064333/https://www.oracle.com/database/
RDB SIARD (2019) Preserving databases using SIARD: Experiences with workflows and documentation practices: CEF eArchiving Building Block, E-ARK3 [CEF]. Available at: https://web.archive.org/web/20201230133036/https://dilcis.eu/images/2020review/9_Draft_SIARD_Case_Study_1.pdf
Software Preservation Network (2020) Software Preservation Network. Available at: https://web.archive.org/web/20210107085536/https://www.softwarepreservationnetwork.org/
Software Sustainability Institute (2020) Digital preservation and curation – the danger of overlooking software. Available at: https://web.archive.org/web/20191128143837/https://www.software.ac.uk/resources/guides/digital-preservation-and-curation-danger-overlooking-software
Swiss Federal Archives (2013-03-21) eCH-0165 SIARD-Formatspezifikation. Available at: https://web.archive.org/web/20201028110949/https://www.ech.ch/de/dokument/2760f452-6e56-48ef-bb0d-20f68638a825
Swiss Federal Archives (2020) “SIARD Suite” — Tools — Archiving. Available at: https://web.archive.org/web/20201030171732/https://www.bar.admin.ch/bar/en/home/archiving/tools/siard-suite.html
The National Archives (n.d.) Digital Object Record Identification (DROID). Available at: https://web.archive.org/web/20201015033155/https://github.com/digital-preservation/droid
The National Archives (2020) The Technical Registry: PRONOM. Available at: https://web.archive.org/web/20201111032324/http://www.nationalarchives.gov.uk/PRONOM/Default.aspx
The National Archives (2010) PRONOM: SIARD (Software-Independent Archiving of Relational Databases) 1.0. Available at: https://web.archive.org/web/20201101173235/https://www.nationalarchives.gov.uk/PRONOM/fmt/161
Thomson, Sara Day (2016) Preserving Transactional Data. Available at: http://dx.doi.org/10.7207/twr16-02. DOI: 10.7207/twr16-02.
Wikipedia (2021a) Databases. Available at: https://web.archive.org/web/20210108180820/https://en.wikipedia.org/wiki/Database
Wikipedia (2021b) Oracle Database. Available at: https://web.archive.org/web/20201218205237/https://en.wikipedia.org/wiki/Oracle_Database
(本文内容为学生研究员自主翻译,仅供参考学习,文件原文请访问以下链接:https://www.dpconline.org/docs/technology-watch-reports/2470-preserving-databases/file)