关键词:数据态;数字档案对象;长期保存
摘要:信息技术的发展催生了新的档案生成与管理空间,从模拟技术环境、数字技术环境向数据态环境的转换过程中,数据态成为档案记录的新形式,离散数据的归档保存成为新环境下数字档案长期保存必须解决的问题。本文在梳理了“三态”基本概念与特征的基础上,比较分析了现有数据态归档对象的保存手段,认为在解决信号与语义两大离散问题上,现有保存手段失能。本文提出在数据态环境中开展数字档案对象保存,需要识别新的保存对象和要素,在维护“语义高阶依赖”的基础开展语义保存,并利用算法、规则、模型等实现档案的连续可理解。本文提出了不同态别归档对象的保存级别划分、语义解读环境的生态构建、语义表达方式的具体选择,以及前端数据态对象的归档要求等数据态档案长期保存基本策略,对于数据态环境下数据档案保存问题的解决,具有实际指导意义。
数据态环境中数字档案对象保存问题与策略分析
引文格式:钱毅.数据态环境中数字档案对象保存问题与策略分析[J].档案学通讯,2019(4):40-47.
目前针对数据态档案对象的保存尚无系统研究,总体处于起步探索阶段,由于缺乏在基本管理层面上的理论和规范指导,既有的一些研究成果在总体上是自发的、零碎的。根据目前在档案实践领域中涉及的主要对象,以下做法值得关注:
1.2.1 通过视图实现对动态数据的归档保存
该做法的核心作用是将动态数据中离散的语义以视图的方式进行整合,形成人能理解的连续语义形式,如将分散在数据库各表中的原始数据通过数据关系重新整合成视图。对此ISO 16175—3《电子办公环境中文件管理原则与功能要求第3部分:业务系统中文件管理指南与功能要求》(中国已采标为GB/T34840.3—2017)对动态数据的识别和提取进行了专门描述,所举案例如图1所示。[6]
图1 识别构成数据库中某一数字文件的信息组件、数据元素示例
在此示例中,数字文件是由来自不同数据表的相关数据元素构成的。每份文件由数据库中已经识别的数据元素及联接这些元素并提供支撑该文件的必要结构及背景所需的相关元数据组成。因而完整理解这份文件,除了基础数据外,还要求从关系数据库的概念、标准数据建模和规范化技术等方面提供必要的结构和背景,如主键、外键、存储过程、各种约束条件等关联信息,从而保证数字文件语义完整和文件的可追踪性。
1.2.2 通过半结构化方式实现对数据库的归档保存
目前对于数据库电子文件尚无明确的归档方式,在长期保存领域通常采用半结构化方式(通常是XML)对结构化数据库进行保存。比较典型的瑞士联邦档案馆的SIARD(Software Independent Archiving of Relational Databases)项目提出的数据库归档格式标准,中国也仿照该标准制定了DA/T 57—2014《档案关系型数据库转换为XML文件的技术规范》[7]。该标准规定了档案关系型数据库转换为XML文件需遵循的格式和要求,其标准制定的基本思想与SIARD一致,实现数据库归档文件的格式开放以及独立于软硬件保存,该标准将关系型数据库转换为一组XML文件以及XML Schema文件,将数据库的用户、角色、权限、数据表结构、数据表关系、视图、存储过程、约束、索引、触发器等元数据信息存储在一个XML文件中,各个数据表的数据也分别存储在不同的XML文件中。
1.2.3 通过数据交换标准方式实现对复杂模型的归档保存
目前已经出现大量的基于复杂模型开展业务的系统,基本都会形成复杂的数据体,面对这类典型的数据态档案对象的保存需要对模型本身进行深入研究,尤其是标准化方面的研究。以三维模型数据保存为例,由于高端制造业领域三维CAD系统的广泛应用,三维模型已经成为多数产品研制的主要依据,在设计、工艺、制造、检验等各阶段都产生了许多不同的三维模型。[8]对这些三维电子模型文档的长期保存问题尚无行之有效的解决方案,存在几年后三维模型无法读取和恢复的风险。目前着力点在于异构CAD模型的数据交换标准,并出现了一系列的数据交换标准,如法国的SET格式、德国的VDAFS格式、美国的IGES格式等。在国际标准组织(ISO)的领导下,诞生了STEP (Standard for the Exchange of Product Model Data,产品模型数据交换标准)。中国根据STEP制定了《工业自动化系统与集成产品数据表达与交换》系列标准(GB/T16656),虽然还刚刚起步,但这个解决方向对于三维模型数据的保存指明了道路。[9]
2.1 数据态两个离散的特征亟需保存创新
如图2所示,从默认的人读的角度看,数据态的本质特点是信号与语义都存在离散特点,尤其语义离散的特点导致了保存问题复杂化,数据态保存的核心是要维系离散数据语义、规则所表达的原始业务。在数字态空间中,以内容为主的非结构化文件总体上不存在语义离散的问题,因为文件作为一种语义的封装格式在相当程度上能够为语义理解提供支持。
对于语义离散的保存需要采取对应的语义综合的手段,提供解释、解码、整合、呈现等语义能力,如数据库中的视图工具、复杂模型保存中的数据交换标准。但这些工具本身需要较高的使用水平才能实现语义层面的连续。如视图的构成需要考虑完整体现背景,需要密切结合背景因素在数据库中的分布,需要考虑各类完整性约束。复杂模型中的数据交换标准本身的制定就是一个较为漫长的过程,专业性强、周期长、版本演进复杂,即使是已经成为国际标准的STEP标准,其中有些部分仍在形成、发展之中。
2.2 归档对象态别变化导致既有保存手段失能
态别的不同直接导致归档对象的差异,不同态别的保存手段在总体上自成体系,复用有限。模拟态对象保管要素相对简单,其保护手段以理化生手段为主,但这些手段在数字态空间中基本失效。数字态保存需要的是在数字信号空间中以维护文件层面上的可理解性为主的方法体系,一般根据其保存技术复杂度的不同划分为常规方法、重点方法和辅助方法等三类。而在数据态中,这些方法体系同样存在失能失效,从电子文件经典的“三要素”理论来看,数据颗粒度导致传统的“三要素”以更为绵密的数据及其关联的形式来表达,一方面原先结果式的表达越来越多地以关联依赖方式表现,提取难度空前提升;另一方面,背景表达的技术手段和留存信息急剧增多。这些都使得按传统“标本式”进行归档保存的方法越来越捉襟见肘,难以为继。
2.3 数据态长期保存工作需要更深刻地理解依赖性
数据态档案对象的长期保存需要解决信号离散和语义离散问题,原则上信号离散可以依托数字态对象的保存解决方案,而离散语义的保存问题相对而言是崭新的挑战,需要更为深刻的创见。事实上,OAIS模型对于语义依赖已经提供了较为深刻的表达,OAIS信息模型就指出信息是数据和表征信息(Re-plnfo)的结合体,其中表征信息可以理解为是层层嵌套的自我迭代的解释系统,即可用内层表征信息对外层表征信息进行解释,并且每一层皆对其下一层存在一定的依赖性。“只有当构成表征信息集合的每一层都完整有效时,表征信息才能被层层理解并最终用于解释数据,从而完整地传递信息”。[10]
由于不同态别对象本身的差异,从而导致依赖性层级也存在差异,对于各态别而言保存工作需要解决的依赖性层级是不同的。
·模拟信号需要解决载体依赖。主要手段是通过物理、化学、生物等手段应对载体的物理保存问题,保证载体本身可见。
·数字态对象需要解决以软硬件依赖性为核心的低阶逻辑依赖,目的是应对电子档案的信号离散带来的保存问题。譬如电子文件读取依赖硬件设备、字符识别依赖操作系统、内容浏览依赖关联软件,这些都可视为解决语法层面的低阶逻辑依赖的保存手段,保证电子档案可读。
·数据态对象需要解决以语义关联为核心的高阶逻辑依赖,目的是应对数据态对象语义离散带来的保存问题。类似算法、规则、约束、模型等都可以视为有助于理解语义及其表达的保存手段。
从总体上看,三态对象保存所需要解决的依赖关系可以简单表达为物理依赖(载体可见)→低阶逻辑依赖(语法可读)→高阶逻辑依赖(语义可理解)的递进关系,相应的保存工作则表达为载体保存(或比特保存)、语法保存(低阶逻辑保存)、语义保存(高阶逻辑保存)不同的保存级别。很显然,数据态保存工作难度最大,需要对高阶依赖进行更为完整的维护。数据态所依托的技术发展客观上需要更精确地表达依赖关系,不同层级的依赖,尤其是语义依赖的保存需要更为专业的工具和方法。
模拟态对象空间中,以“白纸黑字”为核心特征的档案的物理结构与逻辑结构是统一的,因而传统档案保护工作的重心在于载体保管,档案保护三要素即特指载体、字迹材料以及二者的结合方式,传统保护多是基于理化生手段对这些要素展开的针对性保护措施。
3.1.2 数字态保存以维系文件逻辑完整为主
数字态空间管理重点在于维系以文件内容为中心的逻辑完整,其保存工作亦然。数字态空间相对于模拟态空间需要管控的要素更多元、更复杂。与传统模拟档案比较,数字态中的电子文件物理结构与逻辑结构是分离的,物理结构往往依赖于数字环境的软硬件因素,逻辑结构也依赖于文件格式编码等要素,实践中针对电子文件管控提出了三要素(特指ICA《电子文件管理指南》提出的内容、结构、背景)、五要素(InterPARES的“电子文件要素分析模板”提及的五大要素)等不同划分方法。[11]具体到长期保存层面,电子文件保存方法可分为常规方法、重点方法和辅助方法。常规方法是保存过程中最基础的技术方法,是在保存过程中采取的经常性、周期性的措施,如更新、复制、格式转换等;重点方法是保存技术中的核心方法,是解决较长周期电子文件保存的关键技术,包括迁移、仿真与封装;辅助方法是在当使用重点方法保存电子文件存在一定困难或其他状况下需要使用的保护技术,包括技术保存、重建系统、硬拷贝输出等。[12]
3.1.3 数据态以维护语义完整为主
相对于数字态空间对象,数据态对象保存需要解决的核心是由于数据离散导致语义离散的问题,其保存方法的重点需要在数字态的基础上采取语义完整保存的措施。如数据态使得以前处于模糊表达的背景要素越来越多地以感知数据、关系网络、数据体、组织画像等方式呈现。另外一个普遍原因在于,多数数据驱动系统在设计时通常将实体信息递次分解以保障系统的处理效率,但在一定层面看,往往需要进行逆范式化进行语义综合。在数据态档案对象的保存和提供利用时都需要维护语义完整,因而如何找到维护语义理解的“钥匙”是包括各业务部门在内的共同任务,这也是数据态保存中的巨大挑战。
3.2 确定基准依赖,以便合理确立保存级别
由于依赖性本身存在层次叠加性,有必要在不同态别中确立相应的基准依赖,保存级别应由基准依赖与指定团体共同决定。所谓基准依赖是指在不同态别中达到可理解性目标所需要解决的最低依赖层次,如模拟态的基准依赖是载体依赖,数字态基准依赖是语法依赖(亦可理解为低阶逻辑依赖),数据态则至少要解决部分语义依赖(高阶逻辑依赖),因而总体上看三态的保存级别是沿着可见→可读→可理解的递进关系演进提升的。所谓指定团体(Designed community)是OAIS标准中对具有不同的知识基础(Knowledge base)的用户团体的特称,[13]我们亦可将机器作为特殊的指定团体。由于不同层次的用户具备不同的知识基础,各自具备的依赖性能力不同导致需要不同的保存工具、方法和手段。如具备外语能力的读者可以不需要依赖翻译而直接阅读原文,机器用户本身具备直接阅读电子文件甚至数据态对象的能力,实践中通常用人读、机读来进行替代说明。在对离散/连续信号的识读能力上看,人与机器原则上可以视为两个极端,人读必须满足信号连续与语义连续两个要求,机读则可以识读两个离散特征的信号。
3.3 摒弃降维思维,数据态需要维护高阶逻辑依赖
一贯以来长期保存的基本思路几乎都是沿着降低依赖性的路径进行的,但对数据态对象保存而言,需要摒弃降维思维,需要维系一定层次的高阶逻辑依赖,维系的逻辑依赖关系越深,语义越完整,但保存难度相对较大。
对于数字态档案对象的长期保存基本都是从降低依赖性方面进行保存,总体上看有其一定积极意义,如通过标准格式策略降低了对私有格式的依赖,硬拷贝保存方式降低了对计算机软硬件的依赖,以至于“双套制”在中国档案部门大量采用,这对于在数字转型的过渡时期降低风险是有利的,在一定时期内可以接受,不过长远看这与技术发展的总体趋势是背离的,这种做法成本高、语义损失大、协调困难,因而不可持续。
在数据态档案对象保存中如果过于降低依赖层次将严重损害语义,因此不能一味降维,需要维持一定的高阶逻辑依赖,在保存手段方面则需要相应构建维护语义连续的保存体系。一般情况下数据驱动业务领域自身会发展出来用于维护语义的各类工具,我们需要针对性更新知识(有些类似在电子公文管理中我们熟悉各种公文制式一样),学习不同业务数据体的语义表达,不能一味降维,甚至再走“双套制”的老路。
3.4 实施连续体管理,数据态保存需要演进保存方法
笔者将电子文件产生的环境视为物理学中的“场”,与以人工管理为主的模拟态空间相比,场本身的构成与运动体现出了强烈的数字信号的色彩,场的各类属性可以元数据的方式被系统自动按需捕获,场的运动可以依托系统进行功能设置与交互,这些都需要在管理上不能简单照搬机械式、分段式的管理,而应采取连续体的思维,以“体”对“场”。事实上,只要是数字空间就需要采取连续体思维,在数据态空间中更是如此。问题在于如何构建连续体本身,“体系作战”而非单兵作战。
模拟态保存的要点在于载体,采取的是以理化生要素防控为主的传统档案保护方法,方法本身有一定体系性,但总体看并不明显,这是由于这些要素变化本身的时间周期和技术特点决定的。数字态保存着重在电子档案内容与背景的完整性控制,其管理核心是对电子文件真实、完整、可靠、可用的四性控制,这同时也是对保存工作提出的目标,由于技术更迭、环境变迁、软硬件过时的风险随时存在,因而无论在实体安全、管理安全层面都需要类似文件连续体的理论指导,构建涵盖各种要素(元数据、职能背景、工作场景)的保存体系。数据态对象保存需要维系语义连续所需要的最低程度的语义描述,保证离散数据能够被人连续理解。原先以“断言”方式表达的诸多文档越来越多地以数据体、画像等方式展示,数据之间的关联管理、规则定义、本体、关系管理,乃至知识库、实体库的方式都是将纳入数据态所需的数据连续体管理范畴。
第二,可读级。数字态总体上对应可读级,保证基于内容的数字态文件能被还原成人可识读的形式(等同于物理载体的可见)。可读是建立在数字载体保存的基础上,同时需要软硬件环境以维护电子文件内容可读的最基本的低阶逻辑依赖。在保存手段上,该层次重视电子文件的形式保存,包括重格式、重封装、重固化、重呈现等。在体系上,该层次重视可信数字仓储系统的完整能力建设,如ISO16363《可信数字仓储审核与认证:标准与审核表》。
第三,可理解级。可理解级本身与语义直接相关,但语义本身可能具有复杂的层次,这取决于数据本身构成的规则、模型、算法等高阶逻辑依赖。数据态对象的保存不能仅仅向用户展示处于语义离散状态的数据本身,还需要提供理解这些离散数据所需要的各类关联管理,包括描述数据关联、模型管理、本体管理、规则管理、关系管理等。这部分总体尚处于研究空白,与业务本身相关度高。
需要说明的是,实践中的业务系统大都是多态混合的,因而需要首先进行态势感知工作,在识别不同态别的对象后“分而治之”。
4.2 环境构建:构建解读数据语义的微生态
从时空本质上讲,档案保存工作就是要在历史形成者的原始记录状态与未来用户的理解利用状态之间搭建桥梁,以保证其可用的状态。为此,不同态别都需要构建相应的保管链条。其中,模拟态对象保存总体以要素管控为主,注重保管与防护工作中的物理、化学、生物等要素。数字态对象总体以体系建设为主,如成熟度体系与数字可信仓储认证体系(TDR)等的引入,重在构建基于电子文件四性管控的保存管理体系。
数据态对象的保存需要在相当程度上继承这些管控要素与体系,同时需要叠加解读数据语义所必需的智能链条,从而在总体上构建维系语义的保存生态。也就是说,数据态的保存工作不仅仅是保存数据本身,还需要保存解释与黏合这些数据的方式,这些方式往往是规则、模型、算法等智能手段。目前三维设计模型的保存路径总体上是按照构建数据交换标准(STEP)结合专业工具系列构成的“微生态”的方式来进行复杂模型还原表示的。可以将数据交换标准理解为归档数据接口,用于归集未来重建模型所需的核心数据,在此基础上配以规范检查工具、模型比对工具、轻量化工具、三维模型搜索工具、浏览工具等衍生专业工具,以完整展示和理解三维模型。可以看到,这种构建微生态的保存方式与以非结构化为主的归档对象保存方法之间存在巨大差异,未来数据态为主的业务系统也需要数据交换标准结合系列工具的方式来重构传统的归档范围。
4.3 语义表达:数据态的保存核心在于要描述语义表达方式
语义表达是数据态档案保存的难点与核心。语义表达可能存在多种形式,它可视为黏合数据的方式,是离散数据向连续语义转换的“钥匙”。由于这类表达本身的复杂性,档案学界对此尚无有效研究,可以确定的是语义表达方式本身的可描述性存在巨大差异,不同数据态业务系统的语义描述可能完全不同。比较典型的语义表达方式包括(但不限于):
·数学描述:如图形系统中,往往利用几何图形的解析几何方程式来进行数学表达,可以说图形系统是通过数学方程式来解释图形中的原始数据。
·组配逻辑:音乐文件中使用的midi格式,它将预制好的各种乐器各种声调的声音单元按照乐谱进行连续输出,本质上是类似乐谱的文件。与此类似的还有数据库中的视图机制,按照用户的查询要求将离散在各数据表中的数据进行组合展示。
·业务规则:如税务系统中会根据不同的税务表单模板呈现税务系统的原始数据,实现结构化税务数据的表单式还原,这些表单模板可以视为整合税务数据的业务规则。
·流程定义:流程驱动类系统中的流程图,就是整合理解系统数据的“钥匙”,此类系统可能配有工作流引擎,用户可以根据各自的业务定义业务流程图,文档或者数据就按照预定义的流程路径展开。
·模型定义:比较典型的是制造领域兴起的模型驱动类系统中使用的三维模型。
可以看到,语义表达方式本身也存在差异,有类似规矩的业务规则和流程图,有基于数学描述的几何图形和模型定义,有的甚至只是一些相对固化的查询参数组合(数据库视图)。但明确记录和表达这些内容对于读取数据态离散数据的用户而言却是必需的,因而在其保存要求中也需要明确。
4.4 反馈前端:对数据态业务前端数据可保存性的要求
从机器处理的角度讲,只有规则本身描述清楚了才能被有效地可持续保留,否则都还只能进行“标本式”的保存。如果将物种遗传视为物种及其性状的长期保存工作的话,我们会发现在任意生物个体形成(类似业务系统形成时)时都是基于各自的基因密码规则自动进行的。因而,从仿生学的角度来看待数据态档案的长期保存,我们需要对这类数据态对象本身的形成规则提出要求,如可组配、可编码、可解析、标准化、可还原、可重复等有助于规则描述和自动执行的准则都可以纳入,全面提升形成领域规则的可表达性。这类从保存角度对前端业务环境提出的准入要求其实在各个态别空间中都存在,如模拟态中对纸张物理化学指标的要求。数字态中对长期保存格式的选择标准也提出了较高要求,如DA/T 47中提及对用于长期保存的版式文件格式就明确提出了格式开放、自包含、自描述、自解释等十一条要求,以保证“电子文件的长期可读、可解析、可理解”。[14]同理,在数据态档案对象保存要求中也需要对语义表达规则提出类似要求,不能任由前端技术“野蛮生长”,以便于在新技术环境下践行全生命周期管理与前端控制的经典管理要求,也为其长期保存奠定可持续的理论基础。
新技术的大爆发带来了大量新的问题,同时也带来了解决问题的新钥匙。“将世界看作信息,看作可以理解的数据的海洋,提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。”[15]面对新技术环境中数据态档案不断增长的现实,就需要及时更新理念、创新理论、变革方法。本文抛砖引玉,为数据态档案对象保存的理念与策略提供一孔之见。
原文载《档案学通讯》 2019 年第 4 期,经杂志社授权后发布。
[4] 钱毅.技术变迁档案对象管理空间演化初探[J].档案学通讯,2018(2):10-14.
[5] 钱毅.从“数字化”到“数据化”——新技术环境下文件管理若干问题再认识[J].档案学通讯,2018(5):42-45.
[6] ISO 16175-3 Information and documentation——Principles and functional requirements for records in electronic office environments——Part 3 : Guidelines and functional requirements for records in business systems[S].ISO,2010.
[7] 钱毅.数据库电子文件归档与长期保存技术路径研究[J].档案学研究,2017(4):67-72.
[8] 陶水龙.三维数据归档策略研究[J].档案学研究,2018(6):101-104.
[9] 姜萌,吕慧强.产品模型数据交换标准STEP研究[J].计算机工程与设计,2008(13):3542-3545.
[10] 钱毅.我国可信电子文件长期保存规范研究[J].档案学通讯,2014(3):75-79.
[11] 谢丽.文件的概念及其在数字环境中的演变:InterPARES观点[J].档案学通讯,2012(3):46-50.
[12] 欧阳崇荣.数位资讯保存策略[M].台北:文华图书馆管理咨询股份有限公司,2007:8-11.
[13] ISO 14721 Space data and information transfer systems——Open archival information system (OAIS)——Reference model[S].ISO,2012.
[14] DA/T 47—2009,版式电子文件长期保存格式需求[S].北京:标准出版社,2009.
[15] 维克托•迈尔啥恩伯格,肯尼斯•库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012:52.