分类号:G270
自社会学领域首次提出并行数据概念以来,其方法论价值与技术潜力逐渐被其他学科所关注,并在数字技术的普及与跨学科研究的推动下,逐步拓展至文化遗产、知识管理、图书馆、档案管理、AI可解释性等多个领域。
2006年,第一个关于文化遗产可视化的国际规范——《伦敦宪章》草案提出,在对文化遗产进行数字化呈现时应该对元数据和并行数据进行系统收集和描述,并将并行数据定义为“关于人类对数据对象的理解和解释过程的信息”[11]。此后,文化遗产领域基本沿用该定义,强调在数字文化遗产3D建模、虚拟修复、历史重构等应用中,除了记录数据来源、技术参数和计算方法外,还需说明研究人员在对数据对象进行选择、调整和解释时的决策依据,以增强可视化成果的透明度和可追溯性。如在3D重建历史建筑时,由于文献和实物证据的缺失,研究人员往往需要根据有限的考古资料进行推测性建模。并行数据的记录可以帮助明确哪些部分基于确凿证据,哪些部分属于推测,并提供相应的参考依据,以防止误导观众或造成历史信息的误读[12]。此外,并行数据的记录和公开能够帮助其他学者复现可视化过程,并在新数据或新理论出现时对模型进行更新和优化。这不仅增强了文化遗产研究的学术严谨性,也提高了公众对文化遗产数字重建可信度的认可。
在信息管理领域,瑞典乌普萨拉大学信息管理与图书馆学系的Isto Huvila教授较早关注并行数据并且产出系统性研究成果。2017年,其在探讨三维技术对考古与文化遗产知识建构方式的影响时指出,并行数据不仅有助于揭示文物或虚拟重建对象“如何被制作”,也反映了知识构建的路径与选择,是知识生产过程中的重要组成部分[13]。他认为并行数据可作为优化组织流程和实践的工具,通过反馈关键知识提升系统效率,这一理念与知识管理的核心目标高度契合——即帮助人们从形式多样、动态演变的信息中提取有价值的见解[14]。2019年,他获得欧洲研究委员会(ERC)资助,主持为期五年的“CAPTURE”项目——“面向未来研究的数据创建与使用记录”,专门开展并行数据的相关研究[15]。 Huvila及其团队持续关注如何在信息科学领域与技术领域通过记录和描述来理解实践活动的细节[16],探讨了并行数据的含义、来源、类型、管理方法等基本内容[17]。此外,Francisco F. Ruiz等对苏格兰、西班牙、瑞典的国家图书馆的并行数据管理现状进行调研,探讨其在数字化流程中的作用及其对数字馆藏质量的影响[18]。
2022年6月,InterPARES Trust AI项目小组将并行数据这个概念引入档案领域,将其定义为“关于创建和处理信息资源所用程序和工具的信息,以及执行这些程序的人员信息”[19]。并从以下方面进一步探索并行数据的应用:一是将并行数据作为破解算法黑箱的治理工具之一,认为并行数据可以为AI系统的决策过程提供详细的背景信息,有助于增强用户对AI内部决策机制的理解与信任,同时,也有助于人机责任的划分,强化AI系统的透明性和问责性[20]。二是识别特定应用场景下的独特记录需求,以应急服务系统建模为例,通过并行数据揭示呼叫生成、响应调度、资源分配等环节的动态特征,帮助设计者理解每个决策点的背景信息,从而构建更为精准的应急响应模型[21]。
从表1可以看出,并行数据涵盖各种在业务系统和研究过程中自动生成或人为记录的过程性数据,业务对象不同,其具体构成亦存在显著差异。AI应用背景下,档案界关于并行数据的构成研究通常有三类视角,一是围绕AI应用过程,即AI系统的开发、部署、运行和维护等关键阶段展开。这样的归纳也随着对AI应用过程认识的深入而发展。2023年,InterPARES Trust AI项目组通过分析梵蒂冈秘密档案馆的智能手写体识别项目及英国国家档案馆的AI自动化项目,初步将并行数据归纳为训练、测试与验证数据集、性能信息和版本信息三大类[30];2024年,该项目组认为AI应用包括AI系统研发和AI系统运行两类过程,故而将并行数据划分为系统层面的并行数据(System Paradata)与操作层面的并行数据(Operational Paradata),具体示例参见表1[31]。二是根据并行数据对AI应用的支持作用进行分析。如Ciaran B.Trace等人[32]从透明度和可解释性两个维度对并行数据进行分类,其中透明度维度的并行数据包括政策文档与沟通记录、设计文档、开发和测试文档、运行日志内容,可解释性维度的并行数据涵盖可解释性事实表、AI服务事实表、模型报告卡、数据集说明书等内容。三是根据产生并行数据的AI系统组件来分析。Cameron S等人[33]提出针对自动驾驶等实时AI系统应从传感器、控制器、执行器和效果四个方面梳理哪些信息有助于完整记录AI运行过程,以支持系统决策的可追溯性和安全性。这类AI依赖高频数据流的实时处理,因此,并行数据的收集和管理需与AI运行环境紧密结合,以保证其在复杂动态场景下的可解释性和问责能力。
表1 不同学科背景下并行数据的代表性定义及其来源

3.2 升级技术过程记录工具的需要
在传统技术环境中,对于信息系统过程的记录主要通过技术文档和元数据来实现,但无论是技术文档,还是元数据都难以满足AI应用的问责需要。一方面,传统软件文档主要关注系统架构、功能描述和操作指南,不足以向监管人员提供关于AI系统设计和执行过程的详细信息。因为AI系统通常涉及复杂的算法、数据训练和动态调整,传统软件文档难以捕捉其实际运行中的关键变量,如模型参数的变化、数据输入输出等具体情况,也不重视人工干预记录。另一方面,现有元数据框架在支持AI系统过程记录方面存在不足。ISO 23081-1:2017《信息与文献 文件管理过程 文件元数据》规定了文件元数据应描述形成文件的业务过程和文件管理过程。但其核心目标在于记录业务行为的开展情况,而非AI工具执行的自动化处理流程。同时由于并行数据的持续性、实时性和多元异构性,很难归入传统意义上的元数据类别,而这正是并行数据所补充的部分。
在此,有必要对并行数据和元数据进行区分。如表2所示,从描述对象来看,元数据主要用于描述文件(档案)的属性,而并行数据则聚焦于文档创建、管理和服务过程中所使用的程序/工具及其执行主体,并不直接反映关于文件内容及其形成业务本身的信息。从内容构成方面讲,元数据侧重于对文件(档案)的静态属性进行描述,同时涵盖人为管理活动的过程记录;并行数据则更关注技术环境、算法行为、用户交互及相关监管信息,强调对动态过程的捕捉与记录。从形式上讲,元数据以结构化数据为主,半结构化数据为辅;而并行数据的形式则更加多样,涵盖训练数据集、技术说明性文档、程序性文件、系统日志及监管文件等,呈现多元异构的特点。从功能角度分析,元数据的核心作用在于资源发现、互操作性支持及电子文件真实性验证,帮助用户理解文件(档案)的背景与结构,其主要目标是维护文件的证据特性,确保长期可获取性和可用性。并行数据的核心目标则是增强程序或工具(如AI系统)的透明度和可解释性,支持用户追溯算法训练、模型调整及用户交互反馈等关键环节,从而提高AI系统的可信度与问责性。
表2 元数据和并行数据的区别对比

4.2 促进档案工作职责定位的深化发展
如果说元数据是电子文件管理的关键所在,那么并行数据是保存AI类文件的基本支撑。系统性保存AI类文件,不仅有助于完整记录技术介入社会的客观痕迹,还能为后代提供反思人工智能如何塑造社会认知、权力分配与制度演进的历史依据,这是AI时代档案工作的职责所在。在此过程中,档案工作不再只是保存过去的手段,更在新一代技术社会中承担着塑造集体记忆、构建公共信任与引导价值共识的重要职能。
并行数据的恰当使用,能够帮助档案工作的定位从“人类活动记录者”拓展到“机器行为审计者”。将AI研发和实施过程中产生的并行数据视为“AI的档案”,其本质是通过记录算法设计、训练调试、部署反馈等全生命周期数据,形成可追溯、可验证的AI行为轨迹。这种转变既带来了通过数据追溯实现精准问责的可能性,也要求档案领域推动技术架构、管理方法及相关政策法规的系统性革新,从而推动档案工作更好地融入数智社会。
4.3 为AI治理贡献档案智慧
并行数据被引入档案领域之后,可以发现其对XAI的贡献已经超出了仅支持自身AI应用的需要,对可信AI的整体建设和发展都有积极的意义。“透明化需求”与“技术黑箱特性”的博弈是AI生态良性发展的核心矛盾之一。有研究指出,需要根据AI特性设计专门的文档记录指南来提升AI的可问责性[39]。欧盟《人工智能法案》(AI Act)序言(71)亦明确要求“保存文件并确保技术文档的可用性,其中应包含评估AI系统是否符合相关要求以及支持市场后期监控所需的信息”[40]。通过收集和管理与AI系统运行并行而生的记录,有望构建起覆盖AI全生命周期的动态证据网络,帮助社会更好地理解和评估AI系统的运行机制和决策路径。这种变革不仅回应了监管机构对算法透明度的要求,更为构建人机协同的新型信任机制提供了技术基础设施,是“忠实记录业务过程和结果”的档案智慧在AI时代的焕发。
如果档案行业能够构建起一整套并行数据管理和利用框架,不仅能够支持AI类文件的管理,而且手握“透明性”法宝,更能督促和引导负责任、可解释和可信AI的发展,这对“人工智能+”产业的可持续性也至关重要。2023年10月,我国发布《全球人工智能治理倡议》[41],并行数据的规范化生成、管理、留存和利用,可以成为AI治理的重要手段。如鉴别AI公务员形成文件的AI版本以回溯其可靠性,调阅自动驾驶车祸现场的实时数据以明确责任等,都将是维护智能社会秩序的生动案例。面对AI治理这一全球性挑战,我国档案界应当交出一份与AI发展国际地位相匹配的答卷,需重点关注并行数据这一新议题。
原文载《浙江档案》 2025 年第 7 期,
经杂志社授权后发布。
[20][29][31]Franks P. In the pursuit of archival account ability: positioning paradata as AI processual documentation[EB/OL].[2025-04-02].https://www2.archivists.org/sites/all/files/Franks_In%20the%20Pursuit%20 of%20Archival%20Accountability.pdf.
[24]Denard H.The London Charter for the computer-based visualisation of cultural heritage[EB/OL].[2025-04-02].https://londoncharter.org/fileadmin/templates/main/docs/london_charter_2_1_en.pdf.
[26]Huvila I, Andersson L, Sköld O. Patterns in paradata preferences among the makers and reusers of archaeological data[ J/OL].Data and Information Management,2024,8(4)[2025-08-02].https://doi.org/10.1016/j.dim.2024.100077.
[28]Davet J E, Ham idzadeh B, Franks P C, etal.Tracking the functions of AI as paradata & pursuing archival accountability[C]//Archiving Conference. Society for Imaging Science and Technology,2022,19:83-88.
[30]Davet J, Hamidzadeh B, Franks P. Archivist in the machine: paradata for AI-based automation in the archives[J].Archival Science,2023,23(2):275-295.
[33]Cameron S, Hamidzadeh B. Preserving paradata for accountability of semi-autonomous AI agents in dynamic environments: An archival perspective[ J/OL].Telematics and Informatics Reports,2024,14[2025-08-02].https://doi.org/10.1016/j.teler.2024.100135.
[34]NSW State Archives. Case study-external pilot-machine learning and records management[EB/OL].[2025-04-02]https://futureproof.records.nsw.gov.au/case-study-external-pilot-machine-learning-and-records-management/.
[35]Jaillant L, Rees A. Applying AI to digital archives:trust, collaboration and shared professional ethics[ J].Digital Scholarship in the Humanities,2023,38(2):571-585.
[36]Von Eschenbach W J. Transparency and the black box problem: why we do not trust AI[J].Philosophy & Technology,2021,34(4):1607-1622.
[37] 周文泓,文利君,赵婧羽,等. 人工智能作为数字遗产的保存:档案领域的行动展望 [J]. 北京档案,2023(4):10-14.
[38] 财联社.深圳 70 名“AI公务员”上岗,公文处理、招商引资等场景均有覆盖 [EB/OL].[2025-04-02].https://www.thepaper.cn/newsDetail_forward_30184250.
[39]Königstorfer F, Thalmann S. AI Documentation:a path to accountabi l it y[ J/OL].Jour na l of Responsible Technology, 2022, 11[2025-08-02].https://doi.org/10.1016/j.jrt.2022.100043.
[40]European Union.The EU Artificial Intelligence Act [EB/OL].[2025-04-02].https://artif icialintelligenceact.eu/recital/71/.
[41]外交部.全球人工智能治理倡议[EB/OL].[2025-04-02].https://www.mfa.gov.cn/web/ziliao_674904/1179_674909/202310/t20231020_11164831.shtml.
排版:金潇苒
