英国国家档案馆(The National Archives,TNA)尝试将人工智能(AI)用于政府数字文件的挑选,旨在解决数字化转型背景下传统纸质文件管理流程无法满足数字文件管理需求的问题。
在正式开始本文的阅读前,需要各位读者注意,在英国语境中,挑选(selection)是一项专门的文件管理活动,是指识别因具有永久价值而需保留的文件的过程。TNA选择了5家AI供应商,利用其工具进行项目研究,并得出商业AI工具和工作流可用于辅助数字文件挑选的结论。本期推文重点介绍该项目的成果报告——《将人工智能用于政府数字文件挑选——基于现有市场解决方案评估的文件管理者工作指南》。
摘要
政府数字转型使公共文件的数量和种类增多,同时使政府对数据进行立卷和组织的重视程度降低。为纸质文件设计的传统流程无法应对海量、多样、复杂、分布式的政府部门数字文件带来的挑战。本报告介绍了TNA为探索AI工具在应对这一挑战中的潜力所开展的工作。
5家AI供应商应用其工具对TNA提供的数据集进行分类。参与评估的工具和平台包括Adlib Elevate、Amazon Web Services、Microsoft Azure、Iron Mountain的InSight和RecordPoint的Records365。总体而言,评估取得了可喜的结果,但没有任何工具或方法能够在所有任务中都优于其他工具或方法。
项目发现,虽然AI无法取代文件管理者的专长,但商用AI工具和工作流可以成功地应用于辅助半结构化和非结构化馆藏的挑选工作。这些产品正处于迅速发展的过程中,现在正是政府各部门与供应商接洽的好时机,以便从现有工具提供的能力中获益,并引导其发展方向。
政府部门应用这些工具的主要经验包括:
• 与使用“开箱即用”(out of the box)的工具相比,在认真准备训练数据方面进行投入,并致力于测试和改进模型的过程,可以产生更好的结果。
• 并非更为精密复杂的工具就能在满足所有需求方面有更好的表现,因此在选择工具时,应考虑以下因素:一是工具的功能设置与部门具体需求的匹配情况;二是工具与部门技术环境的兼容情况;三是在考虑工具的原始报告性能的同时,也要考虑成本。
• 如果要成功部署这些工具,文件管理者需接受技术培训,并掌握数据科学的专业知识。
本报告是为熟悉鉴定(appraisal)、挑选、审查(review)并将文件移交(transfer)至TNA永久保存的英国政府官员编写的。鉴定、挑选、审查及移交等流程参见TNA的《数字文件移交指南》。
1.引言
根据《公共文件法》(Public Records Act,PRA),公共文件机构(译者注:是指政府各部门内部负责公共文件的责任主体)应负责挑选具有永久保存价值的文件,以便将其永久保存在TNA。为纸质文件设计的传统流程无法应对海量、多样、复杂、分布式的数字文件带来的挑战。2018年,“更好的信息带来更好的政府”(The Better Information for Better Government)项目估计英国政府数据总量已经超过160亿封电子邮件、30亿份文档,相当于5PB的数据。如果没有能够减少人工操作和处理海量数字文件的解决方案,那么政府各部门在尽力履行PRA规定义务的过程中,将面临丢失有价值的文件的风险。同时,各部门将承担长期存储低价值的非结构化文件带来的成本和风险。因此,各部门亟需自动化的解决方案。
本报告介绍了TNA对一系列可用于文件挑选的机器学习(machine learning,ML)解决方案的评估,并基于TNA此前开展的“基于规则的技术辅助审查的电子发现(eDiscovery)产品”调查(这项调查的涵盖范围较广,包括原生数字材料的鉴定、挑选和敏感性审查)。
1.2 用于文件挑选的人工智能方法简介
本报告中的“人工智能(AI)”是指能做出智能自动决策的系统;机器学习(ML)是指实施AI系统的一种特定技术方法。ML方法的前提是AI系统可以“通过实例进行学习”来承担无法精确编码的任务。
本报告研究了ML方法是否能辅助挑选需要移交至TNA的文件。这种类型的分类工作被称为“分类”(classification)任务,即将文件分为“选中的”(译者注:selected,即需要移交至TNA的)或“未选中的”(译者注:not selected,即不需要移交至TNA的)。
开发分类器(classifier)的ML方法是,基于对那些通常由专家进行人工标注的、已经分类的“训练数据”的学习构建一个“模型”。模型构建是通过模式识别或特征识别的过程进行的,这些模式或特征是指训练数据集中“选中的”文件的特征和“未选中的”文件的非特征。这并不是一个精确的过程,通常要构建和测试几个不同的模型,从而确定哪个模型能提供最准确的结果。在评估模型时,必须根据业务需求定义什么是准确性。例如,对于本报告关注的任务而言,一个能正确识别有价值的文件但会包含一些短期文件的分类器,会优于一个能够减少选出短期文件但丢失有价值文件的分类器。对于其他应用场景,情况可能正好相反。
接下来,可以用最佳模型或模型组合来构建“分类器”。这是一种能大规模应用的软件工具,旨在将文件分为“选中的”和“未选中的”两类。最佳工具将在报告分类结果的同时报告其置信度。这可以用于判定在工具所预测的结果成为文件挑选决策之前,还需要多少检查或人工干预。关于使用ML开发AI模型并将其用于数字文件分类(分为“选中的”和“未选中的”)的实践概况,参见附录A。
1.3 “利用AI挑选文件”项目
2020年,TNA调查了商用AI和ML工具及其在数字文件挑选任务中的适用性。目的在于:一是探索基于AI的商业产品在辅助识别永久数字文件中的有效性;二是了解该领域商业ML产品的现状;三是了解如何将商业ML产品实际用于辅助文件挑选。
该项目分两个阶段进行。第一阶段旨在概述现有产品类型,并明确需进一步调查的产品。在第二阶段,TNA与供应商(产品供应商或独立供应商)进行合作,这些供应商使用TNA的组织机构数据(译者注:此处的“组织机构数据”是TNA作为文件形成者所形成的数据/文件,而非作为保管者保管的永久档案)对所选产品进行测试,以帮助TNA理解这些产品的工作原理,并评估这些产品在文件挑选方面的能力。
在向供应商介绍情况时,TNA强调此次调查并非竞争。其目的不仅是评估产品的性能,还要明确现有产品的可用功能都有哪些,增进TNA对当前技术发展的理解,并探索在选择用于数字文件挑选的产品时需要权衡的问题。
1.4 用于开发概念验证分类器的数据
TNA使用来自其文件管理系统的数据对这些产品进行评估。这些数据包括110,882个文件和12,462个文件夹,各种格式的文件共44.1GB,且以文本文件为主,包括电子邮件、PDF文件和Microsoft Office格式文件。该数据集被视为TNA的组织机构文件中具有广泛代表性的数据集,在此将其称为“代表性数据”。这些文件来自TNA的电子文档与文件管理系统(Electronic Document and Records Management System,EDRMS),并已依据TNA的部门、职能或主题,按照相关的知识与信息管理指南组织成文件夹和子文件夹。子文件夹附有保管期限表,该表规定了这些文件将留存多长时间,可识别出经过挑选的永久保存的文件。
该数据集来自TNA的一个小部门,且经过精心整理。TNA清楚,并非所有部门的“数字堆(digital heaps)”都是如此。这些模型在该数据集取得令人满意的表现,并不意味着在一个更大、更复杂的部门文件中同样取得令人满意的表现。各部门需创建自己的“代表性数据集”以训练和测试模型,使其达到令人满意的准确度。关于选择代表性数据和训练数据的方法,参见“2 政府部门利用AI挑选数字文件时需要了解什么”。
1.5 AI工具使用的方法
本项目所选产品涵盖从现成的文件管理系统到基于云的定制化工作流工具的各种方法。附录B详细介绍了这些工具以及将其纳入项目的理由。
由于这些产品使用的方法各异,所以直接对比变得困难。本报告呈现的结果体现了工具的准确性,同时也评估了产品的附加功能,以评估其对政府文件管理者更广泛的价值。所有供应商都需要在固定时间内创建他们的产品原型和/或进行测试,但他们的起点有所不同,因为有些供应商拥有功能齐全的、现成/专有的系统,而有些供应商则通过云托管组件构建系统。这意味着现成产品已经具备许多所需功能,而使用云产品的咨询公司为了在现有时间内实现分类目标,忽略了其中一些功能。
附录C根据TNA的评估标准给出了完整的产品比较。
2.政府部门利用AI挑选数字文件时
在与供应商合作时,政府各部门应对市场上可用的软件及专业知识有现实的预期,同时也不应低估部门所需的资源和专业知识。各部门需要与供应商定期沟通,并提供文件知识和领域专长,以达到最佳效果。在决定采取何种方法时,应考虑以下几个方面:
2.1.1 选择训练数据
训练一个用于挑选文件的有监督学习算法,本质上意味着通过训练数据再现鉴定政策。其过程是向算法展示预先分类的数据,它可以“通过实例进行学习”,为自己制定规则,再“纠正”它的答案,以便完善这些规则。训练数据的质量是取得良好结果的关键。如果一个部门有一套现成的经过标记的文件(包括“选中的”和“未选中的”),可将其作为训练数据的基础。为减少偏差,训练数据应该是有代表性的、多样化的文件集。如果没有用于训练模型的有代表性的经过标记的文件,就需要创建训练数据。这是一项资源密集型工作,并且需要文件管理者(或熟悉文件的团队)参与。如果要让人相信训练数据可以代表部门的鉴定政策,记录创建训练数据所采用的方法很重要。
在选择训练数据时,文件管理者应意识到重复文件的普遍性,确保训练数据具备充分的多样性。重复的训练数据会使分类器的结果出现偏差。例如,如果训练数据中有100份文件被标记为“选中的”,其中10份是同一份文件的副本,则模型可能偏向于挑选与副本相似的文件。在这种情况下,往往需要去掉重复的训练数据。然而,存档文件中存在的重复文件可以为未来用户提供有价值的背景信息,因此,在文件挑选过程中,不应定期删除重复文件。TNA接受重复文件的移交。
另一个需要重点考虑的因素是训练所用数据的数量。在“利用AI挑选文件”项目中,供应商使用高达80%的经过标记的训练数据来训练模型,并使用达20%的数据进行测试。该模型使用80%的数据(包括元数据和文件内容)进行训练;对于20%的测试数据,模型没有被赋予标签,(得出测试结果后)再使用标签判定该模型的准确性。关于所用数据的更多信息,参见附录B。其目的在于使用能代表更多未标记数据集的训练数据,这样模型就可以在更广的范围内用于数据集的挑选决策。“利用AI挑选文件”项目使用的是EDRMS中经过标记的数据,由于这些数据在某些文件类别中的代表性不足,所以不适合用TNA的大型数据语料库进行测试。
所需训练数据的多少取决于应用的解决方案类型。有些工具需要在软件中手动标记训练数据,通常可以使用较少的标记数据,而其他工具需要使用较多的标记数据。
2.1.2 什么样的准确度才够好?
在缺乏干预(通常是数据清洗)的情况下,现实生活中的数据往往无法满足ML的要求。数据通常是有偏重的,因此某些类型的重要文件(即应被选中的文件)可能没有被充分代表,并在工作流程中的训练阶段被遗漏。在评估产品准确性时,需重点考虑:第一,是否可接受为避免选中大量不重要的文件,而遗漏少数具有历史意义的文件,致使其未被选中;第二,模型是否必须选出每一份重要文件(这种类型的文件可能很少),即使这可能导致许多不重要的文件也被选出。
通常情况下,需要在上述两种考量之间进行权衡。如果需要确保具有历史意义的文件100%被选中,那么也将选出大量“不重要”的文件。如果担心选出大量“不重要”的文件,那么也将增加丢失一些重要文件的风险。TNA倾向于能选出更多永久价值的文件的方法,即使这意味着挑选“更混乱”或移交更多的“不重要”文件。
无论采用何种方法,如果没有人工参与,ML模型都不可能达到最佳的准确性。为提高准确性,文件管理团队可以纠正错误的分类,并重新训练模型。这个步骤应重复多次,直至取得令人满意的分类结果,即使在操作层面利用算法辅助挑选,政府部门也应持续坚持这一步骤。
对于TNA在“利用AI挑选文件”项目中评估的部分产品,工程团队只是在初始设置阶段进行这种重新训练(通常需要与文件管理者或文件专家进行广泛的讨论);有些产品则为文件管理者提供了选择,使其能够持续在软件中纠正分类结果,并对模型进行重新训练。
有必要监测模型的准确性,并定期审查其性能。重新训练的频率取决于部门对需“选定”何种文件的看法(如出台新的鉴定政策)的变化。这也可能受到重大事件的影响,这些重大事件改变了某些主题的重要性,例如,在过去几年,“冠状病毒”相关文件变得越来越重要。如果用于文件挑选的标准发生变化,模型将无法按照最初的设想运作。此时可能需要用新的训练数据进行重新训练,甚至需要创建新的模型,以避免嵌入其中的、已经过时的挑选决策带来的偏差。同理,如果需要进行分类的文件的性质发生变化,也可能需要新的模型。
2.1.3 需要训练和测试几个模型?
模型的数量取决于馆藏文件的种类和类型。为文档管理系统中经过组织的结构化数据而开发的模型,无法为共享磁盘中的非结构化数据提供相同的准确性。同理,不同的文件类型(如文本、媒体和图像)可能需要不同的模型。
2.1.4 理解和解释模型的结果
如何以最佳方式解释和说明模型得到的结果,仍是ML领域面临的一个挑战。数据科学家可以通过解释系统提供的指标来评估产品的有效性,但大众往往不易理解这些指标。文件管理者和部门应能在一定程度上控制产品如何做出挑选决策,他们需要利用技术来辅助完成工作,而不是依赖技术为其执行挑选任务。
透明度至关重要,产品供应商需要开展更多的工作以解释算法决策。政府部门需要能够说明他们使用这些工具是如何符合文件挑选政策的。当政府部门使用ML方法时,可以将所遵循的流程、选择训练数据的理由与鉴定政策一起公布,旨在帮助未来的文件用户理解(ML方法的)潜在偏差。此外,还可以采用其他方法提高透明度,例如,可以将训练数据集本身作为选中的“文件”(长期保存),以展示训练ML模型的方法。
2.1.5 处理敏感数据
根据政府部门文件的敏感程度,产品可能需要适当的认证和安全级别。例如,如果供应商要求将文件上传至其系统中,这可能会限制产品的选择。在使用TNA组织机构数据的“利用AI挑选文件”项目中,TNA与外部供应商签订了数据共享协议,以确保他们采取了适当的数据处理和安全措施。不应低估适当完成这些步骤所需的时间。
2.1.6 准备好实施自动化了吗?
最后,部门应该考虑是否已经为投资ML解决方案做好准备。可以在投资之前采取初步措施,如确定潜在的训练数据集、标记需进行挑选的文件,这将有利于ML方法后续的应用。
2.2 方法选择
“利用AI挑选文件”项目确定了供应商提供的两种主要方法:一是具有AI功能的现成的文件管理解决方案,或由咨询公司完成建模后用于查看与处理结果的产品;二是由外部专家或内部数据科学家与开发人员团队打造的定制化解决方案。
政府部门可能会根据相关政策和过往经验优先考虑某种方法。如果不是这种情况,选择方法时应考虑:一是掌控与自主的程度。定制化解决方案比现成的产品拥有更大的控制权,而现成的产品比咨询公司为部门提供的产品拥有更大的控制权。安全限制也应是需要考虑的因素之一。二是部门技术团队的能力和技能。定制化解决方案在调试和使用时比现成的系统需要更多的技术技能,而现成的系统比外部咨询公司提供的产品需要更多的技术技能。三是附加效益。现成的产品中包含的文件管理功能可用于满足其他业务需求。
2.3 成本
了解不同类型产品所带来的成本是很重要的。现成的解决方案需要许可费和续期费,而定制化解决方案将产生较高的成本,且需要高级技术人员建立ML工作流,并为解决方案的实施提供持续支持。
在“利用AI挑选文件”项目审查的(五个)解决方案中,有三个是具有“ML技术辅助挑选”功能的文件管理产品。一种具有成本效益的使用方法是部门同时将该产品作为其文件管理系统,但最终选择某种文件管理系统也要考虑除文件挑选功能外的其他功能。
其中一个供应商提供了现成的产品,以查看该供应商所做的建模结果。如果建模工作由咨询公司负责,那么在初始成本的基础上,还应考虑重新训练模型或创建新模型的预期频率(因为这种方法可能难以扩展),尽管这仍比雇用一个全职数据科学家更具成本效益。各部门通常已经拥有具备这项工作所需技能的团队,但并不清楚文件管理者的需求,支持利用AI挑选文件可能不是数据分析团队的优先事项。提早参与并提高挑选工作的地位可以帮助文件管理者获得数据分析团队的支持。
TNA与云平台供应商合作的经验表明,使用工作流的商业云ML组件的成本可能会很高。虽然随着产品的逐渐成熟,成本可能会逐渐降低,但对于拥有海量(数百万)文件的政府各部门而言,目前的成本可能过高。另一种选择是建立内部解决方案,利用云的可扩展性,但这需要使用开源库而不是商业库。
2.4 实施(或重用)定制化解决方案需考虑的因素
如果部门有能力开发定制化流程,那么应考虑一些技术问题。
2.4.1 处理的数据量
在“利用AI挑选文件”项目中使用的数据集相对较小(约10万份文件)。TNA可以在具有基本配置(16GB内存、Core i5处理器、无独立显卡、SSD驱动器)的笔记本电脑上处理、分析这些数据,并将其用于训练ML模型。为完成同样的任务,一些产品使用容器化技术构建定制化应用程序,可以轻松地扩展至非常大的数据集。“利用AI挑选文件”项目并没有对扩展基于云的解决方案进行测试。当选择方法时,重点是明确对该任务而言,什么是“足够好”,以避免过度设计。在评估方法时,最初的概念验证可在小规模的集合上进行,然后再扩大规模。
2.4.2 对哪些平台感到满意?
主要的云供应商(Azure、AWS、Google、IBM等)都提供多种方式来构建各种复杂度的ML应用程序。在为“利用AI挑选文件”项目选择平台时,需要首先了解部门已经使用的平台,以及可能已经具备一些专业知识的平台。
2.5 开发市场
“利用AI挑选文件”项目表明,ML可以成为海量数字文件挑选解决方案的重要组成部分。各部门应了解实施上述方法所需的工作量和专业知识。项目还表明,可以在某些领域探讨改进方案,如分类结果的可理解性和可解释性。ML方法和工具仍处于发展过程中,在提高结果的可理解性及其他方面(如减少所需的训练数据量)正在进行大量研究。所有产品都处于开发的早期阶段,意味着这是与供应商接洽并引导其未来发展的大好时机,以便这些供应商能为文件管理者和档案工作者提供服务。
3.结论
本报告调查的解决方案以不同方式解决了问题,并提供了不同的功能。评估标准允许TNA比较各类产品和方法(参见附录C)。对于那些希望利用AI方法协助挑选文件的部门,可以在选择供应商前,以本项目为基础评估各种可能的解决方案。
项目发现,AI无法取代文件管理者的专长,但可以成为辅助处理海量政府部门数字文件集合的有用工具。文件管理者拥有的关于其保管的文件的知识,对本报告描述的任何产品或方法的有效运作都是至关重要的。虽然这些产品需要团队具备不同水平的技术能力,但同样显而易见的是,如果信息管理团队要成功实施这些产品,就需要掌握数据分析和ML的技能。为此,既可以在团队内部进行能力建设,也可以与部门内的数据科学家合作,或者通过外部供应商实现。无论采用哪种方式,文件管理者都将从ML概念的培训、创建数据以训练系统的实践及审查和完善模型的持续任务中受益。
附录
本节简要介绍了开发AI分类器工具的各阶段(如图1所示),该工具能够将文件分为“选中的”或“未选中的”,以便移交至TNA。
本节简要介绍了供应商测试的五种产品以及TNA开发的基准测试工具(第六种产品),更多详情参见附录D的《供应商报告》和《TNA的基准测试工具》。
本节更细致地讨论了各项产品的功能。TNA制定了初步的评估模板,确定了评估分类结果需考虑的重要因素,包括数据收集、数据预处理、探索性分析、特征工程、模型训练和调试、图形用户界面等6个方面。
(1)供应商报告
(2)第一阶段的市场研究报告
(3)TNA的基准测试工具
(4)TNA的数字文件移交指南
(5)基于规则的技术辅助审查的电子发现(eDiscovery)产品报告
(6)利用AI挑选文件的评估模板
(本文内容为学生研究员自主翻译,仅供参考学习,文件原文请访问以下链接:https://cdn.nationalarchives.gov.uk/documents/using-ai-digital-selection-in-government.pdf)