关键词:档案管理 数据治理 数据管理 内容管理 电子文件
摘要:数据治理是数据管理的核心职能。在多部门协同治理数据问题的大数据时代,档案部门应从全局、资产、融入、生态等视角出发,有效利用数据治理的机制、方法和工具,积极参与高层次数据管理活动,尤其关注数据治理格局中多主体协同关系的建立。建议国家档案局增补为促进大数据发展部际联席会议成员单位,并主导建立高层次电子档案治理协作组;基层档案部门以机构内容管理为职责定位;档案行业成为内容管理系统研发和实施的支撑行业。
中国人民大学电子文件管理研究中心自成立以来,以研究中国电子文件管理问题为基本使命,汇集国内外专家、学者的研究智慧,打造开放的、跨学科的、多专业视角的研究平台,提供基础性、综合性、应用性的理论和方法,研究员在相关领取得了丰硕成果。今日起,“电子文件管理”公众号将以系列推文的形式转载中心研究员近年来的研究成果,并附上学生研究员们的“学习感悟。
此次系列推文的首个专题为“数据管理”,包括以下6篇文章:
·刘越男《数据治理:大数据时代档案管理的新视角和新职能》
·钱毅《数据态环境中数字档案对象保存问题与策略分析》
·夏天《面向知识服务的档案数据语义化重组》
·张宁《企业非结构化文档数据治理探究》
·于英香《从文件结构演化看电子文件数据化管理的发展——基于技术变迁的视角》
·王强《业务系统数据归档研究——以中国石油业务系统数据归档实践为例》
本期分享的第一篇论文来自刘越男教授的《数据治理:大数据时代档案管理的新视角和新职能》。
数据治理:大数据时代档案管理的新视角和新职能
1.2 数据治理与数据管理
数据治理和数据管理是一对相辅相成的概念。张宁等对国内相关研究进行回顾之后,认为多数学者在应用时并不解释和说明数据治理的概念,而是认为数据治理与数据管理类似,都是有关采集、加工、传输、控制、保存等数据生命周期的活动[15]。与此同时一些学者也在强调数据管理和数据治理的不同。主要有3种观点:第一,数据治理和数据管理是数据决策权分配和执行的关系,其中影响力比较大的观点来自Vijay Khatri和Carol V. Brown,他们认为治理的任务是决定数据决策内容以及决策职责划分;而数据管理则是指具体的数据决策制定和执行过程[16]。该观点也被DGI所认同[17]。第二,数据治理是数据管理的组成部分,且处于核心位置。如DAMA International指出作为数据管理的核心知识领域,数据治理在整个数据管理体系中处于控制地位,它通过建立数据决策体系,监督和指导其他数据管理活动的执行,包括数据架构、数据建模与设计、数据仓库和商务智能管理、数据质量管理、元数据管理、数据安全管理、数据存储和操作管理、参考数据和主数据管理、文档和内容管理、数据集成和互操作等[18]。第三,数据管理是数据治理的子功能,也是开展数据治理的前提条件[19]。
笔者以为,无论是持互补关系还是包含关系的观点,都说明数据管理和数据治理不可分割;都认为相比而言数据治理位于较高的层次,通过计划、控制活动来提高数据质量,保障数据安全,控制数据风险,实现数据价值;都不能否认数据治理的最终成效体现在整个数据管理的产出物上。因此我们不应割裂地来看数据管理和数据治理。本文认为宏观层次的数据管理实际上就是数据治理,微观层次的数据治理是数据管理的核心职能。
1.3 档案与数据
讨论档案管理和数据管理的关系,首先需要辨析档案与数据的关系。不管档案和数据的范围延伸至何种载体类型,都不影响两者关系的确定。由于我们是在数字环境下讨论档案和数据的关系,所以如果不加特别说明,本文中的档案皆指数字档案,数据皆指数字形式的数据。计算机科学宽泛的数据概念——“数据是指所有能输入到计算机并被计算机程序处理的符号”[20]已经普及,在此背景下,毫无疑问档案是一类数据。从数据资产的价值来看,在宏观层面上,档案对于国家而言是一类核心信息资产,是支持国家治理的可信凭证,是传承历史文化的社会记忆;在微观层面上,档案是机构宝贵的信息资产,是机构业务活动的客观凭证,是机构法规遵从的证明,是机构集体记忆的有效载体。从数据属性来看,在众多的数据中,档案是业务性数据、原始性数据、历史性数据,区别于外购性、加工性、实时性的数据;在概念上包含所有可能的信息形式:结构化、非结构化、文字、表格、音频、视频,静态和交互式等,但是在实际解决方案中,数字档案大多以非结构化、半结构化文档的方式存在。
1.4 档案管理与数据治理
鉴于档案和数据的关系,档案管理是数据管理的组成部分,数据治理包括对档案数据的治理,档案部门是数据治理部门。
1.4.1 宏观层次档案管理分担业务数据和文化记忆数据的治理
在宏观层次,几乎所有数据治理问题都不可忽略档案因素,数据的跨国流动包括档案数据的跨国流动,档案的开放是信息公开的重要组成,信息资源的共享同时包括实时数据和历史数据的共享等。档案数据治理的效果直接关系到整体数据治理的成效。由于档案数据既有业务凭证的一面,也有历史记忆的一面,所以档案管理在业务数据和文化记忆数据治理中都有一席之地,负责历史性业务数据的治理工作,同时参与业务数据和文化记忆数据的治理。在业务数据方面,文件生命周期中的核心业务—数据收集归档、开放共享和长期保存是档案管理在数据治理中的三大着力点:数据归档是凭证性信息、历史信息的流向;档案的开放共享是信息资源开放共享的应有之义;数字档案长期保存是数字资源长期保存的重要组成,提出了关于真实性和完整性的更为严格的保存要求。在政务档案管理领域,还需切实加强全程数据标准化的工作,以便支持馆室联动的档案数据资源整合。在文化记忆数据方面,档案数据服务是文化数据服务的重要组成。
1.4.2 微观层次档案数据治理以文档和内容管理为立足点
在微观层次,档案管理和数据治理的关系主要体现在如下两个方面:(1)数据治理包括档案数据治理,机构需要明确档案数据的相关决策和权责分配,制定档案数据管理制度,提供档案数据管理服务。(2)档案管理是数据治理需要控制和支撑的对象,机构需要有效建立档案管理和其他数据管理之间的关系,促进良性互动。档案管理不佳,也是数据治理工作的失职。
2.2 资产视角
档案资产观的表述并不陌生。20世纪90年代,我国就从国有资产流向控制的角度对资产产权变动过程中的档案流向提出了规范要求,从而开启了档案资产化管控的道路。随着知识经济的兴起,对信息的资源属性和资产价值得到进一步认识。档案的资产化管理从流向控制走向了知识资产的挖掘[22]。文件档案是宝贵的信息资产的观念已经非常普遍,在 ISO 15489,ISO 30300等文件档案管理国际标准中得到了明确阐述。如今我们要在大数据背景下加深对档案资产、数据资产的价值认知。一方面,数据的生产要素地 位已经确立。2020年4月,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,将数据作为与土地、劳动力、资本、技术并列的生产要素。在培育数据要素市场、加快数据流动的过程中,数据的开放共享、隐私保护、安全保护等问题亟待通过制度设计实现多利益相关主体共同治理[23]。另一方面,大数据时代,数据不仅是业务的副产品,而且是业务开展的基础和条件,是驱动业务发展的生产力。比如智慧法院中,利用历史诉讼档案,帮助法官规范化诉讼文书的写作,提示证据标注,自动判断案件类型,推动案件审理工作流程[24]。要实现这样的数据资产利用,数据量大不等于能派上用场,数据驱动业务的实现,要依靠对数据质量控制和精准分析[25],这些都是数据治理派上用场的地方。
2.3 融入视角
融入视角或可称为输出视角。自从《全国档案信息化建设实施纲要》(2002年)首次提出“档案信息化纳入 国家信息化建设的总格局”之后[26],“纳入”思维一直在体现在我国档案信息化相关制度规范中,《档案法》修订草案第二十八条规定“各级人民政府应当将档案信息化纳入信息化发展规划”[27]。融入视角是对纳入思维的继承和发展,档案管理不仅作为一个整体纳入业务信息化,而且各项具体的档案管理活动能够和其他数据管理活动相互渗透、相互影响,以分支漫流的方式融入数据管理之中。比如文件归档融入数据归档,档案分类融入数据分类,档案管控融入数据管控,档案数据融入主数据和参考数据的建设中,档案数据质量要求融入整体数据质量要求,数据管理制度体现档案管理的要求,最终实现档案数据和其他数据无缝集成、有效共享和整合利用。
融入视角要求我们正视数据治理的需求和挑战,实现档案部门和其他数据管理部门的双向合作,不仅请其他部门“走进来”,承担档案管理职责;还要主动“走出去”,顺应数据管理环境的变化,协助推动其他数据管理工作,积极打造数据治理的生态。这也会涉及数据治理的生态视角。
2.4 生态视角
生态视角也可理解为共同体意识。随着数据管理手段和内容的丰富,数据管理相关主体日益丰富,形成具有动态结构的生态系统。数据生产、管理、利用和服务等上中下游各方不仅是服务和被服务、竞争和合作的关系,也是支撑和被支撑的“共生演化”关系[28]。以档案界和产业界的关系为例,档案界依赖产业界提供的软硬件产品,有时会担心技术锁定因而有一定的防范心理。但从另外一个角度来看,档案界需要高质量的产品,而产品的成熟也依赖于档案管理规范的输出,一个行业的规范管理越高,其软件越有基础走向成熟。我们从西方国家的内容管理平台产品中看到的不仅是技术的先进性,而且是对管理实践的深入理解,比如文档管理软件中设置处置规则的前提是业界有相应的保管期限与处置表,相比而言我国的档案保管期限表中没有处置行为的规定。因此,档案管理系统功能的不完备不仅是厂商开发能力不足,而可能是整体行业规则的缺失。档案主管部门、用户单位、科研院所和产业界应各司其职[29],协同数据管理的其他主体,互动共生, 共同演化,同步提升,构建日趋向好的数据管理行业生态。
3.1.1 国家档案局增补为促进大数据发展部际联席会议成员单位
我国国家层面尚未有统一的信息资源管理立法和职能部门,在目前的体制安排下,近年来我国先后建立国家电子文件管理部际联席会议(以下简称国电联)和促进大数据发展部际联席会议(以下简称促大联)等协调机制来解决跨部门协调问题[31]。国电联10个成员单位,国家档案局位居其中;促大联43个成员单位,国家档案局尚未列入,这种缺位已经引发了档案界的忧思[32]。大数据时代,大量综合性的数 据问题需要多部门协同治理,而促大联承担了协调职责。以政务信息资源共享为例,根据《政务信息资源共享管理暂行办法》(国发〔2016〕51号),我国政务信息资源共享由促大联统筹推进。档案主管部门的缺位,导致各地档案部门在信息共享等数据治理中面临单兵作战的被动局面,而这关系到数据时代档案部门的职业形象。未来还有可能有类似事情出现。从长远发展的角度,本文建议国家档案局增补为促进大数据发展部际联席会议成员单位,在大数据治理中争取主动性。
3.1.2 建立高层次电子档案治理协作组
随着电子文件的普遍应用,国家档案局先后和财政部、商务部、交通运输部、国家税务总局等多部委联合发文,推动电子会计凭证、电子发票、电子票据的电子化归档,形成了档案主管部门和业务主管部门共同治理电子档案问题的态势。然而,随着新型数据的不断增加,新技术的不断应用,国家有关部门在加强数据管理的时候,并未注意到其档案属性,未明确档案管理要求。比如《科学数据管理办法》(国办发〔2018〕17号)规定“国务院科学技术行政部门牵头负责全国科学数据的宏观管理与综合协调”,未提及科学数据也是重要的科研过程档案,需要纳入档案管理范畴。再如电子签名等认证技术的 相关规范中也未明确档案保存的要求,档案主管部门尚未成为电子认证服务治理体系的一员[33]。为了形成全面开展电子档案治理的新格局,本文建议国家档案局和相关部委建立高层次电子档案治理协作组。在国家档案局指导下,全国建立了多区域、多类型的档案协作组,有效地促进了档案基层组织的交流。不过,协作组主要建立在档案界内部,成员来自机关企事业单位的档案部门、各级各类档案馆。本文建议的高层次电子档案治理协作组,主要由各部委高层领导参与,就专门性、特殊性电子档案管理政策制定和工作推进进行协商。这样的协作机制若能建立,或可开复杂治理问题高层沟通之先河。
3.1.3 档案馆利用政策良好导向建立与图博领域的合作联盟
《档案法》明确了档案馆文化事业单位属性,2015—2019年政府工作报告均将档案事业归入文化事业,要求繁荣发展。国务院《关于印发促进大数据发展行动纲要》(国发〔2015〕50号)中明确指出要 “加强数字图书馆、档案馆、博物馆、美术馆和文化馆等公益设施建设,构建文化传播大数据综合服务平台”。这为档案馆承担文化记忆数据治理提供了坚实的政策基础。自20世纪90年代起国际上开始提倡图档博(GLAM)等文化机构的合作,形成了艺术馆、图书馆、档案馆、博物馆等文化机构的联盟,比如2015年澳大利亚多家文化机构成立GLAM Peak,合作推动“藏品数字利用”项目,形成了较好的联动效应[34]。我国档案馆可以倡导建立图档博合作联盟,共同治理文化记忆数据。
3.1.4 基层档案部门以机构内容管理为职责定位
2019年,中石油设立了专门的数据管理部门,以统筹公司数据管理和大数据应用,其中主要任务之一是建立数据治理体系[35]。微观层次数据管理部门和档案部门之间的职责分工也进入了档案界视野。随着《关于工业大数据发展的指导意见》的贯彻实施,可以预计将有更多企业设立内部数据管理部门。企业内档案部门和数据管理部门的职责分工将成为继大数据局和档案局职责分工又一棘手问题。不能排除未来政府机构内部也设置数据管理部门的可能性。
如此形势下基层档案部门需要在整个数据治理格局中明确职责。本文认为档案部门应成为机构 内非结构化数据、历史数据和凭证性数据的专业管理者,档案人员是内容管事(content steward)。其中历史数据归档已经被业界作为提高系统效率的一种方式;凭证性数据则体现了档案数据的价值特性,也是一般的数据管理容易忽视的地方;而非结构化数据、内容则源自IT领域,目前大多数字档案 都以非结构化方式存在。这三个术语都不足以完整地表达档案数据的内涵和外延,但是这样的定位有助于我们和信息技术部门以共同术语交流和沟通,也便于我们在IT导向强烈的数据管理架构中找到自己的位置。在图1中,档案部门一个比较现实的定位选择是档案管理作为“文档和内容管理(document and content management)”的核心内容,与其他各项数据管理活动交互。虽然任何数据都可能是文件,但在IT视角中,非结构化、半结构化文档的内容更 容易成为文件档案的代名词,在有关咨询公司关于软件市场的报告中,电子文件档案一体化管理系统(EDRMS)总是占据内容管理服务的重要位置。我们不妨以此为立足点,成为机构内容的内容管事,成为内容管理系统研发厂商的行业支撑,向上推动数据治理,向下影响数据质量管理等基础性数据管理,逐步实现档案管理向数据管理的渗入,并丰富数据管理的内容。中核集团、华能集团等单位的文档管理部门已经开始主导建设内容管理平台,成为事实上的内容管理专业部门。
3.1.5 基层档案部门推动建立并加入协作式数据治理组织
各单位数据治理组织结构会因单位实际情况的不同而不同,一般来说在机构、部门等不同层级均有相应的管理部门或人员。机构一级可以设置首席数据官(CDO)或者赋予首席信息官数据治理领导者的角色,并设立相关的数据管理办公室或委员 会来开展具体的协调推进工作。在数据管理行业,受特定团体委托从事数据管理工作的各类专业人士被称为数据管事或数据专员(data steward),根据其职责的不同,数据管事也分为协调性、执行性、技术性等不同类型[36]。这也是本文之所以将档案人员定位为内容管事的原因。本文建议基层档案部门推动建立并加入数据管理委员会,数据管理委员会成员可以来自业务处室、数据管理部门、IT部门和档案部门的负责人,数据管理委员会作为机构 数据管理的议事机制,由此形成数据治理的高层对话机制。
3.2 继续使用制度规范类数据治理方法
制定数据战略,加强数据立法,数据管理制度规范,这些是我们相对熟悉的数据治理方法。近年来我国数字档案管理方面的制度规范高密度出台,对于档案数据的规范化管理起到了积极的推动作用。在数据治理理念引导下,无论是宏观还是微观层面的制度规范建设,都需要进一步融入国家和机构数据治理的总体发展之中,尤其是在大家都非常关心的数据治理领域发出档案的声音。在宏观层面,近年来政府信息资源开放共享、个人信息保护、数据安全、大数据开发等都是关系到国家安全和社会治理的重要领域,2020年5月25日,全国人大常委会工作报告指出,今年将制定个人信息保护法和数据安全法[37]。档案部门应重视这些法律的制定和贯彻。在微观层面,档案部门应重视数据安全管理、元数据管理、数据质量管理等基础性管理活动的制度建设,切实改变纸质时代粗放的管理方法,面向信息系统中细颗粒度的数据管理,将多年来档案部门在可信数据维护、数据合规性方面的经验应用到数字环境中,写到制度中。
3.3 积极应用成熟度模型等评估类数据治理方法
DAMA International2017年第二版数据中,单独设立了数据管理成熟度的章节,成熟度模型最早是美国国防部用来开展软件供应商能力成熟度的工具,后被广泛应用于其他领域[38]。相比其他相对静态的评估方法,成熟度模型识别某项工作关键过程域和关键实践,不仅能够评价数据管理的现有状态,而且提供改进路径,因而也是过程改进模型。目前国内外先后出现多个数据管理成熟度模型,有些侧重于数据管理全局性的评价,如《数据管理能力成熟度评估模型》(GB/T 36073—2018,简称DCMM);有些则侧重在某个方面的评价,如数字长期保存成熟度模型等。数据成熟度模型是推动数据治理从虚走向实的一种方法和工具。《关于工业大数据发展的指导意见》的明确要求推广GB/T 36073—2018,构建工业大数据管理能力评估体系,为此“鼓励各级政府在实施贯标、人员培训、效果评估等方面加强政策引导和资金支持”。
近年来我国有学者先后开展电子文件管理成熟度模型[39]、机构数字保存能力成熟度模型[40]的研究,国家档案局也先后出台了数字档案室、数字档案馆的评价办法,可在此基础上,在数据管理能力评估体系框架下,综合相关成果,开展档案数据管理成熟度模型研究,并推动实施。
原文载《档案学研究》 2020 年第 5 期,经杂志社授权后发布
[ 4 ] 李鸣,郝守勤,何震.数据治理国际标准研究[J].信息技 术与标准化,2017(2):48-52.
[ 5 ] 张绍华,杨琳,高洪美,宋俊典.《数据治理规范》国家标 准解读[J].信息技术与标准化,2017(12):25-29.
[ 6 ] 徐拥军,张臻,任琼辉.国家大数据战略背景下档案部门 与数据管理部门的职能关系[J].图书情报工作,2019, 63(18):5-13.
[ 7 ] 陈永生,王沐晖,苏焕宁,杨茜茜.基于互联网政务服务 平台的文件归档与管理:治理观[J].档案学研究,2019 (6):4-11.
[ 8 ] 梁凯.“最多跑一次”事项电子业务数据归档系统建设实 践—以杭州市档案局为例[J].浙江档案,2017(8):31-32.
[ 9 ] 梁凯.多维度视角下大数据与档案关系的思考—以杭 州市大数据管理为背景[J].中国档案,2018(7):66-67.
[10] 常大伟,潘娜.档案数据治理能力的结构体系与建设路径 [J].浙江档案,2020(2):27-29.
[11] 杨晶晶.设计企业档案数据治理体系研究[J].北京档案, 2020(2):26-28.
[12] 张康之.数据治理:认识与建构的向度[J].电子政务,2018 (1):2-13.
[13] 黄璜.美国联邦政府数据治理:政策与结构[J].中国行政 管理,2017(8):47-56.
[14] Abraham R,Brocke J V,Schneider J. Data Governance:A conceptual framework,structured review,and research agenda. International Journal of Information Management[J]. 2019(49):424-438.
[15] 张宁,袁勤俭.数据治理研究述评[J].情报杂志,2017,36 (5):129-134+163.
[16] Khatri V,Brown C V.Designing data governance[J]. Communi- cations of the ACM,2010,53(1):148-152.
[17] DGI. Definitions of Data Governance[EB/OL].[2020-05- 19]. http://www.datagovernance.com/adg_data_governance_ definition/. [18] 数据工匠俱乐部.深度解读数据管理葵花宝典— 《DAMA-DMBOK2数据管理知识体系指南(第2版)》 [EB/OL].[2020-05-19]. https://www.shangyexinzhi.com/ article/499078.html.
[19] 刘桂锋,钱锦琳,卢章平.国内外数据治理研究进展:内涵、要素、模型与框架[J].图书情报工作,2017,61 (21):137-144.
[20] 王志强.大学计算机应用基础[M].北京:清华大学出版社,2005. [21][36][38] DAMA International. DAMA DMBOK-Data Management Body of Knowledge(2rd edition)[EB/OL]. [2020-05-22]. https://technicspub.cm/dmbok/.
[22] 刘越男.当代机构文件管理的趋势分析[J].档案学通讯, 2008(2):34-37.
[23] 郭凯天. 以精细科学的制度设计,释放数据生产要素 价值[EB/OL].[2020-05-19]. http://www.qstheory.cn/ laigao/ycjx/2020-04/21/c_1125886638.htm.
[24] 冷立新,张卫东,李海军.智慧法院背景下档案管理模式 创新研究[J]. 北京档案,2020(3):25-28.
[25] 刘立明.深耕数据,让数据驱动业务发展[EB/OL]. [2020-05-19]. https://www.jianshu.com/p/336a15fe243f.
[26] 国家档案局中央档案馆关于印发《全国档案信息化建设 实施纲要》的通知[EB/OL]. [2020-05-19]. http://dag. dlou.edu.cn/2017/0406/c5094a61223/page.htm.
[27] 人大网. 中华人民共和国档案法(修订草案)征求意见 [EB/OL].[2020-05-19]. http://www.law-lib.com/fzdt/ newshtml/20/20191102075625.htm.
[28] 梅亮,陈劲,刘洋.创新生态系统:源起、知识演进和理论 框架[J].科学学研究,2014,32(12):1771-1780.
[29] 钱毅.新技术环境下电子文件管理纵深发展关键问题分 析[J].档案学通讯,2020(2):4-9.
[30] 俞可平.治理和善治:一种新的政治分析框架[J].南京社 会科学,2001(9):40-44.
[31] 刘越男,杨建梁.美国联邦政府文件管理与信息资源管理 的整合路径及启示[J].电子政务,2018(11):35-46.
[32] 刘越男.大数据政策背景下政务文件归档面临的挑战 [J].档案学研究,2018(2):107-114.
[33] 刘越男,杨建梁,张洋洋.单轨制背景下电子签名的归档 保存方案研究[J].档案学通讯,2019(3):26-35.
[34] GLAM Peak[EB/OL].[2020-05-26]. http://www. digitalcollections.org.au/glam-peak.
[35] 王强,高强.业务系统数据归档研究—以中国石油业务 系统数据归档实践为例[J].浙江档案,2019(12):36-39.
[37] 王姝.今年将制定生物安全法、个人信息保护法、数据 安全法[EB/OL].[2020-05-25]. https://www.sohu.com/ a/397548278_114988.
[39] 钱毅. 单轨制电子文件管理成熟度模型[R].北京:第九 届中国电子文件管理论坛. 2019.
[40] 肖秋会,陈梦.基于CMM的机构数字保存能力成熟度模 型研究[J].档案学通讯,2016(1):55-60.
[41] The Information Governance Professional (IGP) Certification [EB/OL].[2020-05-26]. https://www.arma.org/page/igp.