关键词:区块链;联盟链;电子文件;电子档案;真实性
摘要:由于电子文件具有易修改、易损毁等特点,导致其在法律凭证功能上存在先天不足,跨机构调阅电子档案难被信任。从全社会范围来看,各机构直接归档单套电子文件仅仅是完成了第一步任务,如何解决跨机构可信认证问题,才是电子文件全面推广的关键。在单套制背景下,传统的依靠档案机构信用来确保电子文件真实性的做法存在风险,PKI/CA技术自身也存在缺陷。为解决跨机构电子文件的信任问题,中国石化尝试通过区块链技术确保电子文件的公信力。虽然区块链技术能解决电子文件真实性问题,但不能解决电子文件管理的所有问题,自身的技术风险也值得关注。中国石化在实践中将多种手段组合起来以确保电子文件真实、完整、安全和可用。
本期为大家带来“技术变革背景下的电子文件管理”系列研究员成果第四篇——李春艳《区块链技术在大型企业集团电子文件管理中的应用———以中国石化为例》
戳此链接快速回顾本系列往期推文:
区块链技术在大型企业集团电子文件管理中的应用———以中国石化为例
李春艳1 乔 超2
(1.中国石油化工集团有限公司,北京100728;2.石化盈科信息技术有限责任公司,北京100007)
摘要:由于电子文件具有易修改、易损毁等特点,导致其在法律凭证功能上存在先天不足,跨机构调阅电子档案难被信任。从全社会范围来看,各机构直接归档单套电子文件仅仅是完成了第一步任务,如何解决跨机构可信认证问题,才是电子文件全面推广的关键。在单套制背景下,传统的依靠档案机构信用来确保电子文件真实性的做法存在风险,PKI/CA技术自身也存在缺陷。为解决跨机构电子文件的信任问题,中国石化尝试通过区块链技术确保电子文件的公信力。虽然区块链技术能解决电子文件真实性问题,但不能解决电子文件管理的所有问题,自身的技术风险也值得关注。中国石化在实践中将多种手段组合起来以确保电子文件真实、完整、安全和可用。
关键词:区块链;联盟链;电子文件;电子档案;真实性
引文格式:李春艳,乔超.区块链技术在大型企业集团电子文件管理中的应用——以中国石化为例[J].档案学通讯,2020(1):13-20.
前端业务的信息化意味着纸质文件的减少,但若为了符合存档要求而打印纸质文件又违背了信息化的发展初衷。为适应前端业务的信息化,中国石化在电子文件管理方面,也在不断积极尝试,在更多业务领域尝试电子档案的单套制管理。
最新版的档案管理系统实现了纸质档案管理与电子单套制管理的融合。为保证电子文件的真实性,对于归档的业务系统实施准入制,业务系统的相关背景信息(包括可研报告、接口方案、测试报告等)全部保存。在保证完整性方面,结合国家《文书类电子文件检测的一般要求》,针对不同业务线条的特点,制定了不同的 “四性”检测标准,并将检测标准嵌入到档案管理系统,实现了可视化检测。在云平台上开发了非结构化数据存储组件,用于保障数据的安全性。借阅和保存阶段,使用了比较成熟的数字签名、数字水印等技术。向所有归档的业务系统颁发数字证书,所有的归档数据都要通过数字证书进行验签。
2016年,中国石化承担了国家档案局 “电子文件归档和电子档案管理试点”工作任务,尝试对电子会计、电子公文、工程项目电子招投标文档实施单套制归档,即直接归档电子版文件,不再打印纸质版归档,其最终目标是证明跨机构电子档案的真实性,确保其法律凭证价值。
电子文件的信任危机主要体现在对电子数据的可信性和电子证据的合法性两个方面,凭证性是电子文件的基本属性,合法性是电子文件的社会属性。在社会环境中,电子文件的可信性仍然是制约全面无纸化的核心问题,合法性则是企业全面推进互联网深化应用的前提,也是技术服务从生产效率提高到合规性保障的进化因素之一。因此,解决电子文件的可信性问题是企业信息化过程中无法回避的重要问题。
大多数单位将电子文件与元数据绑定,通过封装等手段证明其真实、完整,但各单位的元数据标准各异,管理颗粒度有粗有细,为节省管理难度,一般都简单化处理,很难完全保证电子文件的真实性。
当前社会,公信力一般由政府或政府授权的第三方组织提供。各单位现行的档案管理模式是中心化管理模式。这种模式下,只有档案机构一个中心,电子档案的公信力由其管理机构提供。在极端情况下,比如规避审计、监察、税务等,档案机构有可能篡改档案系统里的数据,而且不留下任何痕迹,篡改的成本较低。
区块链技术确保电子档案未被篡改是基于密码学原理,而不是基于机构的信用。区块链具有公信力,是通过技术手段实现的。如果想要篡改区块链信息,必须同时控制住链上超过51%的节点,否则单个节点对数据库的修改是无效的。存储在不同节点的数据信息都受到密码学技术的保护,没有合法授权无法窥探到数据信息的内容。
在区块链技术应用于认证和真实性保障之前,一般采用的是PKI/CA的解决方案,其方案的严谨性也得到了公众的认可。身份认证由 CA颁发的公钥证书解决,非对称加密算法支持秘钥传递,对称加密算法提高运算效率,Hash算法解决了完整性验证的问题,各类密码技术相互组合,形成了一个完整的解决方案,基于该方案的电子签名等的应用也为电子文件的真实性提供了保护。然而,作为一个商业解决方案,因其参与方众多,且标准各异,导致问题明显,例如,用户的可用性、应用的标准化、多方应用的协同化等都成为不可回避的问题。据统计,目前具备电子认证服务许可的机构近40家,在整个认证产业链上下游的机构更是多达一百余家,其标准的统一性及跨认证机构之间的互通性难以协调,这成为制约CA推广的核心因素。例如,某企业收到10家外部单位传递过来的电子文件,为了验证这些电子文件的真实性,可能需要分别调用这10家单位的CA体系进行验证,因为每一家单位的CA都可能不一样。全国范围内没有统一的CA验证根节点,当出现跨企业通信的时候,PKI/CA难以提供较好的数据可信交互。不过这并不是一个单靠技术就可以解决的问题,须国家层面和产业参与者积极推进国家和行业标准的落地及产业融合,藉以解决其应用的标准化和规范化问题。
2016年麦肯锡公司发布报告,认为区块链技术将会是继蒸汽机、电力、信息和互联网科技之后,目前最具潜力触发第五轮颠覆性革命浪潮的核心技术。区块链的不可篡改性等技术特点,先天适应于对电子文件的可信性保护,且由于其共识机制和智能合约等的使用,使得跨机构的信任问题能够被有效解决,有较多的学者和企业已经在探索区块链在文档管理领域的可用性了。[2-5]它较为妥善地解决当今社会的两大难题:隐私保护和信任问题,这两个问题恰恰是困扰电子文件管理的核心问题。
按照网络范围及节点分布情况,区块链一般分为公有链、联盟链和私有链。公有链一般用于全开放文档管理,联盟链和私有链一般用于不全开放文档的管理,可以控制文档的权限。在企业级中的应用中,大都选择 “联盟链”的方式[6],既保证了参与者的范围可控,又能保障运算承载能力。
在工信部公布的《区块链基础架构》中,定义了区块链的基础架构层级,符合和满足该架构要求的系统均可以称之为 “区块链平台”,除比特币、以太坊以外,国内外各大公司都纷纷推出了自己的区块链服务平台,如微软、IBM、阿里等也都积极投入和研究。然而在企业级应用中,并非所有企业都具备独立构建基础架构的能力,因此,选择开源平台进行应用开发就成为较好的选择。在选择区块链平台时,所选择的平台应该具备满足企业级应用部署、具备较高承载性能、能耗较低,且能够与集团的身份认证和业务应用进行扩展集成的能力。在综合考虑各项因素的基础上,Hyperledger Fabric成为比较好的选择。
Hyperledger (超级账本),是由 Linux基金会主导的一个开源计划,由若干跨行业的分布式账本技术(Distributed ledger technologies,AKA DLT)开源技术框架项目组成。该计划目前由 Linux基金会主导运营,创立于2016年,由30个创始公司会员和一套技术和组织治理机构组成。Hyperledger的目标有两个,即创建企业级、开源、分布式账本框架和代码库,以支持商业交易及提供中立、开放和社区驱动的基础设施。因此更适用于联盟链,是大型集团企业构建区块链底层的较好选择。
Fabric是一个模块化的区块链实施解决方案[7],分层设 计 比 较 合 理,核 心 逻 辑 包 括:Membership、Blockchain和 Chaincode,Chaincode Services会 提 供一种安全且轻量级的沙盒运行模式执行 Chaincode逻辑,可根据具体需求设置共识协议[8][9],首选 PBFT算法,根据PBFT计算规则,需要3N+1个节点才能够满足计算条件。当 N=1时,即至少需要4个节点才能满足共识。而为了规避50%-50%的情况出现,一般需要至少五个节点才能更好地形成区块链网络。因此,中国石化基于 Fabirc的联盟链技术在石化内部选取了北京、南京、东营、武汉、广州五个节点搭建中国石化私有链,用于电子档案的存证与验证服务。
3.2建设历程
中国石化最早从2017年下半年开始,在仔细分析 “电子文件归档与电子档案管理”试点项目的要求后,发现在对电子档案真实性保障方面,区块链技术优势较为明显,因此,从2018年初,即开始了对区块链技术平台的选型和技术验证,并搭建了区块链网络、开发了存证智能合约、基于电子档案存证的需求,对相应资产进行定义。整个验证过程持续了半年时间,至2018年10月份开始正式基于中国石化的Pass平台进行区块链服务平台的开发建设,并实现了与Pass平台的集成,区块链服务平台正式落地电子档案系统。截至2019年10月底,存证档案数据已达到五万余条,区块高度约5000。
3.3存证方案设计
电子档案上链的内容及类别。考虑到区块链的定位是 “真实性保障”而非 “数据备份”,且由于数据量大及保密性等要求,中国石化的区块链平台没有存储档案原始数据内容,只是对文件的特征信息和相关元数据的Hash值上链,电子文件原始数据内容还按照原机构的要求存放,由此可减轻各节点数据存储和处理的压力。同时,不是所有类别的电子档案都有上链的必要,重点针对有跨机构调阅或者是跨机构形成的档案进行上链验证。
当业务办结后,由业务人员在前端业务系统提交电子文件的归档申请,并通过在线归档服务直接将打包好的电子文件和元数据发送给档案系统。在数据传递前,为保障电子文件传输安全,并确认前端业务系统身份,会由业务系统对电子文件添加系统级数字签名,在档案管理系统行验签等,以便验证归档源身份。在 “四性”检查通过后,进行业务交接确认,并正式发起归档确认流程,由文件产生部门和档案部门分别对流程进行审批确认,通过审批的文件才算正式 “入库”成为电子档案。
在整个过程中,区块链记录关键环节,并为归档的电子文件和元数据提供背书,保存了归档源和档案接收过程的所有业务信息,通过区块链有效证明电子档 案在接收、保管、利用各阶段文件的真实性。
归档源上链存证:在全流程电子化环境下,电子文件归档是业务系统对档案系统直接传递,因此,须要对归档的数据来源做到事前审核,并在归档过程中随时对来源的真实性进行验证。对通过审核的归档源信息,包括其系统名称、基本情况等元数据信息,系统建设时的相关准入文件等的 Hash值,都应上链保存。当某批次归档实例运行时,则基于准入编号到区块链中对其进行验证,以判别此次归档来源的身份是否已得到认可。
归档档案接收上链存证:在正式开展归档工作时,每一个归档批次的电子文件都对其关键信息进行上链存证,关键信息包括归档交接的来源单位、电子档案的管理单位、发起的时间、相关参与人员等元数据,其中,电子档案的 Hash值作为唯一主键进行标识。档案系统接收到归档包后,完成基本检查和数据解析后,即固化上链保存。在此,唯一主键是系统层面赋予该档案的身份信息,用于后续活动中,在区块链服务平台中对其进行溯源查询。
日常巡检记录上链存证:在档案保管环节,相对于传统档案的定期库房巡检,对电子档案的“库房”和保管情况也应有配套的定期巡检情况。在中国石化电子档案系统中,设计实现了“日常巡检”的系统级功能,根据系统环境和档案保管需要,结合 “四性检查”的要求,设计了电子档案的巡检对象、巡检内容、巡检频率及执行方式,以任务的方式定期执行,以保障电子档案的真实、完整、安全、可用。在完成巡检任务后,即将当次巡检的结果上链保存。
借阅利用记录上链存证:针对档案的利用需求,在查阅权限以外的档案时,需要经过借阅审批流程,经档案所属部门、档案管理部门同意后方可借出,允许在线查看和下载两种情况。中国石化档案系统针对每次下载借阅,根据借阅人信息生成“借阅版本”档案,即生成一份包含借阅人信息及审核信息的电子档案,以便于在文件扩散时能够有效地追踪扩散源头。因此,针对每次借阅的相关信息及“借阅版本”电子档案的Hash值均同步上链保存,在发生扩散或可信性纠纷时,区块链可以提供真实性认证。
电子档案验证服务:鉴于在区块链服务平台中,已经存储了电子档案的归档、巡检、借阅利用等信息,且基于区块链的存储结构可以基于关键值进行追溯,因此,当使用电子档案的人员需要对电子档案真伪进行验证时,可以通过档案管理系统调用区块链验证服务,将本地对电子档案计算的 Hash值与存证链上存储的 Hash值进行对比,从而达到可信验证的目的。
在区块链服务平台的设计上,主要从区块链应用层、业务服务层、服务管理层、基础设施层上进行了整体功能规划。在功能设计上,既保证了本次系统建设的应用,同时对区块链网络的服务功能进行强化,沉淀为Baas服务,为未来更多应用的接入提供便捷服务。
区块链服务平台的功能一般不对普通用户开放,只能通过电子档案系统集成的方式提供利用,服务平台的主要用户包括以下四类:
第一,联盟管理员。负责组织及联盟的定义,并生成联盟创建并运行时各个组织所需要的配置文件及启动脚本,负责联盟基础设施的维护,对联盟的管理负责。
第二,组织管理员。负责基于业务的通道的定义及创建,合约的定义、安装、初始化等操作,并为各个相关组织生成通道启动所需要的配置文件及启动脚本,对业务通道的管理负责。
第三,普通用户。在授权范围内,具有查询和验证电子文件的基础权限。
第四,后台服务。接收联盟管理员、组织管理员通过消息队列发送的操作指令,与 Fabric网络交互,完成Fabric网络的相关操作,并在系统后台实现相应功能。
在接口集成方面,区块链服务平台首先与CA中心集成,实现组织、节点、组织内用户的证书的颁发;其次,与企业内部统一身份认证集成,实现区块链服务平台的统一身份认证登录;再次,与企业内部云平台 (Paas平台)集成,实现系统的持续部署;也可以通过服务发布接口,实现区块链服务平台网关在Paas平台的统一发布管理。
区块链技术的优势在于解决电子档案的信任问题,对于长期保存问题并不擅长,除非有技术能确保电子档案格式变化不会引起 Hash值变化。所以,中国石化采取打“组合拳”的方式管理电子档案,并没有用区块链平台代替档案管理系统,而是与档案管理系统集成。两者之间的集成通信基于档案存证网管实现,主要包括档案文件Hash入链服务、档案文件Hash入链查询服务、档案文件Hash入链历史查询服务、档案流程数据入链、档案流程入链结果查询、档案流程入链结果历史查询,再经由档案存证智能合约,根据规则自动写入区块链网络中。
中国石化的区块链服务平台,主要是基于本企业内网进行搭建,同时将Orderer集群和服务平台搭建在DMZ区,以满足未来对外通信和应用扩展的需要。整体在北京、南京、胜利、广州和武汉搭建5个节点;规划为3个组织,总部和南京为 Bccentral,胜利和广州为 BCApp,武汉为Bcsearch;共同组成1个联盟Sino Consortium;建立了2个通道,Archive Channel和 Contract Channel,支持电子档案和电子合同两类业务;使用 Kafka集群方式协助提供分布式消息队列和应用程序协调服务,为各个节点的数据一致性提供保。网络部署架构如图2所示。
Gartner在2019年新发布的技术成熟度曲线中显示,区块链的泡沫已经逐渐消匿,技术正在趋于成熟中,已经在向实际应用中普及和发展,反过来说,也就意味着区块链技术仍未完全成熟,在企业级应用中仍需对其安全性和稳定性进行关注。[10]
区块链的安全性主要体现在对上链节点的数据修改和对区块链系统本身的破坏,虽然一直在强调区块链技术的不可篡改性,但严格来说,不可篡改不等于不能篡改,只是成本和代价更高而已。[11-12]目前已知对区块链系统的攻击方式,根据破坏的对象不同,大致可以分为双花攻击、可用性攻击、规则性攻击三类。根据不同的攻击方式,有的可以通过共识机制、加密算法、确认方式等来避免发生,有的需要通过用户意识、设计和使用规则等方式来预防,也有的即使了解其原理仍然很难规避,需要在企业级区块链应用加以关注。
稳定性则体现在区块链服务平台的处理效率和持续可用性上,毕竟企业级应用中,很多业务系统是需要24小时不间断运行的,业务办理的频率较高,因此对区块链的稳定设计和日常运维也应引起足够的重视。
一方面,要实现电子档案在全社会范围内的互信和共享,往往需要以联盟链的方式,组织多个机构、企业共同参与,以多节点背书、网络共识的方式,对共同网络环境中电子文件的可信性进行认可。
另一方面,虽然从计算规则中,各节点的权利相当,但在公众认知中,大都自发性的倾向于信任国家机构等具有社会权威性的组织,因此,在联盟链的组建时,由国家机构参与可以很大程度上提高企业或行业级区块链联盟的社会公信力。
冯惠玲提出,在档案管理系统中“系统的思想、协调的思想、前端控制的思想须贯穿于整个管理系统的设计和运行过程中”[13],将档案学理论研究的视角扩展至档案归档之前。目前,中国石化的应用场景中,区块链技术并不能保证文件在其形成之初的可靠性,也就是说无法控制文件被写入区块链之前的质量,并且在长期维护可信电子文件方面也存在一些局限性。[14]因此,要实现对电子档案可信性的保证,仅仅从电子文件进入档案系统中开始保护是远远不够的,应该向前延伸到其全生命周期的起始状态,即电子文件的生成和办理环节,包括电子文件生成、移交、归档、档案保管、利用等环节。[15-16]
目前在市场上,很多互联网公司都已经基于各自业务特点或社会需要牵头搭建了联盟链,如安妮股份的版权家、百度图腾等用于版权保护,北京互联网法院的天平链和广州互联网法院的网通法链用于电子证据保全,法大大的法链用于电子合同签订[17],京东的致臻链用于商品溯源[18],等等。而在企业应用中,区块链平台往往无法以单体业务的情况存在,根据企业的经营范围,涉及的业务领域方方面面,且不同业务之间存在较多的差异性。
中国石化规模大、产业链长、数据资源丰富[19],信息系统众多。各业务的最后一个环节是归档,若前端业务系统各自基于本业务搭建区块链,则很难满足电子文件全生命周期的上链需求。因此,在构建集团级区块链时,应从整体信息化角度做好顶层设计,不应在每个业务域甚至每个业务线条搭建各自的联盟链,建议考虑多链多通道方式。基于Fabric络中可以包括多条链 (Chain)的情况进行设计,在 Fabric中的链=1个通道+1个账本+N个成员。链将参与方和交易 (Transaction)进行隔离,从而满足了不同业务场景不同的人访问不同数据的基本要求。
原文载《档案学通讯》 2020 年第 1 期,经杂志社授权后发布。
在应用一项新技术之前,要认清技术究竟能够解决电子文件中的什么问题,不能解决什么问题,应用后产生什么新问题,如何解决新问题。首先,区块链在文件、档案管理中的技术优势在于对信息内容的隐私保护和增强信任。从中石化的应用中,能发现区块链系统的搭建不是仅靠文档部门单枪匹马就能完成的,需要跨部门统筹并将整个组织机构的信息化工作调动起来。其次,应用区块链前应做好充分准备,包括方案设计、上链文件筛选、存证业务梳理、归档方法设计,以及如何在新的运行模式下进行利用等诸多问题。
中国石化电子档案管理系统与区块链融合的成功实践向我们展示了区块链在保障文件、档案真实性方面的应用场景与特殊优势,也为其他兄弟单位开展相关实践提供了可资借鉴的实践蓝图。
[1] 中国区块链技术和产业发展论坛.中国区块链技术和应用发展自皮书[EB/OL].[2019-11-30].htp://www.fulrich. com/Uploads/article/fle/2016/1020/580866e374069.pdf.
[2] 刘越男. 区块链技术在文件档案管理中的应用初探[J].浙江档案,2018(5):7-11.
[3] 徐欣欣. 文件档案管理中的区块链技术应用研究综述[J].浙江档案,2018(5);12-15.
[4] 何晓东, 黄新荣. 浅析区块链技术在电子文件管理中的应用J].档案与建设,2018(2):4-8.
[5] 张珊. 区块链技术在电子档案管理中的适用性和应用展望[J].档案管理,2017(3):18-19.
[6] BUTERINV.私有链 VS公有链VS联盟链[EB/OL].[2019-11-30].https://blog.ethereum.org/2015/08/07/o-public-and-private-blockchains/.
[7] 超级账本Fabric的架构与设计[J].电脑编程技巧与维护,2017(18);4-5.
[8] 韩璇,刘亚敏.区块链技术中的共识机制研究[J].信息网络安全,2017(9):147-152.
[9] NAUMOFFA.为什么区块链需要”权威证明”取代”权益证明”
[EB/OL].[2019-11-30]http://chainb.cm/?P=Cont&-id= 4283.
[10] GARTNER. Hype Cycle for Blockchain Technologies, 2019 [R].[2019-1l-30].https://www.gartner.cm/en/newsrom/press-releases/2019-09-12-gartner-2019-hype-cyele-forblockchairbusiness-shows.
[11] 腾讯安全《2018上半年区块链安全报告》[EB/OL].[2019-11-30].https://slab.q.com/news/authority/1754.html.
[12] UMII.浅谈最近流行的三起区块链 51%算力攻击[EB/OL].[2019-11-30].htp://www.freebuf.com/articles/blockchain-articles/173022.html.
[13] 冯惠玲.档案技术革命带来的理论思考[J].中国档案,1997(1):36-37.
[14] 刘庆悦.基于区块链技术的电子档案管理模型探索[J].浙江档案,2018(10):22-24.
[15] 邱意民;杨迪,周亮.可信电子文件管理框架模型研究[J].电力信息与通信技术;2017(6);62-66.
[16] 覃山芳.我国可信电子文件管理的现状分析[J].档案,2017(1):46-49.
[17] 法链发布国内率先区块链存证白皮书电子存证步入”数字信任”时代[EB/OL].[2019-11-30].http://shanghai. xinmin.cn/latest/2017/05/12/31023056.html.
[18] 京东区块链技术实践白皮书(2019)[R].[2019-11-30].https://blockchain.jd.com/WhitePage.
[19] 何世念.以信息化再造中国石化[J].中国石化,2016(9):1.
[20] 中国区块链技术和产业发展论坛.中国区块链技术和应用发展白皮书[EB/OL].[2019-11-30].http://www. cbdforum,cn/beweb/index/article/rsr-6.html.
[21] 刘越男.区块链技术在文件档案管理中的应用初探[J].浙江档案,2018(5):7-11.