2020年11月28日,由中国人民大学电子文件管理研究中心、中国人民大学信息资源管理学院、北京市档案馆联合主办的第十一届“中国电子文件管理论坛”在北京市档案馆新馆报告厅成功举办。论坛的主题为“数据管理深度融合下的电子文件管理”,论坛主报告人同来自党政机关、企事业单位、档案局馆、高等院校和档案科技公司的近300名代表,共同交流、探讨了数据管理融合发展背景下电子文件管理深化发展的理论和实践,并展望了电子文件管理在单轨制发展、数据化转型、行业生态构建等方面的走向。
中国人民大学原常务副校长、一级教授、电子文件管理研究中心顾问、国家电子文件管理专家委员会主任冯惠玲代表论坛主办方致欢迎辞。以下为全文:
今年的主题不是孤立地讨论电子文件管理问题,而是把它放在全社会数据管理的大框架大趋势之下加以审视,研讨数字环境下文件档案管理如何与数据管理深度融合。现在很多文件档案工作者强烈的愿望是融入信息化、互联网+,大数据战略等重大发展格局,对于大数据和数据管理强势崛起状态下文件档案管理的命运走向和边缘化态势抱有迷茫担忧,今天我们讨论的问题就是希望为这一重大方向性选择提供一条可以行走的道路和与之配套的落地措施,以一种新的战略性思维和变革,把文件档案管理融入各机构乃至全社会数据管理的大框架中。这是一个大口径多维度多层次的复杂问题,涉及数据管理和文件档案管理体系的很多方面,中国人民大学电子文件管理研究中心和上海鸿翼软件技术股份有限公司联合推出的《数据管理中的文件档案与内容管理白皮书》对此做了比较系统的预研和探讨,刘越男教授的主旨报告将进一步加以解读,其他各位发言人将从不同角度不同层面探索介绍,这些都将引导我们深刻思考电子文件电子档案管理的新思维、新定位、新特点,让我们用放大的文件档案管理心态且听他们分解。
任何人无法抗拒世界正在一步一步走向更加深入且泛化的数据时代,公元前540年古希腊毕达哥拉斯学派提出的“万物皆数”的“数”在今天理解为“数据”倒是十分恰当。数据将继续蔓延至社会宇宙的所有存在之中,人类社会的每一种行为、每一个事件、每一项政策、每一台设备及其运行,以及每一种自然、天体现象随时随地都在产生数据,除了政府、企业、社会组织之外,每个人以及遍布各处的传感器都是现实或潜在的数据生成器,人类将越来越与数据深度连接为伍,不可分割,数据已经并将愈加成为不可或缺不可替代的资源。量子计算机的实验成功使计算能力得到令人乍舌的提升,于是,数据+计算将成为未来所有智慧组织存在和运转的CPU(中央处理器)。2017年初,图灵奖得主吉姆·格雷发表了留给世人的最后一次演讲“科学方法的革命”(17天后他便在钟爱的航海中与人们永远失联),他提出了著名的第四范式理论,即人类的科学研究继实验科学、归纳总结、计算机仿真之后,已经进入数据密集范式,取代选择性获取和抽样而以海量数据分析做出判断和预测成为当今科学研究的出发点。面对数据的全方位爆发乃至泛滥,数据管理自然成为一个大口径的大领域,越来越流行和通用,数据管理的法律法规政策、组织机构人员不断涌现,管理框架日益丰满规范并涵盖广泛,数据互联、数据驱动、数据交易、数据市场要素、数据馆员等新状态新事物不断生长。作为重要数据源的文件档案,在这种情势下如何保持自身的存在感和价值度已经无法回避了,所以,我们今天就和这个问题正面交锋一下。
一个重要的观念是把文件档案和数据关联起来,而不是看作两回事。数字环境中“数据”的基本含义是“可以被机器处理的信息单元”,电子文件毫无疑问与此相符。文件和档案管理是数据管理中具有特殊使命、特殊功能的重要方面军,我们必须理直气壮地以“在其中”的姿态证明自身的意义和价值。在这里,我只想说几句“为什么”,至于“怎么做”则需要太多理论和实践探讨。
文件和档案包括结构化和非结构化数据,在融入数据管理的进程中,对这两类数据要有不同的策略。首先,我们必须实质性接纳、参与结构化数据的管理,促推结构化数据的文件档案化进程。随着信息化的普及,越来越多的机构业务活动、企业生产运行生成大量结构化数据,现实中很多单位的文件档案部门或是忽视了此类数据的文件属性,或是没有能力接收管理,从而使这部分数据处于失控状态。试想一下,如果各机构档案部门中几乎没有业务活动记录,那用什么来全面记述历史、提供证据和参考呢?而信息化部门很可能对于此类数据的长期保存、规范管理缺乏制度和措施保障,这块阵地的自在式生存有可能导致政府、企业信息的散在化和非规范化,同时导致文件档案部门游离于各类业务活动之外,功能逐渐弱化。这个问题几乎可以看做是文件档案管理的生死兴衰选择,得结构化数据者得文件档案完整,反之则不可逃脱文件版图和功能的逐渐缩小,失去一大块自身发展的理由和根基。与其明日哀叹失去,不如今天冲锋占有。
另一方面是非结构化数据,这在现有文件档案中占据大比重,特别是“存量”部分,几乎都是非结构化的。这类文件档案管理融入数据管理的路径就是自身数据化。我们不能停留在纸质档案和计算机辅助管理的案卷级、文件级管理,必须通过细化管理颗粒,采用语义技术,把沉睡的文件档案变成活的知识。数据化过程需要把文件档案内容变成机器可以理解和表达的数据,并藉由算法实现对其中蕴含知识的发现与挖掘。只有做到这一步,文件档案数据才能通过计算与其他数据相通相联,成为喂养培育人工智能的基础原料。未经数据化的文件档案很难达到高度的知识化、资源化,无法与大数据连接通用,无法使文件档案管理融入信息化的愿景成为现实。对于文件档案管理而言,数据化是一次历史性革命性进步,想不想做是第一位的,会不会的问题总有办法解决。我对于档案数据化的意义做了一个微调查:青岛市档案馆开始对非结构化档案数据进行结构化形式化处理,杨来青副馆长说他们走这一步的目的是要“解决档案信息内容控制和开发两个关键问题,包括全文检索、文本挖掘和开放划控等”。中国石油档案馆副馆长王强以石油行业的专业眼光指出:“档案数据化才能激活、关联、重组档案中的信息,让档案从地下油藏增值为石油资源”。中国石油勘探开发研究院档案处谢童柱说:“数字态档案就像产出的原油,虽为人知却不便利用,数据态档案才是方便利用的油气产品”。一位长期从事档案信息化系统开发的老总说:“由于各种原因我们错失了一些电子文件在社会应用层面的黄金发展机遇,如果再次错失数据管理的机遇,文件档案管理难免沦入仓库保管员之境地。采用数据管理就是进入升级版的电子文件管理!”
新《档案法》以及一系列试点开展、标准制定,为电子文件单轨制运行、电子档案单套制管理拉开了大幕。文件档案具有特殊的价值,融入数据管理,汇入计算型社会的资源体系,其生命力自然会旺盛起来。《大数据》一书中有这样一段话:“放眼望去,大地似乎依旧平坦,江河仍然向东奔流,但地表之下,正在平静地发生剧烈变化。每一天世界各地都在定义新的本体,增加新的互联数据。终有一天,世界将数数相联。”用新的理念和方法让文件档案进入互联世界是我们这一代文件档案人的使命和追风动力。《追风少年》歌词中的几句话可以作为对这群追风人的激励:
肩上扛着风脚下踩着土,
心中一句话不认输。
一步一步往前走,
我要做追风的英雄。
衷心感谢论坛联合主办方北京市档案馆的全力支持,感谢各位领导、支持单位和嘉宾的参会,我们一起追风。谢谢大家!
2020年11月28日
原文链接:
https://mp.weixin.qq.com/s/IS9tiqa2dnsjE2kPKN43xQ