往期推文中,我们为大家推出了多个主题的中心研究员成果(公众号主页菜单栏“学术动态—研究员成果”中可查看)。
本期将继续为大家推出一个新的专题——“档案知识服务理论与实践”专题,相关成果有以下5篇:
本期分享的论文来自聂曼影等《档案跨媒体知识服务应用研究》。
聂曼影,国家档案局科学技术研究所情报及标准化研究室主任、研究馆员。 国际标准化组织信息与文献委员会档案和文件管理分技术委员会(ISO/TC 46/SC11)委员,国际标准化组织文件管理技术委员会应用问题分委员会(ISO/TC 171/SC2)委员,国际档案理事会会刊《逗号》编辑(2008至今)。
摘要:档案信息是重要的数据源,充分开发利用档案数据资源,可以大量释放数据要素红利,为国家治理体系和治理能力现代化持续赋能。《中华人民共和国档案法》第34条中规定,国家鼓励档案馆开发利用馆藏档案,通过开展专题展览等活动进行宣传。而其中的档案信息通过文本、照片、音频、视频和实物等不同类型的媒体介质传播或展示,需要档案部门从不同渠道获取不同媒体形态的档案信息,因此建立效率快、精准度高可读性强的档案开发利用体系就显得十分重要。
引文格式:聂曼影,郑莹斌,颜祥林.档案跨媒体知识服务应用研究[J].中国档案,2022(09):70-71.
中图分类号:G279.2
人工智能在文献知识服务领域的探索起步于单一媒体的理解与应用,而新一代的人工智能涉及知识服务的应用则加入了跨媒体智能的研究。随着近年来人工智能方法的显著进步,一系列以计算机视觉、自然语言处理等技术为基础的跨媒体解析、检索与应用方法已有所进展。但现有面向跨媒体数据的方法,主要针对海量的互联网数据构建通用的知识库和知识图谱,直接将其迁移到档案领域往往有较大的差异。尽管各档案馆馆藏的档案数据内容有一定的差异,但国家档案局发布了一系列规范和标准,同一类别的档案馆(室)保存的档案数据往往有一定内容上的相关性和形式上的相似性。这就为构建一个基于跨媒体智能的档案数据知识挖掘原型,再根据档案馆(室)的实际需求进行客制化应用创造了可能性。
一般来说,当深度学习应用于一个与训练数据有一定差异的新场景中时,如因图像质量带来的损失、因年代原因导致拍摄内容的差异等,深度神经网络的识别精度往往有一定幅度的下降。档案数据作为人工智能新的应用场景,与现有主流模型训练数据集也具有一定的差异。相比之下,人类的视觉、听觉、语言认知系统可以准确地识别出各类带有一定差异的物体,其中一个因素在于人类对事物的认知是综合了多个模态的输入、以一种跨媒体的形式进行处理和认知的。因此,为了能够提升档案数据处理、管理和利用的效率,有必要设计一定的机制,从而让现有的各类深度网络模型更为鲁棒,能够让计算机系统像人类一样快速适应持续变化的档案内容。本文提出了一套档案跨媒体知识服务框架(如图所示),其中,文本、图像、声音、视频不同类型的档案数据作为数据基础,首先对其进行向量化的表示;其次,聚焦于如何利用跨媒体的内容进行智能分析,从而搭建面向各类型档案的跨媒体表征模型;最后,在此基础上进行跨媒体数据关联理解与挖掘,实现档案数据和知识的开发利用,并最终搭载在满足档案部门实际需求的电子档案智能管理系统中。
该文总结了档案大数据从量化表示、建立关联、挖掘内涵到最终利用的几个阶段的流程与机制,并通过对单种媒体和跨媒体档案资源进行对比分析,提出了跨媒体档案数据的表示、关联理解与挖掘的具体建议。通过特征数据输出结构化的知识表示,进行数据的关联构建,利用跨媒体档案数据构建的知识图谱,对于提高跨媒体检索的查全率与查准率都大有裨益,可提高档案数据治理的效率与水平。
首先,档案跨媒体知识服务框架有助于实现对文本、图像、音频、视频等不同类型档案数据的高效开发利用,这在满足数字时代档案部门开发需求的同时,与便于社会各方面利用的档案工作的根本目的高度契合。
其次,文章将新一代人工智能涉及知识服务的应用加入跨媒体智能的研究中,例如计算机视觉、语音识别、迁移学习等,不仅能够提高数据处理的效率和精准度,也是对时代潮流的顺应和迎合。
总体而言,文章给出了用于指导实践的档案跨媒体知识服务框架,从而为档案数据化的过程提供了更具落地性的模型,对数据化、数据组织关联与应用的技术逻辑与方法都做了相对细致的阐释。
文案:贺谭涛 李桂英 张直前 李泊泳 宋宇新 卿非
校对:张茜雅 许晓彤
排版:姚立颖
审核:钱毅