2022年4月16日,由中国人民大学电子文件管理研究中心、中国人民大学信息资源管理学院主办的第十二届“中国电子文件管理论坛”成功在京举办。论坛的主题为“深耕内容——电子文件管理深化与服务升级”。来自党政机关、企事业单位、高等院校、科研院所、档案信息技术公司的400多名代表,共同探讨在电子文件与数据管理深度融合的背景下,如何通过深耕内容实现电子文件与档案资源的价值转化和业务赋能,推动电子文件的单轨制拓展和数据化转型。经会议报告人授权,研究中心刊发部分报告仅供参会人员会后学习使用。未经授权,不得转载。
内容智能:文档数据化的机制与效用
中国人民大学信息资源管理学院讲师、师资博士后杨建梁和祁天娇从内容智能的视角出发,重点探讨了文档数据化的内涵、任务框架、方法体系和实际应用。文档数据化是指将非结构化数据转变为机器可计算分析的数据,是从信息记录到可计算分析的数据的过程,其最终目的是文档资源的开发利用,具有人机协同、利用驱动、粒度细化、面向计算的特点。从内容和方法来看,文档数据化主要涉及4项任务,一是转录识别,用于解决文档内容可操作,主要有人工识别、OCR、语言模型、声学模型、关键帧识别等方法;二是描述增强,用于解决文档内容可理解,主要有元数据著录、元数据自动抽取、叙词表构建、主题发现、序列标注等方法;三是图谱构建,用于解决文档知识可获取,主要有本体构建、序列标注、实体消歧、关系抽取等方法;四是矢量处理,用于解决文档数据可计算,主要有图像表示学习、音频特征工程、文本表示学习、知识表示学习等方法。最后,以文档数据化编研为例呈现了数据化的机制与效用,通过文档的结构化、语义化和智能化能够实现编研成本的降低、利用效率的提升、协作能力的增强和成果形式的丰富。例如,将原来上百位编研人员1-2个月的漫长编研过程缩短至2-3天,不再需要纸质印刷,每年可为企业节省人力成本几百万元。