本次会议主题包括:分类与注释(Classification & Annotation)、真实性与信任(Authenticity & Trust)、新兴挑战与机遇(Emerging Challenges & Opportunities)、生成式人工智能与大语言模型(Generative AI and LLMs)。此次会议共接收了12篇论文,作者来自于中国人民大学、英属哥伦比亚大学、加州大学尔湾分校图书馆、马里兰大学、南非大学等高校和科研单位,我中心刘越男教授率领团队撰写的论文被接收并受邀在大会上进行发言,这是中国高校学者首次在IEEE国际大数据会议计算档案学(CAS)分会上发声。
由电子文件管理研究中心研究员刘越男、杨建梁、梁凯和学生研究员张茜雅合作撰写的《Exploring the Application of Large Language Models in Detecting and Protecting Personally Identifiable Information in Archival Data: A Comprehensive Study》探讨了大型语言模型(LLMs)在检测和保护档案中个人可识别信息(PII)的应用。该研究将传统的有监督学习方法与LLMs在PII检测中的无监督能力进行对比,发现LLMs在不依赖大量训练数据的情况下可获得较高性能,并且通过实证研究验证了LLMs在识别大量档案中个人信息的可行性,尤其是LLMs在增强AI可解释性方面的优异表现极大提振了档案领域应用AI的信心,为计算档案学研究提供了新的思路。