本期所辑选的文献聚焦人工智能与文件档案管理的交互关系,探讨了文件档案管理与人工智能相交后浮现的应用场景、发展空间和潜在挑战。
1. 解密数字档案:人工智能和原生数字数据的跨学科视角
Unlocking digital archives: cross‑disciplinary perspectives on AI and born‑digital data
Lise Jaillant(拉夫堡大学社会科学学院)
Annalina Caputo(都柏林大学工程与计算学院)
期刊:AI & SOCIETY
DOI:10.1007/s00146-021-01367-x
引用格式:Jaillant L, Caputo A. Unlocking digital archives: cross-disciplinary perspectives on AI and born-digital data[J]. AI & society, 2022(37): 1-13.
摘要:本文由计算机学者与数字人文学者合作撰写,探讨了数字时代文化遗产机构面临的挑战,这些挑战导致绝大多数原生数字档案的“关闭”。本文主要关注被历史学家、文学家和其他人文学者使用的文化机构,如图书馆、博物馆和档案馆。由于隐私、版权、商业和技术问题,文化机构保有的大多数原生数字记录文件是无法访问的。即使原生数字数据是公开可获取的(如网络档案),用户也往往需要亲自前往大英图书馆或法国国家图书馆等存储库查阅网页。如果有足够的样本数据来学习和训练算法模型,人工智能(或者更确切的说)及其学习算法,提供了通过学习执行人类复杂任务以改善和缓解数字档案使用的机会。这些任务包括为档案检索提供智能支持,将繁琐和耗时的任务自动化。在本文中,我们将重点介绍敏感性审查作为解锁数字档案的实用解决方案,它将允许档案机构提供非敏感信息。但这种使档案更容易被获取的承诺并没有对潜在的陷阱和风险提出警告:固有的错误,使算法难以捉摸的“黑箱”方法,以及与偏见、虚假或片面信息有关的风险。我们的核心论点是,人工智能可以实现使数字档案馆藏更易获取的承诺,但它也创造了新的挑战——特别是在伦理方面。在结论中,我们坚持认为在使数字档案更容易获取的过程中,公平、问责和透明是非常重要的。
摘要原文:Co-authored by a Computer Scientist and a Digital Humanist, this article examines the challenges faced by cultural heritage institutions in the digital age, which have led to the closure of the vast majority of born-digital archival collections. It focuses particularly on cultural organizations such as libraries, museums and archives, used by historians, literary scholars and other Humanities scholars. Most born-digital records held by cultural organizations are inaccessible due to privacy, copyright, commercial and technical issues. Even when born-digital data are publicly available (as in the case of web archives), users often need to physically travel to repositories such as the British Library or the Bibliothèque Nationale de France to consult web pages. Provided with enough sample data from which to learn and train their models, AI, and more specifically machine learning algorithms, offer the opportunity to improve and ease the access to digital archives by learning to perform complex human tasks. These vary from providing intelligent support for searching the archives to automate tedious and time-consuming tasks. In this article, we focus on sensitivity review as a practical solution to unlock digital archives that would allow archival institutions to make non-sensitive information available. This promise to make archives more accessible does not come free of warnings for potential pitfalls and risks: inherent errors, “black box” approaches that make the algorithm inscrutable, and risks related to bias, fake, or partial information. Our central argument is that AI can deliver its promise to make digital archival collections more accessible, but it also creates new challenges – particularly in terms of ethics. In the conclusion, we insist on the importance of fairness, accountability and transparency in the process of making digital archives more accessible.
2. 使用机器学习来增强社交媒体档案的处理工作
Using Machine Learning to Enhance Archival Processing of Social Media Archives
作者及机构:
Lizhou Fan(密歇根大学)
Zhanyuan Yin(芝加哥大学)
Huizi Yu(布朗大学)
Anne J Gilliland(加州大学洛杉矶分校 教育和信息学院)
期刊:ACM Journal on Computing and Cultural Heritage (JOCCH)
DOI:10.1145/3547146
引用格式:Fan L, Yin Z, Yu H, et al. Using Machine Learning to Enhance Archival Processing of Social Media Archives[J]. Journal on Computing and Cultural Heritage (JOCCH), 2022, 15(3): 1-23.
摘要:本文报告了一项利用机器学习来识别社交媒体档案中仇恨言论的发生和变化动态的研究。为了更好地应对这种大规模和快速演变档案的处理需求,我们提出了数据驱动和循环的档案处理方法(DCAP)。作为概念验证,本研究聚焦与COVID-19有关的英文推特档案。在2020年2月至6月期间,反复抓取推文,并将其摄取、聚合在COVID-19仇恨言论推特档案(COVID-19 Hate Speech Twitter Archive,CHSTA)中,随后使用生成对抗网络启发的DCAP方法对仇恨言论进行分析。结果表明,使用机器学习和数据分析从CHSTA及类似的社交媒体档案中浮现并证实趋势是有可能的。这些趋势可以为危机应对、争议情况或公共政策制定及后续的历史分析提供即刻有用的知识。该方法显示了整合档案工作流程的多方面潜力,并支持自动迭代的再著录和再鉴定活动,使其更负责任,更迅速地响应不断变化的社会利益并不断发展。
摘要原文:This article reports on a study using machine learning to identify incidences and shifting dynamics of hate speech in social media archives. To better cope with the archival processing need for such large-scale and fast evolving archives, we propose the Data-driven and Circulating Archival Processing (DCAP) method. As a proof-of-concept, our study focuses on an English language Twitter archive relating to COVID-19: Tweets were repeatedly scraped between February and June 2020, ingested and aggregated within the COVID-19 Hate Speech Twitter Archive (CHSTA), and analyzed for hate speech using the Generative Adversarial Network–inspired DCAP method. Outcomes suggest that it is possible to use machine learning and data analytics to surface and substantiate trends from CHSTA and similar social media archives that could provide immediately useful knowledge for crisis response, in controversial situations, or for public policy development, as well as for subsequent historical analysis. The approach shows potential for integrating multiple aspects of the archival workflow and supporting automatic iterative redescription and reappraisal activities in ways that make them more accountable and more rapidly responsive to changing societal interests and unfolding developments.
3. 档案和AI:当前辩论和未来前景的概述
Archives and AI: An Overview of Current Debates and Future Perspectives
作者及机构:
Giovanni Colavizza(阿姆斯特丹大学人文学院)
Tobias Blanke(阿姆斯特丹大学人文学院) Charles Jeurgens(阿姆斯特丹大学人文学院)
Julia Noordegraaf(阿姆斯特丹大学人文学院)
期刊:ACM Journal on Computing and Cultural Heritage (JOCCH)
DOI:10.1145/3479010
引用格式:Colavizza G, Blanke T, Jeurgens C, et al. Archives and AI: an overview of current debates and future perspectives[J]. ACM Journal on Computing and Cultural Heritage (JOCCH), 2021, 15(1): 1-15.
摘要:数字化转型正在将新旧档案变成数据。因此,人工智能技术形式的自动化越来越多地被应用于扩展传统的文件保存活动,并尝试以新的方式来捕获、组织和获取文件。我们调查了人工智能和档案思想与实践交汇处的最新发展。我们通过“文件连续体”模型的视角,对不断增长的文献进行了概述。我们在档案和人工智能的文献中发现了四个广泛的主题:理论和职业化考量,文件保存过程的自动化,组织和获取档案,以及数字档案的新形式。最后,我们强调了新的趋势和未来工作的方向,其中包括将文件保存原则应用于为现代人工智能提供动力的数据和过程,以及将人工智能更结构化但有批判性地整合到档案系统和实践中。
摘要原文:The digital transformation is turning archives, both old and new, into data. As a consequence, automation in the form of artificial intelligence techniques is increasingly applied both to scale traditional recordkeeping activities, and to experiment with novel ways to capture, organise, and access records. We survey recent developments at the intersection of Artificial Intelligence and archival thinking and practice. Our overview of this growing body of literature is organised through the lenses of the Records Continuum model. We find four broad themes in the literature on archives and artificial intelligence: theoretical and professional considerations, the automation of recordkeeping processes, organising and accessing archives, and novel forms of digital archives. We conclude by underlining emerging trends and directions for future work, which include the application of recordkeeping principles to the very data and processes that power modern artificial intelligence and a more structural—yet critically aware—integration of artificial intelligence into archival systems and practice.
4. 论科学档案网络的构建:探索控制论思想集合的计算方法
On Constructing a Scientific Archives Network:Exploring Computational Approaches to the Cybernetics Thought Collective
Bethany G. Anderson(伊利诺伊大学厄巴纳 -香槟分校档案馆)
期刊:Archivaria
DOI:10.7202/1078467ar
引用格式:Anderson B G. On Constructing a Scientific Archives Network: Exploring Computational Approaches to the Cybernetics Thought Collective[J]. Archivaria: The Journal of the Association of Canadian Archivists, 2021(91): 104-147.
摘要:档案的计算方法为档案工作者和用户提供了处理文件及其来源的新方法。由于现代科学知识生产的集体和协作性质,计算方法特别适用于科学档案。本文通过“控制论思想集合:科学与技术史门户网站”项目探讨了对参与跨学科科学运动控制论的科学家档案全宗进行数字化的计算方法,以揭示控制论专家通过通信和其他文件的形成和交换发展概念和辩论观点的方式。该项目已经尝试使用机器学习和自然语言处理工具从材料中生成数据,以努力揭示控制论专家和他们通信之间的联系。控制论试图通过机器实验来了解人类的状况,从控制论启发的意义上讲,档案工作者也试图通过机器实验来了解他们的档案。这样的探索对于在数字时代记录像控制论这样的科学思想集合非常重要。
5.既不是自然人也不是法人:电子人身份和不断发展的档案文书学理论
Neither physical nor juridical persons: electronic personhood and an evolving theory of archival diplomatics
Devon Mordell(温莎大学Leddy图书馆)
期刊:Archives and Records
DOI:10.1080/23257962.2021.1873120
引用格式:Mordell D. Neither physical nor juridical persons: electronic personhood and an evolving theory of archival diplomatics[J]. Archives and Records, 2021, 42(1): 25-39.
摘要:2017年,欧盟(EU)通过了P8_TA-PRO0051号决议,概述了对机器人民法规则委员会(Commission on Civil Law Rules for Robotics)的一系列建议。尽管该决议表面上以未来主义为前提,但它坚定地基于当前的关切:为欧洲立法者绘制自主机器人的法律和伦理影响。欧盟的决议中包括一项提议,即研究为电子人创建法律地位,从而使自主机器人可以为自己造成的损害负责。一项授予电子人格的立法文书即将改变一个不起眼的领域,那就是档案文书学:电子人的前景对其基本理念构成了特殊的挑战。文书学中人的定义,即文件的核心要素,尚未讨论到电子人或电子人格的可能性。文章将从关于机器人的法律研究中提供一个探索性的概述,以说明自主机器人和人工智能系统的人的地位对不断发展的档案文书学理论可能带来什么。
6.基于深度学习的数字文书档案保管期限智能化划分研究
作者及机构:
杨建梁(中国人民大学信息资源管理学院)
期刊:档案学通讯
DOI:10.16113/j.cnki.daxtx.2021.04.015
引用格式:杨建梁.基于深度学习的数字文书档案保管期限智能化划分研究[J].档案学通讯,2021(4):108-112.
摘要:近年来,随着人工智能、区块链等技术的发展和应用,不少学者强调要利用新技术应对信息时代的文件与档案管理挑战,尤其是开展智能化的保管期限划分。澳大利亚档案学家弗兰克·阿普沃德(Frank Upward)等在《网络化时代的文件信息学》(Recordkeeping Informatics for a Networked Age)中明确指出必须对技术辅助鉴定给予足够的关注,否则人们将淹没在信息中。在业界,部分国外档案管理机构已经开始了调查和初步实验,英国国家档案馆、澳大利亚国家档案馆对机器学习辅助保管期限划分展开了调查和研究。作为计算档案学的前沿会议之一,美国电气和电子工程师协会大数据会议的计算档案学分会强调要“将计算科学与档案学理论整合,以支撑长期保管、鉴定等工作”。这些研究动向揭示机器辅助保管期限划分的时代即将到来,有必要对该问题开展研究。
7. 档案鉴定与人工智能:将来,如何以及是谁在言说历史
作者及机构:
洪佳惠(上海大学档案馆)
期刊:档案管理(收录于人大复印报刊资料《档案学》2021年06期)
DOI:10.15950/j.cnki.1005-9458.2021.04.020
引用格式:洪佳惠.档案鉴定与人工智能:将来,如何以及是谁在言说历史[J].档案管理,2021(4):58-61.
摘要:将人工智能应用于档案鉴定就是要构建一个具备机器学习能力的档案鉴定专家系统,但该人工智能系统与人脑的差异、”黑盒子”及不确定性令人们暂时无法放心地将档案鉴定工作交给它。由是,改变档案鉴定的理念或许是一条可行的进路,即依靠人工智能实现的鉴定不再掌握档案的生杀大权,只令其在系统中进行虚拟的价值鉴定,而不在物理意义上进行销毁鉴定。对于档案鉴定专家系统所依赖的全局数据库应尽数保留,对鉴定无用的档案也应一并存入全局数据库进行保存。对于档案中保存的史实,一时代有一时代之观点,一时代的人工智能亦有一时代之”偏见”,只要尽可能多的全局数据被保存,人类的视域也就被最大程度地保留了下来,这可能是目前人的历史不被机器言说所取代的唯一途径。