施泽昊 张雨卉 王 萍
信息与管理研究. 2026, 11(1): 52-63.
本文旨在应对数字时代图书馆特藏资源普遍存在的“隐藏馆藏”困境,即大量珍贵文献因未被充分著录而无法为学界所用。传统人工著录效率低下,而光学字符识别(OCR)技术在处理版式复杂、字体多样的历史文献时存在根本性局限。为突破此瓶颈,本研究构建并验证了一种基于多模态大模型(MLLM)的智能著录新模式,其核心是一个集成了视觉语言模型(VLM)、大语言模型(LLM)与人机协同的“VLM+LLM+HITL”工作流。以版式极为复杂的戏单为实证案例,本研究从效率、准确率、成本效益与用户体验四个维度进行了全面的量化评估。实验结果表明,该模式可将单份文献的平均处理时间从1小时缩短至20分钟,效率提升66.7%; 在AI初始准确率达75% 的基础上,通过人机协同可实现近乎100%的最终准确率。成本效益分析显示,该模式的效益成本比高达 2.78。此外,面向专业编目员的用户体验评估获得了82.5分的系统可用性量表(SUS)高分。本研究的核心贡献在于: 技术上,验证了VLM 在复杂文档智能处理上的优越性; 方法上,提出了一个包含错误类型分析、成本效益与用户体验的多维评估框架; 实践上,为解决“隐藏馆藏”问题、活化海量特藏资源提供了一套经过验证、具备经济可行性与良好用户接纳度的可扩展解决方案,为国家文化遗产数字化战略的深度实施提供了关键的技术与方法论支撑。