摘要
随着档案数字化转型的深入发展,业务系统产生的原生电子文件采集归档工作取得了长足的进步,同时非系统产生的传统纸质文件依托光学字符识别(OCR)技术、汉字处理技术等也大量转化为电子化存储状态,形成了海量的电子文件资源库,亟需对这些资源进行结构化的深层次开发。近年来,自然语言处理技术在文本领域发展较快,使用计算机对文本的关键内容进行自动抽取和深度挖掘,逐渐成为文档管理领域热门的技术手段.
出处
《四川档案》
2022年第6期43-45,共3页
Sichuan Archives
基金
国家档案局2021年科技项目“电子文件自动采集归档工具研究”(编号:2021-X-18)的阶段性研究成果。