摘要
数字时代赋予档案数据更多机遇和挑战,档案数据资源的建设、档案的开发利用等研究工作的基本要素是可被电子设备理解的档案信息文本。如何将档案信息构建成电子设备可识别的表示形式是档案信息文本表示的主要任务,当前针对此方面的研究相对薄弱。立足数字时代未来发展和应用实践的角度展开研究,首先从客体、主体、问题三个范畴对档案信息文本表示的概念进行解析,然后深入分析档案信息文本表示遵循的四重逻辑,并基于此研究构建档案信息文本表示普适模型UTRA。UTRA是针对档案文本特点构建的普适性模型,实现档案从初始状态的电子档案到算法可理解的档案数据原子态的转换,并对UTRA的整体框架、模型构建方法、Skip-gram&LDA子模块均进行了详细阐述。
The digital age gives the archives data more opportunities and challenges.The archive information text is the basics of the research on archives data resources and the utilization of archives.How to build the archive information into a recognizable representation is the main task of archive information text representation,and the current research in this area is relatively weak.Based on the perspective of future development and application practice in the digital age,this paper first discusses the concept of archive information text representation from the three categories of object,subject and problem,and then deeply analyzes the quadruple logic followed by archive information text representation.Secondly,this paper constructs the universal model UTRA of archive information text representation,gives UTRA model framework,elaborates the Skip-gram module and LDA module respectively,and discusses the theoretical framework and model construction method of the universal model in detail.
作者
陈茜月
CHEN Xi-yue(Archives and School History Museum of Zhengzhou University,Zhengzhou 450000)
出处
《山西档案》
2022年第6期33-40,共8页
Shanxi Archives
基金
国家社科基金项目《档案治理生态系统优化及治理效能提升研究》
河南省档案科技项目“基于智慧管理的高校档案数据化研究”(项目编号:2019-X-17)的阶段性研究成果。
关键词
数字时代
文本表示
数字档案
digital age
text representation
digital archives