【目的】有效利用现有机构规范文档,解决多来源机构规范文档的遴选、评价以及文档间缺少映射、关系冗余等问题。【方法】以调研、梳理已有机构规范文档及相关研究为基础,构建包含元数据收集及分析、元数据框架融合、关系融合、别名融合...【目的】有效利用现有机构规范文档,解决多来源机构规范文档的遴选、评价以及文档间缺少映射、关系冗余等问题。【方法】以调研、梳理已有机构规范文档及相关研究为基础,构建包含元数据收集及分析、元数据框架融合、关系融合、别名融合、构建机构规范文档数据模型、融合结果验证6个步骤的融合模型,对多来源机构规范文档实现融合,并利用Dimensions、Scopus、Web of Science的部分机构数据进行验证。【结果】利用多种指标评估模型的融合效果,在一、二、三级机构中F1值达到0.97以上且Dimensions的融合贡献度最大;构建了包含5128个机构的规范文档。【局限】机构关系只考虑上下级关系,关系之间循环引用以及机构规范名如何选取等问题尚未深入研究;只选取三个来源的部分机构进行验证,在更大数据集上的泛化性能有待进一步验证。【结论】本模型对多来源数据库的机构规范文档的融合是有效的。展开更多
文摘【目的】有效利用现有机构规范文档,解决多来源机构规范文档的遴选、评价以及文档间缺少映射、关系冗余等问题。【方法】以调研、梳理已有机构规范文档及相关研究为基础,构建包含元数据收集及分析、元数据框架融合、关系融合、别名融合、构建机构规范文档数据模型、融合结果验证6个步骤的融合模型,对多来源机构规范文档实现融合,并利用Dimensions、Scopus、Web of Science的部分机构数据进行验证。【结果】利用多种指标评估模型的融合效果,在一、二、三级机构中F1值达到0.97以上且Dimensions的融合贡献度最大;构建了包含5128个机构的规范文档。【局限】机构关系只考虑上下级关系,关系之间循环引用以及机构规范名如何选取等问题尚未深入研究;只选取三个来源的部分机构进行验证,在更大数据集上的泛化性能有待进一步验证。【结论】本模型对多来源数据库的机构规范文档的融合是有效的。