期刊文献+

科研机构名称归一化实现 被引量:13

Realization of Research Institution Name Normalization
原文传递
导出
摘要 [目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。[方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。[结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。 [ Purpose/significance] Institution names are numerous and complicated. The normalization of institution names brings the authoritative name and the informal ones ( both at different times and in different ways of expression ) of the same institution together, enhancing comprehensiveness and accuracy of searches, promoting interoperability with other systems, and thus realizing resource sharing. [ Method/process] Based on the analysis of institution names' characteristic and K-means algorithm, this paper utilizes the edit distance similarity algorithm to achieve name normalization of institution names. Then uses TF-IDF to calculate the weight of each item, around the cluster center to normalize institution name based of K-means algorithm and gives the unique identifier to every cluster. [ Result/conclusion] It achieves name normalization of the same institution name in different forms. And it improves the precision of institution name cluster, but the choice of K value and distance measurement method still needs to be optimized.
作者 贾君枝 曾建勋 李捷佳 付晓梅 Jia Junzhi;Jianxun Zeng;Li Jiejia;Fu Xiaome(School of Economics and Management, Shanxi University, Taiyuan 030006;Institute of Scientific and Technical Information of China, Beijing 100038)
出处 《图书情报工作》 CSSCI 北大核心 2018年第13期103-110,共8页 Library and Information Service
基金 国家社会科学基金项目“机构规范文档结构及构建方式研究”(项目编号:15BTQ015),国家社会科学基金重点项目“基于关联数据的中文名称规范档语义描述及数据聚合研究”(项目编号:15ATQ004)研究成果之一
关键词 科研机构名称 聚类 K-MEANS research institution name cluster K-means
  • 相关文献

参考文献10

二级参考文献72

共引文献341

同被引文献150

引证文献13

二级引证文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部