基于潜在语义索引的Wikidata机构实体聚类研究被引量：2

Clustering Wikidata’s Organizational Entities with Latent Semantic Index

导出

摘要【目的】Wikidata机构类目范畴树中,存在实例数目过多而使类目的外延过大、不能明确指示及类分资源的问题。为系统化机构名称层级体系,需将这些实例进行划分,使其均衡分布在机构范畴树的各层。【方法】将无监督的层次聚类算法用于解决无类别标签的机构实例的自动聚簇问题。为消除机构实体名称中特征词共现对聚类算法的影响,引入Wikidata中机构实体的相关属性作为其上下文环境。同时聚类算法对数据的维度十分敏感,因此采用潜在语义索引作为文本表示模型,通过奇异值分解将高维数据映射到潜在的低维语义空间。【结果】本文方法在实验数据集上的聚类准确率达到87.3%,取得了较好的聚类效果。【局限】仅在小样本数据集上进行验证。【结论】为机构名称提供上下文环境有利于同类机构的聚集,基于潜在语义索引模型的层次聚类算法对于高维度的文本聚类问题是有效的。 [Objective]This paper proposes a model to classify institutions in Wikidata’s category trees,aiming to better organize these entities.[Methods]We used an unsupervised hierarchical clustering algorithm to automatically cluster the institutional instances without proper tags.To eliminate the influence of the co-occurring feature words,we introduced the relevant attributes of the organizational entities in Wikidata.The clustering algorithm is sensitive to the data dimensions,hence,used the Latent Semantic Index to represent the texts.We also mapped the high-dimensional data to the potential low-dimensional semantic spaces through the singular value decomposition.[Results]The accuracy rate of the proposed clustering method on the experimental dataset reached 87.3%.[Limitations]The sample data sets need to be expanded.[Conclusions]The proposed model could effectively aggregate names of similar institutions and address the clustering issues of high-dimensional texts.

作者贾君枝叶壮壮 Jia Junzhi;Ye Zhuangzhuang(School of Information Resource Management,Renmin University of China,Beijing 100872,China;School of Economics and Management,Shanxi University,Taiyuan 030006,China)

机构地区中国人民大学信息资源管理学院山西大学经济与管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第10期56-65,共10页 Data Analysis and Knowledge Discovery

基金国家社会科学基金重点项目“基于关联数据的中文名称规范档语义描述及数据聚合研究”(项目编号:15ATQ004)的研究成果之一

关键词机构实体聚类潜在语义索引层次聚类 Wikidata Organizational Entity Clustering Latent Semantic Index Hierarchical Clustering Wikidata

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献9

1赵伟.基于并行计算的概率潜在语义分析算法研究[J].安徽职业技术学院学报,2014,13(3):1-3. 被引量：2
2贤信,曾建勋.科研实体唯一标识系统研究[J].图书情报工作,2015,59(12):113-119. 被引量：11
3李华云,金玉坚.基于层次搜索的潜在语义索引方法研究[J].图书情报工作,2006,50(11):36-38. 被引量：1
4胡万亭,杨燕,尹红风,贾真,刘利.一种基于词频统计的组织机构名识别方法[J].计算机应用研究,2013,30(7):2014-2016. 被引量：15
5李慧佳,马建玲,张秀秀,杨丽娜.中文机构名称规范库建设的实践与分析——以“中科院机构名称规范库”建设为例[J].图书与情报,2016(1):133-139. 被引量：14
6廖律超,蒋新华,邹复民,贺文武,邱淮.一种支持轨迹大数据潜在语义相关性挖掘的谱聚类方法[J].电子学报,2015,43(5):956-964. 被引量：29
7杨奕虹,李雅萍,张立丽,林霄剑.机构多层级词表的编制及在文献计量评价与科研绩效管理中的应用[J].数字图书馆论坛,2013(6):57-63. 被引量：8
8贾君枝,叶壮壮.基于Wikidata的机构类目范畴树构建与优化[J].国家图书馆学刊,2018,27(1):56-64. 被引量：4
9姜子林.层次聚类的方法及应用[J].电子技术与软件工程,2018(1):179-180. 被引量：5

二级参考文献83

1刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
2孙立杰.中文名称规范的发展与应用研究[J].图书情报工作,2012,56(S1):173-175. 被引量：2
3向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
5周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
6Rick Bennett,Christina Hengel-Dittrich,Edward T.O’Neill,Barbara B.Tillett,顾犇.虚拟国际规范文档——连接德国国家图书馆和美国国会图书馆的规范文档[J].国家图书馆学刊,2006,15(4):87-91. 被引量：15
7Zhang X Y, Berry M W, Raghavan P R. Level search schemes for information filtering and retrieval. Information Processing& Management, 2001,37(2):313-334
8Salton G, McGill M. Introduction to modern information retrieval. New York: McGraw-Hill, 1993
9Hughcy M K, Berry M W. Improved query matching using kdtree: a latent semantic indexingenhancement. Information Retrieval, 2000,24(2):1-16
10Gao J, Zhang J, Clustered SVD strategies in latent semantic indexing, Information Processing & Management, 2005,41(3):1051-1063

共引文献76

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2张运良,张兆锋,闫莹莹,许德山.知识组织系统构建中对既有资源的利用方式分析[J].数字图书馆论坛,2013(11):27-32. 被引量：3
3陈辰,周莉,王璐,郝晓雪,张春玲,王凯艳,王雪峰.科研实体唯一标识符互操作研究[J].情报理论与实践,2018,41(12):99-103. 被引量：2
4CHEN Linshu,WANG Jiayang,WANG Weicheng,LI Li.A New Granular Computing Model Based on Algebraic Structure[J].Chinese Journal of Electronics,2019,28(1):136-142. 被引量：6
5麦合甫热提,米日姑.肉孜,麦热哈巴.艾力,吐尔根.依布拉音.基于语法语义知识的维吾尔文机构名识别[J].计算机工程与设计,2014,35(8):2944-2948. 被引量：7
6余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134. 被引量：41
7杨波,杨军威,阎素兰.基于规则的机构名规范化研究[J].现代图书情报技术,2015(6):57-63. 被引量：11
8王星,曾建勋,苏静,贤信.机构规范文档构建方式研究[J].数字图书馆论坛,2015(7):2-8. 被引量：8
9杨丽萍.基于半结构特征分割的Web数据挖掘算法[J].微电子学与计算机,2015,32(8):154-157.
10谷川,宋旭.体育赛事命名实体识别研究[J].河南师范大学学报（自然科学版）,2015,43(4):163-167. 被引量：1

同被引文献9

1宋峻峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学版）,2005,41(2):189-197. 被引量：44
2黄名选,严小卫,张师超.查询扩展技术进展与展望[J].计算机应用与软件,2007,24(11):1-4. 被引量：53
3陈悦,Jean-Charles Lamirel,刘则渊.中国科学学40年研究主题变迁--基于特征最大化F指标的文本内容分析[J].科学学与科学技术管理,2018,39(12):28-45. 被引量：5
4胡小菁.规范控制:从名称选择到实体管理[J].数字图书馆论坛,2018(1):2-7. 被引量：13
5贾君枝,叶壮壮.基于Wikidata的机构类目范畴树构建与优化[J].国家图书馆学刊,2018,27(1):56-64. 被引量：4
6许侃,林原,曲忱,徐博,林鸿飞.专利查询扩展的词向量方法研究[J].计算机科学与探索,2018,12(6):972-980. 被引量：12
7贾君枝,赵宇飞.Wikidata与名称规范档数据聚合实现[J].情报科学,2018,36(11):72-77. 被引量：6
8李悦,苏成,贾佳,许震,田瑞强.基于科学计量的世界人工智能领域发展状况分析[J].计算机科学,2017,44(12):183-187. 被引量：25
9薛秋红,贾君枝,刘会洲.中文名称规范数据与Wikidata语义关联实现[J].情报理论与实践,2019,42(10):146-150. 被引量：4

引证文献2

1陈悦,宋凯,刘安蓉,曹晓阳.基于机器学习的人工智能技术专利数据集构建新策略[J].情报学报,2021,40(3):286-296. 被引量：8
2陈辰,钟雨轩.基于Wikidata开展身份管理的模式研究[J].国家图书馆学刊,2024,33(2):83-95.

二级引证文献8

1陈果,叶潮.融合半监督学习与主动学习的细分领域新闻分类研究[J].数据分析与知识发现,2022,6(4):28-38. 被引量：1
2陈芳,沈湘,王学昭,刘细文,朱宇婧,吴鸣.基于出口管制清单的质谱仪技术对比分析研究[J].世界科技研究与发展,2023,45(2):210-220. 被引量：1
3王力,曾文,张运良,金辉.科技前沿识别体系中的机器学习应用问题[J].科技管理研究,2023,43(6):27-35.
4陈淑平,单伟.基于文献分析的专利核心发明人识别与评价方法综述[J].技术与市场,2023,30(7):175-179. 被引量：1
5陈利芳,杜宝林,林珠.专利视角下的国内外机器学习技术情报研究[J].中国发明与专利,2023,20(10):48-55.
6卢恒,陈章杰,周知.基于知识图谱的虚拟学术社区用户生成内容知识共聚框架研究[J].情报理论与实践,2023,46(12):157-166. 被引量：1
7龚斌,王虹雅,王红娜,宋伟,孙雄伟,杨京华.基于大数据分析算法的深部煤层气地质—工程一体化智能决策技术[J].石油学报,2023,44(11):1949-1958. 被引量：3
8周潇,高雅倩,樊嘉逸.基于BERT词嵌入的专利检索策略研究[J].情报学报,2023,42(11):1347-1357. 被引量：1

1潘俊.基于均衡指数的广西人力资源空间分布探析[J].现代营销（信息版）,2019,0(11):184-185.
2杨秀璋,夏换,于小民,武帅,赵紫如,窦悦琪.基于特征词典构建和BIRCH算法的中文百科文本聚类研究[J].计算机时代,2019,0(11):23-27. 被引量：4
3赵雪,马娟娟.基于词共现网络的对农微博热点话题及用户舆情分析——以中国乡村之声官方微博为例[J].新闻爱好者,2019,0(11):47-50. 被引量：2
4王文珠.农商银行公司治理的特色与突破[J].中国农村金融,2019,0(20):10-13. 被引量：1
5肖明,徐烨.时间序列下关键词多词共现分析及研究热点预测——以我国图情领域核心期刊为例[J].情报探索,2019,0(11):115-120.
6评“半监督语义动态文本聚类算法”[J].电子科技大学学报,2019,48(6):802-802.
7姜同强,万忠赫,张青川.基于双向长短期记忆网络和自注意力机制的食品安全裁判文书分类方法[J].科学技术与工程,2019,19(29):188-192. 被引量：11
8《齐鲁护理杂志》常用缩略语使用要求[J].齐鲁护理杂志,2019,25(23):13-13.
9陈爱蓓.文化为魂提升大运河江苏段城市发展品质[J].群众,2019,0(19):46-47. 被引量：1
10周霞,郁振山.职业安全领域的专名汉译问题浅析[J].中国科技术语,2019,21(5):39-42.

数据分析与知识发现

2019年第10期

浏览历史

内容加载中请稍等...

基于潜在语义索引的Wikidata机构实体聚类研究被引量：2

参考文献9

二级参考文献83

共引文献76

同被引文献9

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于潜在语义索引的Wikidata机构实体聚类研究 被引量：2

参考文献9

二级参考文献83

共引文献76

同被引文献9

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于潜在语义索引的Wikidata机构实体聚类研究被引量：2