基于维基百科社区挖掘的词语语义相似度计算被引量：9

Semantic Similarity Computing Based on Community Mining of Wikipedia

下载PDF

导出

摘要词语语义相似度计算在自然语言处理如词义消歧、语义信息检索、文本自动分类中有着广泛的应用。不同于传统的方法,提出的是一种基于维基百科社区挖掘的词语语义相似度计算方法。本方法不考虑单词页面文本内容,而是利用维基百科庞大的带有类别标签的单词页面网信息,将基于主题的社区发现算法HITS应用到该页面网,获取单词页面的社区。在获取社区的基础上,从3个方面来考虑两个单词间的语义相似度:(1)单词页面语义关系;(2)单词页面社区语义关系;(3)单词页面社区所属类别的语义关系。最后,在标准数据集WordSimilarity-353上的实验结果显示,该算法具有可行性且略优于目前的一些经典算法;在最好的情况下,其Spearman相关系数达到0.58。 Words semantic similarity computing has been widely used in natural language processing, such as word sense disambiguation, information retrieval, text auto categorization. Different from traditional methods, we presented an algo- rithm based on community mining of Wikipedia to compute words semantic similarity. Our method makes use of the huge Wikipedia page network with category labels rather than its textual content. To get the community of a word page,we applied the HITS,which is a community discovery algorithm based on the theme, to pages network. Based on the gotten community,we measured the semantic similarity between two words from three aspects：（1）semantic rela- tions between the two word pages, （2）semantic relations between the two communities of word page, （3）semantic rela- tions between the categories which two communities belong to. Finally, tests on standard data sets WordSimilarity-353 show that the method we proposed is feasible and slightly better than some classic algorithms. In the best case, the Spearman correlation coefficient reaches 0. 58.

作者彭丽针吴扬扬

机构地区华侨大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2016年第4期45-49,共5页 Computer Science

基金福建省科技计划重点项目(2011H0028)资助

关键词语义相似度社区发现维基百科 Semantic similarity, Community discovery, Wikipedia

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘晓亮.基于维基语义图的词语语义相关度计算研究[J].情报学报,2014,33(11):1124-1132. 被引量：5
2盛志超,陶晓鹏.基于维基百科的语义相似度计算方法[J].计算机工程,2011,37(7):193-195. 被引量：15
3孙琛琛,申德荣,单菁,聂铁铮,于戈.WSR:一种基于维基百科结构信息的语义关联度计算算法[J].计算机学报,2012,35(11):2361-2370. 被引量：26
4王瑞琴.基于Wikipedia链接信息的词汇语义相关性度量[J].情报学报,2013,32(4):385-389. 被引量：4

二级参考文献48

1Leacock C,Chodorow M.Combining Local Context and WordNet Similarity for Word Sense Identification[EB/OL].(1998-05-18).http://www.bibsonomy.org/bibtex/2087c974c471792ddlfa536aa6a 75eobc/asalber.
2Resnik P Using Information Content to Evaluate Semantic Similarity in a Taxonomy[C]//Proc.of the 14th International Joint Conference on Artificial Intelligence.[S.l.]:Springer,1995:448-453.
3Struve M,Ponzetto S P.WikiRelate!Computing Semantic Relatedness Using Wikipedia[C]//Proc.of Association for the Advancement of Artificial Intelligence.Boston,USA:IEEE Press,2006:1419-1424.
4Jurafsky D.自然语言处理综论[M].冯志伟,孙乐,译.北京:电子工业出版社,2005.
5Buchanan B G, Feigenbaum E A. Forward//Davis R, Lenat D B.Knowledge-Based Systems in Artificial Intelligence. New York: McGraw-Hill, 1982:39-51.
6Lenat D, Guha R. Building Large Knowledge Based Systems. New York: Addison Wesley, 1990.
7Ricardb B Y, Berthier R N. Modern Information Retrieval. New York: Addison Wesley, 1999.
8Deerwester S, Dumais S, Furnas G, Landauer T, Harshman R. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
9Alexander B, Graeme H. Evaluating wordnevbased measures of lexical semantic relatedness. Computational Linguistics, 2006, 32(1): 13-47.
10Mario J. Roget's thesaurus as a lexlcal resource for natural language processing [Ph. D. dissertation]. University of Ottawa, Ottawa, 2003.

共引文献41

1范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
2王静,何婷婷,衣马木艾山.阿布都力克木.协同过滤在中文维基百科类别推荐上的应用[J].计算机应用,2013,33(3):838-840.
3明均仁,何超.基于语义关联挖掘的数字图书馆跨媒体检索方法研究[J].图书情报工作,2013,57(7):101-105. 被引量：14
4徐健.基于多种测度的术语相似度集成计算研究[J].情报学报,2013,32(6):618-628. 被引量：3
5冯帅,苏畅,陈怡疆.基于百科资源的名词性隐喻识别[J].计算机系统应用,2013,22(10):8-13. 被引量：3
6王其和.基于维基百科语义模型的农业信息聚类分析研究[J].情报科学,2013,31(12):101-104. 被引量：2
7滕广青,毕达天,任晶,陈晓美.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013(12):48-54. 被引量：7
8万富强,吴云芳.基于中文维基百科的词语语义相关度计算[J].中文信息学报,2013,27(6):31-37. 被引量：9
9周建政,谌志群,李治,王荣波,冯凯.问答系统中问题模式分类与相似度计算方法[J].计算机工程与应用,2014,50(1):116-120. 被引量：4
10李志萍.基于随机游走模型的维基百科语义关系研究[J].电脑编程技巧与维护,2014(4):6-8.

同被引文献86

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
2秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
3董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
4江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109
5郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
6施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
7柳位平,朱艳辉,栗春亮,向华政,文志强.中文基础情感词词典构建方法研究[J].计算机应用,2009,29(10):2875-2877. 被引量：86
8魏建良,朱庆华.社会化标注理论研究综述[J].中国图书馆学报,2009,35(6):88-96. 被引量：46
9刘辉,邵良杉.Web文本分类中特征项权重的研究[J].科技和产业,2010,10(2):122-124. 被引量：3
10孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56. 被引量：61

引证文献9

1陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：76
2林江豪,周咏梅,阳爱民,陈锦.基于语义相似度的情感特征向量提取方法[J].计算机科学,2017,44(10):296-301. 被引量：3
3林江豪,周咏梅,阳爱民,陈锦.基于词向量的领域情感词典构建[J].山东大学学报（工学版）,2018,48(3):40-47. 被引量：14
4李琳,李辉.一种基于概念向量空间的文本相似度计算方法[J].数据分析与知识发现,2018,2(5):48-58. 被引量：22
5何喜军,马珊,武玉英.基于本体和SAO结构的线上技术供需信息语义匹配研究[J].情报科学,2018,36(11):95-100. 被引量：18
6熊回香,叶佳鑫.基于同义词词林的社会化标签等级结构构建研究[J].情报杂志,2018,37(1):126-131. 被引量：6
7林江豪,顾也力,周咏梅,阳爱民,陈锦.基于表情符号的情感词典的构建研究[J].计算机技术与发展,2019,29(6):181-185. 被引量：12
8刘萍,彭小芳.基于形式概念分析的词汇相似度计算[J].数据分析与知识发现,2020,4(5):66-74.
9周文文,韩斌,黄树成.结合文本语义图和词频统计的网页分类算法研究[J].计算机与数字工程,2020,48(6):1265-1268. 被引量：2

二级引证文献144

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228.
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
3聂卉,何欢.引入词向量的隐性特征识别研究[J].数据分析与知识发现,2020,4(1):99-110. 被引量：2
4严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
5熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
6吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
7谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：9
8裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
9廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.
10康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：3

1巨西诺,郭文普,孙继银,高晶.基于兴趣点的遥感影像可匹配性度量[J].光学精密工程,2014,22(4):1071-1077. 被引量：1
2冯元佶,李枚毅,王伟.带Spearman相关性的多标签GRF算法[J].模式识别与人工智能,2010,23(6):862-866. 被引量：2
3刘永彬,欧阳纯萍,钟东来,李涓子,袁博志,李奇.基于非线性全局上下文的词嵌入[J].中国科学：信息科学,2015,45(12):1588-1599. 被引量：3
4汪祥,贾焰,周斌,丁兆云,梁政.基于中文维基百科链接结构与分类体系的语义相关度计算[J].小型微型计算机系统,2011,32(11):2237-2242. 被引量：18
5王涛.基于Spearman秩相关系数的红外弱小目标检测[J].科学技术与工程,2017,17(2):234-238. 被引量：12
6张小利,李雄飞,李军.融合图像质量评价指标的相关性分析及性能评估[J].自动化学报,2014,40(2):306-315. 被引量：111
7张剑华,张自然,汪晓妍,管秋.基于结构显著性的医学图像质量评价[J].浙江工业大学学报,2015,43(6):636-641. 被引量：11
8李传星,李霞,郭政,宫滨生,屠康.调控通路内基因表达的相关性分析[J].遗传,2004,26(6):929-933. 被引量：5
9郭彩玲,宗泽,张雪,马晓丹,刘刚.果树冠层三维点云颜色矫正方法研究[J].农业机械学报,2015,46(S1):27-34. 被引量：2
10时明,王红强,孙婷婷,谢新平.融合生物网络拓扑特性的肿瘤放疗敏感基因信号识别方法[J].模式识别与人工智能,2016,29(12):1057-1064. 被引量：1

计算机科学

2016年第4期

浏览历史

内容加载中请稍等...

基于维基百科社区挖掘的词语语义相似度计算被引量：9

参考文献4

二级参考文献48

共引文献41

同被引文献86

引证文献9

二级引证文献144

相关作者

相关机构

相关主题

浏览历史

基于维基百科社区挖掘的词语语义相似度计算 被引量：9

参考文献4

二级参考文献48

共引文献41

同被引文献86

引证文献9

二级引证文献144

相关作者

相关机构

相关主题

浏览历史

基于维基百科社区挖掘的词语语义相似度计算被引量：9