基于复杂网络的汉语相似词挖掘和相似度计算研究被引量：5

Research of Chinese Similar Words Mining and Similarity Calculation Based on Complex Network

下载PDF

导出

摘要相似词是自然语言中普遍存在的现象，词汇相似度计算是情报学、自然语言处理和信息处理等领域的一项中间步骤。首先，基于大规模语料库构建了汉语词汇共现网络，进而利用复杂网络结构中节点相似的思想来计算词汇的相似度。其次，基于分布假设、上下文语境理论和词汇网络结构的特点，本文提出了基于贡献度折扣的词汇相似度计算方法，该方法不仅考虑了网络边的权重信息，还将节点的全局度特征融合进来。通过节点相似度实验发现，本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Sahon方法。最后文章就实验结果及其结论做了详细分析。 Similar words are a common phenomenon in human languages. Word similarity calculation is a middle step in informatics, natural languages processing and information processing. First, a giant language network is constructed based on Chinese large-scale corpus. And then, the node similarity in complex network is used to similar word mining and word similarity calculation. Under distributional hypothesis, context theory and the characteristics of word network, the paper propose a new algorithm named Contribution Discount Similarity algorithm （CDSim） , which can capture not only the edge weight, but also the global characteristic. Compared with the three typical methods of node similarity calculation, such as common neighbors, Jaecard and Sahon, CDSim performs best. Finally, some related experiments and conclusion are discussed.

作者韩普王东波朱恒民

机构地区南京邮电大学管理学院南京农业大学信息科技学院江苏省数据工程与知识服务重点实验室

出处《情报学报》 CSSCI 北大核心 2015年第8期885-896,共12页 Journal of the China Society for Scientific and Technical Information

基金国家自科青年项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”(项目编号:71303120) 南京邮电大学引进人才科研启动基金“基于语料库的词汇相似度计算研究”(项目编号:NYS213008) 南京邮电大学国自基金孵化项目‘‘大数据时代下汉语词义知识挖掘研究”(项目编号:NY214112)的资助

关键词复杂网络语料库词汇相似度语义相关度 complex network, corpus, word similarity, semantic relatedness

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] O157.5 [理学—基础数学]

引文网络
相关文献

参考文献33

1Lin D.An information-theoretic definition of similarity[C]//Proceedings of the 15th International Conference on Machine Learning.San Francisco:Morgan Kaufmann,1998:296-304.
2刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
3章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量：6
4蔡东风,白宇,于水,叶娜,任晓娜.一种基于语境的词语相似度计算方法[J].中文信息学报,2010,24(3):24-28. 被引量：12
5Resnik P.Disambiguating noun groupings with respect to WordNet senses[C]// Proceedings of the 3rd Workshop on Very Large Corpus,1995:77-98.
6王义,王小林.基于改进的义原关联度算法的词语相关度计算[J].情报学报,2012,31(12):1271-1275. 被引量：7
7田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
8Van der PlasL,Bouma G.Syntactic contexts for finding semantically related words[C]// Proceedings of Computational Linguistics in the Netherlands,2005:173-186.
9Curran J R,Moens M.Improvements in Automatic Thesaurus Extraction[C]// Proceedings of the Workshop of the ACL Special Interest Group on the Lexicon,Philadelphia,2002:59-66.
10Pantel P,Lin D.Discovering word senses from text[C]// Proceedings of ACM SIGKDD Conference on Knowledge Discovery and Data Mining,Edmonton,Canada.2002:613-619.

二级参考文献295

1黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
4许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
5章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：40
6余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
7章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
8耿骞,耿崇.利用词语共现进行Ontology的概念获取[J].现代图书情报技术,2006(2):43-45. 被引量：10
9荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
10王曰芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006(4):29-34. 被引量：59

共引文献707

1李文静.国内外电子商务研究的演化路径分析[J].华中师范大学研究生学报,2020(2):133-140.
2刘维,陈崚.复杂网络中的链接预测[J].信息与控制,2020,49(1):1-23. 被引量：2
3龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
4熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
5马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
6王玫申,张鹏,薛乐洋.基于扩散的推荐算法的可预测性[J].中国科技论文在线精品论文,2021(4):462-467. 被引量：1
7伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
8冉丽,何毅舟,许龙飞.基于Web结构挖掘的搜索引擎作弊检测方法[J].计算机应用,2004,24(10):158-160. 被引量：4
9陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1
10孙宝军,王新军.P2P中基于本体论的知识管理框架模型及实现[J].计算机科学,2005,32(2):31-32. 被引量：1

同被引文献183

1曾月新.熵概念的跨学科发展[J].天津师范大学学报（社会科学版）,1995,15(1):42-45. 被引量：20
2匡兴华,关虹.学术活动的意义、功能和分类[J].研究与发展管理,1991,3(4):38-41. 被引量：6
3黄远帆.论两类概念分析:关联式与分解式[J].河北学刊,2015,35(2):29-36. 被引量：4
4冯志伟.汉语词组型术语的结构[J].科技术语研究,2004,6(2):35-37. 被引量：9
5马文峰,杜小勇.关于知识组织体系的若干理论问题[J].中国图书馆学报,2007,33(2):13-17. 被引量：27
6黄水清,熊健,李志燕.闭合式非相关文献知识发现方法在中文文献中的验证[J].中国图书馆学报,2007,33(5):83-87. 被引量：8
7黄水清,程冲,李志燕.开放式非相关文献知识发现方法在中文文献中的验证[J].情报理论与实践,2008,31(2):246-250. 被引量：9
8陆勇,侯汉清.基于PageRank算法的汉语同义词自动识别[J].西华大学学报（自然科学版）,2008,27(2):13-15. 被引量：10
9陈世林,胡明华.一种新的基于贪婪法的CDM时隙分配最优化算法[J].系统工程理论与实践,2008,28(10):144-149. 被引量：8
10冯志伟.中文科技术语描述中的三种结构[J].语文建设,1989(5):14-20. 被引量：1

引证文献5

1熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
2谢丽娜.2015年我国情报学研究进展[J].山东图书馆学刊,2016(6):21-28. 被引量：4
3李治,张潜,李小欢.基于地理坐标的网络舆情节点影响力度量方法改进研究[J].情报科学,2017,35(8):33-39. 被引量：1
4纪有书,王东波,黄水清.基于词对齐的古汉语同义词自动抽取研究——以前四史典籍为例[J].数据分析与知识发现,2021,5(11):135-144. 被引量：2
5王忠义,彭思源,夏立新.跨学科知识组织的概念关联研究[J].中国图书馆学报,2022,48(3):43-62. 被引量：10

二级引证文献18

1李健,李洋.我国图书馆学与情报学发展的同归与分野[J].情报杂志,2017,36(5):9-13. 被引量：3
2许华.基于数据资源管理的科技情报服务研究[J].江苏科技信息,2018,35(28):5-7. 被引量：1
3孙敏.2017年我国情报学研究进展[J].山东图书馆学刊,2018(6):13-19. 被引量：2
4顾秋阳,琚春华,鲍福光.基于空间要素与随机图融合的成长型社交网络模型研究[J].情报理论与实践,2020,43(3):98-104. 被引量：1
5徐学友,李润竹.2019年我国情报学研究进展[J].山东图书馆学刊,2020(6):25-31. 被引量：1
6沈之楷.高校围棋学科建设之窥见--基于中韩比较的视角[J].上海建桥学院学报,2022(2):1-6.
7曹树金,曹茹烨.基于知识图谱支持科研创新的跨学科知识发现研究[J].情报理论与实践,2022,45(11):10-20. 被引量：12
8林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：7
9贺婧.基于多语料库关键词搜索的英汉自动翻译方法[J].自动化与仪器仪表,2023(2):170-175. 被引量：1
10姚茹,王晋飞,邬金鸣,徐倩,张学福.潜在学科交叉主题识别方法研究[J].图书情报工作,2023,67(15):80-93. 被引量：3

1粟春兵,王文胜.梧州粤语和周边勾漏粤语词汇相似度的计量分析[J].梧州学院学报,2011,21(5):7-13. 被引量：4
2谢丙炎,谢坦.谈英语同义词教学[J].外语学刊,1988(6):56-60.
3陈凌燕.网络流行语“给力”探析[J].毕节学院学报（综合版）,2011,29(5):62-66.
4傅治夷.从“相似词”来分析英语单词的联想记忆[J].钦州师专钦州教院学报,1995,9(4):63-67.
5张树铮.关于方言沟通度和方音理解的几个问题[J].中国语文,1998(3):201-207. 被引量：3
6唐静.浅谈关于中国日语学习者的中日对译语料库构建的研究[J].群文天地（下半月）,2011(9):76-76. 被引量：1
7史海燕.阐释学在情报学中的应用研究[J].图书馆学研究,2014(17):17-21. 被引量：1
8杨继红.词块与高职英语词汇教学[J].太原大学学报,2006,7(2):66-66. 被引量：1
9张志杰.大学生英语写作中的语义韵问题[J].东北师大学报（哲学社会科学版）,2011(2):225-226. 被引量：6
10刘海涛.语言网络:隐喻,还是利器?[J].浙江大学学报（人文社会科学版）,2011,41(2):169-180. 被引量：23

情报学报

2015年第8期

浏览历史

内容加载中请稍等...

基于复杂网络的汉语相似词挖掘和相似度计算研究被引量：5

参考文献33

二级参考文献295

共引文献707

同被引文献183

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于复杂网络的汉语相似词挖掘和相似度计算研究 被引量：5

参考文献33

二级参考文献295

共引文献707

同被引文献183

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于复杂网络的汉语相似词挖掘和相似度计算研究被引量：5