期刊文献+

基于复杂网络的汉语相似词挖掘和相似度计算研究 被引量:5

Research of Chinese Similar Words Mining and Similarity Calculation Based on Complex Network
下载PDF
导出
摘要 相似词是自然语言中普遍存在的现象,词汇相似度计算是情报学、自然语言处理和信息处理等领域的一项中间步骤。首先,基于大规模语料库构建了汉语词汇共现网络,进而利用复杂网络结构中节点相似的思想来计算词汇的相似度。其次,基于分布假设、上下文语境理论和词汇网络结构的特点,本文提出了基于贡献度折扣的词汇相似度计算方法,该方法不仅考虑了网络边的权重信息,还将节点的全局度特征融合进来。通过节点相似度实验发现,本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Sahon方法。最后文章就实验结果及其结论做了详细分析。 Similar words are a common phenomenon in human languages. Word similarity calculation is a middle step in informatics, natural languages processing and information processing. First, a giant language network is constructed based on Chinese large-scale corpus. And then, the node similarity in complex network is used to similar word mining and word similarity calculation. Under distributional hypothesis, context theory and the characteristics of word network, the paper propose a new algorithm named Contribution Discount Similarity algorithm (CDSim) , which can capture not only the edge weight, but also the global characteristic. Compared with the three typical methods of node similarity calculation, such as common neighbors, Jaecard and Sahon, CDSim performs best. Finally, some related experiments and conclusion are discussed.
出处 《情报学报》 CSSCI 北大核心 2015年第8期885-896,共12页 Journal of the China Society for Scientific and Technical Information
基金 国家自科青年项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”(项目编号:71303120) 南京邮电大学引进人才科研启动基金“基于语料库的词汇相似度计算研究”(项目编号:NYS213008) 南京邮电大学国自基金孵化项目‘‘大数据时代下汉语词义知识挖掘研究”(项目编号:NY214112)的资助
关键词 复杂网络 语料库 词汇相似度 语义相关度 complex network, corpus, word similarity, semantic relatedness
  • 相关文献

参考文献33

  • 1Lin D.An information-theoretic definition of similarity[C]//Proceedings of the 15th International Conference on Machine Learning.San Francisco:Morgan Kaufmann,1998:296-304.
  • 2刘群 李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
  • 3章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量:6
  • 4蔡东风,白宇,于水,叶娜,任晓娜.一种基于语境的词语相似度计算方法[J].中文信息学报,2010,24(3):24-28. 被引量:12
  • 5Resnik P.Disambiguating noun groupings with respect to WordNet senses[C]// Proceedings of the 3rd Workshop on Very Large Corpus,1995:77-98.
  • 6王义,王小林.基于改进的义原关联度算法的词语相关度计算[J].情报学报,2012,31(12):1271-1275. 被引量:7
  • 7田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报(信息科学版),2010,28(6):602-608. 被引量:178
  • 8Van der PlasL,Bouma G.Syntactic contexts for finding semantically related words[C]// Proceedings of Computational Linguistics in the Netherlands,2005:173-186.
  • 9Curran J R,Moens M.Improvements in Automatic Thesaurus Extraction[C]// Proceedings of the Workshop of the ACL Special Interest Group on the Lexicon,Philadelphia,2002:59-66.
  • 10Pantel P,Lin D.Discovering word senses from text[C]// Proceedings of ACM SIGKDD Conference on Knowledge Discovery and Data Mining,Edmonton,Canada.2002:613-619.

二级参考文献295

共引文献707

同被引文献183

引证文献5

二级引证文献18

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部