期刊文献+

一种基于HNC理论的文本相似度算法

Word relativity algorithm based on HNC
下载PDF
导出
摘要 计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。 The method to calculate text similarity based on VSM is widely used, which causes high dimension of VSM and complexity of calculation because it ignores the relationship between words in the same text. HNC theory is applied to calculate the weight of VSM and the similarity between texts. The practice shows that the dimension is smaller than before, the recall rate and precision of the algorithm have improved.
作者 袁晓峰
出处 《计算机时代》 2014年第11期40-41,43,共3页 Computer Era
基金 盐城师范学院科研项目"中文文本聚类方法的研究"(12YCKL017)
关键词 HNC理论 语义相似度 文本相似度 VSM HNC theory semantic similarity VSM text similarity
  • 相关文献

参考文献4

二级参考文献13

  • 1张万有.义素分析略说[J].语言教学与研究,2001(1):61-65. 被引量:17
  • 2宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量:40
  • 3严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量:7
  • 4YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco : Morgan Kaufmann, 1997:412- 420.
  • 5GALAVOTTI L, SEBASTIANI F, SIMI M. Feature selection and negative evidence in automated text categorization [ C ]//Proc of KDD- 2000. Boston, MA:[s. n. ], 2000:16-22.
  • 6The Lancaster corpus of mandarin Chinese (LCMC) [ EB/OL]. http ://www. ling. lancs. ac. uk/corplang/lcmc/.
  • 7[2]Ido Dagan,Lillian Jane Lee,Fernando C N Pereira.Similarity-based models of word cooccurrence probabilities[J].Machine Learning,1999;34 (1-3):43~69
  • 8[3]王斌.汉英双语语料库自动对齐研究[M].北京:中国科学院计算所,1999
  • 9张华平.计算所汉语词法分析系统ICTCLAS[EB/OL].2002-08-16.http://www.nip.org.ca/project/project.php?proj-id=6.
  • 10刘群 李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.

共引文献145

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部