期刊文献+

一种基于语义的中文文本相似度算法 被引量:7

A Similarity Algorithm for Chinese Text Based on Semantics
下载PDF
导出
摘要 利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算。将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计算关键词之间的相似度来计算文本之间的相似度值。实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高。 This paper computes the semantic similarity of words using the How Net and extracting the text keywords to compute the similarity of the texts. After segmenting the text and filtering stop words,it calculates the weights of word to extract the key words of the text by combining the gender,word frequency and paragraph frequency of the word. By calculating the similarity of the keywords,the similarity value of the texts is calculated. The analysis of the significant difference of the experimental results shows that its accuracy is further improved compared with the traditional semantic algorithm and vector space model algorithm.
作者 夏志明 刘新
出处 《计算机与现代化》 2015年第4期6-9,共4页 Computer and Modernization
基金 湖南省自然科学基金资助项目(12JJ3066) 湖南省高校科技成果产业化培育项目(11CY018) 湖南省"十二五"重点学科项目
关键词 文本相似度 语义 《知网》 关键词 段频 text similarity semantic HowNet keywords paragraph frequency
  • 相关文献

参考文献16

  • 1Gerard Salton, Wong A, Yang C S. A vector space model for automatic indexing[ J]. Communication of ACM, 1975,18( 11 ) :613-620.
  • 2余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量:25
  • 3Lee N, Kim J M. Conversion of categorical variables into numerical variables via Bayesian network classifiers for bi- nary classifications [ J ]. Computational Statistics & Data A- nalysis, 2010,54(5) : 1247-1265.
  • 4Li Y, Bandar Z A, Mclean D, et al. An approach for measuring semantic similarity between words using multiple information sources [ J ]. IEEE Transactions on Knowledge and Data Engineering, 2003,15 (4) : 871-882.
  • 5李熙,徐德智.基于WordNet的概念语义相似度研究[J].湖南科技学院学报,2008,29(12):115-116. 被引量:8
  • 6贾可亮,樊孝忠,张禹.基于HowNet语义相似度的FAQ研究[J].计算机应用,2007,27(9):2256-2257. 被引量:10
  • 7孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56. 被引量:61
  • 8Jiang J, Conrath D. Semantic similarity based on corpus statistics and lexical taxonomy [ C ]// Proceedings of Inter- national Conference on Research in Computational Linguis- tics. 1997 : 19-33.
  • 9金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量:80
  • 10Higgins D. Which statistics reflect semantic? Rethinking synonymy and word similarity[ C]// Proceedings of Inter- national Conference on Linguistic Evidence. 2004:265- 284.

二级参考文献81

共引文献265

同被引文献80

引证文献7

二级引证文献23

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部