一种基于HNC理论的文本相似度算法

Word relativity algorithm based on HNC

下载PDF

导出

摘要计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。 The method to calculate text similarity based on VSM is widely used, which causes high dimension of VSM and complexity of calculation because it ignores the relationship between words in the same text. HNC theory is applied to calculate the weight of VSM and the similarity between texts. The practice shows that the dimension is smaller than before, the recall rate and precision of the algorithm have improved.

作者袁晓峰

机构地区盐城师范学院信息科学与技术学院

出处《计算机时代》 2014年第11期40-41,43,共3页 Computer Era

基金盐城师范学院科研项目"中文文本聚类方法的研究"(12YCKL017)

关键词 HNC理论语义相似度文本相似度 VSM HNC theory semantic similarity VSM text similarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
2李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284. 被引量：35
3Dagan I, Marcus S, Contextual word similarity and estimation fromsparse data[A]. Collins M. Processing of the Annual Meeting of the Association for Computational Linguistics[C]. New Mexico: American Association for Artificial Intelligence,1993: 164-171.
4张运良,张全.基于HNC理论的语义相关度计算方法[J].计算机工程与应用,2005,41(34):1-3. 被引量：18

二级参考文献13

1张万有.义素分析略说[J].语言教学与研究,2001(1):61-65. 被引量：17
2宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：40
3严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
4YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco : Morgan Kaufmann, 1997:412- 420.
5GALAVOTTI L, SEBASTIANI F, SIMI M. Feature selection and negative evidence in automated text categorization [ C ]//Proc of KDD- 2000. Boston, MA:[s. n. ], 2000:16-22.
6The Lancaster corpus of mandarin Chinese (LCMC) [ EB/OL]. http ://www. ling. lancs. ac. uk/corplang/lcmc/.
7[2]Ido Dagan,Lillian Jane Lee,Fernando C N Pereira.Similarity-based models of word cooccurrence probabilities[J].Machine Learning,1999;34 (1-3):43～69
8[3]王斌.汉英双语语料库自动对齐研究[M].北京:中国科学院计算所,1999
9张华平.计算所汉语词法分析系统ICTCLAS[EB/OL].2002-08-16.http://www.nip.org.ca/project/project.php?proj-id=6.
10刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.

共引文献145

1李颖,田永昌.基于HNC的命题逻辑推理方法[J].装甲兵工程学院学报,2013,27(2):70-74.
2李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
3韩杰,杨洋,滕至阳.基于概念层次网络理论的问句分析研究[J].计算机工程与设计,2007,28(10):2348-2351.
4刘颖,韩杰,滕至阳.基于支持向量机的问句分析[J].计算机技术与发展,2007,17(8):1-4. 被引量：1
5王广正,王喜凤.基于知网语义相关度计算的词义消歧方法[J].安徽工业大学学报（自然科学版）,2008,25(1):71-75. 被引量：10
6李阳明,贾电如.基于模糊理论的主观题自动评分算法研究与实现[J].微计算机应用,2008,29(10):17-20. 被引量：6
7王红玲,吕强,徐瑞.中文语义相关度计算模型研究[J].计算机工程与应用,2009,45(7):167-170. 被引量：11
8谢法奎,张全.HNC语义标注模型的构建[J].计算机科学,2009,36(5):238-240. 被引量：3
9罗长寿,张峻峰,孙素芬,魏清凤.基于改进VSM的农业实用技术自动问答系统研究[J].安徽农业科学,2009,37(28):13948-13950.
10孔令成,郑诚,吴永俊.一种基于VSM的中文网页分类方法[J].信息化纵横,2009(17):56-58.

1李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284. 被引量：35
2贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
3黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7
4郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2
5张佩云,陈传明,黄波.基于子树匹配的文本相似度算法[J].模式识别与人工智能,2014,27(3):226-234. 被引量：13
6黄贤英,李沁东,刘英涛.结合词性的短文本相似度算法及其在文本分类中的应用[J].电讯技术,2017,57(1):78-82. 被引量：11
7周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：10
8金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
9黄炜.文本相似度计算在企业信息检索中的应用[J].科学技术与工程,2011,11(15):3571-3575.
10王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：8

计算机时代

2014年第11期

浏览历史

内容加载中请稍等...

一种基于HNC理论的文本相似度算法

参考文献4

二级参考文献13

共引文献145

相关作者

相关机构

相关主题

浏览历史