一种DF—LDA的文本相似度计算方法

下载PDF

导出

摘要首先用DF方法对文本进行特征选择，然后使用LDA建模的方法获取文本主题分布；用降维后的文本主题分布计算文本相似度。这种DF和LDA结合的文本相似度计算方法，在考虑到词频信息特征的同时，也考虑了语义信息特征。两次降维不仅降低了算法时间复杂度，而且在文本相似度计算过程中消除了低价值词项的干扰，提高了计算的精度。实验结果表明，DF-LDA算法在Tancrop数据集上F值较LDA方法有了7％的提高。

作者陈利张超李琼

机构地区汉口学院计算机科学与技术学院华中师范大学计算机学院

出处《汉口学院学报》 2014年第4期1-3,共3页 JOURNAL OF HANKOU UNIVERSITY

关键词特征选择 LDA模型 DF—LDA方法降维文本相似度计算

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27
2秦恺.不完全语义认知过程中信息特征正确识别仿真[J].计算机仿真,2017,34(2):242-245. 被引量：6
3刘扬,郑逢斌,樊卞玲.基于文本及视音频多模态信息的新闻分割[J].计算机工程与应用,2007,43(35):190-194. 被引量：3
4潘改,高立群,赵爽.基于局部熵的主动轮廓模型[J].中国图象图形学报,2013,18(1):78-85. 被引量：9
5王哲,徐燕文.基于差异化融合的语义信息检索模型仿真[J].微电子学与计算机,2015,32(1):146-149. 被引量：2
6张宇,汪丰,黄海诚,乔子晏.基于Web的高血压非药物治疗知识库构建[J].工业控制计算机,2014,27(5):99-100. 被引量：1
7张青,熊前兴.文本分类中词语权重计算的改进[J].电脑知识与技术,2011,7(1):204-206. 被引量：2
8何中市,徐浙君.一种新型的文本无监督特征选择方法[J].重庆大学学报（自然科学版）,2007,30(6):77-79. 被引量：2
9刘小军,赵栋,姚卫东.一种用于中文文本查重的双因子相似度算法[J].计算机仿真,2007,24(12):312-314. 被引量：5
10孙春明,徐燕,林碧英.一种基于词条频率的文档频率方法的改进[J].中国电力教育,2006(S3):146-149.

汉口学院学报

2014年第4期

浏览历史

内容加载中请稍等...

一种DF—LDA的文本相似度计算方法

相关作者

相关机构

相关主题

浏览历史