-
题名概率潜在语义分析的KNN文本分类算法
被引量:3
- 1
-
-
作者
戚后林
顾磊
-
机构
南京邮电大学计算机学院
-
出处
《计算机技术与发展》
2017年第7期57-61,共5页
-
基金
国家自然科学基金资助项目(61302157)
-
文摘
传统的KNN文本算法在计算文本之间的相似度时,只是做简单的概念匹配,没有考虑到训练集与测试集文本中词项携带的语义信息,因此在利用KNN分类器进行文本分类过程中有可能导致语义丢失,分类结果不准确。针对这种情况,提出了一种基于概率潜在主题模型的KNN文本分类算法。该算法预先使用概率主题模型对训练集文本进行文本-主题、主题-词项建模,将文本携带的语义信息映射到主题上的低维空间,把文本相似度用文本-主题、主题-词项的概率分布表示,对低维文本的语义信息利用KNN算法进行文本分类。实验结果表明,在训练较大的训练数据集和待分类数据集上,所提算法能够利用KNN分类器进行文本的语义分类,且能提高KNN分类的准确率和召回率以及F1值。
-
关键词
文本分类
KNN算法
文本表示模型
语义分类
概率潜在主题模型
-
Keywords
text classification
KNN
text presentation model
semantic classification
probability latent semantic analysis
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-