期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于TFIDF+LSA算法的新闻文本聚类与可视化 被引量:9
1
作者 郝秀慧 方贤进 杨高明 《计算机技术与发展》 2022年第7期34-38,45,共6页
近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种... 近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency,inverse document frequency,TFIDF)和潜在语义分析算法(latent semantic analysis,LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient,SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index,CHI)和戴维斯-堡丁指数(Davies-Bouldin index,DBI)的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果。 展开更多
关键词 词频反文档频率 潜在语义分析 文本聚类速度 文本可视化 kmeans
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部