-
题名基于词云和文章主题的校园综合新闻聚类
- 1
-
-
作者
郝秀慧
方贤进
杨高明
-
机构
安徽理工大学计算机科学与工程学院
-
出处
《安徽理工大学学报(自然科学版)》
CAS
2021年第6期39-44,共6页
-
文摘
面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法。通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比。评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法。因此,基于词云和top3文章主题的聚类方法比不基于文章主题的聚类方法稍好。聚类结果能为用户了解或查找想要的类别信息提供一定参考。
-
关键词
词云
文章主题
校园新闻
词频-反文档频率
K-MEANS聚类
-
Keywords
wordcloud
article theme
campus news
TF-IDF
k-means clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-