摘要
高校“百度贴吧”经常会有用户发表一些讨论帖,这些信息对于学校来说是非常有用的。但是未经处理的信息无法实时给当局者提供帮助。因此,文章提出一种利用自然语言处理方法获取“贴吧”信息,并实时发现热点话题的方法。本文首先获取网络文本信息,对文本进行预处理,包括分词、去除停用词,再计算文本的TF-IDF值,最后利用无监督学习方法(K-means)对文本进行聚类,从而获取热点话题。从实验结果中可以看出,本方法可以有效地发现“贴吧”中的热点话题。
出处
《电脑知识与技术》
2022年第35期16-18,共3页
Computer Knowledge and Technology