摘要
针对微博数据文本内容短小、特征词稀疏以及规模庞大的特点,提出了一种基于Map Reduce编程模型的发现微博热点话题的方法。该方法首先利用隐主题分析技术解决了微博内容短小、特征词稀疏的问题,然后利用CURE算法缓解了Kmeans算法对初始点敏感的问题,最后采用基于Map Reduce编程模型Kmeans聚类算法,对海量微博短文本数据进行快速聚类。实验结果表明该方法可以有效提高微博热点话题发现的效率。
出处
《无线互联科技》
2014年第12期168-169,共2页
Wireless Internet Technology