在社会化媒体情境下,社会化媒体舆情已成为社会舆情的新视域,社会化大数据分析正显现出日益重要的社会价值和商业价值。在新兴的社会化大数据管理领域,热点话题发现是网络舆情分析和数据治理基础而重要的课题,人们一直在研究和探索先进...在社会化媒体情境下,社会化媒体舆情已成为社会舆情的新视域,社会化大数据分析正显现出日益重要的社会价值和商业价值。在新兴的社会化大数据管理领域,热点话题发现是网络舆情分析和数据治理基础而重要的课题,人们一直在研究和探索先进和适用的热点主题挖掘的理论和方法。针对传统的聚类算法用于微博话题检测时,存在特征向量过于稀疏和维度过高等问题,导致聚类结果不准确。本文通过对在话题传播周期中词语的突发性特征的研究,提出了一种基于传播周期的词语动能聚类(Word Kinetic Energy Clustering, WKEC)模型和算法。该文本聚类模型基于话题生命周期特性,引入物理学中的动能概念,用词语在话题爆发期的最大增长速度来表征词语的动能,并加入到词语权重的计算中,对经典的TF-IDF模型进行了改造。基于Single-Pass的算法设计和新浪微博真实数据集的实验结果表明,WKEC模型可以增强文本特征,提高话题发现的准确率。另外,由于微博话题实时性强,为了得到更接近真实的微博热点话题列表,本文在话题热度计算中引入衰减系数,并以爆发期尾部时间点作为话题热度开始衰减的时刻,给出了一种更加符合实际的话题热度计算方法。展开更多
文摘在社会化媒体情境下,社会化媒体舆情已成为社会舆情的新视域,社会化大数据分析正显现出日益重要的社会价值和商业价值。在新兴的社会化大数据管理领域,热点话题发现是网络舆情分析和数据治理基础而重要的课题,人们一直在研究和探索先进和适用的热点主题挖掘的理论和方法。针对传统的聚类算法用于微博话题检测时,存在特征向量过于稀疏和维度过高等问题,导致聚类结果不准确。本文通过对在话题传播周期中词语的突发性特征的研究,提出了一种基于传播周期的词语动能聚类(Word Kinetic Energy Clustering, WKEC)模型和算法。该文本聚类模型基于话题生命周期特性,引入物理学中的动能概念,用词语在话题爆发期的最大增长速度来表征词语的动能,并加入到词语权重的计算中,对经典的TF-IDF模型进行了改造。基于Single-Pass的算法设计和新浪微博真实数据集的实验结果表明,WKEC模型可以增强文本特征,提高话题发现的准确率。另外,由于微博话题实时性强,为了得到更接近真实的微博热点话题列表,本文在话题热度计算中引入衰减系数,并以爆发期尾部时间点作为话题热度开始衰减的时刻,给出了一种更加符合实际的话题热度计算方法。