摘要
舆情热点发现是网络舆情系统的基本问题。通过分析传统舆情热点发现技术实时性和精准性差、算法复杂度高等问题,本文提出了基于频繁模式挖掘的网络舆情热点发现技术。基于网络数据流分布符合细尾特征,设计了一种高效的数据流频繁模式挖掘算法ILC,该算法使用差量窗口裁剪策略将每个数据项的处理时间降到了常数级别。对使用ILC算法的网络舆情热点发现技术进行实验,实验结果表明,该技术能够在高速的网络流量中实时精准地识别出舆情热点话题,正确率在90%以上。
Network public opinion hotspots detection is a basic problem of network public opinion system. Traditional detection technology can't find hotspots instantly and usually cost too much. We found that data distribution meets small tails property,so proposed an effective data stream frequent items mining algorithm,ILC,using differ window prune strategy,reduce time cost to O (1). Using it,public opinion hotspots can be found out on web data stream. Experimental results show that this method can detect 90% network public opinion hotspots from high speed network stream instantly and accurately.
出处
《微计算机信息》
2010年第36期35-37,共3页
Control & Automation
基金
基金申请人:李斌
项目名称:网络危机响应系统关键技术研究
基金颁发部门:中华人民共和国工业和信息化部(2007A47)
关键词
网络舆情
舆情热点发现
频繁模式挖掘
窗口裁剪
network public opinion
hotspots detection
frequent items mining
window prune