-
题名基于实时词共现网络的微博话题发现
被引量:5
- 1
-
-
作者
李亚星
王兆凯
冯旭鹏
刘利军
黄青松
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学教育技术与网络中心
云南省计算机技术应用重点实验室(昆明理工大学)
-
出处
《计算机应用》
CSCD
北大核心
2016年第5期1302-1306,共5页
-
基金
国家自然科学基金资助项目(81360230)~~
-
文摘
针对微博的实时性、稀疏性和海量性特点,提出基于实时词共现网络的话题发现模型。首先,从原始语料中筛选出主题词集合,再利用时间参数计算共现主题词的关系权重以实现词共现网络的构建,通过该网络推算出与话题关联性强的潜在特征词以解决微博特征词的稀疏性;其次,采用改进Single-Pass算法实现话题增量聚类;最后,对每个话题的主题词按热度计算进行排序,获得最具代表性的话题主题词。实验结果表明,该模型与经典Single-Pass聚类算法相比,话题发现准确率约提高6%,综合指标提高8%。实验结果证明所提模型的有效性和准确性。
-
关键词
话题发现
实时共现网络
短文本
Single-Pass聚类
热度计算
-
Keywords
topic discovery
real-time co-occurrence network
short text
Single-Pass cluster
hot degree calculation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-