-
题名基于特征扩展的微博短文本流热点话题检测方法
被引量:1
- 1
-
-
作者
李艳红
谢梦娜
王素格
李德玉
-
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《数据采集与处理》
CSCD
北大核心
2022年第3期621-632,共12页
-
基金
国家自然科学基金(62072294,62076158,61906112,41871286)
山西省重点研发计划(201803D421024,201903D421041)。
-
文摘
随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection,FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection,T-TD)和基于突发词的话题检测(Burst words-based topic detection,BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。
-
关键词
微博短文本流
特征扩展
热点话题
用户影响力
增量聚类
-
Keywords
microblog short text stream
feature extension
hot topic
user influence
incremental clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-