-
题名基于线索树双层聚类的微博话题检测
被引量:16
- 1
-
-
作者
马彬
洪宇
陆剑江
姚建民
朱巧明
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2012年第6期121-128,共8页
-
基金
国家自然科学基金资助项目(61003152
60970057
+3 种基金
60970056)
教育部博士点基金资助项目(2009321110006)
教育部博士学科点专项基金资助项目(20103201110021)
江苏省苏州市自然科学基金项目(SYG201030)
-
文摘
微博作为一种全新的信息发布模式,在极大程度上增强了网络信息的开放性和互动性,但同时也造成微博空间内信息量的裂变式增长。利用话题检测技术将微博文本信息按照话题进行归类和组织,可以帮助用户在动态变化的信息环境下高效获取个性信息或热点话题。该文针对微博文本短、半结构、上下文信息丰富等特点,提出了基于线索树的双层聚类的话题检测方法,通过利用融合了时序特征和作者信息的话题模型(Temporal-Author-Topic,TAT)进行线索树内的局部聚类,借以实现垃圾微博的过滤,最后利用整合后的线索树进行全局话题检测。实验结果显示该方法在解决数据稀疏方面取得了较好的效果,话题检测的F值达到31.2%。
-
关键词
微博文本
话题检测
tat模型
线索树
LDA特征选择
-
Keywords
microblog texts
topic detection
tat model
thread information
LDA feature selection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-