基于流信息距离的多文本流热点挖掘被引量：5

Mining Hotspots from Multiple Text Streams Based on Stream Information Distance

下载PDF

导出

摘要把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性. This paper characterizes the local and global hotspots in text streams and elaborates their correlation. The paper then applies Kolmogorov complexity to mining the hotspots in multiple text streams. The Redundant Information is defined based on Kolmogorov complexity, and it has been demonstrated that the Redundant Information exceeding a threshold is necessary for the local hotspots. Secondly, a similarity metric, termed as Stream Information Distance （SID）, is suggested based on the conditional Kolmogorov complexity to quantify the similarity between different text streams. Borrowing ideas of Phylogeny originated from Computational Biology, a heuristic algorithm based on hierarchical clustering is proposed to mine the global hostspots from multiple text streams. Finally, the convergency, effectiveness, and scalability of this algorithm are validated by the extensive experiments over synthetic and real data set.

作者杨宁唐常杰王悦陈瑜郑皎凌李红军

机构地区四川大学计算机学院

出处《软件学报》 EI CSCD 北大核心 2011年第8期1761-1770,共10页 Journal of Software

基金国家自然科学基金(600773169) 国家科技支撑计划(2006BAI05A01)

关键词热点挖掘多文本流流信息距离冗余信息 Kolmogorov复杂度 hotspot mining multiple text streams stream information distance redundant information Kolmogorov complexity

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献21

1Parikh N, Sundaresan N. Scalable and near real-time burst detection from eCommerce queries. In: Proc.of the ACM KDD 2008. New York: ACM, 2008.972-980. [doi: 10.1145/1401890.1402006].
2Lappas T, Arai B, Platakis M, Kotsakos D, Gunopulos D. On burstiness-aware search for document sequences. In: Proc.of the ACM KDD 2009. New York: ACM, 2009. 477-485.
3Fung GPC, Yu JX, Yu PS, Lu HJ. Parameter free bursty events detection in text streams. In: Proc. of the VLDB 2005. Trondheim: VLDB Endowment, 2005. 181 - 192.
4Allan J, Carbonell J, Doddington G, Yamron J, Yang YM. Topic detection and tracking pilot study: Final report. In: Proc. of the DARPA Broadcast News Transcription and Understanding Workshop. Arlington: NSF, 1998.65-74.
5Brants T, Chen F, Farahat A. A system for new event detection. In: Proc. of the 26th ACM SIGIR Int'l Conf. on Research and Development in Information Retrieval (SIGIR 2003). Toronto: ACM, 2003. 102-112. [doi: 10.1145/860435.860495].
6Yang YM, Ault T, Pierce T, Lattimer CW. Improving text categorization methods for event tracking. In: Belkin NJ, Ingwersen P, Leong MK, eds. Proc. of the SIGIR 2000. Athens: ACM, 2000.65-72. [doi: 10.1145/345508.345550].
7Kleinberg J. Bursty and hierarchical structure in streams. In: Proc. of KDD 2002. Edmonton: ACM, 2002.91-101. [doi: 10.1145/ 775047.775061 ].
8Kumar R, Novak J, Raghavan P, Tomkins A. On the bursty evolution of blogspace. In: Proc. of the WWW 2003. Budapest: ACM, 2003. 568-576. [doi: 10.1145/775152.775233].
9He Q, Chang KY, Lim EP. Analyzing feature trajectories for event detection. In: Proc. of the SIGIR 2007. Amsterdam: ACM, 2007. 186-197. [doi: 10.1145/1277741.1277779].
10Vlachos M, Meek C, Vagcna Z, Gunopulos D. Identifying similarities, periodicities and bursts for online search queries. In: Proc. of the SIGMOD 2004. New York: ACM, 2004. 131-142. [doi: 10.1145/1007568.1007586].

同被引文献48

1雷震,吴玲达,雷蕾,黄炎焱.初始化类中心的增量K均值法及其在新闻事件探测中的应用[J].情报学报,2006,25(3):289-295. 被引量：25
2池忠仁,王浣尘.基于用户角度的网站易用性信息距离测度模型研究[J].情报科学,2007,25(1):139-145. 被引量：19
3王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
4周亚东,孙钦东,管晓宏,李卫,陶敬.流量内容词语相关度的网络热点话题提取[J].西安交通大学学报,2007,41(10):1142-1145. 被引量：27
5洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
6吉翔华,陈超,邵正荣,俞能海.基于主题子空间的文本模糊C均值聚类方法[J].小型微型计算机系统,2007,28(12):2225-2228. 被引量：2
7池忠仁,王浣尘,陈云.信息时代产品易用性的信息距离测度研究[J].工业工程与管理,2007,12(6):66-72. 被引量：7
8Cisco visual network index: forecast and methodology, 2012-2017. http://www.cisco.com/c/en/ us/solutions/collateral/service-provider/ip-ngn-ip-next-generation-network//white_paper_c11-481360.html.
9TAKESHITA K, KUROSAWA T, TSUJINO M, et al. Evaluation of HTTP video classification method using flow group information [C]∥Proceedings of 14th International Telecommunications Network Strategy and Planning Symposium, 2010: 1-6.
10PARK B C, WON Y J, KIM M S. Towards automated application signature generation for traffic identification [C]//Proceedings of Network Operations and Management Symposium.2008:160-167.

引证文献5

1蒙祖强,黄柏雄.一种新的网络热点话题提取方法[J].小型微型计算机系统,2013,34(4):743-748. 被引量：6
2董育宁,王再见,房曙光,张健.多媒体通信业务流识别与分类方法综述[J].南京邮电大学学报（自然科学版）,2013,33(3):35-44. 被引量：7
3李相良,吕文奇,郭全魁.基于信息距离的指挥流程测度方法研究[J].装备学院学报,2014,25(6):113-117. 被引量：2
4姚利涛,董育宁.无监督的视频业务特征分析与分类[J].应用科学学报,2015,33(2):117-128. 被引量：2
5邓箴,刘立波.面向食品添加剂的舆情话题发现算法研究[J].计算机与应用化学,2015,32(6):739-743.

二级引证文献17

1马远雪,黄婷熙.C-DOCSIS系统头端的业务流分类转发器的实现[J].现代电子技术,2015,38(3):75-78.
2姚利涛,董育宁.无监督的视频业务特征分析与分类[J].应用科学学报,2015,33(2):117-128. 被引量：2
3王鹏程,肖正,刘辉.融合观点倾向的话题热度趋势建模研究[J].计算机工程,2015,41(7):66-70. 被引量：5
4李亚星,王兆凯,冯旭鹏,刘利军,黄青松.基于实时词共现网络的微博话题发现[J].计算机应用,2016,36(5):1302-1306. 被引量：5
5周锐,董育宁.网络游戏流特征分析与识别[J].计算机工程与应用,2016,52(23):135-141. 被引量：4
6寇茜茜,何希平.基于栈式自编码器模型的汇率时间序列预测[J].计算机应用与软件,2017,34(3):218-221. 被引量：10
7郑燕山,李琳琳,夏冰.基于最优组合赋权的C^4ISR结构效能综合评估方法[J].电光与控制,2017,24(4):33-38. 被引量：1
8孙明溪,刘春琦.基于DBSCAN算法与句间关系的热点话题发现研究[J].图书情报工作,2017,61(12):113-121. 被引量：7
9王再见,董育宁,汤萍萍,杨凌云,张晖.使用改进K-SVD的网络多媒体业务QoS类识别[J].电子与信息学报,2017,39(12):3023-3029.
10李帅彬,李亚星,冯旭鹏,刘利军,黄青松.基于词向量的微博话题发现方法[J].计算机应用与软件,2017,34(12):47-52. 被引量：2

1孙世杰,濮建忠.基于LDA模型的Twitter中文微博热点主题词组发现[J].洛阳师范学院学报,2012,31(11):60-64. 被引量：6
2黄敏,胡学钢.网络舆情分析技术及系统构建[J].山东理工大学学报（自然科学版）,2013,27(1):25-29. 被引量：2
3温雅,王长元.基于SOA的信息距离研究[J].电脑开发与应用,2009,22(9):69-70.
4王振飞,刘凯莉,郑志蕴,李钝.基于逻辑回归模型的微博转发预测[J].小型微型计算机系统,2016,37(8):1651-1655. 被引量：7
5黄敏.网络舆情热点挖掘算法研究与实现[J].安徽大学学报（自然科学版）,2012,36(6):67-72. 被引量：11
6郭林.一种基于社交媒体短链接的网页舆情热点数据挖掘方法[J].软件导刊,2015,14(11):139-141. 被引量：2
7张力.基于信息距离理论的网站“易搜性”测度模型研究[J].西华大学学报（自然科学版）,2011,30(2):50-53.
8仇学明,肖基毅,陈磊.基于用户特征的微博转发预测研究[J].南华大学学报（自然科学版）,2016,30(4):100-105. 被引量：2
9刘海峰,苏展,刘守生.一种基于词频信息的改进CHI文本特征选择[J].计算机工程与应用,2013,49(22):110-114. 被引量：24
10余淼淼,周志平,赵晓东,岳晓冬.基于PAM概率主题模型的微博热点挖掘[J].微型机与应用,2013,32(15):86-89. 被引量：3

软件学报

2011年第8期

浏览历史

内容加载中请稍等...

基于流信息距离的多文本流热点挖掘被引量：5

参考文献21

同被引文献48

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于流信息距离的多文本流热点挖掘 被引量：5

参考文献21

同被引文献48

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于流信息距离的多文本流热点挖掘被引量：5