期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于流信息距离的多文本流热点挖掘 被引量:5
1
作者 杨宁 唐常杰 +3 位作者 王悦 陈瑜 郑皎凌 李红军 《软件学报》 EI CSCD 北大核心 2011年第8期1761-1770,共10页
把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其... 把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性. 展开更多
关键词 热点挖掘 多文本 流信息距离 冗余信息 Kolmogorov复杂度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部