摘要
由于其内在的计算复杂性,在密集型数据序列数据库中挖掘全部频繁项集往往非常困难,解决方案之一是挖掘最大频繁序列。传统的序列模式方法对满足最小支持度阈值的序列同等对待,但在真实数据库中不同的序列往往具有不同的重要程度。为解决上述问题,提出了一种挖掘加权最大频繁序列的新算法。该算法利用频繁项目出现的频率来计算频繁序列的权重,给出了频繁加权序列的定义,该定义的引入不仅可以找出较为重要的最大频繁序列,而且可以使挖掘结果同样具有反单调性,从能够加速剪枝,提高算法效率。实验结果表明,加权最大频繁序列算法是有效的。
出处
《情报杂志》
CSSCI
北大核心
2009年第10期129-131,151,共4页
Journal of Intelligence
基金
国家自然科学基金资助项目"高维稀疏数据聚类研究"(编号:70771007)