摘要
目前的主要序列模式挖掘算法可以分为3类:①基于Apriori的候选码生成-测试的方法;②基于垂直格式的候选码生成-测试的方法;③基于模式增长的方法.在介绍序列模式挖掘基本概念的基础上,描述了典型的挖掘算法,着重分析第②类序列模式挖掘算法的关键技术,并对各种算法进行详细的分析与比较,总结出它们的优缺点:前两类方法因产生巨大的候选序列而致挖掘代价剧增,而第③类模式增长方法避免了候选序列的产生,但挖掘长模式效率低.
Recently sequential pattern mining algorithms can be divided into three classes: a candidate generation-and-test approach based on Apriori, a candidate generation-and-test approach based on vertical format, a pattern-growth method. On the foundation of introduction of the basic concept of sequential pattern mining, this paper describes classical algorithms, place emphasis on analyzing pivotal technique of the second class algorithm, then makes a comparison and analysis among these algorithms and finally summarizes pros and cons of the algorithms: the first two methods generate too much candidates leading to high cost, while the method of pattern-growth avoids candidate. However, it is inefficient when mining long sequences.
出处
《扬州大学学报(自然科学版)》
CAS
CSCD
2007年第1期41-46,共6页
Journal of Yangzhou University:Natural Science Edition
基金
国家自然科学基金资助项目(60673060)
国家科技基础条件平台项目(2004DKA20310)
江苏省自然科学基金资助项目(BK2005047)
江苏省高校"青蓝工程"优秀青年骨干教师基金资助项目
扬州大学"新世纪人才工程"优秀青年骨干教师基金资助项目
关键词
序列模式挖掘
候选码生成-测试
数据分布
模式增长
sequential pattern mining
candidate generation-test
data distribution
pattern-grow