摘要
关联规则发现是数据挖掘的核心技术,其中最经典的算法是Apriori算法。Apriori算法创建模型的方法是一次性抽样的方法。这种机器学习中传统而主流的建模技术,通常需要大量的样本量,这无疑会导致算法执行效率低下。最近几年,一些自适应的抽样建模方法逐渐得到重视,其中CarlosDomingo眼3演提出的基于序贯抽样理论的可升级性算法是其中之一,这一方法为用更少的资源建立稳健且不断更新的模型提出了新的思路。文章首先比较序贯抽样算法与传统的一次性抽样算法在关联规则中发现中的不同,接着论述将序贯抽样算法与Apriori算法结合同时达到节省空间和样本量的APASAR算法,最后通过模拟比较三种不同算法的执行效果。
Association Rule is one of the key technologies in data mining.The problem is usually computing association rule always requiring large sample numbers,which not only hindered heavily about its application,but also cause too many wasting rules.Recent years,adaptive algorithms based on sequential sampling are presented,this paper is to explore the sequential sampling algorithm,then presents a new algorithm which combined the sequential sampling algorithm with Apriori algorithm.Finally results based on simulation will be given.
出处
《计算机工程与应用》
CSCD
北大核心
2005年第1期27-29,60,共4页
Computer Engineering and Applications
基金
教育部人文社会科学研究重大项目"现代统计学在数据挖掘中的理论与应用研究"资助(编号:01JAZJD910001)
关键词
关联规则
序贯抽样
数据挖掘
association rule,sequential sampling,data mining