关联规则的序贯抽样算法比较研究被引量：2

Comparing Reasearch on Sequential Sampling Algorthms in Association Rule Discovery

下载PDF

导出

摘要关联规则发现是数据挖掘的核心技术,其中最经典的算法是Apriori算法。Apriori算法创建模型的方法是一次性抽样的方法。这种机器学习中传统而主流的建模技术,通常需要大量的样本量,这无疑会导致算法执行效率低下。最近几年,一些自适应的抽样建模方法逐渐得到重视,其中CarlosDomingo眼3演提出的基于序贯抽样理论的可升级性算法是其中之一,这一方法为用更少的资源建立稳健且不断更新的模型提出了新的思路。文章首先比较序贯抽样算法与传统的一次性抽样算法在关联规则中发现中的不同,接着论述将序贯抽样算法与Apriori算法结合同时达到节省空间和样本量的APASAR算法,最后通过模拟比较三种不同算法的执行效果。 Association Rule is one of the key technologies in data mining.The problem is usually computing association rule always requiring large sample numbers,which not only hindered heavily about its application,but also cause too many wasting rules.Recent years,adaptive algorithms based on sequential sampling are presented,this paper is to explore the sequential sampling algorithm,then presents a new algorithm which combined the sequential sampling algorithm with Apriori algorithm.Finally results based on simulation will be given.

作者王星

机构地区中国人民大学统计学院应用统计研究中心

出处《计算机工程与应用》 CSCD 北大核心 2005年第1期27-29,60,共4页 Computer Engineering and Applications

基金教育部人文社会科学研究重大项目"现代统计学在数据挖掘中的理论与应用研究"资助(编号:01JAZJD910001)

关键词关联规则序贯抽样数据挖掘 association rule,sequential sampling,data mining

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1H Mannila,H Toivonen,A I Verkamo.Efficient algorithms for disco- verying association rules[C].In:Proc AAAI'94 Workshop Knowledge Discovery in Databases(KDD'94) ,Seatfle,WA, 1994:181-192.
2R Agrawal,T Imielinski,A Swami.Mining association rules between sets of items in large databases[C].In:Proceedings of the ACM SIGMOD Conference on Management of data,1993:207-216.
3Carlos Domingo,Ricard Gavald,Osamu Watanabe.Practical algorithms for on-line sampling[C].In:Proc of the First International Conference on Discovery Science,Lecture Notes in Computer Science, 1998-12.
4Carlos Domingo, Ricard Gavald, Osamu Watanabe.On-line Sampling Methods for Discovering Association Rules[R].Tech Rep C-126 ,Dept of Math and Computing Science,Tokyo Institute of Technology.

同被引文献17

1王星.对一个关联规则序贯抽样算法的改进与效率分析[J].统计与决策,2005,21(03X):8-10. 被引量：3
2陆如松,闪四清.基于抽样策略的关联规则算法[J].大众科技,2006,8(2):52-53. 被引量：1
3李梅花,王黎明,许红涛.利用抽样技术和元学习的分布式关联规则挖掘算法[J].计算机应用,2006,26(4):872-874. 被引量：3
4王军锋,贾建华,申志伟.一种改进的随机抽样算法[J].电脑与信息技术,2006,14(2):63-65. 被引量：4
5李宏,陈松乔,杜剑峰,陈建二.基于抽样的分布式约束性关联规则挖掘算法研究[J].计算机科学,2006,33(7):190-195. 被引量：2
6马光志,张耀坤.一种新的两阶段抽样算法[J].计算机工程与科学,2007,29(7):64-66. 被引量：1
7秦如新,陈静,冯一宁.一种新的关联规则抽样算法[J].中国农业大学学报,2007,12(3):85-88. 被引量：6
8Chen Bin, Haas P, Scheuermann P.A new two-phase sampling based algorithm for discovering association rules[C]//Proceeding of the eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Andreas: Association for Computing Machinery Press Room,2002:462-468.
9Agrawal R, Imielinski T, Swami A,Mining association rules between sets of items m large database[CJ//Proceeding of the ACM SIGMOD International Conference on Management of Data.Washington:ACM Press, 1993:207-216.
10Hannu Toivonen.Sampling large databases for association rules[C]// Proceedings of the 22nd VLDB Conference Mumbai(Bombay), India, 1996: 134-145.

引证文献2

1秦如新,陈静,冯一宁.一种新的关联规则抽样算法[J].中国农业大学学报,2007,12(3):85-88. 被引量：6
2王玉荣,钱雪忠.大数据集挖掘的层次二分抽样算法[J].计算机工程与应用,2010,46(35):126-128. 被引量：3

二级引证文献8

1谢小剑,肖宪涛.信息网络犯罪案件抽样取证制度的完善[J].法治论坛,2023(1):253-268. 被引量：1
2王玉荣,钱雪忠.大数据集挖掘的层次二分抽样算法[J].计算机工程与应用,2010,46(35):126-128. 被引量：3
3郑羽洁,章杰鑫.改进的关联规则在文献个性化检索中的应用研究[J].计算机与现代化,2011(6):199-202. 被引量：1
4宛婉,周国祥.基于并行抽样的海量数据关联挖掘算法[J].合肥工业大学学报（自然科学版）,2013,36(8):933-937. 被引量：3
5宛婉,周国祥.Hadoop平台的海量数据并行随机抽样[J].计算机工程与应用,2014,50(20):115-118. 被引量：11
6张铁山,闻思源,温博晨.基于“强”规则匹配技术的临床数据处理方法探讨[J].中国卫生信息管理杂志,2015,12(4):359-363. 被引量：3
7李晓瑜.数据挖掘技术在高校课程设置中的应用[J].微型电脑应用,2019,35(5):5-7. 被引量：2
8安校良,康翼鑫.改进的层次二分抽样算法在商业银行财务指标分析中的运用——基于我国16家上市商业银行实证研究[J].现代商业,2023(2):154-157.

1王星.对一个关联规则序贯抽样算法的改进与效率分析[J].统计与决策,2005,21(03X):8-10. 被引量：3
2顾才东,姬福,李华.种群空间格局与序贯抽样计算机应用程序[J].宁夏农学院学报,1995,16(4):71-78.
3艾默生将在巴西采用PlantWeb数字化电厂架构[J].化工自动化及仪表,2011(7):851-851.
4王伟伟.基于微粒群抽样的关联规则算法[J].电脑编程技巧与维护,2011(22):35-36.
5刘梦飞.浅析基于计数抽样理论的软件测试用例评审过程[J].电脑知识与技术,2015,0(8):138-139. 被引量：1
6黄冬梅,陈珂,王振华,刘爽.利用空间抽样理论的遥感影像分类结果精度评价方法[J].计算机应用与软件,2016,33(7):190-194. 被引量：8
7舒辉,康绯.循环Cache命中率分析方法的研究与实现[J].计算机工程与应用,2002,38(1):78-81. 被引量：3
8沈悦,杨军.Ad Hoc三种路由协议的仿真和性能分析[J].电脑知识与技术,2013,9(10):6284-6286.
9王春华,韩栋.基于树木综合特征的L系统建模[J].计算机应用与软件,2009,26(8):159-161. 被引量：2
10兼容乐高积木的人工义肢[J].发明与创新（高中生）,2017(3):14-14.

计算机工程与应用

2005年第1期

浏览历史

内容加载中请稍等...

关联规则的序贯抽样算法比较研究被引量：2

参考文献4

同被引文献17

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

关联规则的序贯抽样算法比较研究 被引量：2

参考文献4

同被引文献17

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

关联规则的序贯抽样算法比较研究被引量：2