一种新的关联规则抽样算法被引量：6

A new sampling algorithm for association rule

下载PDF

导出

摘要针对目前经典的关联规则挖掘Apriori算法需对数据库多次扫描费时多计算量大,而抽样扫描会造成挖掘精确度下降等问题,采用控制样本频繁项目集的方法,利用频繁1项集进行抽样处理,对关联规则挖掘的抽样操作和精度控制进行研究,提出了基于抽样操作的关联规则挖掘算法——HAC算法。理论分析及性能试验结果表明:HAC算法能够有效缩减数据库规模,至少少扫描数据库1次,提高了关联规则挖掘的效率,同时其计算精度不受影响。 In order to reduce the long time spent for scanning the database by using Apriori algorithm, which may descend the mining accuracy, the research on the sample operation and precision control with the help of frequent itemset, especially, the frequent 1-item-set is presented in this paper. The HAC algorithm based on sampling was de- signed. The results in theory and capability experiment indicated that HAC algorithm could decrease the scanning times by at least once, promote the efficiency of mining and improve the computation precision.

作者秦如新陈静冯一宁

机构地区中国农业大学理学院

出处《中国农业大学学报》 CAS CSCD 北大核心 2007年第3期85-88,共4页 Journal of China Agricultural University

基金国家自然科学基金资助项目(1037113160573158)

关键词关联规则抽样准则系数 APRIORI算法 HAC算法 association rule sampling guide coefficient Apriori algorithm HAC algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[C]∥In Proceeding of the ACM SIGMOD International Conference on Management of Data.Washington:ACM Press NY,1993:207-216
2Tan Pangning,Steinbach M,Kumar V.数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2006:241-327
3Chen Bin,Haas P,Sdcheuemann P.A new two-phase sampling based algorithm for discovering association rules[C]∥Proceeding of the eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Andreas:Association for Computing Machinery Press Room,2002:462-468
4Chazelle B.The discrepancy method[M].Cambridge United Kingdom:Cambridge University Press,2000:340-392
5Broennimann H,Chen Bin,Dash M,et al.Efficient data-reduction methods for on-line association rule discovery[C]∥National Science Foundation Workshop on Next Generation Data Mining.Camden Yards:Baltimore Marriott Press,2002:190-208
6王星.关联规则的序贯抽样算法比较研究[J].计算机工程与应用,2005,41(1):27-29. 被引量：2
7李宏,陈松乔,杜剑峰,陈建二.基于抽样的分布式约束性关联规则挖掘算法研究[J].计算机科学,2006,33(7):190-195. 被引量：2
8陆如松,闪四清.基于抽样策略的关联规则算法[J].大众科技,2006,8(2):52-53. 被引量：1
9王星.对一个关联规则序贯抽样算法的改进与效率分析[J].统计与决策,2005,21(03X):8-10. 被引量：3
10李梅花,王黎明,许红涛.利用抽样技术和元学习的分布式关联规则挖掘算法[J].计算机应用,2006,26(4):872-874. 被引量：3

二级参考文献32

1杜剑峰,李宏,陈松乔,陈建二.单调和反单调约束条件下关联规则的挖掘算法分析[J].计算机科学,2005,32(6):142-144. 被引量：3
2H Mannila,H Toivonen,A I Verkamo.Efficient algorithms for disco- verying association rules[C].In:Proc AAAI'94 Workshop Knowledge Discovery in Databases(KDD'94) ,Seatfle,WA, 1994:181-192.
3R Agrawal,T Imielinski,A Swami.Mining association rules between sets of items in large databases[C].In:Proceedings of the ACM SIGMOD Conference on Management of data,1993:207-216.
4Carlos Domingo,Ricard Gavald,Osamu Watanabe.Practical algorithms for on-line sampling[C].In:Proc of the First International Conference on Discovery Science,Lecture Notes in Computer Science, 1998-12.
5Carlos Domingo, Ricard Gavald, Osamu Watanabe.On-line Sampling Methods for Discovering Association Rules[R].Tech Rep C-126 ,Dept of Math and Computing Science,Tokyo Institute of Technology.
6R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. In Proceedings of the ACM SIGMOD Conference on Management of data(SIGMOD'93), edited by P.Buneman,and S.Jajodia, 1993,Washington DC,207-216.
7H. Toivonen. Sampling large databases for association rules. In 22th International Conference on Very Large Databases(VLDB'96), September 1996, Mumbay, India, 134-145.
8Carlos Domingo, Ricard Gavalda, Osamu Watanabe, Adaptive Sampling Methods for Scaling Up Knowledge Discovery Algorithms, Data Mining Knowledge Discovery,2002,Vol2: 131-152.
9Agrawal R,Shafer J C. Parallel mining of Association rules: Design,Implementation,and Experience [J]. IEEE Transactions on Knowledge and Data Engineering, 1996,8(6) : 962-969
10Agrawal R, Srikant R. Fast algorithms for mining associationrules [A]. In: Proceedings of the 20th International Conference on Very Large Databases [C], Santiago, Chile, 1994. 487-499

共引文献28

1张欣,施欣.船舶溢油事故等级评估方法比较[J].环境科学研究,2007,20(6):164-168. 被引量：10
2李勇军,李建华,王美云.基于QoS要求的QoS估计方法[J].计算机工程,2008,34(16):66-68. 被引量：2
3王伟一,郝文宁,赵水宁,蒋维.基于相对密度的军事高维数据噪声点检测方法[J].计算机工程,2009,35(5):50-52. 被引量：2
4张忠平,陈丽萍,王爱杰,林志杰.基于自适应模糊C-均值的增量式聚类算法[J].计算机工程,2009,35(6):60-62. 被引量：11
5邓春林,邹凯.基于关联规则的图书馆读者兴趣度实证分析[J].情报理论与实践,2009,32(4):93-95. 被引量：7
6程华,房一泉.基于聚类分析的网络流量高斯混合模型[J].华东理工大学学报（自然科学版）,2010,36(2):255-260. 被引量：2
7赵恩来,郝文宁,赵水宁,韩宪勇.改进的基于密度方法的态势聚类显示算法[J].计算机工程,2010,36(18):35-37. 被引量：9
8王玉荣,钱雪忠.大数据集挖掘的层次二分抽样算法[J].计算机工程与应用,2010,46(35):126-128. 被引量：3
9蹇涛,李宏,郭跃健.结合代价敏感及多数类分解的非平衡分类[J].计算机工程与应用,2011,47(1):150-153. 被引量：3
10廖敏,李龙澍,李森.基于决策树规则的回归测试技术研究[J].计算机技术与发展,2011,21(5):25-28.

同被引文献69

1殷锋,李志蜀,杨宪泽,王莉,何先波,孙继荣.基于时间序列关联规则的网格任务切分模型[J].北京理工大学学报,2006,26(z1):61-64. 被引量：1
2陈翀,彭波,闫宏飞,王继民.一种词汇共现算法及共现词对检索系统排序的影响[J].清华大学学报（自然科学版）,2005,45(S1):1857-1860. 被引量：8
3王星.关联规则的序贯抽样算法比较研究[J].计算机工程与应用,2005,41(1):27-29. 被引量：2
4文坤梅,卢正鼎,陈莉,邓曦.元搜索引擎中检索结果排序的优化方法[J].华中科技大学学报（自然科学版）,2003,31(3):49-51. 被引量：10
5王星.对一个关联规则序贯抽样算法的改进与效率分析[J].统计与决策,2005,21(03X):8-10. 被引量：3
6李梅花,王黎明,许红涛.利用抽样技术和元学习的分布式关联规则挖掘算法[J].计算机应用,2006,26(4):872-874. 被引量：3
7王军锋,贾建华,申志伟.一种改进的随机抽样算法[J].电脑与信息技术,2006,14(2):63-65. 被引量：4
8李宏,陈松乔,杜剑峰,陈建二.基于抽样的分布式约束性关联规则挖掘算法研究[J].计算机科学,2006,33(7):190-195. 被引量：2
9肖明军,黄刘生,罗永龙.SHITS:一种基于超链接和内容的网页排序方法[J].小型微型计算机系统,2006,27(12):2177-2182. 被引量：6
10朱可,胡克瑾.一种基于模糊关联规则挖掘的攻击识别系统[J].计算机工程与应用,2007,43(1):135-138. 被引量：2

引证文献6

1王玉荣,钱雪忠.大数据集挖掘的层次二分抽样算法[J].计算机工程与应用,2010,46(35):126-128. 被引量：3
2郑羽洁,章杰鑫.改进的关联规则在文献个性化检索中的应用研究[J].计算机与现代化,2011(6):199-202. 被引量：1
3宛婉,周国祥.基于并行抽样的海量数据关联挖掘算法[J].合肥工业大学学报（自然科学版）,2013,36(8):933-937. 被引量：3
4宛婉,周国祥.Hadoop平台的海量数据并行随机抽样[J].计算机工程与应用,2014,50(20):115-118. 被引量：11
5李晓瑜.数据挖掘技术在高校课程设置中的应用[J].微型电脑应用,2019,35(5):5-7. 被引量：2
6安校良,康翼鑫.改进的层次二分抽样算法在商业银行财务指标分析中的运用——基于我国16家上市商业银行实证研究[J].现代商业,2023(2):154-157.

二级引证文献20

1谢小剑,肖宪涛.信息网络犯罪案件抽样取证制度的完善[J].法治论坛,2023(1):253-268. 被引量：1
2黄取治.动态云模型大规模数据挖掘算法[J].长春工业大学学报,2014,35(3):305-308. 被引量：2
3李静,王原会,孔祥善,鲁旭涛.海量感知数据高效传输技术[J].火力与指挥控制,2014,39(9):105-107.
4宰姣姣.基于用户兴趣模型的数字图书馆数据查询结果排序优化研究[J].农业图书情报学刊,2015,27(7):5-7. 被引量：4
5张铁山,闻思源,温博晨.基于“强”规则匹配技术的临床数据处理方法探讨[J].中国卫生信息管理杂志,2015,12(4):359-363. 被引量：3
6单凯,高仲合,李凤银.云计算环境下的P2P流量识别[J].计算机工程与应用,2015,51(19):88-92. 被引量：1
7王刚,李盛恩.MapReduce中数据倾斜解决方法的研究[J].计算机技术与发展,2016,26(9):201-204. 被引量：3
8陈勇.一种基于云计算的大数据关联规律挖掘分析方法[J].无线电工程,2017,47(3):8-11. 被引量：13
9常成.PDMiner平台的主动配电网安全监测系统[J].哈尔滨理工大学学报,2017,22(2):61-66. 被引量：6
10茹蓓,李虹.海量数据干扰下冗余数据高性能消除方法[J].沈阳工业大学学报,2017,39(6):686-690. 被引量：4

1王玉荣,钱雪忠.大数据集挖掘的层次二分抽样算法[J].计算机工程与应用,2010,46(35):126-128. 被引量：3
2王伟,王洪伟.特征观点对购买意愿的影响:在线评论的情感分析方法[J].系统工程理论与实践,2016,36(1):63-76. 被引量：50
3张蕾,朱义鑫,徐春,于凯.基于字典学习的软件缺陷检测算法[J].计算机应用,2016,36(9):2486-2491. 被引量：2
4郭晓娟,刘晓霞,李晓玲.层次聚类算法的改进及分析[J].计算机应用与软件,2008,25(6):243-244. 被引量：7
5高镔.一种快速网页检索结果聚类策略[J].计算机工程与应用,2011,47(12):110-112. 被引量：1
6郭立山,董守斌,袁华.基于站点资源的主题提取算法[J].清华大学学报（自然科学版）,2005,45(S1):1738-1742.
7杨可明,魏华锋,史钢强,孙阳阳,刘飞.光谱谐波分析的新型HAC非监督分类器[J].光谱学与光谱分析,2015,35(7):2001-2006. 被引量：1
8张永锋,李粉茹,潘颖.可疑观测值判别的Matlab程序设计[J].农业网络信息,2004(7):32-33.

中国农业大学学报

2007年第3期

浏览历史

内容加载中请稍等...

一种新的关联规则抽样算法被引量：6

参考文献11

二级参考文献32

共引文献28

同被引文献69

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

一种新的关联规则抽样算法 被引量：6

参考文献11

二级参考文献32

共引文献28

同被引文献69

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

一种新的关联规则抽样算法被引量：6