一种基于预判筛选的频繁项集挖掘算法被引量：3

A Frequent Item-set Mining Algorithm Based on Prejudgment and Screening

下载PDF

导出

摘要频繁项集挖掘作为关联规则挖掘技术的关键步骤,其性能对关联规则挖掘具有重要的意义。针对经典关联规则挖掘算法——Apriori算法存在的产生候选项目集效率低和频繁扫描数据库等缺点,对Apriori算法的原理及效率进行分析,提出一种基于预判筛选策略的频繁项集挖掘算法。该算法通过对原始数据集的随机取样,得出样本频繁项集的支持度集合来进行预判筛选,从而对原始数据集候选项集进行二次剪枝,并且引入阻尼因子和补偿因子对预判筛选产生的误差进行修正,以保证算法的误判率和遗漏率。实验结果表明,该算法具有更好的时效性。 Frequent item-set mining as a key step in mining association roles,its performance is of great significance to mining association rules. Aiming at the shortcomings of classical Apriori algorithm like low efficiency and frequent scanning database, we propose a frequent item-set mining algorithm based on prejudge and screening through analysis of the principle and efficiency of the Apriori algorithm. It ob- tains the support-set of frequent item-set for prejudgment and screening by random sampling of the original dataset, so as to make the second pruning of the candidate set from original dataset. The damping factor and the compensation factor are introduced to correct the error caused by the pre-selection screening to ensure the misjudgment rote and the omission rate of the algodthra. The experiments show that the proposed algorithm has better time efficiency.

作者李德辰吕一帆赵学健 LI De-chen;LYU Yi-fan;ZHAO Xue-jian(School of Intemet of Things, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;School of Modem Post, Nanjing University of Posts and Telecommunications, Nanjing 210003, China)

机构地区南京邮电大学物联网学院南京邮电大学现代邮政学院

出处《计算机技术与发展》 2018年第5期99-102,共4页 Computer Technology and Development

基金国家自然科学基金(61373135 61401225 61572262 61502246 61672299) 中国博士后科学基金(2015M581844) 江苏省基础研究计划(自然科学基金)(BK20140883 BK20140894 BK20150869) 江苏省博士后科研资助计划项目(1501125B) 南京邮电大学校级科研基金(NY214101 NY215147)

关键词关联规则 APRIORI 数据挖掘预判筛选频繁项集 association roles Apriori data mining prejudging and screening frequent item-set

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1王光宏,蒋平.数据挖掘综述[J].同济大学学报（自然科学版）,2004,32(2):246-252. 被引量：264
2毕建欣,张岐山.关联规则挖掘算法综述[J].中国工程科学,2005,7(4):88-94. 被引量：51
3黄新霆,包小源,俞国培,焦杜娟.医疗大数据驱动的个性化医疗服务引擎研究[J].中国数字医学,2014,9(8):5-7. 被引量：24
4马盈仓.挖掘关联规则中Apriori算法的改进[J].计算机应用与软件,2004,21(11):82-84. 被引量：24
5陈文庆,许棠.关联规则挖掘Apriori算法的改进与实现[J].微机发展,2005,15(8):155-157. 被引量：21
6刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146-149. 被引量：120
7胡吉明,鲜学丰.挖掘关联规则中Apriori算法的研究与改进[J].计算机技术与发展,2006,16(4):99-101. 被引量：59
8赵学健,孙知信,袁源.基于预判筛选的高效关联规则挖掘算法[J].电子与信息学报,2016,38(7):1654-1659. 被引量：34

二级参考文献51

1周焕银,张永,蔺鹏.一种不产生候选项挖掘频繁项集的新算法[J].计算机工程与应用,2004,40(15):182-185. 被引量：14
2郑丽英.基于trie的关联规则发现算法[J].兰州理工大学学报,2004,30(5):90-92. 被引量：3
3马盈仓.挖掘关联规则中Apriori算法的改进[J].计算机应用与软件,2004,21(11):82-84. 被引量：24
4李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1262
5胡吉明,鲜学丰.挖掘关联规则中Apriori算法的研究与改进[J].计算机技术与发展,2006,16(4):99-101. 被引量：59
6Chen M S,Han J W,Yu P S. Data Mining: An Overview from a Database Perspective[ J]. IEEE Transactions on Knowledge and Data Engineering, 1996,8 (6) : 866 - 883.
7Han J W,Kamber M. Data Mining Concepts and Techniques[ M]. Beijing: Higher Education Press,2001.
8Agrawal R, Srikant R. Fast algorithms for mining association rules in large databases [ C ]. Proceedings of the 20th International Conference on Very Large Data Bases, September 1994.
9Han E H, Karypis G, Kumar V. Scalable parallel data mining for association rules[ C ]. ACM SIGMOD International Conference on Management of Data, May, 1997.
10Agrawa! R, Imielinski T, Swami A. Mining association rules between. sets of items in large databases[ C ]. Proceedings of the ACM SIGMOD International Conference on Management of Data ; May, 1993.

共引文献575

1吴雨桐,吴思佳,杨建卫,何依娜,李洪凯,黄琳,刘云霞.基于Apriori算法分析2021年山东省医疗器械不良事件的关联性[J].山东大学学报（医学版）,2022,60(12):111-118. 被引量：9
2刘汉龙,马彦彬,仉文岗.大数据技术在地质灾害防治中的应用综述[J].防灾减灾工程学报,2021,41(4):710-722. 被引量：26
3周爱华.数据挖掘技术在智慧城市建设中的应用[J].电子技术（上海）,2021,50(11):94-95.
4唐星祝,潘良.基于大数据的电网过电压监测技术[J].电子技术（上海）,2021,50(2):132-133. 被引量：2
5柳全.基于数据挖掘的煤矿监控系统安全预测系统研究[J].区域治理,2019,0(13):155-155.
6陈智勤,黄剑辉.基于数据挖掘技术的核心客户的识别[J].福建师范大学学报（自然科学版）,2007,23(4):56-60. 被引量：1
7宋宝平,薛济来,铁军,李幼军,王若宾.铝热还原生产钒铁合金的工艺优化[J].稀有金属,2006,30(z2):114-116. 被引量：12
8李晓林,王建华,廖作文.一种改进的Apriori算法[J].软件导刊,2010,9(1):55-57. 被引量：5
9王娟勤,李书琴.关联规则挖掘在奶牛营养研究中的应用[J].西北农林科技大学学报（自然科学版）,2010,38(9):155-160. 被引量：1
10刘旭东.个性化网页推荐系统在电子商务中的设计与应用[J].烟台职业学院学报,2008,14(4):87-92. 被引量：2

同被引文献23

1白利果,乔钢柱,曾建潮.关联规则挖掘在农业产值分析中的应用[J].太原科技大学学报,2008,29(5):335-338. 被引量：5
2黄建明,赵文静,王星星.基于十字链表的Apriori改进算法[J].计算机工程,2009,35(2):37-38. 被引量：25
3刘国红,梅玲.一种关联规则算法在农业网站日志分析中的应用[J].广东农业科学,2010,37(1):177-180. 被引量：1
4涂明,张公让,程业媛.一种高效的关联规则增量式更新算法[J].微电子学与计算机,2010,27(9):56-60. 被引量：4
5崔贯勋,李梁,王柯柯,苟光磊,邹航.关联规则挖掘中Apriori算法的研究与改进[J].计算机应用,2010,30(11):2952-2955. 被引量：95
6齐娇娇.基于改进Apriori算法的运动员多属性训练数据挖掘模型构建及仿真[J].微型电脑应用,2018,34(12):137-139. 被引量：5
7曹莹,苗志刚.基于向量矩阵优化频繁项的改进Apriori算法[J].吉林大学学报（理学版）,2016,54(2):349-353. 被引量：19
8曲睿,张天娇.基于矩阵压缩的Apriori改进算法[J].计算机工程与设计,2017,38(8):2127-2131. 被引量：9
9雷学锋.基于关联规则的矿井监控数据挖掘分析[J].煤炭技术,2017,36(11):289-291. 被引量：3
10国悦婷,刘磊,张星.基于Apriori算法的时序关联关系数据挖掘装置的实现[J].计算机与数字工程,2018,46(2):260-263. 被引量：12

引证文献3

1胡世昌,李劲华,王常颖.基于二进制编码的Apriori改进算法[J].计算机应用研究,2020,37(2):398-400. 被引量：16
2陈翠娟.基于关联分析的计算机软件数据挖掘技术[J].安阳师范学院学报,2021(2):28-31. 被引量：6
3高光,张多阔,文轩,王祺,陈闯闯,耿文波,秦钢,徐坤.基于自然空间特征的智慧农业大数据处理系统的设计与实现[J].乡村科技,2024,15(15):146-150.

二级引证文献22

1贾澎涛,温滋.基于RS_Hash频繁项集的卫星载荷关联规则算法[J].国外电子测量技术,2023,42(2):9-15. 被引量：1
2刘念.四川浓香型白酒“五朵金花”制曲比较[J].酿酒科技,2000(2):25-27. 被引量：11
3毕玉萍,胡世昌,李劲华.基于排序树的Node-Apriori改进算法[J].青岛大学学报（自然科学版）,2020,33(3):50-56. 被引量：3
4邱宁佳,薛丽娇,贺金彪,王鹏,杨华民.一种改进项目多属性类别划分的推荐算法[J].计算机应用研究,2020,37(10):2932-2936. 被引量：2
5王洋,贺春林,姜玥,崔梦天.基于Hash表改进的二进制编码的Apriori算法[J].西南民族大学学报（自然科学版）,2020,46(6):623-630. 被引量：6
6崔伟健,马小宁,孙思齐.基于改进Apriori算法的铁路网络安全预警方法研究[J].铁路计算机应用,2021,30(3):59-64. 被引量：1
7黄淑娟,王莹,李红艳,武乐,刘利艳.中医治疗乳腺癌中药方剂配伍规律的探讨[J].实用癌症杂志,2021,36(9):1483-1485. 被引量：2
8罗章铭,唐杰,黄逸奇,张锦.基于二进制编码的Apriori增量更新算法研究[J].计算机技术与发展,2022,32(1):47-53. 被引量：4
9岳建成,王玉玫,吴亚非,臧义华.基于改进FP-growth的海上群目标挖掘[J].计算机与现代化,2022(2):33-37.
10郭畅.计算机数据挖掘技术及应用[J].中国管理信息化,2022,25(4):178-180. 被引量：1

1王杰,乐红兵.一种高效的改进频繁项集挖掘算法[J].微电子学与计算机,2018,35(2):49-51. 被引量：5
2白川平,杨志翀.基于加权滑动窗口的数据流频繁项集挖掘算法[J].宁夏师范学院学报,2017,38(6):49-55. 被引量：3
3王宇一.基于Apriori改进算法的频繁路径挖掘——以实现图书移动路径挖掘为例[J].湖北师范大学学报（自然科学版）,2018,38(1):18-22. 被引量：1
4刘宏.数据库异常检测模型的设计[J].经济视野,2014(3).
5朱国进,凌晓晨.基于关联规则挖掘的OJ推荐方法[J].智能计算机与应用,2018,8(2):20-24. 被引量：2
6娄晓娜,郭志华,曹怀信.量子态的极大可操控相干性[J].陕西师范大学学报（自然科学版）,2018,46(2):16-20.
7肖文,胡娟,周晓峰.基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J].计算机应用研究,2018,35(1):13-23. 被引量：47
8刘云,黄亚飞.可替代封闭模式对生产数据的优化分析[J].西北大学学报（自然科学版）,2018,48(2):191-198.
9刘庆贵,丁进良.基于改进Apriori关联规则挖掘的冷水机组故障诊断[J].暖通空调,2018,48(4):120-124. 被引量：4
10阿拉依.阿汗,田翔华,肖齐,杨瑛,闫慈,张伟文,古丽娜扎尔.艾克拜尔,曹明芹.关联规则与Logistic回归在维吾尔族健康体检人群代谢综合征数据挖掘中的应用[J].现代预防医学,2018,45(7):1161-1165. 被引量：4

计算机技术与发展

2018年第5期

浏览历史

内容加载中请稍等...

一种基于预判筛选的频繁项集挖掘算法被引量：3

参考文献8

二级参考文献51

共引文献575

同被引文献23

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种基于预判筛选的频繁项集挖掘算法 被引量：3

参考文献8

二级参考文献51

共引文献575

同被引文献23

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种基于预判筛选的频繁项集挖掘算法被引量：3