稀疏数据频繁项集挖掘算法研究综述被引量：5

A survey of frequent itemset mining algorithms for sparse dataset

下载PDF

导出

摘要频繁项集挖掘FIM是最重要的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响。在大数据时代,稀疏是大数据的典型特征之一,对传统FIM算法的性能带来严峻挑战。针对在稀疏数据中如何高效进行FIM的问题,从稀疏数据的特征出发,分析了稀疏数据对3种类型FIM算法性能的主要影响,对已经提出的稀疏数据FIM算法进行了综述,对算法中采用的优化策略进行了讨论,最后通过实验对代表性的稀疏数据FIM算法进行了性能分析。实验结果表明,采用伪构造策略的模式增长算法最适合用于稀疏数据的FIM,在运算时间和存储空间上,相比其他算法该算法具有较大的优势。 Frequent itemset mining (FIM) is one of the most important data mining tasks.The characteristics of datasets have a significant impact on the performance of FIM algorithms.In the era of big data,sparseness,a typical feature of big data,brings severe challenges to the performance of traditional FIM algorithms.Aiming at the problem of how to perform FIM in sparse datasets efficiently,based on the characteristics of sparse datasets,we analyze the main effects of sparse datasets on the performance of three FIM algorithms,summarize current sparse datasets FIM algorithms,discuss the optimization strategies used in these algorithms,and analyse the performance of the typical sparse datasets FIM algorithms through experiments.Experimental results show that the pattern growth algorithm with pseudo-structural strategy is most suitable for FIM in sparse datasets and outperforms the other two algorithms in both operation time and storage space.

作者肖文胡娟 XIAO Wen;HU Juan(Wentian College,Hohai University,Maanshan 243031,China)

机构地区河海大学文天学院

出处《计算机工程与科学》 CSCD 北大核心 2019年第5期780-787,共8页 Computer Engineering & Science

基金安徽省高校优秀青年人才支持计划(gxyq2018139)

关键词大数据稀疏数据频繁项集挖掘性能分析综述 big data sparse data frequent itemset mining (FIM) performance analysis survey

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1肖文,胡娟.基于数据集稀疏度的频繁项集挖掘算法性能分析[J].计算机应用,2018,38(4):995-1000. 被引量：20

二级参考文献1

1闫珍,皮德常,吴文昊.高维稀疏数据频繁项集挖掘算法的研究[J].计算机科学,2011,38(6):183-186. 被引量：5

共引文献19

1吴养怡.中国互联网络世纪之交大盘点：CNNIC最新互联网发展状况统计报告分析[J].信息系统工程,2000(3):32-33.
2吴行健.现场总线技术下供电系统接触网远动监控可靠性评估[J].自动化与仪器仪表,2019(2):125-127.
3白玲玲,韩天鹏.一种改进的SPRINT算法[J].韶关学院学报,2018,39(9):20-25.
4梁显丽.基于人工蜂群优化的多段支持度数据挖掘仿真[J].计算机仿真,2019,36(7):273-276. 被引量：4
5秦中元,陆凯,张群芳,黄星期.一种二进制私有协议字段格式划分方法[J].小型微型计算机系统,2019,40(11):2318-2323. 被引量：3
6王志华,刘绍廷,罗齐.基于邻接多重表的动态频繁项集挖掘算法[J].计算机工程与设计,2019,40(11):3090-3098. 被引量：3
7刘承萍.变电站综合自动化系统远动指标统计算法[J].自动化与仪器仪表,2020,0(2):31-34. 被引量：1
8姚启芳.基于模糊聚类的养生旅游资源信息检索方法[J].廊坊师范学院学报（自然科学版）,2020,20(1):81-85. 被引量：2
9时兵.复杂网络数据流频繁项集人工智能挖掘仿真[J].计算机仿真,2020,37(4):330-334. 被引量：2
10许瑾璐.BIM技术在工业化住宅建设中的应用[J].安阳工学院学报,2020,19(2):89-92.

同被引文献54

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
2王伟,黄义德,黄文江,李存军,王娴.作物生长模型的适用性评价及冬小麦产量预测[J].农业工程学报,2010,26(3):233-237. 被引量：18
3刘芳,吴广潮.一种基于压缩矩阵的改进Apriori算法[J].山东大学学报（工学版）,2018,48(6):82-88. 被引量：9
4李芬田,王红梅,潘超.滑动窗口中FP-Tree的频繁项集挖掘算法的研究[J].小型微型计算机系统,2019,40(1):45-49. 被引量：6
5梁帆,陈红豆,杨莉莉,崔世钢,吴兴利,田立国.基于卡尔曼滤波融合的改进神经网络油菜成熟度预测方法[J].中国农机化学报,2016,37(8):145-148. 被引量：3
6鲁业明,于合龙.基于YARN的加权模糊C均值算法在土壤养分数据挖掘中的应用[J].中国农机化学报,2016,37(9):140-145. 被引量：1
7赵子祎,高晓阳.甘肃啤酒大麦叶片生长模拟模型研究[J].中国农机化学报,2016,37(10):145-149. 被引量：1
8张稳,罗可.一种基于Spark框架的并行FP-Growth挖掘算法[J].计算机工程与科学,2017,39(8):1403-1409. 被引量：14
9孙学波,石飞达.基于Hadoop的Apriori算法研究与优化[J].计算机工程与设计,2018,39(1):126-133. 被引量：18
10郭瑜,孙志礼,刘明贺.回流焊工艺中PBGA焊点失效研究[J].机械设计与制造,2018(7):203-205. 被引量：3

引证文献5

1皇可,毕春光,王金龙,郭海,袁帅.基于频繁项集改进的Apriori算法在智能温室中的应用研究[J].中国农机化学报,2020,41(9):182-189. 被引量：2
2王黎,吕殿基.基于Spark框架的大数据局部频繁项集挖掘算法设计[J].微型电脑应用,2021,37(4):130-132. 被引量：7
3顾清华,王楚豪,江松,陈露.基于动态自适应的双档案大规模稀疏优化算法[J].模式识别与人工智能,2021,34(7):592-604. 被引量：1
4上官斌,胡誉腾.基于对象节点树的频繁项集告警压缩算法实例[J].电信工程技术与标准化,2022,35(8):6-10.
5周燕,肖莉.基于改进关联聚类算法的网络异常数据挖掘[J].计算机工程与设计,2023,44(1):108-115. 被引量：14

二级引证文献24

1何嘉凯,杜雪梅,郏浩杰,赵玉荣,沈静静,王亓剑.基于单片机的智能温室系统的设计与实现[J].物联网技术,2021,11(10):41-44. 被引量：4
2朱敏.基于人工智能技术的物联网大数据挖掘算法[J].黑龙江工业学院学报（综合版）,2021,21(12):54-59. 被引量：8
3曹海平.依托于Spark平台的大数据挖掘技术分析[J].软件,2022,43(7):84-86. 被引量：3
4赵炎.基于人工智能的数据整合系统设计[J].自动化与仪器仪表,2022(7):339-343. 被引量：3
5潘华贤.基于Two-archive 2的电子产品多目标逆向物流网络优化[J].微型电脑应用,2023,39(11):19-21.
6雷继尧.基于关联规则的数据挖掘算法在电商领域中的应用研究[J].信息与电脑,2023,35(16):73-75.
7李秀霞,邵作运.基于离群主题词跨学科组合的学术创新机会发现研究[J].情报理论与实践,2023,46(12):122-130.
8李国维,袁小龙,姜小宾,王豆,吴玉娃,俞佳雯,杨晓蓉.面向电厂关键设备故障知识图谱构建的关系抽取方法研究[J].电力大数据,2023,26(11):41-50. 被引量：1
9左文涛,胡必波,刘钟凌.Hadoop架构下数量关联规则的数据挖掘研究[J].信息记录材料,2023,24(11):210-212. 被引量：1
10岳宝强,杨波,李彪,曲小康,魏飞.基于数据挖掘和LSSVM的电量大数据多维感知方法[J].微型电脑应用,2023,39(12):58-61. 被引量：1

1王勤.基于社会学理论和稀疏学习方法的社会学网络的模型研究[J].佳木斯职业学院学报,2018,34(11):193-194.
2贾丽波,姜晓明,叶青,陈占芳.一种基于倒排索引的频繁项集挖掘方法[J].长春理工大学学报（自然科学版）,2019,42(2):117-119. 被引量：1
3王万良,张兆娟,高楠,赵燕伟.基于人工智能技术的大数据分析方法研究进展[J].计算机集成制造系统,2019,25(3):529-547. 被引量：132
4杜媛,张世伟.基于数组和辅助项头表的快速频繁项集挖掘算法[J].中国计量大学学报,2019,30(1):78-84. 被引量：2
5张令斌.整体预制拼装式综合管廊接头型式与防水构造策略[J].建材与装饰,2019,15(11):216-216. 被引量：1
6匡振曦,武继刚,李嘉兴.基于聚类的环形kNN算法[J].计算机工程与科学,2019,41(5):804-812. 被引量：3
7刘敏,张英堂,李志宁,范红波.基于增量稀疏核极限学习机的柴油机故障在线诊断[J].上海交通大学学报,2019,53(2):217-224. 被引量：6
8蒋千.一种机载雷达GMTI模式动态规划检测前跟踪方法[J].电子世界,2019,0(2):32-33.
9陈海永,郄丽忠,刘坤.基于区域辐射一致性的移动阴影检测[J].光学学报,2019,39(3):256-266. 被引量：2
10杨晓波,冯冀宁,马海滨,赵志霄.加窗对直扩接收机抗干扰算法影响研究[J].科学技术创新,2019(12):1-4. 被引量：1

计算机工程与科学

2019年第5期

浏览历史

内容加载中请稍等...

稀疏数据频繁项集挖掘算法研究综述被引量：5

参考文献1

二级参考文献1

共引文献19

同被引文献54

引证文献5

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

稀疏数据频繁项集挖掘算法研究综述 被引量：5

参考文献1

二级参考文献1

共引文献19

同被引文献54

引证文献5

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

稀疏数据频繁项集挖掘算法研究综述被引量：5