基于传递收缩剪枝策略的并行频繁项集挖掘算法的研究

下载PDF

导出

摘要关联分析作为数据挖掘中探寻事物之间联系紧密程度的方式之一,被广泛应用于商业,社交分析等领域,其中如何高效挖掘到频繁项集一直都是研究重点。FP-growth以频繁模式树FP-tree为数据结构,极大降低了I/O吞吐,且利用并行计算,提高了计算效率。但因其需要占用大量内存,使得并行规模受到限制。本文设计了基于传递收缩剪枝策略的FP-growth算法,通过限制FP-tree的搜索空间,及时进行剪枝项合并,并将其在分布式平台Spark并行化。通过实验对比证明,较Hadoop上提升25%;相比原有的FP-growth算法PFP,在Spark平台计算提升10%左右。

作者赵明

机构地区湖北省咸宁市公安局

出处《领导科学论坛》 2016年第19期79-82,共4页 The Forum of Leadership Science

关键词 FP-GROWTH算法频繁项集挖掘传递收缩剪枝策略 SPARK

分类号 TP392 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2377
2马月坤,刘鹏飞,张振友,孙燕,丁铁凡.改进的FP-Growth算法及其分布式并行实现[J].哈尔滨理工大学学报,2016,21(2):20-27. 被引量：13
3章志刚,吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用,2014,50(2):103-106. 被引量：43
4邓玲玲,娄渊胜,叶枫.FP-growth算法改进与分布式Spark研究[J].微型电脑应用,2016,32(5):9-11. 被引量：4

二级参考文献204

1邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
2邓丰义,刘震宇.基于模式矩阵的FP-growth改进算法[J].厦门大学学报（自然科学版）,2005,44(5):629-633. 被引量：17
3Nature. Big Data [EB/OL]. [2012-10-02]. http,//www. nature, com/news/specials/bigdata/index, html.
4Bryant R E, Katz R H, Lazowska E D. Big-Data computing : Creating revolutionary breakthroughs in commerce, science, and society [R]. [2012-10-02]. http:// www. cra. org/ccc/docs/init/Big_Data, pdf.
5Science. Special online collection: Dealing with data [EB/OL]. [2012-10-02]. http://www, sciencemag, org/site/ special/data/, 2011.
6Agrawal D, Bernstein P, Bertino E, et al. Challenges and opportunities with big data A community white paper developed by leading researchers across the United States [R/OL]. [2012-10-02]. http://cra, org/ccc/docs/init/bigdata whitepaper, pdf.
7Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity [R/OL]. [ 2012-10-02 ]. http://www, mekinsey, corn/ Insights]MGI[Research/Teehnology _ and _ Innovation]Big _ data The next frontier for innovation.
8World Economic Forum. Big data, big impact: New possibilities for international development [R/OL]. [2012- 10-02]. http://www3, weforum, org/docs/WEF TC MFS BigDataBigImpact_Briefing 2012. pdf.
9Big Data Across the Federal Government [EB/OL]. [2012-10-02]. http://www, whitehouse, gov/sites/default/ files/microsites/ostp/big_data fact sheet_final_ 1. pdf.
10UN Global Pulse. Big Data for Development:Challenges Opportunities [R/OL]. [ 2012-10-02 ]. http://www. unglobalpulse, org/proj ects/BigDataforDevelopment.

共引文献2431

1韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009.
2李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
3孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
4闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：6
5叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68.
6刘厚营.大数据在安保工作情报分析中的应用[J].工程技术研究,2018,3(1):243-244. 被引量：1
7肖楠,陈红梅.从融媒体到智媒体:一种技术驱动下的传媒经济发展路径[J].新闻知识,2020(9):19-22. 被引量：3
8杨东,郑清洋.从TikTok事件看数字人民币的路径选择:从流量入口到金融优势的转化[J].新疆师范大学学报（哲学社会科学版）,2021,42(4):126-135. 被引量：6
9刘生龙,张晓明,杨竺松.互联网使用对农村居民收入的影响[J].数量经济技术经济研究,2021,38(4):103-119. 被引量：62
10李跃先,殷传涛,魏亿钢.基于本体与中间件的科技资源数据集成方法[J].标准科学,2021(5):21-28. 被引量：2

1胡光华.分布式计算[J].国外科技新书评介,2012(1):31-32.
2张国强,张国清,范晶.中国大陆AS级拓扑的测量与分析[J].通信学报,2007,28(10):92-101. 被引量：4
3施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
4胡珊.基于网络平台的计算机基础课程改革[J].当代教育实践与教学研究（电子版）,2015,0(10):76-77.
5郑亚军,胡学钢.基于PFP的关联规则增量更新算法[J].合肥工业大学学报（自然科学版）,2015,38(4):500-503. 被引量：6
6黄良斌,高飞.一种基于幂律的Internet动态拓扑模型PFP^+[J].苏州大学学报（自然科学版）,2010,26(4):38-42.
7肖颖,周靖.电力物联网环境下一种有效的云数据安全策略[J].信息技术与信息化,2015(4):54-55. 被引量：5
8郑海雁,王远方,熊政,李昆明,崇志宏,尹飞.标签集约束近似频繁模式的并行挖掘[J].计算机工程与应用,2015,51(9):135-141. 被引量：7
9赵吉志.服务器平台计算性能工具Linpack 服务器性能测试利器(一)[J].科技浪潮,2006,0(10):21-22.
10郭海凤,李莉.基于CUDA平台的FIR滤波算法的设计与优化[J].计算机技术与发展,2014,24(3):102-105. 被引量：2

领导科学论坛

2016年第19期

浏览历史

内容加载中请稍等...

基于传递收缩剪枝策略的并行频繁项集挖掘算法的研究

参考文献4

二级参考文献204

共引文献2431

相关作者

相关机构

相关主题

浏览历史