大数据环境下关联规则并行分层挖掘算法研究被引量：27

Parallel Hierarchical Association Rule Mining in Big Data Environment

下载PDF

导出

摘要为满足大数据实时处理的需求,提出了一种基于划分的关联规则并行分层挖掘算法(Parallel Hierarchical Association Rule Mining,PHARM)。首先,将整个数据库D随机分割成若干个非重叠区域,并行挖掘出局部频繁项集;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描D统计出每个候选项集的实际支持度,以确定全局频繁项集。最后,建模分析了该算法的高效性。 To deal with big data＇s demand of real-time processing,we proposed the parallel hierarchical association rule mining algorithm based on partitioning.First,the algorithm divides the transactions of Dinto n nonoverlapping partitions randomly,and all the local frequent itemsets mining is parallelized.Second,apriori property is utilized to collect frequent itemsets from all partitions and form the global candidate itemsets with respect to D.Then the actual support of each candidate is counted to determine the global frequent itemsets.At last,the algorithm＇s high efficiency was analyzed by modeling.

作者张忠林田苗凤刘宗成

机构地区兰州交通大学电子与信息工程学院

出处《计算机科学》 CSCD 北大核心 2016年第1期286-289,共4页 Computer Science

基金国家自然科学基金项目(61163010) 甘肃省自然科学基金(1308RJZA194)资助

关键词大数据划分关联规则并行分层挖掘高效性 Big data Partition Association rule Parallel hierarchical mining High efficiency

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2391
2唐家维,王晓峰.基于GPU的并行化Apriori算法的设计与实现[J].计算机科学,2014,41(10):238-243. 被引量：5
3毛宇星,陈彤兵,施伯乐.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011,22(12):2965-2980. 被引量：37
4Jin Zhou,Liang Hu,Feng Wang,Huimin Lu,Kuo Zhao.An Efficient Multidimensional Fusion Algorithm for IoT Data Based on Partitioning[J].Tsinghua Science and Technology,2013,18(4):369-378. 被引量：3
5李建锋,彭舰.云计算环境下基于改进遗传算法的任务调度算法[J].计算机应用,2011,31(1):184-186. 被引量：203

二级参考文献218

1米勒.云计算[M].史美林,姜进磊,孙瑞志,等译.北京:机械工业出版社,2009:125-128.
2FOSTER I, YONG ZHAO, RAICU I, et al. Cloud computing and grid computing 360-degree compared[C] // Proceedings of the 2008 Grid Computing Environments Workshop. Washington, DC: IEEE Computer Society, 2008:1 - 10.
3ARMBRUST M, FOX A, GRIFFITH R, et al. Above the clouds: A Berkeley view of cloud eomputing[EB/OL]. [2010 -01 -25]. http://www, eecs. berkeley, edu/Pubs/TechRpts/20Og/EECS-20og- 28. pdf.
4BARROSO L A, DEAN J, HOLZLE U. Web search for a planet: the google cluster architecture[J]. IEEE Micro, 2003, 23(2) : 22 - 28.
5CHIEN A, CALDER B, ELBERT S, et al. Entropia: Architecture and performance of an enterprise desktop grid system[J]. Journal of Parallel and Distributed Computing, 2003, 63(5):597-610.
6KIM J S, NAM B, MARSH M, et al. Creating a robust desktop grid using peer-to-peer services[EB/OL]. [ 2009 - 10 - 16]. ftp://ftp. cs. umd. edu/pub/hpsl/papers/papers-pdf/ngs07.pdf.
7ABRAHAM A, BUYYA R, NATH B. Nature's heuristics for scheduling jobs on computational grids[ C]// The 8th International Conference on Advanced Computing and Communications. New Delhi: Tata McGraw-Hill Publishing, 2000:45-52.
8DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[ C]//Proceedings of the 6th Symposium on Operating System Design and Implementation. New York: ACM, 2004:137 - 150.
9The CLOUDS Lab. Gridsim[ EB/OL]. [ 2010 - 06 - 25]. http:// www. cloudbus. org/gridsim/.
10Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Proc. of the Int'l Conf. on Very Large Data Bases (VLDB). Santiago, 1994. 487-499.

共引文献2633

1韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009.
2李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
3孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
4闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：6
5叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68. 被引量：1
6刘厚营.大数据在安保工作情报分析中的应用[J].工程技术研究,2018,3(1):243-244. 被引量：1
7肖楠,陈红梅.从融媒体到智媒体:一种技术驱动下的传媒经济发展路径[J].新闻知识,2020(9):19-22. 被引量：3
8杨东,郑清洋.从TikTok事件看数字人民币的路径选择:从流量入口到金融优势的转化[J].新疆师范大学学报（哲学社会科学版）,2021,42(4):126-135. 被引量：6
9刘生龙,张晓明,杨竺松.互联网使用对农村居民收入的影响[J].数量经济技术经济研究,2021,38(4):103-119. 被引量：68
10李跃先,殷传涛,魏亿钢.基于本体与中间件的科技资源数据集成方法[J].标准科学,2021(5):21-28. 被引量：2

同被引文献216

1王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
2张希鹏,邰能灵,郑晓冬,黄文焘.EMTR理论在电力系统线路故障测距中的应用基础Ⅱ:仿真部分[J].电网技术,2020,44(3):854-863. 被引量：8
3崔树娜,胡雪琴,温先荣.基于关联规则挖掘的白细胞减少症方药规律分析[J].中国中医药图书情报杂志,2014,38(1):23-26. 被引量：9
4杨启昉,马广平.关联规则挖掘Apriori算法的改进[J].计算机应用,2008,28(S2):217-218. 被引量：13
5邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
6万琳,范秋灵.面向软件缺陷数据的负关联规则挖掘方法[J].微电子学与计算机,2015,32(4):50-55. 被引量：1
7徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
8张江,傅鹤岗.基于关联规则的二维哈希算法的改进[J].计算机工程与设计,2005,26(8):2178-2179. 被引量：7
9官亚雄,陈卫东.基于数据挖掘的促销决策支持系统[J].浙江工业大学学报,2006,34(2):174-178. 被引量：6
10易芝,汪林林,王练.基于关联规则相关性分析的Web个性化推荐研究[J].重庆邮电大学学报（自然科学版）,2007,19(2):234-237. 被引量：11

引证文献27

1杜华明,张明昌,刘爽,张瑜嘉.基于数据融合与挖掘的城市综合管廊运维管理探索[J].建筑电气,2022,41(11):64-70. 被引量：1
2王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
3陈墨,金磊,龚向阳,满毅.面向5G海量网管数据的故障溯源技术[J].北京邮电大学学报,2018,41(5):131-136. 被引量：9
4亢华爱.面向机器学习的通信网络大数据相关性分析算法研究[J].激光杂志,2016,37(8):145-148. 被引量：4
5张春生,图雅,李艳.基于精简二元矩阵的蒙医方剂关联规则挖掘[J].世界科学技术-中医药现代化,2017,19(2):365-369. 被引量：3
6张春,周静.动车组故障关联规则挖掘优化算法研究与应用[J].计算机与现代化,2017(9):74-78. 被引量：4
7李伟,朱赵元.一种基于并行矩阵目标明确的Apriori算法[J].浙江工业大学学报,2017,45(5):574-579. 被引量：5
8杨莎,张振山.基于关联关系的城市轨道交通智能报警系统[J].城市轨道交通研究,2017,20(12):70-72. 被引量：6
9张强,钟勇,周渭博.基于六度分离理论的新型关联规则挖掘算法[J].计算机应用,2017,37(A02):210-213. 被引量：3
10唐琳,付达杰.大数据审计系统及其关键技术[J].西部财会,2018(1):71-74. 被引量：2

二级引证文献79

1杜华明,张明昌,刘爽,张瑜嘉.基于数据融合与挖掘的城市综合管廊运维管理探索[J].建筑电气,2022,41(11):64-70. 被引量：1
2闫伟.水上通信网络海量多维数据弱关联识别方法[J].舰船科学技术,2019,0(20):124-126.
3于海水.基于Cap理论的系统设计[J].中国科技纵横,2018,0(23):27-28. 被引量：1
4叶有忠.会计信息质量特征及其两难性选择[J].华东经济管理,2000,14(2):42-44. 被引量：9
5王玉珍,常丹.基于Apriori算法的农资网站用户行为分析[J].邵阳学院学报（自然科学版）,2018,15(2):19-25.
6安强强,李赵兴,张峰,张雅琼.基于机器学习的通信网络非结构化大数据分析算法[J].电子设计工程,2018,26(14):53-56. 被引量：20
7葛青龙.基于ECLHadoop的有效电子商务物流大数据处理方略[J].自动化与仪器仪表,2018,0(11):218-222. 被引量：1
8李伟,陈如旭.基于机器学习的通信网络非结构化大数据分析算法[J].数字技术与应用,2018,36(10):136-136. 被引量：2
9褚志涛.关联规则挖掘在开放教育教学管理中的应用[J].南京广播电视大学学报,2019(1):63-65. 被引量：2
10李菁.基于射频识别技术和GPRS技术设计冷链物流实时监控系统[J].自动化与仪器仪表,2019,0(7):88-90. 被引量：4

1潘大胜.一种基于小区分层挖掘的高伪装病毒检测[J].科技通报,2013,29(12):94-96.
2张艺雪,黄毅杰.一种基于MapReduce的Apriori改进算法研究[J].兰州工业学院学报,2014,21(6):13-16. 被引量：2
3郭进伟,皮建勇.基于MapReduce的SON算法实现[J].计算机应用,2014,34(A01):100-102. 被引量：7
4洪月华.传感器网络分布式数据流的频繁项集挖掘算法[J].计算机科学,2013,40(2):58-60. 被引量：4
5黄毅杰.一种基于Map Reduce的关联规则挖掘算法[J].兰州文理学院学报（自然科学版）,2014,28(5):48-51.
6陈淼,谭顺华.基于数据包的三层挖掘技术分析研究[J].中国科技信息,2011(11):91-91.
7朱琼,施荣华.一种数据流中的频繁模式挖掘算法[J].计算机应用,2008,28(6):1463-1466. 被引量：3
8Youquan He.Decentralized Association Rule Mining on Web Using Rough Set Theory[J].通讯和计算机（中英文版）,2005,2(7):29-32.
9何波.基于频繁模式树的分布式关联规则挖掘算法[J].控制与决策,2012,27(4):618-622. 被引量：11
10杨杰,叶晨洲,李国正.基于概念层级和分层挖掘的非单调数据挖掘算法[J].上海交通大学学报,2001,35(11):1651-1654. 被引量：1

计算机科学

2016年第1期

浏览历史

内容加载中请稍等...

大数据环境下关联规则并行分层挖掘算法研究被引量：27

参考文献5

二级参考文献218

共引文献2633

同被引文献216

引证文献27

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

大数据环境下关联规则并行分层挖掘算法研究 被引量：27

参考文献5

二级参考文献218

共引文献2633

同被引文献216

引证文献27

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

大数据环境下关联规则并行分层挖掘算法研究被引量：27