基于MapReduce模型可扩展的序列模式挖掘的研究被引量：2

Research on Scalable Sequential Pattern Mining Based on MapReduce Model

下载PDF

导出

摘要序列模式挖掘是数据挖掘领域的研究课题之一,针对传统算法对处理大数据普遍存在扩展性问题。为了改进扩展性,本文提出云模式下基于MapReduce的序列模式挖掘算法(SPAMC),本文设计出迭代MapReduce框架来高效生成候选模式,并在构建词法序列树时进行修剪。该框架不仅将树结构的子任务分给并行排列的独立映射机,而且能实现对支持计数的并行处理。选用32台虚拟机构建云环境,对多达1300万个交易序列进行了全面实验,实验结果表明SPAMC可大大缩短大数据的挖掘时间,达到极高的可扩展性,并提供云聚集的理想负载平衡。 Sequential pattern mining is one of the research topics in the field of data mining. In order to improve scalability. In this paper,cloud model based on MapReduce sequential pattern mining algorithm SPAMC. In this paper,the design of the iterative MapReduce framework to efficient generation of candidate patterns,and in constructing lexical sequence tree pruning. This framework not only can divide the sub tasks of the tree structure to the parallel array of independent mapping machines,but also can realize the parallel processing of the support count. Selected 32 virtual build cloud environments,up to 1300 million transactions in sequence comprehensive experiment. The experimental results show that SPAMC can greatly shorten the data mining time,achieves high scalability,and provides cloud gathered the ideal load balancing.

作者朱林

机构地区贵阳学院电信学院

出处《科技通报》 2018年第1期212-217,244,共7页 Bulletin of Science and Technology

基金贵州省科学技术基金(黔科合LH字[2014]7216号),“运用可信计算技术对大数据系统架构中IaaS部件的改进”

关键词序列模式挖掘大数据云计算 MAPREDUCE框架 sequential pattern mining big data cloud computing MapReduce framework

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：329
2程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：745
3覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
4潘巍,李战怀,伍赛,陈群.基于消息传递机制的MapReduce图算法研究[J].计算机学报,2011,34(10):1768-1784. 被引量：45

二级参考文献207

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
3Dean J, Ghemawat S. MapReduce: Simplified dala processing on large clusters//Proceedings of the Conference on Operating System Design and Implementation(OSDU04,). San Francisco, USA, 2004: 137-150.
4Thusoo A, Sarma J S, JainN, Shao Z, Chakka P, Anthony S, Liu H, Wyckoff P, Murthy R. Hive: A warehousing solution over a map-reduce framework//Proceedings of the Conference on Very Large Databases (VLDB' 09). Lyon, France, 2009:1626-1629.
5Olston C, Reed B, Srivastava U, Kumar R, Tomkins A. Pig Latin: A not-so-foreign language for data processing//Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data (SIGMOD' 08). Vancouver, BC, Canada, 2008:1099 1110.
6Bu Y, Howe B, Balazinska M, Ernst M D. HaLoop.. Efficient iterative data processing on large clusters//Proceedings of the Conference on Very Large Databases (VLDB' 10). Sin gapore, 2010:285-296.
7Ekanayake J, Li H, Zhang B, Gunarathne T, Bae S-H, Qiu J, Fox G. Twister: A runtime for iterative MapReduce// Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing. Chicago, Illinois, USA, 2010:810-818.
8Wilson G V. Practical Parallel Programming. Cambridge, MA.. MIT Press, 1995.
9Valiant L G. A bridging model for parallel computation. Communications of the ACM, 1990, 33(8): 103-111.
10Dean J, Ghemawat S. MapReduce: A flexible data processing tool. Communications of the ACM, 2010, 53(1): 72-77.

共引文献1467

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
3刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
4吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：29
5师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
6李振泉,张丁涌,周长敬,王兴武,安学先,高华,孙东,刘文聪,闫恩祥,李红强,孙秀玲,杨文辉,张腾,梁莹,王增光.集输系统能耗定量化预测大数据模型应用研究[J].当代化工,2020(12):2818-2821. 被引量：2
7蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：90
8施珠妹.从经验驱动到数据驱动——逮捕社会危险性评估模式的逻辑转换[J].人权研究（辑刊）,2023(1):400-422.
9韩旭,罗登昌.长江堤防工程大数据基本特征及应用策略[J].人民长江,2020(S01):262-264. 被引量：4
10庞景安.大数据时代:思维变革、产业转型与数据科学兴起[J].情报学进展,2016(1):186-218.

同被引文献16

1孙学波,石飞达.基于Hadoop的Apriori算法研究与优化[J].计算机工程与设计,2018,39(1):126-133. 被引量：18
2邱瑾,张淑楠.基于数据挖掘的互联网众筹成功进度分位数回归模型[J].统计与信息论坛,2018,33(2):36-45. 被引量：7
3朱一波,鲍培明,吉根林.一种用户频繁移动模式并行挖掘算法[J].中国科学技术大学学报,2018,48(1):57-64. 被引量：1
4郭俊霞,郭仁飞,许南山,赵瑞莲.基于Session的Web应用软件EFSM模型构建方法研究[J].计算机科学,2018,45(4):203-207. 被引量：6
5王艳洁,范存群.Hadoop平台下加权马氏距离的Web大数据分析研究[J].电视技术,2018,42(11):67-71. 被引量：2
6张祥平,刘建勋,肖巧翔,石敏,曹步清.基于LDA和模糊C均值的Web服务多功能聚类[J].中南大学学报（自然科学版）,2018,49(12):2986-2992. 被引量：4
7毛国成,陈晓斌,王晅,李扬波.基于非线性泊松比修正的邓肯-张E-ν模型及应用研究[J].铁道科学与工程学报,2019,16(1):71-78. 被引量：5
8马长林,闵洁,谢罗迪.基于领域识别的主题模型观点挖掘研究[J].计算机工程与科学,2019,41(7):1297-1302. 被引量：1
9刘东亮,王军光,张洁,赵浩宇,赵蔚.基于知识单元挖掘的网络文库信息存储模型研究[J].情报学报,2020,39(2):171-177. 被引量：8
10管皓,秦小林,饶永生,曹晟.基于Web的动态几何软件领域模型及其应用[J].计算机应用,2020,40(4):1127-1132. 被引量：3

引证文献2

1黄兵明,郭慧峰,赵良,薛金明.人工智能在通信网络故障溯源的应用研究[J].邮电设计技术,2018(12):35-40. 被引量：5
2刘张榕.基于E-OEM模型的Web数据精准挖掘研究[J].微型电脑应用,2021,37(10):146-149. 被引量：3

二级引证文献8

1颜博.人工智能技术的发展及其在通信安全领域的应用[J].邮电设计技术,2019(4):86-89. 被引量：10
2陈雯.人工智能技术应用发展中的人权伦理思考[J].艺术科技,2019,32(18):61-61.
3张冬月,魏家馨,高伟.基于混合现实的智能建维辅助系统研究[J].邮电设计技术,2020(10):51-56. 被引量：1
4谢怡雯.数据挖掘技术在Web预取中的应用探究[J].科技资讯,2022,20(14):16-18.
5毛志伟,邢向晖,孙广生.浅谈AIGC在通信设计领域的应用[J].邮电设计技术,2023(7):25-30. 被引量：3
6陈兴东,白云海.大数据分析在变电站通信网络故障诊断中的应用[J].通信电源技术,2024,41(5):243-245.
7尚小晶.基于灰靶理论与云模型的能源物联网数据精准挖掘方法[J].物联网技术,2024,14(6):131-133.
8刘晓.基于E-OEM模型的高职生学习能力监控系统的设计与建设[J].电脑知识与技术,2024,20(13):69-71.

1殷莎莎.以人为本构建高效课堂[J].知识文库,2017,0(18):57-57.
2翟丽华.如何构建高效课堂[J].小学科学,2012(12):106-106.
3徐启寒,徐开勇,郭松,戴乐育.多支持度下用户行为序列模式挖掘方法研究[J].计算机应用与软件,2018,35(1):269-275. 被引量：3
4杨朝辉,康磊.Hadoop平台中的MapReduce模型及优化[J].信息技术与信息化,2017(12):82-85. 被引量：2
5朱旭光.基于Hadoop MapReduce模型的应用研究[J].科学中国人,2017(2Z):205-205. 被引量：1
6李富忠.高中物理实验教学“云”模式的建构刍探[J].成才之路,2018,0(6):26-26. 被引量：2
7俞艺涵,付钰,吴晓平.MapReduce框架下支持差分隐私保护的随机梯度下降算法[J].通信学报,2018,39(1):70-77. 被引量：3
8吴小雄.基于动态规划的序列情节告警挖掘[J].计算机与数字工程,2018,46(1):127-128. 被引量：4
9孙学波,石飞达.基于Hadoop的Apriori算法研究与优化[J].计算机工程与设计,2018,39(1):126-133. 被引量：18
10种飞,徐野,张自圃.Hadoop平台垃圾邮件过滤算法研究[J].沈阳理工大学学报,2017,36(6):42-46. 被引量：1

科技通报

2018年第1期

浏览历史

内容加载中请稍等...

基于MapReduce模型可扩展的序列模式挖掘的研究被引量：2

参考文献4

二级参考文献207

共引文献1467

同被引文献16

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MapReduce模型可扩展的序列模式挖掘的研究 被引量：2

参考文献4

二级参考文献207

共引文献1467

同被引文献16

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MapReduce模型可扩展的序列模式挖掘的研究被引量：2