基于Map Reduce的序列模式挖掘算法被引量：2

Sequential Pattern Mining Algorithm Based on Map Reduce

下载PDF

导出

摘要传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。 Traditional data mining algorithm has computing power shortage in dealing with mass data set.Aiming at the problem,a distributed sequential pattern mining algorithm based on Map Reduce programming model named MR PrefixSpan is proposed.Mining tasks are decomposed to many,the Map function is used to mine each Prefix projected sequential pattern,and the projected databases are constructed parallelly.It simplifies the search space and acquires a higher mining efficiency.Then the intermediate values are passed to a Reduce function which merges together all these values to produce a possibly smaller set of values.Experimental results on Hadoop cluster show that MR PrefixSpan can reduce the time of scanning data base,has higher parallel speed up ratio and better expansibility.

作者刘栋尉永清薛文娟

机构地区山东师范大学信息科学与工程学院山东省分布式计算机软件新技术重点实验室山东警察学院公共基础部

出处《计算机工程》 CAS CSCD 2012年第15期43-45,共3页 Computer Engineering

基金国家自然科学基金资助项目(60873247) 山东省自然科学基金资助项目(ZR2009GZ007)

关键词云计算并行处理 MAP Reduce模型 PREFIXSPAN算法序列模式 HADOOP平台 cloud computing parallel processing Map Reduce model PrefixSpan algorithm sequential pattern Hadoop platform

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Michael M. Cloud Computing: Web-based Applications that Change the Way You Work and Collaborate Online[M]. [S. 1.]: SAMS Press, 2009.
2田卫东,姜海辉.一种有效的并行序列模式挖掘算法[J].计算机工程,2009,35(18):59-61. 被引量：1
3郑欣杰,朱程荣,熊齐邦.基于MapReduce的分布式光线跟踪的设计与实现[J].计算机工程,2007,33(22):83-85. 被引量：7
4Apache Hadoop. Hadoop[EB/OL]. (2011-02-15). http://hadoop. apache.org.
5Pei Jian, Han Jiawei. Mining Sequential Patterns by Pattern- Growth: The Prefixspan Approach[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(11): 1424-1440.
6Dean J. Experiences with Map Reduce: An abstraction for Large- scale Computation[C]//Proc. of the 15th International Conference on Parallel Architectures and Compilation Techniques. [S. 1.]: IEEE Press, 2006.
7HANJ KAMBERM 范明孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2001..

二级参考文献9

1邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
2Agrawal R, Srikant R. Mining Sequential Patterns[C]//Proc. of the 11th Int'l Conf. on Data Engineering. Los Alamitos, CA, USA: IEEE Computer Society Press, 1995: 3-14.
3Pei Jian, Han Jiawei, Mortazavi A B, et al. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-projected Pattern Growth[C]//Proc. of the 17th IEEE Int'l Conf. on Data Engineering. Los Alamitos, CA, USA: IEEE Computer Society Press, 2001: 215-224.
4Guralnik V, Garg N, Karypis G. Parallel Tree Projection Algorithm for Sequence Mining[C]//Proc. of the 7th International Euro-Par Conference Manchester on Parallel Processing. London, UK: Springer-Verlag, 2001 : 310-320.
5Cong Shengnan, Han Jiawei, Padua D. Parallel Mining of Closed Sequential Patterns[C]//Proc. of the 2005 International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2005: 562-567.
6Dean J,Ghemawat S.MapReduce:Simplifed Data Processing on Large Clusters[C]//Proc.of the 6th Symposium on Operating System Design and Implementation,San Francisco.2004.
7Cutting D.Scalable Computing with MapReduce[C]//Proc.of O'Reilly Open Source Convention,Poland.2005.
8The Raja Project[EB/OL].(2003-05).http://raja.sourceforge.net.
9Apache Lucene Hadoop[EB/OL].(2006-11).http://lucene.apache.org/hadoop.

共引文献50

1吕锡香,杨波,裴昌幸,苏晓龙.基于数据挖掘的入侵检测系统检测引擎的设计[J].西安电子科技大学学报,2004,31(4):574-580. 被引量：10
2赵守伟.数据挖掘在网络异常检测中的应用[J].河北大学学报（自然科学版）,2004,24(4):444-447. 被引量：2
3刘芳,孙杨军.基于多克隆选择的多维关联规则挖掘算法[J].复旦学报（自然科学版）,2004,43(5):742-745. 被引量：9
4厍向阳,彭文祥,薛惠锋.满足二维空间邻接条件的遗传聚类算法研究[J].计算机应用,2005,25(10):2395-2397.
5樊建聪,张问银,梁永全.基于贝叶斯方法的决策树分类算法[J].计算机应用,2005,25(12):2882-2884. 被引量：20
6王雪姣,叶枫.基于关联规则算法的工业生产班组运行质量分析[J].计算机应用,2005,25(B12):211-212. 被引量：2
7李新安,石冰.基于决策树方法的特定主题Web搜索策略[J].计算机应用,2006,26(1):223-226. 被引量：3
8王晓乔,张桂新,喻兴标.Web使用挖掘预处理技术研究[J].湘潭师范学院学报（自然科学版）,2006,28(2):18-20.
9任江涛,黄焕宇,孙婧昊,印鉴.基于相关性分析及遗传算法的高维数据特征选择[J].计算机应用,2006,26(6):1403-1405. 被引量：16
10刘博,彭宏,郑启伦.一种新的数据预处理算法——NLCA[J].计算机应用,2006,26(6):1406-1408. 被引量：3

同被引文献13

1张利军,李战怀,王淼.基于位置信息的序列模式挖掘算法[J].计算机应用研究,2009,26(2):529-531. 被引量：12
2罗春雨,毛国君,邱洪君.序列分析技术在DNA序列挖掘中的应用[J].计算机系统应用,2005,14(12):22-25. 被引量：1
3熊赟,陈越,朱扬勇.DnaReSM:一个基于多支持度的DNA重复序列挖掘算法[J].计算机科学,2007,34(2):211-212. 被引量：4
4张坤,朱扬勇.无重复投影数据库扫描的序列模式挖掘算法[J].计算机研究与发展,2007,44(1):126-132. 被引量：17
5朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781. 被引量：37
6陈卓,杨炳儒,宋威,宋泽锋.序列模式挖掘综述[J].计算机应用研究,2008,25(7):1960-1963. 被引量：24
7周溜溜,业宁,徐昇,严敏利.基于频繁子树挖掘的DNA重复序列识别方法[J].微电子学与计算机,2011,28(9):193-196. 被引量：2
8雷向欣,杨智应,黄少寅,胡运发.XML数据流分页频繁子树挖掘研究[J].计算机研究与发展,2012,49(9):1926-1936. 被引量：2
9李巍,李雄飞,郭建芳.XML空间频繁变化结构挖掘方法[J].计算机学报,2013,36(2):317-326. 被引量：1
10姜华,孟志青,周克江.DNA序列频繁近似模式挖掘[J].生物信息学,2013,11(1):11-15. 被引量：1

引证文献2

1杨静欣,毛国君.一种基于位置信息的高效DNA序列挖掘算法[J].计算机应用与软件,2017,34(6):230-235. 被引量：1
2张洁,毛国君.基于序列前缀技术的XML频繁路径挖掘算法[J].计算机系统应用,2018,27(1):78-85.

二级引证文献1

1李春良,宋卫星,徐勤业,贾瀚栋,李晓峰,柳楠.基于邻接的单面基因组片段填充问题研究进展[J].计算机应用与软件,2021,38(12):1-6. 被引量：1

1邹华.一种改进的基于遗传算法的Map/Reduce模型[J].铜仁学院学报,2013,15(2):134-137. 被引量：1
2遆鸣,陈俊杰,强彦.基于模拟退火的Map Reduce调度算法[J].计算机工程,2012,38(19):45-48. 被引量：9
3张首正,周凯东.基于MapReduce的SQL查询优化分析[J].计算机应用,2014,34(A02):63-65. 被引量：2
4冀素琴,石洪波,卫洁.基于Map Reduce的Bagging贝叶斯文本分类[J].计算机工程,2012,38(16):203-206. 被引量：2
5常鹏,陈耿,朱玉全.一种分布式序列模式挖掘算法[J].计算机应用,2008,28(11):2964-2966. 被引量：2
6裴新超,尹四清.基于Hadoop平台的图像检索研究[J].山西电子技术,2016(1):85-86.
7李素若.基于MapReduce的互联网图像相似性度量研究[J].荆楚理工学院学报,2015,30(2):32-36. 被引量：1
8刘春茂,王超.Map-Reduce应用于并行同步联合聚类学习的研究[J].科技通报,2013,29(10):82-84.
9乔百友,葛健,王国仁,韩东红.并行后缀树的构造及查询算法[J].东北大学学报（自然科学版）,2004,25(3):231-234. 被引量：2
10黄磊,吴春明,姜明,张栋.REDu:一种新的识别并惩罚非适应流的主动式队列管理算法[J].电子学报,2010,38(8):1759-1762. 被引量：8

计算机工程

2012年第15期

浏览历史

内容加载中请稍等...

基于Map Reduce的序列模式挖掘算法被引量：2

参考文献7

二级参考文献9

共引文献50

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Map Reduce的序列模式挖掘算法 被引量：2

参考文献7

二级参考文献9

共引文献50

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Map Reduce的序列模式挖掘算法被引量：2