数据密集型计算环境下离群点挖掘算法设计与实现被引量：1

Design and application of outlier mining algorithm in data-intensive computing environments

下载PDF

导出

摘要在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘. The characteristics of data, such as huge amounts, high dimension and distributed storage etc, have brought new challenges for the design of outlier mining algorithm in data-inten- sive computing environments. In this paper, outliers mining algorithm MR_LOF based on density combined with grid was put forward on account of MapReduce model. During Map phase, grid was used to simplify data, then representative information was sent to primary node. In Reduce phase, outliers mining algorithm based on density was employed, dense area was selected by the grid^s E. This algorithm was used to only calculate LOF of data in sparse area to reduce time complexity. Experimental results show that this algorithm is effective for mining outliers in data- intensive computing environments.

作者陈亚丽张龙波李彩虹张树森刘希昱

机构地区山东理工大学计算机科学与技术学院

出处《山东理工大学学报（自然科学版）》 CAS 2013年第5期32-35,共4页 Journal of Shandong University of Technology:Natural Science Edition

基金山东省自然科学基金资助项目(ZR2011FL013) 山东省高等学校科技计划项目(J13LN27)

关键词数据挖掘离群点数据密集型 MAPREDUCE MR_LOF data mining outlier data-intensive MapReduce MR_LOF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Kouzes R T, Anderson G A, Elbert S T,et al. The Changing Paradigm of Data-Intensive Computing rJ]. Computer, 2009,42 (1) :26-34.
2Dean J, Ghemawat S. MapReduce: a flexible data processing tool [J]. Communications of the ACM, 2010, 53(1):72-77.
3Breunig M M, Kriegel H P, Raymond T N,etal. LOF: identif- ying density-based local outliers[J]. ACM SIGMOD Record, 2000, 29(2): 93-104.
4Tang J, Chen Z, Fu A,et al. Enhancing Effectiveness of Outlier Detections for Low Density Patterns[J]. Lecture Notes in Com- puter Science, 2002,2336:535-548.
5薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
6张净,孙志挥.GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J].东南大学学报（自然科学版）,2005,35(6):863-866. 被引量：6
7岳峰,邱保志.基于反向K近邻的孤立点检测算法[J].计算机工程与应用,2007,43(7):182-184. 被引量：8
8崔贯勋,李梁,王勇,倪伟,黄丽丰.快速的基于单元格的离群数据挖掘算法[J].计算机应用,2009,29(12):3300-3302. 被引量：8

二级参考文献37

1朱倩,黄志军.一种改进的基于密度和网格的高维聚类算法[J].舰船电子工程,2005,25(5):55-56. 被引量：5
2刘晓影,王国仁.SUDBC:一种基于空间单元密度的快速聚类算法[J].小型微型计算机系统,2005,26(12):2216-2220. 被引量：5
3黄添强,秦小麟,叶飞跃.基于方形邻域的离群点查找新方法[J].控制与决策,2006,21(5):541-545. 被引量：16
4崔贯勋,朱庆生.一种改进的基于密度的离群数据挖掘算法[J].计算机应用,2007,27(3):559-560. 被引量：8
5ANKERST M, BREUNIG M M, RIEGEL H P, et al. OPTICS: Ordering points to identify the clustering structure [ J]. ACM SIGMOD Record, 1999, 28(2) : 49 -60.
6WAN Y, BIAN F. Cell-based outlier detection algorithm: A fast outlier detection algorithm for large datasets [ C]//The 12th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin: Springer, 2005:1042 - 1048.
7范明等.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
8Han J, Kamber M. Data mining: concepts and techniques[M]. San Fransisco, CA, USA: Morgan Kaufmann Publishers, 2000. 381 - 389.
9Hawkins D. Identification of outliers [M]. London:Chapman and Hall, 1980. 1 - 10.
10Knorr E M, Ng R T. Algorithms for mining distancebased outliers in large datasets [A]. In: Proceedings of the 24th VLDB Conference[C]. New York, 1998. 392- 403.

共引文献110

1杨永铭,王喆.孤立点挖掘算法研究[J].计算机与数字工程,2008,36(1):11-15. 被引量：10
2张树森,伏利,董刚.离群点删除算法的研究[J].装备制造技术,2008(7):13-15. 被引量：3
3薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
4张忠平,宋少英,宋晓辉.ISAD:一种新的基于属性距离和的孤立点检测算法[J].计算机工程与科学,2009,31(3):83-85. 被引量：5
5李尼格,鲍培明,沙露.一种基于面包含关系的GML空间离群面检测算法[J].广西师范大学学报（自然科学版）,2009,27(3):118-121. 被引量：3
6张毅,刘旭敏,关永.基于密度的离群噪声点检测[J].计算机应用,2010,30(3):802-805. 被引量：13
7孙浩,何晓红.动态数据环境下基于信息熵的相对离群点检测算法[J].计算机应用,2010,30(5):1284-1286. 被引量：1
8田江,顾宏.孤立点一类支持向量机算法研究[J].电子与信息学报,2010,32(6):1284-1288. 被引量：13
9潘瑜春,刘巧芹,陆洲,周艳兵,李淑华.离群样点对土壤养分空间变异分析的影响研究[J].土壤学报,2010,47(4):767-771. 被引量：5
10薛安荣,李明.无线传感器网络中异常读数检测算法研究[J].计算机应用研究,2010,27(9):3452-3455. 被引量：2

同被引文献9

1侯晓晶,王会青,陈俊杰,刘茜.基于最近邻距离差的改进孤立点检测算法[J].计算机工程与设计,2013,34(4):1265-1269. 被引量：10
2万智萍.一种高效的小波Contourlet变换阈值去噪算法[J].激光与红外,2013,43(7):831-836. 被引量：6
3娄圣金,张继福,刘爱琴.一种基于p权值的离群数据挖掘算法[J].小型微型计算机系统,2014,35(1):55-59. 被引量：6
4刘滨.分布式数据挖掘综述[J].河北科技大学学报,2014,35(1):80-90. 被引量：10
5王茜,刘书志.基于密度的局部离群数据挖掘方法的改进[J].计算机应用研究,2014,31(6):1693-1696. 被引量：30
6李永红,张继福,荀亚玲.相关子空间中的局部离群数据挖掘算法研究[J].小型微型计算机系统,2015,36(3):460-465. 被引量：17
7胡海斌.引入特征倾向性的高效网络文本数据挖掘[J].计算机仿真,2015,32(5):436-440. 被引量：6
8米允龙,米春桥,刘文奇.海量数据挖掘过程相关技术研究进展[J].计算机科学与探索,2015,9(6):641-659. 被引量：36
9张颖.云计算环境下的学习资源个性化推荐技术研究[J].现代电子技术,2016,39(19):29-32. 被引量：5

引证文献1

1姚瑶,韩颖,王燕.Web网络虚拟资源中特定数据检测优化仿真[J].计算机仿真,2017,34(1):449-452. 被引量：2

二级引证文献2

1贺晓勇,侯冬尽.关于大数据知识库资源信息特征优化检测仿真[J].计算机仿真,2018,35(6):380-383. 被引量：6
2盛权为.网络信息流中虚拟网络映射算法研究[J].西安工程大学学报,2019,33(3):302-307. 被引量：4

1朱增玺,魏振春,韩江洪,卫星,赵意.WSN中基于多波束转换天线的网络拓扑控制算法[J].计算机系统应用,2014,23(10):183-187.
2赵湘民,陈曦,潘楚.基于稠密区域的K-medoids聚类算法[J].计算机工程与应用,2016,52(16):85-89. 被引量：6
3张净,孙志挥.GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J].东南大学学报（自然科学版）,2005,35(6):863-866. 被引量：6
4赵剑,韩斌,张其亮.基于改进ORB算法的虚实注册方法[J].计算机应用,2014,34(9):2725-2729. 被引量：2
5杨丹丹.数据挖掘中聚类分析算法性能分析[J].消费电子,2014(16):159-159. 被引量：1
6杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22

山东理工大学学报（自然科学版）

2013年第5期

浏览历史

内容加载中请稍等...

数据密集型计算环境下离群点挖掘算法设计与实现被引量：1

参考文献8

二级参考文献37

共引文献110

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

数据密集型计算环境下离群点挖掘算法设计与实现 被引量：1

参考文献8

二级参考文献37

共引文献110

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

数据密集型计算环境下离群点挖掘算法设计与实现被引量：1