高维数据流的聚类离群点检测算法研究被引量：2

The Study on Clustering-Based Outlier Detection Algorithm for High-Dimensional Data Stream

下载PDF

导出

摘要针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法.该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的K-means聚类算法将数据集划分成微聚类,并检测微聚类的离群点.通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度. The existing clustering-based outlier detection suffers from low efficiency and precision when dealing with high-dimensional data stream. To relieve this problem,an algorithm of clustering-based outlier detection for high-dimensional data stream（ CODHD-Stream） was presented. The algorithm used sliding window technology to divide the data stream. Then dimensions of high-dimensional data streams were reduced by an attribute reduction algorithm. Finally,it divided the data set into a number of micro-clustering to detect outliers contained in the micro-clustering by the K-means method of the distance-based information entropy mechanism. The experimental analyses show that the proposed algorithm can effectively raise the speed and accuracy of outlier detection in high-dimensional data stream.

作者程艳苗永春

机构地区江西师范大学计算机信息工程学院

出处《江西师范大学学报（自然科学版）》 CAS 北大核心 2014年第5期449-453,共5页 Journal of Jiangxi Normal University(Natural Science Edition)

基金国家社科基金教育学青年课题"教育虚拟社区的群集智能化构建方法研究"(CCA110109) 国家自然科学基金地区基金(61262080)资助项目

关键词高维数据流滑动窗口属性约简 K-均值微聚类信息熵离群点检测 high-dimensional data stream sliding window attribute reduction K-means micro-clustering informa-tion entropy outlier detection

分类号 TP311 [自动化与计算机技术—计算机软件与理论] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Wu Xindong, Zhu Xingquan, Wu Gongqing, et al. Data mining with big data [ J ]. Knowledge and Data Engineer- ing ,2014 ,26( 1 ) :97-107.
2Wang Changdong, Lai Jianghuang, Huang Dong, et al. SVStream:a support vector-based algorithm for clustering data streams [ J ]. IEEE Transactions on Knowledge and Data Engineering,2013,25 (6) : 1410-1424.
3Albanese A, Pal S K, Petrosino, A. Rough sets, kernel set, and spatiotemporal outlier detection [ J]. Knowledge and Data Engineering ,2014,26( 1 ) : 194-207.
4Kollios G, Gunopulos D, Koudas N, et al. Efficient biasedsampling for approximate clustering and outlier detection in large data sets [ J ]. Knowledge and Data Engineering, 2003,15(5) :1170-1157.
5Charalampidis D. A modified k-means algorithm for circu- lar invariant clustering [ J ]. Pattern Analysis and Machine Intelligence, 2005,27 ( 12 ) : 1856 -1865.
6Kanungo Tapas, Mount D M, Netanyahu N S, et al. An effi- cient k-means clustering algorithm: analysis and imple- mentation [ J ]. Pattern Analysis and Machine Intelli- gence, 2002,24 (7) : 881-892.
7Yip A M,Ding C, Chan T F. Dynamic cluster formation u- sing level set methods [ J ]. Pattern Analysis and Machine Intelligence, 2006,28 (6) : 877-889.
8Guha S, Meyerson A, Mishra N, et al. Clustering data streams:Theory and practice [ J ]. Knowledge and Data Engineering,2003,15 ( 3 ) :515-528.
9Jiang Feng, Sui Yuefei, Cao Cungen. An information entro- py-based approach to outlier detection in rough sets [ J ]. Expert Syst App1,2010,37 ( 1 ) :6338-6344.
10Kapoor R, Gupta R. Non-linear dimensionality reduction u- sing fuzzy lattices [ J ]. lET Computer Vision, 2013,7 (3) : 201-208.

同被引文献14

1孙晓霞,刘晓霞,谢倩茹.模糊C-均值(FCM)聚类算法的实现[J].计算机应用与软件,2008,25(3):48-50. 被引量：34
2张杰.虚拟学习社区中学习者特征的分析研究[J].电化教育研究,2008,29(12):67-71. 被引量：12
3程艳,许维胜,杨继君,何一文.基于本体兴趣特征向量空间模型的社区自组织算法[J].系统工程,2009,27(5):96-103. 被引量：5
4施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：217
5赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
6高新波,李洁,谢维信.模糊c均值聚类算法中参数m的优选[J].模式识别与人工智能,2000,13(1):7-11. 被引量：37
7李昕,荆永君,王鹏.智能授导系统中的教学策略研究[J].中国电化教育,2012(10):126-130. 被引量：7
8尹晨.E-Learning协作学习中分组策略研究[J].计算机技术与发展,2012,22(12):55-58. 被引量：1
9刘砚.网络学习者学习特征、影响因素及对策研究[J].天津职业院校联合学报,2013,15(7):47-50. 被引量：1
10武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9

引证文献2

1程艳,解建华,谭平飞,杨志明.面向虚拟学习社区的学习行为特征挖掘与分组方法的研究[J].江西师范大学学报（自然科学版）,2016,40(6):640-643. 被引量：2
2尹铁源,张瑞琴.基于MapReduce网页文本并行化计算的研究[J].信息通信,2018,31(4):32-34.

二级引证文献2

1倪政林.在线学习环境下个性特征混合挖掘研究[J].齐齐哈尔大学学报（自然科学版）,2021,37(1):16-20. 被引量：2
2张曦,李璠,付雪峰,谭德坤,赵嘉.随机学习萤火虫算法优化的模糊软子空间聚类算法[J].江西师范大学学报（自然科学版）,2021,45(2):137-144. 被引量：9

1钱光超,贾瑞玉,张然,李龙澍.基于遗传聚类算法的离群点检测[J].计算机工程与应用,2008,44(11):155-157. 被引量：1
2蔡江辉,张继福.基于聚类的离群数据挖掘及应用[J].太原重型机械学院学报,2004,25(4):254-258. 被引量：2
3梁斌梅.基于层次聚类的孤立点检测方法[J].计算机工程与应用,2009,45(32):117-119. 被引量：4
4王丹,毛紫阳,吴孟达.融合Shadowed Sets聚类的离群点检测算法[J].计算机科学与探索,2012,6(11):985-993. 被引量：2
5古平,刘海波,罗志恒.一种基于多重聚类的离群点检测算法[J].计算机应用研究,2013,30(3):751-753. 被引量：21
6光纤发送，接收器模块ODH Progfi12[J].国内外机电一体化技术,1998,1(2):61-61.
7杨维永,何军,郑生军,张旭东.一种适宜于子空间聚类的离群点检测算法[J].计算机与现代化,2015(12):39-42. 被引量：2
8闫伟,张浩,陆剑峰.一种离群数据挖掘新方法的研究与应用[J].控制与决策,2006,21(5):563-566. 被引量：5
9陈庄,黄勇,邹航.基于离群点挖掘的工业控制系统异常检测[J].计算机科学,2014,41(5):178-181. 被引量：13
10徐雪松,刘凤玉.一种基于距离的再聚类的离群数据发现算法[J].计算机应用,2006,26(10):2398-2400. 被引量：4

江西师范大学学报（自然科学版）

2014年第5期

浏览历史

内容加载中请稍等...

高维数据流的聚类离群点检测算法研究被引量：2

参考文献11

同被引文献14

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

高维数据流的聚类离群点检测算法研究 被引量：2

参考文献11

同被引文献14

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

高维数据流的聚类离群点检测算法研究被引量：2