基于核密度估计的分布数据流离群点检测被引量：9

Finding Outliers in Distributed Data Streams Based on Kernel Density Estimation

下载PDF

导出

摘要基于数据流数据的挖掘算法研究受到了越来越多的重视.针对分布式数据流环境,提出基于核密度估计的分布数据流离群点检测算法.算法将各分布节点上的数据流作为全局数据流的子集,通过分布节点与中心节点的通信,维护基于全局数据流的分布密度估计.各分布节点基于该估计对其上的分布数据流进行离群点检测,从而得到基于全局数据流的离群点集合.对节点之间的交互以及离群点检测算法的细节进行了讨论.通过实验验证了算法的适用性和有效性. Recently, there has been occurring more and more applications based on data stream models. Data mining in data stream, such as clustering, classifying, etc, becomes a hot research field. This paper presents an algorithm for outlier detection in distributed data streams. The data stream on every distributed node is taken for a subset of the global data stream, which consists of data on all distributed nodes. Because of huge network traffic, it is impossible to send all data to a central node and do detection. Based on the communication of distribution information between distributed nodes and the central node, the algorithm maintains the density estimation for the union of all streams. On every distributed node, global outliers can be detected by the estimation. Details of communication schedule and outlier detection are also discussed in this paper. Experimental results show promising availabilities of the approach.

作者杨宜东孙志挥张净

机构地区东南大学计算机科学与工程系

出处《计算机研究与发展》 EI CSCD 北大核心 2005年第9期1498-1504,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目(70371015) 教育部高等学校博士学科点科研基金项目(20040286009)~~

关键词分布数据流离群点检测核密度估计 distributed data streams outlier detection kernel density estimation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1S. Muthukrishnan. Data streams algorithms and applications. In:Proc. the 14th Annual ACM-SIAM Symposium on Discrete Algorithms. Philadelphia: Society for Industrial and Applied Mathematics, 2003. 413～413.
2金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
3D. Hawkins. Identification of Outliers. London: Chapman and Hall, 1980.
4E.M. Knorr, R. T. Ng. Algorithms for mining distance-based outliers in large datasets. In: Proc. the 24th Int'l Conf. Very Large Databases. New York: ACM Press, 1998. 392～403.
5D. Yu, G. Sheikholeslami, A. Zhang. Findout: Finding outliers in very large datasets. Knowledge and Information Systems,2002, 4(4): 387～412.
6M. M. Breunig, H. Kriegel, R. T. Ng, et al. LOF:identifying density-based local outliers. In: Proc. the 2000 ACM SIGMOD Int'l Conf. Management of Data. New York: ACM Press, 2000. 93～104.
7S. Papadimitirou, H. Kitagawa, P. B. Gibbons, et al. LOCI:Fast outlier detection using the local correlation integral. In: Proc.the 19th Int'l Conf. Data Engineering. Los Alamitos, CA: IEEE Computer Society Press, 2003. 315～326.
8S. Muthukrishnan, R. Shah, J. Vitter. Mining deviants in time series data streams. In: Proc. the 16th Int'l Conf. Scientific and Statistical Database Management. Los Alamitos, CA: IEEE Computer Society Press, 2004. 41～50.
9H. V. Jagadish, N. Koudas, S. Muthukrishnan. Mining deviants in a time series database. In: Proc. the 25th Int'l Conf.Very Large Data Bases. San Francisco: Morgan Kaufmann,1999. 102～113.
10T. Palpanas, D. Papadopoulos, V. Kalogeraki, et al.Distributed deviation detection in sensor networks. SIGMOD Record, 2003, 32(4): 77～82.

二级参考文献52

1Babcock B, Babu S, Datar M, Motwani R, Widom J. Models and issues in data streams. In: Popa L, ed. Proc. of the 21st ACM SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems. Madison: ACM Press, 2002. 1～16.
2Terry D, Goldberg D, Nichols D, Oki B. Continuous queries over append-only databases. SIGMOD Record, 1992,21(2):321-330.
3Avnur R, Hellerstein J. Eddies: Continuously adaptive query processing. In: Chen W, Naughton JF, Bernstein PA, eds. Proc. of the 2000 ACM SIGMOD Int'l Conf. on Management of Data. Dallas: ACM Press, 2000. 261～272.
4Hellerstein J, Franklin M, Chandrasekaran S, Deshpande A, Hildrum K, Madden S, Raman V, Shah MA. Adaptive query processing: Technology in evolution. IEEE Data Engineering Bulletin, 2000,23(2):7-18.
5Carney D, Cetinternel U, Cherniack M, Convey C, Lee S, Seidman G, Stonebraker M, Tatbul N, Zdonik S. Monitoring streams?A new class of DBMS applications. Technical Report, CS-02-01, Providence: Department of Computer Science, Brown University, 2002.
6Guha S, Mishra N, Motwani R, O'Callaghan L. Clustering data streams. In: Blum A, ed. The 41st Annual Symp. on Foundations of Computer Science, FOCS 2000. Redondo Beach: IEEE Computer Society, 2000. 359-366.
7Domingos P, Hulten G. Mining high-speed data streams. In: Ramakrishnan R, Stolfo S, Pregibon D, eds. Proc. of the 6th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Boston: ACM Press, 2000. 71-80.
8Domingos P, Hulten G, Spencer L. Mining time-changing data streams. In: Provost F, Srikant R, eds. Proc. of the 7th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. San Francisco: ACM Press, 2001. 97～106.
9Zhou A, Cai Z, Wei L, Qian W. M-Kernel merging: Towards density estimation over data streams. In: Cha SK, Yoshikawa M, eds. The 8th Int'l Conf. on Database Systems for Advanced Applications (DASFAA 2003). Kyoto: IEEE Computer Society, 2003. 285～292.
10Gibbons PB, Matias Y. Synopsis data structures for massive data sets. In: Tarjan RE, Warnow T, eds. Proc. of the 10th Annual ACM-SIAM Symp. on Discrete Algorithms. Baltimore: ACM/SIAM, 1999. 909-910.

共引文献160

1田李,王乐,贾焰,邹鹏,李爱平.分布式数据流上低通信开销的连续极值查询方法研究[J].计算机研究与发展,2007,44(z3):61-66.
2陈飞波,钱卫宁,周傲英.基于最窄平行四边形的数据流突变检测算法[J].计算机研究与发展,2007,44(z3):505-510.
3何月梅,杜海艳,王保民.分形技术与矢量量化相结合的网络流量异常检测研究[J].邯郸学院学报,2009,19(3):73-76.
4秦林新,刘奇志.一种乱序数据流上的偏倚抽样算法[J].计算机研究与发展,2011,48(S3):298-303.
5张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
6金澈清,崇志宏,周傲英.一种实时监控最近邻的近似算法[J].计算机科学与探索,2007,1(2):146-159.
7杜威,邹先霞.基于数据流的滑动窗口机制的研究[J].计算机工程与设计,2005,26(11):2922-2924. 被引量：11
8刘赏,黄亚楼,倪维健.流数据聚类模型变化检测策略[J].计算机工程与应用,2006,42(5):15-18.
9彭宏,刘洋,邓维维,郑启伦.股票数据流的相关性计算方法[J].华南理工大学学报（自然科学版）,2006,34(1):86-89. 被引量：9
10杜阿宁,程晓明.网络流量分析中的频繁项监测技术研究[J].通信学报,2006,27(2):9-15. 被引量：3

同被引文献83

1朱红伟.加权核密度估计及对我国消费支出的分析[J].山西财经大学学报,2006,28(S2):40-41. 被引量：3
2宋国杰,唐世渭,杨冬青,王腾蛟.数据流中异常模式的提取与趋势监测[J].计算机研究与发展,2004,41(10):1754-1759. 被引量：19
3邱保志,沈钧毅.基于网格技术的高精度聚类算法[J].计算机工程,2006,32(3):12-13. 被引量：11
4张学林,孙志友,汪金辉,陆守香.基于马尔可夫链的城市火灾预测[J].火灾科学,2006,15(3):168-171. 被引量：8
5李勤超,李宏伟,孟婵媛.基于DEM提取水域特征的一种算法实现[J].测绘科学,2007,32(1):103-104. 被引量：9
6陈玉敏,龚健雅,史文中.多尺度道路网的距离匹配算法研究[J].测绘学报,2007,36(1):84-90. 被引量：73
7周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21
8童小华,邓愫愫,史文中.基于概率的地图实体匹配方法[J].测绘学报,2007,36(2):210-217. 被引量：80
9钱江波,徐宏炳,董逸生,王永利,刘学军,杨雪梅.基于最小生成树的数据流窗口连接优化算法[J].计算机研究与发展,2007,44(6):1000-1007. 被引量：3
10薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96

引证文献9

1王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：41
2胡雪艳,苏亮,高春鸣.演化数据流上的连续异常检测[J].计算机工程与应用,2008,44(7):174-178.
3王海波,王宪鹏,王芳,陈志国.一种基于网格和最小生成树的数据流聚类算法[J].计算机系统应用,2011,20(2):152-156. 被引量：1
4刘耀宗,张宏,孟锦,韩法旺.基于小波密度估计的数据流离群点检测[J].计算机工程,2013,39(2):178-181. 被引量：4
5邹丹,毛政元,李继红,刘小伶.核密度估计的道路匹配方法探讨[J].测绘科学,2015,40(7):104-108. 被引量：1
6夏泽龙,李浩,陈跃红.城市火灾事件时空分布规律与关联规则挖掘[J].消防科学与技术,2017,36(10):1449-1453. 被引量：5
7王康,周治平.高斯核密度估计方法检测健康数据异常值[J].计算机科学与探索,2019,13(12):2094-2102. 被引量：7
8郭金玉,王东琴,李元.基于二阶差商LPP的多模态过程故障检测[J].高校化学工程学报,2020,34(1):182-189. 被引量：4
9徐树奎,张煜,李海霞,常海艳,张和伟.结合MapReduce框架的离群因子检测算法[J].火力与指挥控制,2024,49(11):128-132.

二级引证文献63

1王照,胡日鹏,葛馨远,李品磊.基于傅立叶变换的电网线路污闪绝缘子检测研究[J].电子技术（上海）,2020,49(9):58-61. 被引量：2
2刘二涛.企业电子商务中的客户数据挖掘[J].知识经济,2008(4):126-127. 被引量：1
3李广水,宋丁全.数据分析在森林资源调查中的应用及发展研究[J].安徽农业科学,2009,37(22):10797-10800. 被引量：2
4王大将,孙洁.数据流挖掘技术研究[J].统计与决策,2010,26(7):161-162.
5王锡文,贾银山.基于多分类器集成的数据流分类方法[J].科学技术与工程,2010,10(18):4521-4524. 被引量：1
6薛小锋.数据流挖掘的关键问题研究[J].煤炭技术,2010,29(12):165-166.
7辛轶,郭躬德,陈黎飞,毕亚新.IKnnM-DHecoc:一种解决概念漂移问题的方法[J].计算机研究与发展,2011,48(4):592-601. 被引量：13
8闫纪红,王伟,卢磊.基于人工免疫的故障诊断模型自动更新算法[J].计算机集成制造系统,2011,17(4):838-845. 被引量：4
9陈丙杰,王晓晔,常飞.噪声数据流的分类方法[J].天津理工大学学报,2011,27(3):37-41. 被引量：2
10李小斌,李世银.AdBagging:自适应抽样参数在线装袋算法[J].计算机工程与设计,2011,32(12):4095-4099. 被引量：2

1王树广.分布式数据流上的连续异常检测[J].微电子学与计算机,2008,25(9):158-160. 被引量：1
2崇志宏,倪巍伟,徐立臻,吕建华,谢英豪.Min-wise hash function-based sampling over distributed data streams[J].Journal of Southeast University(English Edition),2009,25(4):456-459.
3刘力雄,郭云飞,康晶,马宏.分布式数据流聚类算法[J].计算机工程与设计,2011,32(8):2708-2711. 被引量：2
4朱雪玲,兰军,李寿其,贾焰.基于张量分解的数据流异常检测[J].计算机工程与科学,2009,31(6):75-78.
5刘维弋,金远平.一种基于动态修正值的分布数据流Top-K查询处理算法[J].计算机应用与软件,2009,26(1):53-56.
6马长安.一种分布式信息监控系统的设计[J].安徽电子信息职业技术学院学报,2007,6(4):89-89.
7孙昌霞,车银超,郭玉峰,庞晓丹,马新明,张龙龙.基于安全策略的分布式农产品数字认证[J].河南农业大学学报,2011,45(2):236-240.
8李涵,吴秋新,王小妮.基于分簇的无线传感器网络多跳路由算法[J].计算机科学,2014,41(S1):252-254. 被引量：2
9刘立新,王永平.基于有序对的不确定XML小枝模式查询算法[J].计算机与数字工程,2017,45(3):492-497.
10刘立新,张晓琳,吕庆,张换香,褚艳华.一种非归并不确定XML小枝模式查询算法[J].计算机科学,2013,40(5):198-200. 被引量：2

计算机研究与发展

2005年第9期

浏览历史

内容加载中请稍等...

基于核密度估计的分布数据流离群点检测被引量：9

参考文献13

二级参考文献52

共引文献160

同被引文献83

引证文献9

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于核密度估计的分布数据流离群点检测 被引量：9

参考文献13

二级参考文献52

共引文献160

同被引文献83

引证文献9

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于核密度估计的分布数据流离群点检测被引量：9