摘要
流数据噪声检测是一个比较困难的领域。由于流数据的一些特殊性,使得以前的一些处理静态数据的算法对于流数据的处理而言都不理想。在局部离群点(LOF)思想的基础上,引入信息熵来计算数据各维属性的信息增益,并根据各维属性的增益来计算数据的局部离群度,提出一种多维流数据数据噪声点检测算法EDLOF。实验结果表明,该算法对于多维流数据有较好的适应性,而且具有一定的泛化能力。
Noise detection in stream data is a little more difficult area.Most of the algorithms used to deal with the sta-tic data are not helpful to process the stream data any more.Considering the idea of local outlier,we used entropy to measure the outliers and then the algorithm EDLOF was proposed to deal with the multi-dimensional stream data.And the results of experiments show that it is useful to process multi-dimensional of stream data,and it gets generalization ability at the same time.
出处
《计算机科学》
CSCD
北大核心
2012年第2期191-194,共4页
Computer Science
基金
国家自然科学基金(60973040)
国家自然科学青年基金(60903098)
吉林省科技发展计划项目(20070533)
教育部高等学校博士学科点专项科研基金(200801830021)
吉林大学基本科研业务费交叉学科与创新项目(200810025)资助
关键词
噪声检测
流数据
数据挖掘
信息熵
Noise detection
Stream data
Data mining
Information entropy