为适应数据集分布形状多样性以及克服数据集密度问题,针对已有算法对离群簇检测效果欠佳的现状,提出了一种基于K-近邻树的离群检测算法KNMOD(outlier detection based on K-nearest neighborhood MST)。算法结合密度与方向因素,提出一...为适应数据集分布形状多样性以及克服数据集密度问题,针对已有算法对离群簇检测效果欠佳的现状,提出了一种基于K-近邻树的离群检测算法KNMOD(outlier detection based on K-nearest neighborhood MST)。算法结合密度与方向因素,提出一种基于K-近邻的不相似性度量,然后带约束切割基于此度量构建的最小生成树从而获得离群点。算法可以有效地检测出局部离群点以及局部离群簇,与LOF、COF、KNN及INFLO算法的对比结果也证实了算法的优越性能。展开更多
针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN(Parallel Outlier Detection Based on K-nearest Neighborhood)。该算法利用划分策略对数据集进行预处理,在规模较小...针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN(Parallel Outlier Detection Based on K-nearest Neighborhood)。该算法利用划分策略对数据集进行预处理,在规模较小的子集中寻找K近邻并计算离群度,最后合并结果并遴选出离群点,设计算法过程使其符合MapReduce的编程模型,实现并行化,从而提高了离群点检测算法处理大规模数据的计算效率。实验结果表明,PODKNN具有较高的加速比及较好的扩展性。展开更多
针对复杂工业过程数据的动态性、非线性和多阶段性等特征,提出基于时空近邻标准化和KNN规则(Time-Space Nearest Neighborhood Standardization and K Nearest Neighbor Rule,TSNS-KNN)的复杂多阶段过程故障检测方法。首先使用训练样本...针对复杂工业过程数据的动态性、非线性和多阶段性等特征,提出基于时空近邻标准化和KNN规则(Time-Space Nearest Neighborhood Standardization and K Nearest Neighbor Rule,TSNS-KNN)的复杂多阶段过程故障检测方法。首先使用训练样本在时间和空间域上的两层嵌套近邻集的统计信息对样本预处理,然后将标准样本的累积近邻距离作为检测统计量进行故障检测。TSNS-KNN在排除非线性干扰的同时,消除了前后时刻样本间的动态相关性,将多阶段数据转换为单阶段数据,从而实现对复杂多阶段过程的检测。将该方法运用于数值实验和青霉素发酵过程,并与其他方法进行比较,对比结果进一步验证了TSNS-KNN方法的优越性。展开更多
文摘为适应数据集分布形状多样性以及克服数据集密度问题,针对已有算法对离群簇检测效果欠佳的现状,提出了一种基于K-近邻树的离群检测算法KNMOD(outlier detection based on K-nearest neighborhood MST)。算法结合密度与方向因素,提出一种基于K-近邻的不相似性度量,然后带约束切割基于此度量构建的最小生成树从而获得离群点。算法可以有效地检测出局部离群点以及局部离群簇,与LOF、COF、KNN及INFLO算法的对比结果也证实了算法的优越性能。
文摘针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN(Parallel Outlier Detection Based on K-nearest Neighborhood)。该算法利用划分策略对数据集进行预处理,在规模较小的子集中寻找K近邻并计算离群度,最后合并结果并遴选出离群点,设计算法过程使其符合MapReduce的编程模型,实现并行化,从而提高了离群点检测算法处理大规模数据的计算效率。实验结果表明,PODKNN具有较高的加速比及较好的扩展性。
文摘针对复杂工业过程数据的动态性、非线性和多阶段性等特征,提出基于时空近邻标准化和KNN规则(Time-Space Nearest Neighborhood Standardization and K Nearest Neighbor Rule,TSNS-KNN)的复杂多阶段过程故障检测方法。首先使用训练样本在时间和空间域上的两层嵌套近邻集的统计信息对样本预处理,然后将标准样本的累积近邻距离作为检测统计量进行故障检测。TSNS-KNN在排除非线性干扰的同时,消除了前后时刻样本间的动态相关性,将多阶段数据转换为单阶段数据,从而实现对复杂多阶段过程的检测。将该方法运用于数值实验和青霉素发酵过程,并与其他方法进行比较,对比结果进一步验证了TSNS-KNN方法的优越性。