-
题名孤立森林算法研究及并行化实现
被引量:14
- 1
-
-
作者
王诚
狄萱
-
机构
南京邮电大学通信与信息工程学院
-
出处
《计算机技术与发展》
2021年第6期13-18,共6页
-
基金
江苏省自然科学基金项目(BK20141428)。
-
文摘
异常检测是近年来数据挖掘中热门的研究课题之一,孤立森林算法是一种高效的无监督的异常检测算法,可以很好地处理高维大规模数据。针对孤立森林算法在计算测试样本的异常值时,计算的是测试样本在孤立森林下的平均路径长度,忽略了孤立二叉树间检测异常能力的差异性以及大规模数据下构建大量孤立二叉树需要耗费大量内存时间这两点不足,提出一种并行化改进孤立森林算法。利用每棵孤立二叉树的路径长度标准差对其进行加权计算异常值,并基于Spark平台实现并行化。通过在公开数据集上进行的对比实验及多种参数配置的并行性能对比实验表明,并行化改进孤立森林算法能够提高异常检测的精确度,同时具有很好的并行性能,能够高效处理需要构建大量孤立二叉树的大规模数据集。
-
关键词
异常检测
孤立森林算法
孤立二叉树
SPARK
并行化
-
Keywords
anomaly detection
Isolation Forest algorithm
isolation tree
Spark
parallelization
-
分类号
TP301.
[自动化与计算机技术—计算机系统结构]
-