-
题名一种基于枢纽现象和加权离群分数的离群数据挖掘算法
被引量:6
- 1
-
-
作者
郭峰
张继福
-
机构
太原科技大学计算机科学技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2018年第10期2248-2253,共6页
-
基金
国家自然科学基金项目(61572343)资助
-
文摘
针对高维数据集中出现的枢纽现象,本文给出了一种基于枢纽现象和加权离群分数的离群数据挖掘算法.该算法首先根据逆k近邻中出现的枢纽现象,以及与离群数据的关系,利用k近邻中的距离信息作为权值,对逆k近邻的离群分数进行加权;其次随机生成区分度阈值,根据该阈值判断区分度比例满意值,并根据满意值计算数据对象的离群程度,选取离群程度最大的若干数据对象作为离群数据;最后采用人工数据集和UCI标准数据集,实验验证了该算法的有效性.
-
关键词
离群挖掘
枢纽现象
逆k近邻
离群分数
满意值
-
Keywords
outlier mining
Hubness phenomenon
reverse k-nearest neighbor
outlier score
satisfaction value
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种面向枢纽现象的离群数据检测算法
被引量:3
- 2
-
-
作者
马文强
赵旭俊
张继福
饶元淇
-
机构
太原科技大学计算机科学与技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第5期919-924,共6页
-
基金
国家自然科学基金项目(61572343,U1731126,U1931209)资助
山西省应用基础研究计划项目(201901D111257,201901D211303)资助
+1 种基金
山西省重点研发计划项目(201803D121059)资助
太原科技大学科研启动基金项目(20192013)资助.
-
文摘
在高维数据中,逆k近邻查询会导致出现枢纽现象,这严重影响了基于逆k近邻离群检测算法的性能.为解决这一问题,提出了一种面向枢纽现象的双向近邻离群检测算法.该算法首先引入并重新定义了对象的影响空间,在影响空间中,同时兼顾了对象的k近邻和逆近邻的影响作用,有效提高了算法的准确性;其次,引入了启发式信息,不仅考虑对象的离群程度同时还考虑其k近邻的离群情况,显著降低了k的取值,从而减少了算法的计算量和运行时间;最后,采用真实数据集,实验验证了本文算法同传统的基于枢纽现象的离群挖掘算法相比具有更高的效率和准确性.
-
关键词
离群数据检测
影响空间
枢纽现象
逆k近邻
-
Keywords
outlier detection
influence space
hubness phenomenon
reverse k nearest neighbor
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-