基于属性组权重的分类数据离群检测

Attribute Group Weight-based Outlier Detection for Categorical Data

下载PDF

导出

摘要属性分组是高维离群检测中的有效手段之一,可以有效缓解“维度灾难”的干扰,但现有的属性分组离群检测方法未能体现属性组之间的差异性,以及属性组的偏离程度,严重影响了高维离群检测的效果与性能。该文采用信息熵累加和刻画与描述属性组之间的差异性,提出了一种基于属性组权重的分类离群检测方法。首先,根据数据模式频率和编码长度,定义了属性组偏离因子,并将其作为属性组之间的合并依据,有效地刻画了属性组的偏离程度,进一步提高了属性分组过程中的搜索效率;其次,利用信息熵累加和定义了属性组权重,有效地体现了不同属性组之间的差异性;然后,依据属性组权重,重新定义了离群得分函数,并提出了一种基于属性组权重的分类数据离群检测算法;最后,采用UCI,NTU,KEEL和人工合成数据集,实验验证了该离群检测算法不仅具有较高的检测精度和效率,而且也具有良好的可扩展性与伸缩性,可适用于高维海量分类属性数据集的离群检测任务。 Attribute grouping is one of the effective methods in high-dimensional outlier detection,which can effectively alleviate the interference of“the curse of dimensionality”.However,existing attribute grouping outlier detection methods fail to reflect the differences among attribute groups and the deviation degree of attribute groups,which have a significant negative influence on the efficiency and performance of high-dimensional outlier detection.We propose an attribute group weight-based outlier detection method for categorical data by using information entropy cumulative sum,which depicts and describes the difference among attribute groups.Firstly,the attribute group deviation factor is defined according to the data pattern frequency and code lengths,and used as a basis of merging attribute groups,which effectively portrays the deviation among attribute groups and further improves the search efficiency in the process of attribute grouping.Secondly,the information entropy cumulative sum is used to define the attribute group weights,which effectively reflects the difference among different attribute groups.Thirdly,the outlier score function is redefined based on the attribute group weights,and an outlier detection algorithm for categorical data is proposed on this basis.In the end,experimental results on UCI,NTU,KEEL and synthetic datasets validate that the outlier detection algorithm not only has high detection accuracy and efficiency,but also has good extensibility and scalability,which can be applied to the outlier detection task of high-dimensional massive categorical attribute datasets.

作者张凯棋宋亦静陈鑫 ZHANG Kai-qi;SONG Yi-jing;CHEN Xin(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)

机构地区太原科技大学计算机科学与技术学院

出处《计算机技术与发展》 2023年第11期20-27,共8页 Computer Technology and Development

基金山西省基础研究计划资助项目(202103021223267) 山西省高等学校科技创新计划项目(2021L297) 太原科技大学科研启动基金项目(20212053,20222107)。

关键词离群检测属性分组分类数据属性组权重偏离因子 outlier detection attribute grouping categorical data attribute group weight deviation factor

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1张继福,蒋义勇,胡立华,蔡江辉,张素兰.基于概念格的天体光谱离群数据识别方法[J].自动化学报,2008,34(9):1060-1066. 被引量：24
2张继福,张素兰,蒋义勇.基于约束概念格的天体光谱局部离群数据挖掘系统[J].光谱学与光谱分析,2009,29(2):551-555. 被引量：5
3马洋,张继福,蔡江辉,杨海峰,赵旭俊.基于稀疏子空间的类星体光谱异常特征并行提取与分析[J].光谱学与光谱分析,2021,41(4):1086-1091. 被引量：4
4张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095. 被引量：41
5李永红,张继福,荀亚玲.相关子空间中的局部离群数据挖掘算法研究[J].小型微型计算机系统,2015,36(3):460-465. 被引量：17

二级参考文献23

1张继福,张素兰,胡立华.约束概念格及其构造方法[J].智能系统学报,2006,1(2):31-38. 被引量：14
2许馨,杨金福,吴福朝,赵永恒.基于广义判别分析的光谱分类[J].光谱学与光谱分析,2006,26(10):1960-1964. 被引量：9
3刘中田,李乡儒,吴福朝,赵永恒.基于小波特征的M型星自动识别方法[J].电子学报,2007,35(1):157-160. 被引量：11
4杨金福,许馨,吴福朝,赵永恒.核覆盖算法在光谱分类问题中的研究[J].光谱学与光谱分析,2007,27(3):602-605. 被引量：7
5张继福,蔡江辉.面向LAMOST的天体光谱离群数据挖掘系统研究[J].光谱学与光谱分析,2007,27(3):606-609. 被引量：6
6蒋义勇,张继福,张素兰.基于链表结构的概念格渐进式构造[J].计算机工程与应用,2007,43(11):178-180. 被引量：11
7Wille R. Restructuring Lattice Theory: An Approach Based on Hierarchies of Concepts. in: Rival Ⅰ ed. Ordered Sets, 1982. 415.
8Agarwal C C, Yu P S. The International Journal on Very Large Data Bases, 2005, 14( 2): 211.
9Jiang Yiyong, Zhang Jifu, Cai Jianghui, et al. In: Proceedings of The First International SympoSium on Data, Chengdu China: Privacy, & E-Commerce, 20137. 11, 80.
10Knorr E M, Ng R T. Algorithms formining distance-based outliers in large datasets. In: Proceedings of the 24th International Conference on Very Large Data Bases. San Francisco, USA: Morgan Kaufmann Publishers, 1998. 392-403.

共引文献72

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2降惠.概念格理论研究进展与发展综述[J].办公自动化,2019,24(9):18-21.
3马洋,张继福,张素兰.基于剪枝的约束概念格的渐进式构造算法[J].计算机应用,2009,29(5):1397-1400. 被引量：2
4张继福,赵旭俊.一种基于约束FP树的天体光谱数据相关性分析方法[J].模式识别与人工智能,2009,22(4):639-646. 被引量：5
5张贺,蔡江辉,张继福,乔衎.信息熵度量的离群数据挖掘算法[J].智能系统学报,2010,5(2):150-155. 被引量：7
6张继福,张素兰,蒋义勇.约束概念格的代数性质及其知识表示的完备性[J].模式识别与人工智能,2010,23(3):289-299. 被引量：6
7胡立华,张继福,张素兰.一种基于剪枝的横向分块概念格构造算法[J].小型微型计算机系统,2011,32(7):1394-1399. 被引量：4
8刘爱琴,葛凌云,杨海峰,张继福.利用子空间划分的局部离群数据挖掘算法[J].小型微型计算机系统,2011,32(8):1628-1632. 被引量：4
9王磊,张继福.基于属性相关分析的离群数据并行挖掘算法[J].太原科技大学学报,2011,32(5):364-369. 被引量：2
10蔡江辉,孟文俊,孙士卫,赵旭俊,张继福.基于信息熵的变星光谱快速识别方法[J].光谱学与光谱分析,2012,32(1):255-258. 被引量：2

1潘佐华,金祥林,唐有祺,金声,杨福德,邢其毅.2-芳基-4-甲基-2,3,4,5-四氢-(1,5)-苯并硫氮杂(艹卓)的晶体结构研究[J].化学学报,1985(3):207-211.
2周公度,郭燕,章士伟,唐有祺.WCu4S4Cl2(NC5H5)6的合成及晶体结构[J].化学学报,1985(2):107-112.
3段一凡,刘小杰,李欣,刘然,李宏扬,李红玮.氢冶金气基直接还原竖炉的碳排放监测分析系统[J].冶金自动化,2023,47(2):89-98.
4王万军,王素华,杜佳,张成文,马少斌.基于偏联系数的得分函数构造方法[J].西北师范大学学报（自然科学版）,2023,59(6):38-42.
5林墀昌,陈功.三核钼簇合物H[H_(2)O]_(3)[Mo_(3)O(OAc)l_(3)Cl_(6)]的合成,分子结构及红外光谱归属的研究[J].化学学报,1988(5):439-444.
6杨丽.应用Python判定环境自动监测数据有效性及其结果的可视化[J].中文科技期刊数据库（全文版）工程技术,2021(8):0272-0274.
7李华,赵领娣,陈雨杰,杨杨,杜新兆.多流融合的轻量级图卷积行为识别算法[J].计算机科学,2023,50(S02):365-370.
8刘毅鹏,高尚.基于相对密度信息的模糊代价敏感极限学习机[J].计算机与数字工程,2023,51(8):1800-1805.
9吴雨珊,徐增敏,张雪莲,王涛.骨架数据增强和双重最近邻检索自监督动作识别[J].计算机科学,2023,50(11):97-106.
10张杰,曲洪权,柳长安,庞丽萍.基于验证集辅助的脑电信号包裹式降维[J].科学技术与工程,2023,23(30):12835-12841.

计算机技术与发展

2023年第11期

浏览历史

内容加载中请稍等...

基于属性组权重的分类数据离群检测

参考文献5

二级参考文献23

共引文献72

相关作者

相关机构

相关主题

浏览历史