双类型异质网中基于排序和聚类的离群点检测方法被引量：6

An Outlier Detection Method Based on Ranking and Clustering in Bi-typed Heterogeneous Network

下载PDF

导出

摘要挖掘隐藏在网络中不同于正常数据对象的离群点是数据挖掘的重要任务之一.目前,针对双类型异质信息网络离群点检测的研究工作相对较少,原本适用于同质网络的离群点检测方法将很难适用于双类型异质网络.为此,提出了异质信息网络中基于排序和聚类的离群点检测方法(RKBOutlier).从异质信息网络中抽取两种类型的对象以及链接两种对象的语义信息,将待检测的数据作为属性对象,将另一类型数据作为目标对象,对目标对象进行聚类来检测属性对象在各个聚类中的分布情况,数据分布异常的对象即为离群点.将排序和聚类相结合来显著提高聚类的准确度.实验结果表明,RKBOutlier可以在双类型异质信息网络中有效地检测出离群点. Mining the outliers that are different from normal data objects in the network is one of the important tasks in data mining. At present, the research aiming at outlier detection in bi-typed heterogeneous information network is relatively small. The methods which are applicable to homogeneous network can not be applied to bi-typed heterogeneous networks. Therefore, we propose a Rank-Kmeans Based Outlier detection method, called RKBOutlier, in heterogeneous information net- work. The two kinds of the objects and the connected semantic information are extracted from the heterogeneous information network. One type of the objects is regarded as the attribute objects, another type of the objects is regarded as the target ob- jects. We perform cluster partitioning on target objects to detect the distribution of the attribute objects in each cluster. The objects which are abnormal at data distribution are considered to be the outliers. Ranking and clustering are combined to sig- nificantly improve the accuracy of clustering. The experimental results show that RKBOutlier can effectively detect outliers in bi-typed heterogeneous information network.

作者彭涛杨妮亚徐原博王冰冰刘露

机构地区吉林大学计算机科学与技术学院符号计算与知识工程教育部重点实验室(吉林大学)

出处《电子学报》 EI CAS CSCD 北大核心 2018年第2期281-288,共8页 Acta Electronica Sinica

基金国家自然科学基金(No.60903098) 吉林大学研究生创新基金(No.2016183 No.2016184)

关键词离群点检测排序聚类目标对象属性对象 outlier detection ranking clustering target object attribute object

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1江峰,杜军威,葛艳,眭跃飞,曹存根.基于粗糙集理论的序列离群点检测[J].电子学报,2011,39(2):345-350. 被引量：16
2江峰,杜军威,眭跃飞,曹存根.基于边界和距离的离群点检测[J].电子学报,2010,38(3):700-705. 被引量：24

二级参考文献55

1黄毅群,卢正鼎,胡和平,李瑞轩.分布式异常检测中隐私保持问题研究[J].电子学报,2006,34(5):796-799. 被引量：7
2陶新民,陈万海,郭黎利.一种新的基于模糊聚类和免疫原理的入侵监测模型[J].电子学报,2006,34(7):1329-1332. 被引量：6
3邓大勇,黄厚宽,李向军.不一致决策系统中约简之间的比较[J].电子学报,2007,35(2):252-255. 被引量：28
4D Hawkins, Identifications of Outliers[ M ]. London: Chapman and Hall, 1980.
5E Knorr, R Ng. Algorithms for mining distance-based outliers in large datasets[A]. In Proc of the 24th VLDB Conf[C].New York: Morgan Kaufmann, 1998. 392 - 403.
6J W Han,M Damber.Data Mining:Concepts and Technologies [ M]. San Francisco: Morgan Kaufmann, 2001.
7L Kovacs, D Vass, A Vidacs. Improving quality of service parameter prediction with preliminary outlier detection and elimination[A]. Proc of the 2nd Int Workshop on Inter-Domain Performance and Simulation[C]. Budapest,2004. 194- 199.
8P J Rousseeuw,A M Leroy. Robust Regression and Outlier Detection[M]. New York: John Wiley& Sons, 1987.
9T Johnson, I Kwok, R T Ng. Fast computation of 2-dimensional depth contours[ A]. In Proc of the 4th Int Conf on Knowledge Discovery and Data Mining [ C ]. New York: AAAI Press, 1998.224 - 228.
10A K Jain,M N Murty,P J Flynn. Data clustering: a review[J]. ACM Computing Surveys, 1999,31 (3) :264 - 323.

共引文献38

1江峰,杜军威,葛艳,眭跃飞,曹存根.基于粗糙集理论的序列离群点检测[J].电子学报,2011,39(2):345-350. 被引量：16
2江虹,伍春,包玉军,黄玉清.基于粗糙集的认知无线网络跨层学习[J].电子学报,2012,40(1):155-161. 被引量：2
3陈玉明,吴克寿,孙金华.基于知识粒度的异常数据挖掘算法[J].计算机工程与应用,2012,48(4):118-120. 被引量：7
4唐成龙,邢长征.基于数据分区和网格的离群点挖掘算法[J].计算机应用,2012,32(8):2193-2197. 被引量：2
5Li Qianmu,Li Jia.Rough Outlier Detection Based Security Risk Analysis Methodology[J].China Communications,2012,9(7):14-21. 被引量：13
6张强,王春霞,赵健,武龙举,李静永.基于聚类和局部信息的离群点检测算法[J].吉林大学学报（理学版）,2012,50(6):1214-1217. 被引量：1
7张长胜.基于决策表的区分矩阵增量属性约简算法[J].计算机工程与应用,2012,48(35):110-113. 被引量：6
8陈蓉,李艳萍.一种基于离群点的聚类迭代检测算法[J].科学技术与工程,2012,20(35):9725-9729. 被引量：1
9琚春华,李耀林.基于属性关联及匹配差异度的数据流异常检测[J].西南交通大学学报,2013,48(1):107-115.
10陈玉明,吴克寿,李向军.一种基于信息熵的异常数据挖掘算法[J].控制与决策,2013,28(6):867-872. 被引量：21

同被引文献84

1薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
2孟德宇,徐晨,徐宗本.基于Isomap的流形结构重建方法[J].计算机学报,2010,33(3):545-555. 被引量：20
3刘芳,毛志忠,李磊.基于模糊自回归隐马尔可夫模型的控制过程异常数据检测[J].仪器仪表学报,2010,31(5):984-990. 被引量：8
4刘京礼,李建平,徐伟宣,石勇.信用评估中的鲁棒赋权自适应L_p最小二乘支持向量机方法[J].中国管理科学,2010,18(5):28-33. 被引量：13
5胡彩平,秦小麟.一种基于密度的局部离群点检测算法DLOF[J].计算机研究与发展,2010,47(12):2110-2116. 被引量：52
6张洪祥,毛志忠.基于多维时间序列的灰色模糊信用评价研究[J].管理科学学报,2011,14(1):28-37. 被引量：44
7张净,孙志挥,杨明,倪巍伟,杨宜东.基于网格和密度的海量数据增量式离群点挖掘算法[J].计算机研究与发展,2011,48(5):823-830. 被引量：8
8揭财明,刘慧君,朱庆生.基于方形对称邻域的局部离群点检测方法[J].计算机应用研究,2012,29(2):472-474. 被引量：5
9李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63
10姚潇,余乐安.模糊近似支持向量机模型及其在信用风险评估中的应用[J].系统工程理论与实践,2012,32(3):549-554. 被引量：45

引证文献6

1刘颖.供应链金融大数据分布特征的分析与洞见[J].计算机科学,2019,46(2):1-10. 被引量：7
2牛少章,欧毓毅,凌捷,顾国生.基于网格查询的局部离群点检测算法[J].计算机工程与应用,2019,55(17):89-94. 被引量：2
3叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报,2019,14(10):1094-1099. 被引量：13
4罗晓媛,赵丽艳,刘君,邹栋.神经网络技术下多尺度时序数据离群点挖掘[J].计算机仿真,2021,38(1):231-235. 被引量：2
5程慧,王镜芳,胡程平,吴方舟,刘爱禹,钱启宇.基于数据挖掘技术的低压台区线损检测研究[J].计算技术与自动化,2021,40(2):61-65. 被引量：19
6蒋斌,黄恩铭.基于分形理论的异质网络中局部离群点检测[J].计算机仿真,2023,40(1):544-547. 被引量：3

二级引证文献46

1刘瑞华,阳桂桃.大数据技术在供应链金融中的应用分析[J].时代经贸,2019,0(24):80-82. 被引量：4
2王广宇,李波.信托公司如何借助金融科技发力供应链服务信托[J].国际金融,2020(11):77-80. 被引量：2
3罗晓媛,赵丽艳,刘君,邹栋.神经网络技术下多尺度时序数据离群点挖掘[J].计算机仿真,2021,38(1):231-235. 被引量：2
4周志洪,马进,夏正敏,陈秀真.基于局部离群点检测的高频数据共现聚类算法[J].计算机仿真,2021,38(3):482-486. 被引量：7
5周玉,朱文豪,房倩,白磊.基于聚类的离群点检测方法研究综述[J].计算机工程与应用,2021,57(12):37-45. 被引量：26
6路健,范增民,刘彩娜.基于TF-IDF算法的供应链信息定向挖掘模型[J].计算机仿真,2021,38(7):153-156. 被引量：8
7屠莉,陈崚.衰减窗口中的不确定数据流聚类算法[J].计算机应用研究,2021,38(9):2673-2677. 被引量：6
8王喆,宋晓峰,王玉芳.基于关联规则的网络数据动态聚类方法研究[J].电脑知识与技术,2021,17(32):51-52.
9文明瑶,廖伟国.基于机器学习的不确定数据增量式挖掘算法[J].计算机仿真,2021,38(11):290-294. 被引量：4
10刘峰,朱颉,张凯,冯晗,张伟,周庆捷.数据挖掘下电网调度信号异常数据提取方法[J].湘潭大学学报（自然科学版）,2021,43(6):74-80. 被引量：3

1孟化,张洁,小徐.关注健康体重提高生活质量[J].中老年保健,2018,0(1):8-9.
2杜永萍,刘京旋,张津丽.基于多语义元路径的异质网节点分类方法[J].模式识别与人工智能,2017,30(12):1100-1107. 被引量：6
3刘晋胜,周靖.混合属性对象的类别关系修正的模糊聚类方法[J].计算机应用研究,2018,35(2):367-371.
4李子茂,骆庆,刘晶.VDOD:一种基于KD树的分布式离群点检测算法[J].计算机与数字工程,2018,46(3):419-423. 被引量：2
5刘建强,贾冶,许钟镐,远航.肥胖与慢性肾脏疾病：脂肪组织与肾脏炎症及纤维化的关系[J].中华肾脏病杂志,2017,33(12):956-960. 被引量：8
6孙宏斌.超声诊断精神分裂症伴发脂肪肝患者200例体会[J].中国医疗设备,2017,32(B12):249-250.
7邓廷权,刘金艳,王宁.高维数据离群点检测的局部线性嵌入方法[J].计算机工程与应用,2018,54(6):115-122. 被引量：4
8白一春,李骁,夏仁兴.司他夫定联合拉米夫定与奈韦拉平抗病毒方案治疗对艾滋病患者免疫功能的影响及其安全性分析[J].临床和实验医学杂志,2018,17(1):63-67. 被引量：22
9徐淑琴,包韦乔,吴蓓颖,杨帆,王剑飚,林琳,蔡刚.激素对系统性红斑狼疮患者外周血滤泡辅助性T细胞及其亚群组成的影响[J].中华微生物学和免疫学杂志,2017,37(11):816-821. 被引量：9
10闫小妮,郑婕,厉英超,黄裕立,李杰,曾宪涛,吕军.应用Stata软件实现观察性研究效应量及可信区间的Meta分析[J].中国循证医学杂志,2018,18(3):367-372. 被引量：10

电子学报

2018年第2期

浏览历史

内容加载中请稍等...

双类型异质网中基于排序和聚类的离群点检测方法被引量：6

参考文献2

二级参考文献55

共引文献38

同被引文献84

引证文献6

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

双类型异质网中基于排序和聚类的离群点检测方法 被引量：6

参考文献2

二级参考文献55

共引文献38

同被引文献84

引证文献6

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

双类型异质网中基于排序和聚类的离群点检测方法被引量：6