基于距离的孤立点检测研究被引量：44

Research of Distance-based Outliers Detection

下载PDF

导出

摘要孤立点检测是一个重要的知识发现任务,在分析基于距离的孤立点及其检测算法的基础上,文章提出了一个判定孤立点的新定义,并设计了基于抽样的近似检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的要求,同时给出了数据对象在数据集中的孤立程度。 Outlier detection is an important task in knowledge discovery.After analyzing distance-based outlier and the algorithms for detecting outliers,this paper proposes a new definition to judge outlier,and develops a sampling-based approximate detection algorithm.Experiments have been carried out with real data.The experimental results indicates that not only the newly definition get the same results as DB(p,d)'s but also the definition simplifies the requirement for detecting outliers.It points out the outlier's outlying degree in the dataset as well.

作者陆声链林士敏

机构地区广西师范大学数学与计算机科学学院

出处《计算机工程与应用》 CSCD 北大核心 2004年第33期73-75,94,共4页 Computer Engineering and Applications

关键词孤立点检测孤立点数据采掘抽样 outlier detection,outlier,data mining,sampling

分类号 TP311.6 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1E M Knorr,R T Ng,V Tucakov. Distance-Based Outliers :Algorithms and Applications[J].VLDB Journal:Very Large Databases,2000:237～253
2S D Bay,M Schwabacher. Mining Distance-Based Outliers in Near Linear Time with Randomization and a Simple Pruning Rule[C].In:SIGKDD '03, Washington, DC, USA ,2003
3J Laurikkala,M Juhola,E Kentala. Informal Identification of Outliers in Medical Data[C].In :5th International Workshop on Intelligent Data Analysis in Medicine and Pharmacology, (IDAMAP-2000) ,2000
4K Yamanishi,J Takeuchi.A Unifying Framework for Detecting Oulliers and Change Points from Non-Stationary Time Series Data[C].In:SIGKDD '02 Edmonton,Alberta,Canda,2002
5S Ramaswamy,R Rastogi,K Shim. Efficient Algorithms for Mining Outliers from Large Data Sets[C].In:Proceedings of the ACM SIGMOD Conference, 2000: 473～438
6Wen Jin,K H Tung,Jiawei Han. Mining Top-n Local Outliers in Large Databases[C].In:KDD 2001 San Francisco,California USA
7JiaweiHan MichelineKamber 范明孟小峰译.数据挖掘概念与技术[M].北京：机械工业出版社,2002..
8F Angiulli,C Pizzuti.Fast Outlier Detection in High Dimensional Spaces[C].In:Proccedings of the Sixth European Conference on the Principles of Data Mining and Knowledge Discovery,2002:15～16
9NHL data.http://moo. Hawaii.edu: 1749/hockey/hockey.html

共引文献14

1陆声链,林士敏.基于距离的孤立点检测及其应用[J].计算机与数字工程,2004,32(5):94-97. 被引量：23
2孙毅,盛海英.基于KDD的教学质量评价系统研究[J].浙江师范大学学报（自然科学版）,2005,28(1):110-113. 被引量：4
3陈平平,龚建文,赵文光.任务个性化工作流管理系统客户端研究[J].计算机工程与设计,2007,28(1):94-96.
4田生文,黄明明.密集簇中心二次模糊聚类算法[J].计算机工程与设计,2007,28(2):436-439. 被引量：1
5陈霞,邱桃荣,魏玲玲,蔡洪.基于数据挖掘的病历数据预处理[J].计算机与现代化,2007(5):23-24. 被引量：4
6郭晓磊.数据挖掘在教育信息化中的应用[J].农业图书情报学刊,2007,19(5):128-130. 被引量：3
7吕洪柱,张建平,邓文新.基于数据挖掘技术的异常检测模型设计[J].高师理科学刊,2007,27(6):29-32. 被引量：1
8黄苏萍,杨雪梅,肖林榕.经方治疗失眠药证对应规律分析[J].福建中医学院学报,2008,18(6):53-55. 被引量：6
9林颖.基于可变信任机制的主机防御体系[J].赤峰学院学报（自然科学版）,2010,26(8):29-31. 被引量：1
10杜永生.关联规则的精简方法研究[J].赤峰学院学报（自然科学版）,2011,27(10):33-34.

同被引文献276

1王道平,冯俊,郝玫.基于距离和密度的分布式孤立点探测算法[J].微计算机信息,2008,24(6):222-224. 被引量：1
2杨延娇,王治和.异常数据挖掘在Web服务器日志文件中的应用[J].西北师范大学学报（自然科学版）,2008,44(6):32-34. 被引量：4
3陆声链,林士敏.基于距离的孤立点检测及其应用[J].计算机与数字工程,2004,32(5):94-97. 被引量：23
4曾鸣,姜周华,董艳伍.软计算及其在钢铁冶金工业中的应用[J].材料与冶金学报,2004,3(3):168-171. 被引量：2
5左秀荣,姜茂发,薛向欣.人工神经网络在钢铁材料力学性能预测方面的应用[J].特殊钢,2004,25(5):26-29. 被引量：9
6袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
7刘家宏,王光谦,王开.大流域数字高程模型数据管理系统[J].清华大学学报（自然科学版）,2004,44(12):1646-1649. 被引量：10
8刘祥官,李吉鸾.冶金生产过程的系统优化[J].系统工程理论与实践,1994,14(6):54-59. 被引量：9
9李振宇,杨昌柱,章北平,濮文虹.污水生物处理故障诊断专家咨询系统[J].化学与生物工程,2005,22(3):39-41. 被引量：6
10吕庆喆,言方荣,林金官.两种时间序列孤立点挖掘方法的比较[J].统计研究,2005,22(1):51-54. 被引量：5

引证文献44

1楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
2邓江华,熊小红.基于等腰直角三角形的二值图像压缩算法研究[J].黄冈师范学院学报,2007,27(6):52-57. 被引量：1
3牛冀平,张勇传,胡志华,杨族桥.大流域DEM的地形结构线的提取方法研究[J].水电能源科学,2008,26(1):84-87. 被引量：1
4连凤娜,吴锦林,唐琦.一种改进的K-means聚类算法[J].电脑与信息技术,2008,16(1):38-40. 被引量：23
5韦佳,彭宏,林毅申.基于改进距离的孤立点检测方法[J].华南理工大学学报（自然科学版）,2008,36(9):25-30. 被引量：12
6闫宗奎,石冰.基于网格模型的孤立点检测算法[J].山东大学学报（理学版）,2008,43(11):58-60.
7荣宝坚,刘杨,杨丽芳,梁莹,李玥.基于等腰直角三角形的分形图像压缩算法[J].广西科学院学报,2008,24(4):291-292.
8曹文平.基于聚类的孤立点集探测算法[J].现代计算机,2008,14(12):35-37. 被引量：1
9孟建良,姚亮,程伟想.基于引力的孤立点检测算法[J].计算机应用与软件,2009,26(1):255-257. 被引量：1
10张忠平,宋少英,宋晓辉.ISAD:一种新的基于属性距离和的孤立点检测算法[J].计算机工程与科学,2009,31(3):83-85. 被引量：5

二级引证文献252

1赵翠翠,尹春华.K-means和SOM在商品评论中的情感词聚类对比[J].北京信息科技大学学报（自然科学版）,2020,35(1):23-26. 被引量：6
2荣宝坚,刘杨,杨丽芳,梁莹,李玥.基于等腰直角三角形的分形图像压缩算法[J].广西科学院学报,2008,24(4):291-292.
3步媛媛,关忠仁.基于K-means聚类算法的研究[J].西南民族大学学报（自然科学版）,2009,35(1):198-200. 被引量：23
4宫兴龙,芮孝芳,罗静.确定流域中平坦区域流向的一种新方法[J].水电能源科学,2009,27(2):20-22. 被引量：1
5顾洪博,张继怀.基于孤立点和初始质心选择的k-均值改进算法[J].长江大学学报（自科版）（上旬）,2009,6(1):60-62. 被引量：7
6雷宏,张著洪.受约束的两类数据分割算法及其应用[J].贵州大学学报（自然科学版）,2009,26(2):85-89.
7顾洪博,苏冬娜.基于孤立点和初始质心选择的k均值算法的改进与应用[J].陕西理工学院学报（自然科学版）,2009,25(3):45-49. 被引量：4
8顾洪博,赵万平.数据挖掘算法性能优化的研究与应用[J].长春理工大学学报（自然科学版）,2010,33(1):164-166. 被引量：9
9王德荣,李卫华.网络号百用户兴趣模型挖掘算法[J].现代计算机,2010,16(4):44-48. 被引量：1
10顾洪博,张继怀.聚类算法初始聚类中心的优化[J].西安工程大学学报,2010,24(2):222-226. 被引量：7

1谢文阁,王海虹.一种改进的基于距离的孤立点挖掘算法的研究[J].渤海大学学报（自然科学版）,2011,32(2):157-161. 被引量：1
2牛永鑫.基于距离的孤立点挖掘改进算法在教务管理系统中的应用[J].硅谷,2014,7(8):52-53.
3秦艳华.数据挖掘技术中孤立点的分析研究[J].硅谷,2010,3(4):49-50. 被引量：2
4李建伟.基于距离的孤立点挖掘在计算机取证中的应用研究[J].电子技术与软件工程,2015(9):206-207. 被引量：3
5廖国琼,李晶.基于距离的分布式RFID数据流孤立点检测[J].计算机研究与发展,2010,47(5):930-939. 被引量：7
6殷新春,葛邮兵.一种基于核映射空间距离的入侵检测算法[J].江苏大学学报（自然科学版）,2008,29(5):437-440. 被引量：1
7邵纪东,荣冈,顾海杰.度量空间中基于距离孤立点的快速挖掘[J].浙江大学学报（工学版）,2009,43(2):297-302. 被引量：1
8朱东生,吴庆波,谭郁松.基于频数的孤立点检测研究[J].计算机技术与发展,2013,23(5):10-13. 被引量：2
9王习特,申德荣,白梅,聂铁铮,寇月,于戈.An Efficient Algorithm for Distributed Outlier Detection in Large Multi-Dimensional Datasets[J].Journal of Computer Science & Technology,2015,30(6):1233-1248. 被引量：1
10王斌,杨晓春,王国仁,于戈.Outlier Detection over Sliding Windows for Probabilistic Data Streams[J].Journal of Computer Science & Technology,2010,25(3):389-400. 被引量：4

计算机工程与应用

2004年第33期

浏览历史

内容加载中请稍等...

基于距离的孤立点检测研究被引量：44

参考文献9

共引文献14

同被引文献276

引证文献44

二级引证文献252

相关作者

相关机构

相关主题

浏览历史

基于距离的孤立点检测研究 被引量：44

参考文献9

共引文献14

同被引文献276

引证文献44

二级引证文献252

相关作者

相关机构

相关主题

浏览历史

基于距离的孤立点检测研究被引量：44