基于距离的异常数据挖掘算法及其应用被引量：12

ALGORITHMS FOR MINING DISTANCE-BASED OUTLIER AND ITS APPLICATION

下载PDF

导出

摘要给出了基于距离的异常数据的数量化定义,提出了基于距离的多指标的异常数据挖掘算法,这种算法适合于一般的海量数据库中的数据分析,以学生考试成绩作为实例进行了分析,可以从中动态地挖掘异常数据。作为特例,把单指标的异常数据挖掘算法应用于校园网Web服务器日志文件,给出了上网用户的频率分析图。 The quantitative definition of outlier data based on the distance was presented. The multi-criterion algorithm for mining outlier data based on the distance was also proposed. The proposed algorithm was very fit for data analysis in large database, and was applied to the student score in order to mining dynamic outliers. As for special example, the single-criterion algorithm for mining outlier data based on the distance was applied to the Web service log in campus networks. The frequency analysis chart including outlier data sign was presented.

作者赵泽茂何坤金胡友进

机构地区河海大学计算机与信息工程学院

出处《计算机应用与软件》 CSCD 北大核心 2005年第9期105-107,共3页 Computer Applications and Software

关键词异常数据挖掘 WEB日志学生成绩上网行为模式数据挖掘算法异常数据距离应用 WEB服务器海量数据库 Outlier data mining Web log Student score Behavior mode of getting Internet

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] O212.1 [理学—概率论与数理统计]

引文网络
相关文献

参考文献3

1E. Knorr and R. Ng. , Algorithms for Mining Distance-based Outliers in Large Data Sets. VLDB Conference Proceedings, 1998.
2魏藜,宫学庆,钱卫宁,周傲英.高维空间中的离群点发现[J].软件学报,2002,13(2):280-290. 被引量：44
3赵泽茂,何坤金,陈鹏,景雪琴,蒋霞东.Web日志文件的异常数据挖掘算法及其应用[J].计算机工程,2003,29(17):195-196. 被引量：11

二级参考文献32

1Hawkins D. Identification of Outliers. London: Chapman and Hall,1980.
2Aming A, Agrawal R. Raghavan P. A Linear Method for Deviation Detection in Large Databases. Proceedings of the 2^rd International Conference on Knowledge Discovery and Data Mining. Portland, Oregon:AAAI Press, 1996:144-169.
3Knorr E, Ng R. Finding Intensional Knowledge of Distance-based Outliers. VLDB Confi~rence Proceedings, 1999.
4Knorr E, Ng R. Algorithms for Mining Distance-based Outliers in Large Data Sets. VLDB Conference Proceedings, 1998.
5Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. Knowledge discovery and data mining: towards a unifying framework. In: Simoudis, E., Han, J., Fayyad, U.M., eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland, Oregon: AAAI Press, 1996. 82～88.
6Ng, R. T., Han, J. Efficient and effective clustering methods for spatial data mining. In: Bocca, J.B., Jarke, M., Zaniolo, C., eds. Proceedings of the 20th International Conference on Very Large Data Bases. Santiago: Morgan Kaufmann, 1994. 144～155.
7Ester, M., Kriegel, H.-p., Sander, J., et al. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Simoudis, E., Han, J., Fayyad, U.M., eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland, Oregon: AAAI Press, 1996. 226～231.
8Zhang, T., Ramakrishnan, R., Linvy, M. BIRCH: an efficient eata clustering method for very large databases. In: Jagadish, H.V., Mumick, I.S., eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Montreal: ACM Press, 1996. 103～114.
9Wang, W., Yang, J., Muntz, R. STING: a statistical information grid approach to spatial data mining. In: Jarke, M., Carey, M.J., Dittrich, K.R., et al., eds. Proceedings of the 23rd International Conference on Very Large Data Bases. Athens, Greece: Morgan Kaufmann, 1997. 186～195.
10Sheikholeslami, G., Chatterjee, S., Zhang, A. WaveCluster: a multi-resolution clustering approach for very large spatial databases. In: Gupta, A., Shmueli, O., Widom, J., eds. Proceedings of the 24th International Conference on Very Large Data Bases. New York : Morgan Kaufmann, 1998. 428～439.

共引文献52

1王建州,马志新,李廉.基于混沌的异常数据的动态识别与挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1753-1756. 被引量：7
2杨延娇,王治和.异常数据挖掘在Web服务器日志文件中的应用[J].西北师范大学学报（自然科学版）,2008,44(6):32-34. 被引量：4
3蒋盛益,徐雨明,陈溪辉.异常挖掘研究综述[J].衡阳师范学院学报,2004,25(3):63-66. 被引量：2
4ZHANG Jing 1,2 , SUN Zhi-hui 1 1.Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China,2.Department of Electricity and Information Engineering, Jiangsu University, Zhenjiang 212001, Jiangsu, China.Constructing Three-Dimension Space Graph for Outlier Detection Algorithms in Data Mining[J].Wuhan University Journal of Natural Sciences,2004,9(5):585-589. 被引量：1
5刘洪涛,童德利,陈世福.一种基于属性的异常点检测算法[J].计算机科学,2005,32(5):164-166. 被引量：4
6党伟升,张力.基于文件服务器日志的测试用例设计[J].计算机工程,2005,31(20):80-81.
7蔡江辉,张华煜.离群数据挖掘方法研究[J].电脑开发与应用,2005,18(12):46-47. 被引量：1
8苏华.营销培训问题攻略[J].人才资源开发,2005(12):74-74.
9张净,孙志挥.GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J].东南大学学报（自然科学版）,2005,35(6):863-866. 被引量：6
10金义富,朱庆生,邹咸林.高维数据集离群子空间特性研究[J].计算机工程与应用,2006,42(9):147-149. 被引量：2

同被引文献67

1王建州,马志新,李廉.基于混沌的异常数据的动态识别与挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1753-1756. 被引量：7
2帅英梅,高世伦.涡轮增压柴油机的平均值模型及仿真[J].柴油机设计与制造,2004,13(2):19-23. 被引量：10
3陆声链,林士敏.基于距离的孤立点检测及其应用[J].计算机与数字工程,2004,32(5):94-97. 被引量：23
4王斌会,陈一非.基于稳健马氏距离的多元异常值检测[J].统计与决策,2005,21(03X):4-6. 被引量：8
5王景芳,郭武.异常数据的诊断与应用研究[J].自动化与仪器仪表,2005(4):69-71. 被引量：3
6冯国胜,杨绍普.柴油机及其电控系统仿真[J].系统仿真学报,2005,17(9):2276-2279. 被引量：4
7陈华,李继波.异常(Outlier)检测算法综述[J].大众科技,2005(9):96-97. 被引量：3
8梁昇,肖宗水,许艳美.基于统计的网络流量异常检测模型[J].计算机工程,2005,31(24):123-125. 被引量：17
9金义富,朱庆生,邢永康.序列缺失数据的灰插值推理方法[J].控制与决策,2006,21(2):236-240. 被引量：11
10李强,李振东.数据挖掘中孤立点的分析研究在实践中应用[J].微计算机应用,2006,27(3):323-327. 被引量：9

引证文献12

1杨延娇,王治和.异常数据挖掘在Web服务器日志文件中的应用[J].西北师范大学学报（自然科学版）,2008,44(6):32-34. 被引量：4
2李新良.数据挖掘中聚类初始化方法的优化研究[J].计算技术与自动化,2008,27(2):130-133. 被引量：1
3张春生,李艳,王海珍,张世铮.基于纵横距离的单纯异常点检测算法及应用[J].内蒙古民族大学学报（自然科学版）,2009,24(4):371-373. 被引量：1
4王和勇,吕威,陈冰川.基于加速度趋势比较的异常数据清洗研究[J].计算机应用与软件,2010,27(8):269-270.
5刘莎,曹锦丹.基于灰色模糊理论的病人满意度测评信息系统设计[J].中国数字医学,2011,6(2):20-23.
6刘莎,曹锦丹.基于灰色模糊理论的病人满意度测评信息系统设计[J].情报科学,2011,29(10):1580-1584. 被引量：8
7吴倩,唐秋华,李维刚,张利平.基于GA-BP神经网络与敏感性分析的带钢厚度预测[J].武汉科技大学学报,2018,41(1):32-36. 被引量：5
8李宁,尹小明,丁学峰,蔡慧,汪伟.一种融合聚类和异常点检测算法的窃电辨识方法[J].电测与仪表,2018,55(21):19-24. 被引量：19
9李斐斐,周向阳,秦朗,葛章明,韩书庆,张晶,吴建寨.基于Benford-SVR的数据异常检验模型构建及其应用[J].山东农业科学,2019,51(7):136-142. 被引量：1
10曾存,胡以怀,胡光忠,李方玉,李凯.基于空间几何法和距离法的柴油机异常热工参数检测方法[J].上海海事大学学报,2019,40(4):94-99. 被引量：6

二级引证文献48

1崔彦.基于BP网络的机械自动化加工参数自动选择分析[J].产业科技创新,2020,2(18):51-52. 被引量：1
2杨天诣,程垠钟,杜剑维,王浩.基于核密度估计的船舶柴油发电机组冷却水温度异常检测方法[J].船舶工程,2022,44(S01):487-494. 被引量：7
3张春生,李艳,王海珍,张世铮.基于纵横距离的单纯异常点检测算法及应用[J].内蒙古民族大学学报（自然科学版）,2009,24(4):371-373. 被引量：1
4赵峰,秦锋,陈全.基于距离和的孤立点检测在税务系统中的应用[J].太原师范学院学报（自然科学版）,2009,8(3):42-45. 被引量：2
5耿玉清,张春生.一种试卷分析及数据挖掘系统的开发[J].计算机技术与发展,2010,20(10):241-245. 被引量：3
6李桃迎,陈燕,秦胜君,李楠.增量聚类算法综述[J].科学技术与工程,2010,10(35):8752-8759. 被引量：7
7付沙,杨波,李博.基于灰色模糊理论的信息系统安全风险评估研究[J].现代情报,2013,33(7):34-37. 被引量：20
8喻露,李乐之.病人满意度的研究进展[J].护理实践与研究,2013,10(12):116-118. 被引量：4
9刘芷含.国内外病人满意度研究综述[J].中国卫生政策研究,2015,8(4):60-66. 被引量：14
10贾玉虎,谢文琼,尤晨.基于灰色理论的服务满意度测评信息系统设计[J].现代计算机,2016,22(8):46-50. 被引量：2

1杨延娇,王治和.异常数据挖掘在Web服务器日志文件中的应用[J].西北师范大学学报（自然科学版）,2008,44(6):32-34. 被引量：4
2杨庭庭,徐凯.人工智能用于异常数据挖掘研究综述[J].电子技术与软件工程,2014(8):198-198. 被引量：4
3赵泽茂,何坤金,陈鹏,景雪琴,蒋霞东.Web日志文件的异常数据挖掘算法及其应用[J].计算机工程,2003,29(17):195-196. 被引量：11
4张静.基于统计方法的用户上网行为模式的数据挖掘[J].计算机与信息技术,2009(4):92-96. 被引量：1
5王莉君,何政伟,冯平兴.基于ICA的异常数据挖掘算法研究[J].电子科技大学学报,2015,44(2):211-214. 被引量：15
6刘降珍.异常数据挖掘中几种常用方法的比较[J].现代计算机,2012,18(23):34-36. 被引量：1
7宋荣荣,孙树亭.热能表异常数据挖掘方法[J].科学中国人,2014(11X):25-25.
8高伟,关宏伟,汪艳.异常数据挖掘及其在工程实际中的应用研究[J].信息技术,2004,28(4):70-72.
9陈玉明,吴克寿,李向军.一种基于信息熵的异常数据挖掘算法[J].控制与决策,2013,28(6):867-872. 被引量：20
10曲萍.基于改进的自组织特征映射异常数据挖掘算法分析[J].煤炭技术,2010,29(7):197-198.

计算机应用与软件

2005年第9期

浏览历史

内容加载中请稍等...

基于距离的异常数据挖掘算法及其应用被引量：12

参考文献3

二级参考文献32

共引文献52

同被引文献67

引证文献12

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于距离的异常数据挖掘算法及其应用 被引量：12

参考文献3

二级参考文献32

共引文献52

同被引文献67

引证文献12

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于距离的异常数据挖掘算法及其应用被引量：12