密度偏差抽样技术在聚类算法中的应用研究被引量：7

Applied Research on Clustering Algorithm Using Density Biased Sampling Technology

下载PDF

导出

摘要针对在大规模数据集上进行聚类困难的问题,分析了抽样技术的优点,研究了数据挖掘领域中的随机抽样的特点,并在此基础上提出了一种基于密度的偏差抽样方法。利用密度偏差抽样所获得的样本数据集能够较准确地反映总体数据集的特征,并且能够灵活地控制对数据集不同区域的抽样率。实验证明,在大规模数据集上进行聚类时,密度偏差抽样在时间复杂度上要优于随机抽样。 The advantages of sampling technology were analyzed against the difficulties of clustering on large-scale data set, and study the traits of random sampling in data mining were studied then a biased sampling method based on density was presented. The sample data set using density biased sampling can more accurately reflect the character of the whole data set,and biased sampling can control the sampling rate freely as to different part of the data set. The experimental results show that, density biased sampling is superior to random sampling in time complexity when clustering on large-scale data set.

作者余波朱东华刘嵩郑涛

机构地区北京理工大学管理与经济学院

出处《计算机科学》 CSCD 北大核心 2009年第2期207-209,264,共4页 Computer Science

基金国家自然科学基金重点资助项目(70031010) 985哲学社会科学创新基地建设研究论文之一 "新世纪优秀人才支持计划"资助

关键词数据挖掘聚类偏差抽样随机抽样 Data mining, Clustering, Biased sampling, Random sampling

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Toivonen H. Sampling large databases from association rulesff VLDB'96. 1996
2Chen B, Haas P, Scheuermann P. New Two - phase Sampling - based Algorithm for Discovering Association Rules//SIGKDD'02. 2002
3张春阳,周继恩,钱权,蔡庆生.抽样在数据挖掘中的应用研究[J].计算机科学,2004,31(2):126-128. 被引量：11
4Olken F, Rotem D, Xu Ping. Random sampling from hash files// Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data, ACM Press, 1990:375-386
5Guha S,Rastogi R,Shim K. CURE: An Efficient Clustering Algorithm for Large Databases//Proc. ACM SIGMOD Conf.June 1998 : 73-84
6Knorr E, Ng R. A unified notion of outliers:Properties and computation//Proc. 1997 Int. Conf. Knowledge Discovery and Data Mining(KDD'97). Newport Beach,CA. Aug. 1997:219 -222
7Motwani R, Raghavan P. Randomizeed Algorithms. Cambridge University Press, 1995
8Poosala V,Ioannidis Y. Selectivity Estimation Without the Attribute Value Independence Assumption//Proc. Very Large Data Bases Conf.. Aug. 1997:486-495
9Blohsfeld B,Korus D, Seeger B. A Comparison of Selectivity Estimators for Range Queries on Metric Attributes//Proc. ACM SIGMOD Int'l Conf. Management of Data. 1999
10Scott D. Multivariate Density Estimation: Theory, Practice and Visualization. Wiley& Sons, 1992

二级参考文献4

1KishL著倪加勋译.抽样调查[M].中国统计出版社,1997..
2HanJiawei MichelineKamber.数据挖掘概念与技术[M].北京：机械工业出版社,2001.152-160.
3李存华,孙志挥.一类数据空间网格化聚类算法的均值近似方法(英文)[J].软件学报,2003,14(7):1267-1274. 被引量：15
4李存华,孙志挥.GridOF:面向大规模数据集的高效离群点检测算法[J].计算机研究与发展,2003,40(11):1586-1592. 被引量：28

共引文献72

1迟文学,王劲峰,李新虎,廖一兰.出生缺陷的空间点格局分析[J].环境与健康杂志,2007,24(4):238-240. 被引量：22
2周智昊,刘斌,李之棠,周丽娟.一种改进的基于连接成功率的P2P识别方法[J].中国海洋大学学报（自然科学版）,2008,38(S1):199-202.
3周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
4马光志,张耀坤.一种新的两阶段抽样算法[J].计算机工程与科学,2007,29(7):64-66. 被引量：1
5王洪春,彭宏.一种基于熵的聚类算法[J].计算机科学,2007,34(11):178-179. 被引量：10
6梁飞豹,张惠榕.一种集聚中心的核估计法[J].福州大学学报（自然科学版）,2009,37(3):322-325. 被引量：1
7李俊林,符红光.改进的基于核密度估计的数据分类算法[J].控制与决策,2010,25(4):507-514. 被引量：9
8刘玲.图像检索中一种新的相似性度量方法[J].科技信息,2010(07X):122-123.
9钱鹏江,王士同,邓赵红.基于稀疏Parzen窗密度估计的快速自适应相似度聚类方法[J].自动化学报,2011,37(2):179-187. 被引量：6
10王考杰,郑雪峰,宋一丁,安丰亮.基于局部聚类的轨迹数据流偏倚采样[J].计算机科学,2011,38(5):135-137. 被引量：1

同被引文献72

1李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：64
2余建桥,葛继科,李娅.一种基于密度偏差抽样的孤立点检测算法[J].计算机科学,2004,31(10):206-208. 被引量：3
3尹松,周永权,李陶深.数据聚类方法的研究与分析[J].航空计算技术,2005,35(1):63-66. 被引量：16
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
5刘爱芹.随机抽样中样本容量确定的影响因素分析[J].山东财政学院学报,2006(5):60-64. 被引量：15
6常建龙,曹锋,周傲英+.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905-918. 被引量：61
7张建锦,吴渝,刘小霞.一种改进的密度偏差抽样算法[J].计算机应用,2007,27(7):1695-1698. 被引量：5
8Sergio I, Eduardo M, Arantza I. Location-dependent query processing: Where we are and where we are heading[J]. ACM Comput. Surv. ,2010,42(3) : 1-73.
9Brian B, Shivnath B, Mayur D, et al, Models and issues in data stream systems[C]//Proeeedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems. Madison, Wisconsin, ACM, 2002.
10Jeffrey S V. Random sampling with a reservoir[J]. ACM Trans. Math. Softw. ,1985,11(1):37- 57.

引证文献7

1王考杰,郑雪峰,宋一丁,安丰亮.基于局部聚类的轨迹数据流偏倚采样[J].计算机科学,2011,38(5):135-137. 被引量：1
2蒋建洪,罗玫.电子商务卖方数据聚类方法的改进研究[J].计算机工程与应用,2013,49(8):27-31.
3盛开元,钱雪忠,吴秦.基于可变网格划分的密度偏差抽样算法[J].计算机应用,2013,33(9):2419-2422. 被引量：7
4胡志冬,任永功,杨雪.基于滑动窗口密度聚类的数据流偏倚采样算法[J].计算机科学,2013,40(9):254-256. 被引量：2
5熊开玲,彭俊杰,杨晓飞,黄俊.基于核密度估计的K-means聚类优化[J].计算机技术与发展,2017,27(2):1-5. 被引量：20
6吕丹,龙华,高杰,邵玉斌,杜庆治.基于不均匀数据的密度偏差抽样改进算法[J].软件导刊,2018,17(2):77-79. 被引量：2
7贾雪枫,李存斌,周颖.基于数据密度与Transformer-IkNN的掺烧机组烟风系统风险态势感知模型[J].热力发电,2022,51(7):129-138. 被引量：3

二级引证文献31

1马菲,朱昌杰,郑颖,邓杰.一种基于可变网格划分的离群点检测算法[J].江南大学学报（自然科学版）,2015,14(6):751-757. 被引量：1
2熊开玲,彭俊杰,杨晓飞,黄俊.基于核密度估计的K-means聚类优化[J].计算机技术与发展,2017,27(2):1-5. 被引量：20
3万静,张超,何云斌,李松.可变网格优化的K-means聚类方法[J].小型微型计算机系统,2018,39(1):95-99. 被引量：10
4牛雷,孙忠林.PCA-AKM算法及其在入侵检测中的应用[J].计算机科学,2018,45(2):226-230. 被引量：4
5吕丹,龙华,高杰,邵玉斌,杜庆治.基于不均匀数据的密度偏差抽样改进算法[J].软件导刊,2018,17(2):77-79. 被引量：2
6李茁,王田苗,胡坤磊,李晓飞,王肖.复杂环境下的激光雷达目标物实时检测方法[J].激光杂志,2018,39(3):41-46. 被引量：3
7付志敏,潘宏侠,许昕,张媛.基于PCA-KLD的供输弹系统早期故障识别[J].机械设计与研究,2018,34(2):192-195. 被引量：9
8陈广银,蔡灏兢,朱奕,李向阳,孟烨.昆山市某河流断面水质特征及可视化[J].污染防治技术,2018,31(3):38-41.
9刘荣凯,孙忠林.针对K-means初始聚类中心优化的PCA-TDKM算法[J].软件导刊,2018,17(9):85-87. 被引量：3
10刘荣凯,孙忠林.PCA-KDKM算法及其在微博舆情中的应用[J].山东科技大学学报（自然科学版）,2018,37(6):84-92. 被引量：5

1张建锦,吴渝,刘小霞.一种改进的密度偏差抽样算法[J].计算机应用,2007,27(7):1695-1698. 被引量：5
2纪良浩.基于密度偏差抽样的聚类算法研究[J].重庆邮电大学学报（自然科学版）,2007,19(6):729-732. 被引量：2
3何苗.一种基于DBS的聚类算法[J].重庆电子工程职业学院学报,2009,18(3):83-85. 被引量：1
4余建桥,葛继科,李娅.一种基于密度偏差抽样的孤立点检测算法[J].计算机科学,2004,31(10):206-208. 被引量：3
5蒋建洪,罗玫.电子商务卖方数据聚类方法的改进研究[J].计算机工程与应用,2013,49(8):27-31.
6盛开元,钱雪忠,吴秦.基于可变网格划分的密度偏差抽样算法[J].计算机应用,2013,33(9):2419-2422. 被引量：7
7熊开玲,彭俊杰,杨晓飞,黄俊.基于核密度估计的K-means聚类优化[J].计算机技术与发展,2017,27(2):1-5. 被引量：20
8贾应彪.一种高光谱图像压缩投影改进方案[J].韶关学院学报,2016,37(8):12-16.
9潘峰,汪建华.两款时间间隔测试仪表的测量原理和比较[J].电信网技术,2013(10):10-15.
10刘元珍.基于CBF的自适应抽样算法研究[J].科技信息,2009(24):71-71.

计算机科学

2009年第2期

浏览历史

内容加载中请稍等...

密度偏差抽样技术在聚类算法中的应用研究被引量：7

参考文献11

二级参考文献4

共引文献72

同被引文献72

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

密度偏差抽样技术在聚类算法中的应用研究 被引量：7

参考文献11

二级参考文献4

共引文献72

同被引文献72

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

密度偏差抽样技术在聚类算法中的应用研究被引量：7