大规模数据集聚类中的数据分区及应用研究被引量：1

Application and Research of Data Partition in Large Scale Database During Clustering

下载PDF

导出

摘要针对大型数据库提出了许多聚类方法,但是这些算法往往计算量较大、对主存的要求较高;而且当数据分布不均匀时,算法的聚类质量会受影响。因此为了提高聚类算法的效率和准确性,采用了数据分区技术首先对数据进行预处理,分区后的数据具有更少的数据量和更均匀的数据分布。 People raised many algorithms, but there are many disadvantages, for example, much computing especially in large scale database, demanding for large volume of memory support and so on. Furthermore clustering quality will be affected when the cluster density and the distance between clusters are not even. In order to improve the efficiency and quality ,this paper adopt pretreatment technology named data partition before clustering. After that, the number of data points is less and the distribution of data points is even.

作者郑洪英倪霖肖迪

机构地区重庆大学计算机学院重庆大学机械工程学院

出处《计算机应用研究》 CSCD 北大核心 2007年第2期203-205,共3页 Application Research of Computers

基金国家自然科学基金重大资助项目(60271019) 国家教育部基金资助项目(20020611007) 重庆市自然科学基金资助项目(8509)

关键词数据挖掘聚类数据分区并行聚类 Data Mining Cluster Data Partition Parallel Clustering

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Khaled Alsabti,Sanjay Ranka.Vineet Singh:An Efficient K-means Clustering Algorithm[C].Proc.of the 1st Workshop on High-Performance Data Mining,1998.
2Alex Tay Leng Phuan,Sandeep Prakash.K-means Fast Learning Artificial Neural Network,an Alternative Network for Classification[C].Proceedings of the 9th International Conference on Neural Information Processing(ICONIP'02),2002.925-929.
3Martin Ester,Hans-Peter Kriegel,et al.A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C].Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining,1996.
4周水庚,周傲英,曹晶,胡运发.一种基于密度的快速聚类算法[J].计算机研究与发展,2000,37(11):1287-1292. 被引量：89
5周水庚,范晔,周傲英.基于数据取样的DBSCAN算法[J].小型微型计算机系统,2000,21(12):1270-1274. 被引量：27

二级参考文献11

1周水庚.DBSCAN算法的扩展技术.复旦大学计算机科学系技术报告[M].,1999,4..
2周水庚，复旦大学计算机科学系技术报告，1999年
3Zhang W，Proceedings of the 23rd VLDB Conference，1997年，186页
4Chen M S，IEEE Trans.KDE，1996年，8卷，6期，866页
5Zhang T，Proceedings of the ACM SIG-MOD International Conference on Management of Data，1996年，103页
6Ester M，Proceedings of 4th Int Symposiumon Large Spatial Databases，1995年，951卷，67页
7Ng R T，Proceedings of the 20th VLDB Conference，1994年，144页
8Zhang W，Proc 23rd VL DB Conf，1997年，186页
9Chen M S，IEEE Trans Knowledge Data Engineering，1996年，8卷，6期，866页
10Zhang T，Proc ACM SIGMOD Int Conf on Management of Data，1996年，73页

共引文献106

1梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
2周文勇.改进的K-均值聚类算法[J].光盘技术,2007(2):54-56. 被引量：6
3王海,王忠民.一种基于密度和网格的聚类算法在KDD中的应用[J].计算机工程与应用,2004,40(24):180-182. 被引量：3
4周永权,焦李成.高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J].电子学报,2004,32(8):1342-1345. 被引量：3
5林小红,蒋伟进.基于RS近似算法的医疗诊断知识挖掘[J].海军工程大学学报,2004,16(5):48-51.
6薛永生,翁伟,文娟,王劲波,张宇.LSNCCP——一种基于最大不相含核心点集的聚类算法[J].计算机研究与发展,2004,41(11):1930-1935. 被引量：2
7郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
8万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
9郭俊,樊彦国.一种改进的CURE聚类算法[J].内蒙古石油化工,2005,31(4):14-17.
10石陆魁,何丕廉.一种基于密度的高效聚类算法[J].计算机应用,2005,25(8):1824-1826. 被引量：21

同被引文献6

1王鑫,王洪国,张建喜,谷建军.基于数据分区的最近邻优先聚类算法[J].计算机科学,2005,32(12):188-190. 被引量：4
2何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
3江克勤,施培蓓.优化初始中心的模糊C-均值(FCM)算法[J].合肥工业大学学报（自然科学版）,2009,32(5):762-764. 被引量：14
4张慧哲,王坚.基于初始聚类中心选取的改进FCM聚类算法[J].计算机科学,2009,36(6):206-209. 被引量：68
5韦相,许海成,王红晓.网格质心运动的聚类初始化方法[J].计算机工程与应用,2010,46(13):135-138. 被引量：1
6汪永生,李均利.质心粒子群优化算法[J].计算机工程与应用,2011,47(3):34-37. 被引量：14

引证文献1

1贾丙静,王传安,宋雪亚.模糊C均值聚类算法的改进研究[J].淮阴师范学院学报（自然科学版）,2011,10(3):226-229. 被引量：1

二级引证文献1

1高琦,崔长彩,胡捷,叶瑞芳,黄辉.基于模糊C均值聚类算法的金刚石砂轮磨粒边缘检测[J].计量学报,2014,35(4):315-322. 被引量：2

1阎仲璞,邵秀丽,张峰.并行聚类分析算法(英文)[J].南开大学学报（自然科学版）,2008,41(4):106-112.
2陈敏,郗玉平.一种新的并行聚类算法[J].中国电子商情（通信市场）,2009(6):173-176.
3陈敏,高学东,栾绍峻,郗玉平.基于密度的并行聚类算法[J].计算机工程,2010,36(11):8-10. 被引量：9
4孟海东,杨彦侃.并行聚类算法的设计与研究[J].计算机与现代化,2010(8):5-7. 被引量：2
5李青华,马春波.基于并行聚类算法的无监督异常检测研究[J].舰船电子工程,2012,32(1):79-82. 被引量：2
6赵中堂,李春雷.基于移动Agent的并行聚类算法模型[J].中原工学院学报,2005,16(1):40-43. 被引量：1
7申彦,宋顺林,朱玉全.一种基于半监督的大规模数据集聚类算法[J].南京大学学报（自然科学版）,2011,47(4):372-382. 被引量：1
8牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22
9肖洋,李平,王鹏,邱宁佳.基于最小方差的自适应K-均值初始化方法[J].长春理工大学学报（自然科学版）,2015,38(5):140-144. 被引量：7
10张朝鑫.大规模数据集聚类方法及其应用研究[J].电子世界,2014(14):313-313.

计算机应用研究

2007年第2期

浏览历史

内容加载中请稍等...

大规模数据集聚类中的数据分区及应用研究被引量：1

参考文献5

二级参考文献11

共引文献106

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

大规模数据集聚类中的数据分区及应用研究 被引量：1

参考文献5

二级参考文献11

共引文献106

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

大规模数据集聚类中的数据分区及应用研究被引量：1