基于三角不等式原理的TTSAS聚类加速算法被引量：1

Using Triangle Inequality to Accelerate TTSAS Cluster Algorithm

下载PDF

导出

摘要顺序聚类算法是一种非常直接和快速的算法,并且不需要提前确定聚类个数。但是当处理海量数据时,时间效率仍然有待提高。TTSAS算法是两个阈值的顺序聚类算法,在此基础上,该文应用三角不等式原理提出了TI_TTSAS算法,该算法避免了冗余的距离计算,实验结果证明,相对于TTSAS算法,TI_TTSAS在速度上有很大程度的提高,数据规模越大,改进效果越明显。并且聚类效果保持了TTSAS算法的准确性。 Sequential algorithm is a straightforward cluster algorithm, and people do not have to provide the number of clusters in advance. However, when faced with large-scale data. the efficiency of the algorithm has need to be improved. Based on two-threshold sequential algorithm scheme（TTSAS）, this article presents a new sequential algorithm TI TTSAS. which avoids unnecessary distance calculations by applying the triangle inequality. Experiments show that the new algorithm is more effective for datasets of more dimensions, and becomes more and more effective as the number of clusters increases. The results keeps the accuracy of TTSAS algorithm.

作者陈晓云王平何春霞冷明伟

机构地区兰州大学信息科学与工程学院上饶师范学院数学与计算机系

出处《计算机工程》 EI CAS CSCD 北大核心 2006年第17期97-99,125,共4页 Computer Engineering

基金甘肃省自然科学基金资助项目(3ZS051-A25-035) 甘肃省气象局创新基金资助项目(2005)

关键词顺序聚类三角不等式原理两阈值顺序聚类算法三角不等式顺序聚类 Sequence cluster Triangle inequality TTSAS TI_TTSAS

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1Han Jiawei,Kamber M.Data Mining:Concepts and Techniques[M].New York:Morgan Kaufmann,2001.
2谷波,张永奎.文本聚类算法的分析与比较[J].电脑开发与应用,2003,16(11):4-6. 被引量：11
3倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15
4西奥多利迪斯.李晶皎译.模式识别(第2版)[M].北京:电子工业出版社,2004-08.
5Kennedy P J,Simoff S J,Skillicorn D,et al.Extracting and Explaining Biological Knowledge in Microarray Data[C].Proc.of the 8th Pacific-asia Conference on Knowledge Discovery and Data Mining,Sydney,2004.
6Kainulainen J J.Clustering Algorithms:Basics and Visualization[EB/OL].http://www.niksula.cs.hut.fi/~jkainula/pdfs/clustering.pdf,2004.
7Elkan C.Using the Triangle Inequality to Accelerate K-means[C].Proceedings of the 20th International Conference on Machine Learning,Washington D.C.,2003.
8Andrew W M.The Anchors Hierarchy:Using the Triangle In-equality to Survive High Dimensional Data[C].Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence,2000.
9Han Jiawei.How Can Data Mining Help Bio-data Analysis[C].Workshop on Data Mining in Bioinformatics,2002.
10Pelleg D.Andrew Moore:X-means:Extending K-means with Efficient Estimation of Number of Clusters[C].Proceedings of the 17th International Conference on Machine Learning,2000.

二级参考文献16

1Han Jiawei, Micheline. Data Mining: Concepts and Techniques.San Francisco: Morgan Kaufmann Publishers, 2000.
2M. Ester, HP. Kriegel, J. Sander, et al. A density based algorithm of discovering clusters in large spatial databases with noise. In: E. Simoudis, Han Jiawei, U. M. Fayyad, eds. Proc.the 2nd Int'l Conf. Knowledge Discovery and Data Mining Portland. Menlo Park, CA: AAAI Press, 1996. 226～231.
3Tian Zhang, Raghu Ramakrishnan, Miron Livny. BIRCH: An efficient data clustering method for very large databases. In: Proc.ACM SIGMOD Int'l Conf. Management of Data. New York:ACM Press, 1996. 73～84.
4S. Guha, R. Rostogi, K. Shim. CURE: An efficient clustering algorithm for large databases. In: L. M. Haas, A. Tiwary, eds.Proc. the ACM SIGMOD Int'l Conf. Management of Data Seattle. New York: ACM Press, 1998. 73～84.
5W. Zhnn, et al. Muntz. STING: A statistical information grid approach to spatial data mining. In: Proc. 23rd VLDB Conf.,San Francisco: Morgan Kaufrnann, 1997. 186～195.
6S. Kantabutra, A. L. Couch. Parallel k-means clustering algorithm on Nows. NECTEC Technical Journal, 1999, 1 ( 1 ) :243～ 247.
7Manasi N. Joshi. Parallel k-means algorithm on distributed memory multiprocessors. http:∥www. cs. umn. edu/～mnjoshi/PKMeans. pdf, 2003.
8C. Pizzuti, D. Talia. P-Autoclass: Scalable parallel clustering for mining large data sets. IEEE Trans. Knowledge and Data Engineering, 2003, 15(6): 629～641.
9O. Egecioglu, H. Ferhatosmanoglu, U. Ogras. Dimensionality reduction and similarity computation by inner-product approximates. IEEE Trans. Knowledge and Data Engineering,2004, 16(6): 714～726.
10Maria Halkidi, Michalis Vazirgiannis. Clustering validity assessment: Finding the optimal partitioning of a data set. IEEE Int'l Conf. Data Mining, California, 2001.

共引文献24

1原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
2唐皓,刘希玉.引力流形上的空间聚类[J].科协论坛（下半月）,2009(10):96-98.
3林华兵,傅清祥.基于文本相似度的关键词分类算法[J].福建电脑,2005,21(8):46-47. 被引量：1
4郏宣耀,滕少华.一种基于聚类的彩色图像分色算法[J].计算技术与自动化,2006,25(1):110-113. 被引量：3
5刘海涛,老松杨,韩智广.自动文摘系统中的段落自适应聚类研究[J].微计算机信息,2006,22(06X):288-291. 被引量：6
6白曦,吕晓枫,孙吉贵.融合模拟退火的遗传算法在文档聚类中的应用[J].计算机工程与应用,2006,42(23):144-148. 被引量：2
7刘峰,刘希玉,刘弘.流形上的空间密度聚类算法研究[J].中国海洋大学学报（自然科学版）,2007,37(4):681-684. 被引量：1
8吉根林,凌霄汉,杨明.一种基于集成学习的分布式聚类算法[J].东南大学学报（自然科学版）,2007,37(4):585-588. 被引量：1
9刘峰,刘希玉,张建萍.基于拓扑聚类的密度聚类算法研究[J].山东师范大学学报（自然科学版）,2007,22(3):30-33.
10刘希玉,张建萍.一种基于密度聚类的一般观点——拓扑聚类[J].计算机工程与应用,2007,43(26):164-168.

同被引文献2

1唐立新,杨自厚,王梦光.用遗传算法改进聚类分析中的K-平均算法[J].数理统计与应用概率,1997,12(4):350-356. 被引量：23
2李昕,郑宇,江芳泽.用改进的RPCL算法提取聚类的最佳数目[J].上海大学学报（自然科学版）,1999,5(5):409-413. 被引量：15

引证文献1

1单玉双,邢长征.一种更有效的K-means聚类算法[J].计算机系统应用,2009,18(8):96-99. 被引量：5

二级引证文献5

1王超,周志刚,王德广.结合Zerotree应用聚类算法的图像数据挖掘[J].微型电脑应用,2010,26(8):26-28.
2李惠君,李志全.基于改进雷达图的可视化聚类方法研究[J].燕山大学学报,2013,37(1):58-62. 被引量：2
3孟海东,任敬佩.基于云计算平台的聚类算法[J].计算机工程与设计,2015,36(11):2990-2994. 被引量：10
4刘海平.基于RFID数据的停车数量等级预测研究[J].江苏交通科技,2019,0(1):25-27.
5卢永祥,李巧兰.主成分分析法和K-均值聚类算法在入侵检测系统中的运用[J].武夷学院学报,2020,39(9):42-47. 被引量：1

1何春霞,常晋义.三角不等式原理对聚类算法的改进[J].常熟理工学院学报,2007,21(2):100-103. 被引量：3
2常晋义,何春霞.基于三角不等式原理的K-means加速算法[J].计算机工程与设计,2007,28(21):5094-5096. 被引量：4
3单玉双,邢长征.一种更有效的K-means聚类算法[J].计算机系统应用,2009,18(8):96-99. 被引量：5
4孟海东,任敬佩.基于云计算平台的聚类算法[J].计算机工程与设计,2015,36(11):2990-2994. 被引量：10
5刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
6罗笑冰,黎湘,庄钊文.基于特征不变量的红外图像识别研究[J].系统工程与电子技术,2004,26(4):539-541. 被引量：3
7武云鹏,包卫东,张维明.基于三角不等式原理的数据匹配方法[J].华南理工大学学报（自然科学版）,2010,38(7):33-38.

计算机工程

2006年第17期

浏览历史

内容加载中请稍等...

基于三角不等式原理的TTSAS聚类加速算法被引量：1

参考文献10

二级参考文献16

共引文献24

同被引文献2

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于三角不等式原理的TTSAS聚类加速算法 被引量：1

参考文献10

二级参考文献16

共引文献24

同被引文献2

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于三角不等式原理的TTSAS聚类加速算法被引量：1