聚类类别数目自动学习算法研究被引量：6

Algorithm for automatically learning class number of clustering

下载PDF

导出

摘要在进行聚类分析的时候,许多算法需要事先给出聚类类别数目。如果在不了解原始数据内部结构的情况下,很难给出合适的聚类类别数目。因此,通过对目前的聚类算法的研究,提出了一种聚类类别数目自动学习算法。算法在分析原始数据的内在分布的基础上,通过统计分布测试,能够准确的判断数据分裂的合理性,最终得到能充分拟合原始数据的聚类类别数目。实验证明算法是可行并且是有效的。 Class number for clustering a dataset is the precondition of the classical algorithm. It is very difficult to confirm the appropriate class number until the original internal structure of dataset is caught on. By researching currently clustering algorithm, a new automatically clustering algorithm is proposed, It can estimate the rationality of data division precisely by evaluating the internal distributing of original data and taking statistics distribution test. Finally, the conclusion that class number is consistent with original data is obtained. By experimeuts,, the new algorithm is proved to be feasible and effective.

作者王燕

机构地区兰州理工大学计算机与通信学院

出处《计算机工程与设计》 CSCD 北大核心 2007年第2期252-253,256,共3页 Computer Engineering and Design

关键词聚类类别数目自动学习假设检验统计分布 clustering class number automatically learning hypothesis testing statistics distribution

分类号 TP311.131 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Han JW,Wen SP.DataMing:Concepts and techniques[M].San Francisco:MorganKau-mann Publishers,2000.
2GrabmeierRAB J,Rudolph A.Techniques of cluster algorithms in data mining[J].Data Mining and Knowledge Discovery,2002,6(4):303-336.
3Jain A K,Murty M N,Flynn P J.Data clustering:A review[J].ACM Computing Surveys,1999,31 (3):264-323.
4张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
5Dan Pelleg,Andrew Moore.X-means:Extending k-means with efficient estimation of the number of clusters[C].Proceedings of the 17th International Conference on Mathine Learning,2000.727-734.
6Blake C L,Merz C J.UCI repository of learning databases[DB].http://www.ics.uci.eud/～ mlearn/MLRepository.html.
7叶吉祥,谭冠政,路秋静.基于核的非凸数据模糊K-均值聚类研究[J].计算机工程与设计,2005,26(7):1784-1785. 被引量：7

二级参考文献15

1J MacQueen. Some methods for classification and analysis of multivariate observation. In: Proc of the 5th Berkeley Symp Math Statist and Prob 1. California; University of California Press,1967. 281～297
2L Kaufman, P J Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. New York: John Wiley & Sons,1990
3M Ankerst, M M Breunig, H P Kriegel, et al. OPTICS:Ordering points to identify the clustering structure. In: Proc of the 1999 ACM SIGMOD Int'l Conf on Management of Data (SIGMOD' 99). New York: ACM Press, 1999. 164～169
4A Hotho, G Stumme. Conceptual clustering of text clusters.FGML Workshop, Hannover, 2002
5D S Modha, W S Spangler. Feature weighting in k-means clustering. Machine Learning, 2003, 52(3): 217～237
6F Beil, M Ester, X Xu. Frequent term-based text clustering. In:Proc of 2002 Int Conf Knowledge Discovery and Data Mining.New York: ACM Press, 2002. 436～442
7B B Wang, R I McKay, Hussein AAbbass, etal. A comparative study for domain ontology guided feature extraction. In: Proc of 26th Australian Computer Science Conference (ACSC2003).Darlinghurst, Australia: Australian Computer Society Inc, 2003.69～ 78
8Rong Zhang, Alexander I Rudnicky. A large scale clustering scheme for kernel k-means [J]. Proceedings 16th International Conference, Pattern Recognition,2002.
9Mark Girolami. Mercer kernel based clustering in feature space[J]. IEEE Trans on Neural Networks, 2002, 13(3):780-784.
10Isak Gath, Amir B Geva. Unsupervised optimal fuzzy clustering[J] .IEEE Trans on Pattern and Machine Intelligence, 1989,11(7):773-781.

共引文献21

1雷庆,吴扬扬.识别和抽取XM L文档中的关系信息及其出现模式[J].清华大学学报（自然科学版）,2005,45(S1):1757-1761. 被引量：3
2王素格,彭其伟,张武.基于遗传算法的自然语言参数阈值优化方法[J].测试技术学报,2006,20(1):75-81. 被引量：1
3王燕.基于信息熵的标称变量聚类算法研究[J].计算机应用,2006,26(8):1904-1905. 被引量：2
4黄建春,邹汉斌,李晓峰.基于文本聚类的映射聚类算法研究[J].计算机工程与设计,2007,28(6):1264-1266. 被引量：1
5骆盈盈,陈川,毛云芳.基于传感器网络的K-均值聚类算法研究[J].计算机工程与设计,2007,28(6):1349-1351. 被引量：5
6索红光,杨涛.基于互信息的Web文档聚类方法[J].广西师范大学学报（自然科学版）,2007,25(2):131-134. 被引量：3
7索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
8索红光,王玉伟.基于参考区域的k-means文本聚类算法[J].计算机工程与设计,2009,30(2):401-403. 被引量：9
9叶吉祥,林泉.基于粒子群算法的文档模糊均值聚类分析[J].计算机工程与设计,2009,30(6):1446-1448. 被引量：2
10常娥.农史专题资料自动编纂系统的构建与测试[J].图书馆学研究,2009(6):10-14. 被引量：4

同被引文献50

1王晓军,孙洪,管鲍.SAR图像相干斑抑制滤波性能评价[J].系统工程与电子技术,2004,26(9):1165-1171. 被引量：20
2王琦,席酉民,汪莹.和谐主题漂移的涵义及其过程描述[J].管理科学,2004,17(6):10-17. 被引量：15
3蒋盛益,李庆华.一种基于引力的聚类方法[J].计算机应用,2005,25(2):286-288. 被引量：9
4冯兴杰,黄亚楼.带约束条件的聚类算法研究[J].计算机工程与应用,2005,41(7):12-14. 被引量：12
5周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
6和谐管理研究课题组.和谐管理理论的研究框架及主要研究工作[J].管理学报,2005,2(2):145-152. 被引量：57
7姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：67
8李向军,徐国华,刘立平.一种文本聚类算法[J].西北大学学报（自然科学版）,2005,35(2):155-158. 被引量：3
9陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14
10蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21

引证文献6

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.
3史旗凯,郭菊娥,马续补,叶金凤.基于SMA信息抽取的事实主题的识别研究[J].情报学报,2009,28(1):82-87. 被引量：1
4史旗凯,郭菊娥.基于SMA信息抽取的主题诊断研究[J].管理工程学报,2010,24(1):90-94.
5苏晓珂,兰洋,程耀东,万仁霞.基于约束的混合属性增量聚类算法[J].计算机工程与设计,2010,31(8):1799-1801.
6孙季丰,邓晓晖.基于NSCT和FCM聚类的SAR图像分割[J].华南理工大学学报（自然科学版）,2011,39(2):60-64. 被引量：5

二级引证文献7

1马续补,郭菊娥.基于《知网》语义相似度的企业事实主题诊断研究[J].情报杂志,2010,29(5):54-57. 被引量：1
2王海军,张圣燕.合成孔径雷达图像分割算法研究[J].滨州学院学报,2013,29(3):52-57. 被引量：1
3吴一全,朱丽,李立.基于NSCT和KFCM聚类的图像边缘检测方法[J].华南理工大学学报（自然科学版）,2015,43(5):59-65. 被引量：3
4鲍义东,周改云,赵伟艇.自适应蚁群和模糊聚类的SAR图像分割[J].测绘科学,2016,41(8):121-124. 被引量：9
5陈玉虎,张临杰,郎海涛.基于模糊C均值聚类的大尺寸图像目标检测加速方法[J].中国海洋大学学报（自然科学版）,2017,47(2):94-100. 被引量：1
6张临杰,张晰,郎海涛.基于模糊C均值聚类的高分辨率合成孔径雷达图像舰船目标检测[J].中国海洋大学学报（自然科学版）,2018,48(3):134-140. 被引量：4
7樊笑,周非非,黄浩歌,张刚强,周帅,陈欣,赵衍斌,刁垠泽,潘胜发,张凤山,孙宇.采用分层聚类方法对脊髓型颈椎病患者手术治疗短期预后影响因素的分析[J].骨科临床与研究杂志,2023,8(1):32-38.

1尹学军,王大承.基于LabVIEW的磁体表磁分布虚拟测试系统[J].新技术新工艺,2002(1):11-12. 被引量：2
2魏永国,赵阳,李波.基于PC104的电磁阀信号采集系统的研究与实现[J].数字技术与应用,2016,34(5):81-82. 被引量：1
3任海涛,李茹.案例特征权重自动学习方法研究[J].电脑开发与应用,2004,17(3):4-6. 被引量：3
4李茹,任海涛,刘开瑛.基于案例推理中特征权重自动学习方法研究[J].山西大学学报（自然科学版）,2004,27(3):245-248. 被引量：8
5宋学彦,田生伟,李春源,王宇娇.基于Android平台的定位监控系统的研发[J].电脑知识与技术（过刊）,2014,20(3X):1722-1724.
6王芳萍,徐鲲.基于单片机磁感分布的测试[J].计量与测试技术,2009,36(8):60-62.
7王遵义,闻佟麟.螺旋宏弯光纤应变传感器的结构设计及参数选择[J].煤矿机械,2005,26(6):11-13.
8刘东,尹怡欣,涂序彦.从拟人的角度谈控制系统智能水平的评价[J].微计算机信息,2007(26):268-270.
9刘郁,陈耘志,张兵.图像挖掘中利用类特征集成的自动学习算法研究[J].电脑知识与技术（技术论坛）,2005(10):71-73.
10陈文亮,朱靖波,吕学强.词性标注规则的获取和优化[J].术语标准化与信息技术,2004(2):23-26. 被引量：5

计算机工程与设计

2007年第2期

浏览历史

内容加载中请稍等...

聚类类别数目自动学习算法研究被引量：6

参考文献7

二级参考文献15

共引文献21

同被引文献50

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

聚类类别数目自动学习算法研究 被引量：6

参考文献7

二级参考文献15

共引文献21

同被引文献50

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

聚类类别数目自动学习算法研究被引量：6