一种改进的k-means文档聚类初值选择算法被引量：23

An adapted algorithm of choosing initial values for k-means document clustering

下载PDF

导出

摘要提出了一种改进的基于最小最大原则的k-means文档聚类初始值选择算法。该方法首先构造相似度矩阵，然后利用最小最大原则对相似度矩阵进行分析，从而选择初始聚点并自动确定聚类k值。实验结果表明利用该方法找到的k值比较接近真实值。 In this paper a novel algorithm of choosing initial values for k-means document clustering is proposed, which is based on an adapted minimum maximum principle. Firstly similarity matrix is constructed, and then an adapted minimum maximum principle is used to select both the initial seeds and the value of k. The experiment results show that the value of k found by this method is very near to the true value.

作者刘远超王晓龙刘秉权

机构地区哈尔滨工业大学计算机科学与技术学院

出处《高技术通讯》 CAS CSCD 北大核心 2006年第1期11-15,共5页 Chinese High Technology Letters

基金国家自然科学基金（60435020）重点资助项目.

关键词文档聚类 K-MEANS 最小最大原则相似度矩阵 document clustering, k-means, minimum maximum principle, similarity matrix

分类号 TP301.6 [自动化与计算机技术—计算机系统结构] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1Hatzivassiloglou V, Klavans J L, Holcombe M L, et al.Simfinder: A flexible clustering tool for surmnarization. In: Proceedings of the NAACI, 2001 Workshop on Automatic Surrunarization, Pittsburgh, PA, 2001, 41-49 .
2林鸿飞,马雅彬.基于聚类的文本过滤模型[J].大连理工大学学报,2002,42(2):249-252. 被引量：9
3Jain A K,Dubes R C. Algorithms for clustering data. Englewood Cliffs NJ, USA: Prentice Hall, 1988.
4Sneath P H, Sokal R R. Numerical Taxonomy. London, UK:Freeman. 1973.
5King B. Step-wise clustering procedures. Journal of the Amercian Statistical Association , 1967, 69(8) :86-101.
6Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases. Information Systems, 2001, 26( 1 ) : 35-58.
7Guha S, Rastogi R, Shim K. ROCK: a robust clustering algorithm for categorical attributes. In : Proceedings of the 15th International Cotfference on Data Engineering. Sydney: IEEE Computer Society Press, 1999. 512-521.
8Karypis G, Han E H, Kumar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8) :68-75.
9Han E H, Karypis G,Kumar V, et al. Clustering based on association rule hypergraphs. In: 1997 SIG-MOD Workshop on Research Issues on Data Mining and Knowledge Discovery, Tucson, Arizona, USA, 1997. 9-13.
10MacQueen J B. Some methods for classification and analysis of multivariate observations. In : Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley: University of California Press, 1967. 281-297.

二级参考文献2

1林鸿飞,战学刚,姚天顺.基于概念扩充的中文文本过滤模型[J].计算机科学,2000,27(2):88-90. 被引量：7
2林鸿飞,李业丽,姚天顺.中文文本过滤的信息分流机制[J].计算机研究与发展,2000,37(4):470-476. 被引量：16

共引文献9

1王海涛,安华萍.基于DM中关联规则算法的思考[J].计算机与数字工程,2005,33(5):76-78. 被引量：3
2张玉叶,李连,王春歆.个性化主动信息服务实现研究[J].情报杂志,2005,24(8):71-72. 被引量：2
3刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
4吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
5张浩.基于向量空间模型的层次聚类算法在文本挖掘中的应用[J].温州职业技术学院学报,2013,13(1):84-86. 被引量：1
6史梦洁.文本聚类算法综述[J].现代计算机,2014,20(2):3-6. 被引量：7
7姚长青,杜永萍.降维技术在专利文本聚类中的应用研究[J].情报学报,2014,33(5):491-497. 被引量：12
8于童.文本聚类在搜索引擎中的应用研究[J].科技经济市场,2016(8):187-188.
9吴湘华,曹丽君.可变属性粒度的中文文本概念格聚类研究[J].电脑知识与技术,2019,15(9Z):27-28.

同被引文献201

1阎岭,蒋静坪.基于进化策略的K-means聚类算法[J].江南大学学报（自然科学版）,2004,3(3):245-248. 被引量：3
2周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
3江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
4贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
5张潜,高立群,刘雪梅,胡祥培.定位-运输路线安排问题的两阶段启发式算法[J].控制与决策,2004,19(7):773-777. 被引量：44
6林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
7尹峻松,胡德文,陈爽,周宗潭.DSOM:一种基于NO时空动态扩散机理的新型自组织模型[J].中国科学（E辑）,2004,34(10):1094-1109. 被引量：4
8彭雅,林亚平,陈治平.TFIDF_-NB协同训练算法[J].小型微型计算机系统,2004,25(12):2243-2246. 被引量：1
9徐海霞.聚类分析在Web文本挖掘中的应用[J].情报杂志,2004,23(12):99-101. 被引量：4
10傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5

引证文献23

1孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
2吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75. 被引量：13
3刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1
4岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：7
5李树青.CtoC电子商务站点中的Web个性化推荐技术[J].图书情报工作,2009,53(8):134-137. 被引量：2
6郑军,王巍,杨武,杨永田.基于类间距离参数估计的文本聚类评价方法[J].计算机工程,2009,35(9):37-39. 被引量：6
7刘铭,王晓龙,刘远超.基于语义的高维数据聚类技术[J].电子学报,2009,37(5):925-929. 被引量：6
8刘铭,王晓龙,刘远超.一种大规模高维数据快速聚类算法[J].自动化学报,2009,35(7):859-866. 被引量：18
9王信波,俞立,张贵军.聚类算法分析及在GIS中心选址中的仿真研究[J].计算机仿真,2009,26(9):256-260. 被引量：7
10杨瑞龙,朱庆生,谢洪涛.快速混合Web文档聚类[J].计算机工程与应用,2010,46(22):12-15. 被引量：3

二级引证文献253

1冯建英,王博,吴丹丹,穆维松,田东.用户画像技术与其在农业领域应用研究进展[J].农业机械学报,2021,52(S01):385-395. 被引量：7
2刘晙,茹庆云.基于快速小波变换的高适应性图像检索技术研究[J].图学学报,2014,35(2):262-267. 被引量：2
3王曰芬,徐丹丹,李飞.专利信息内容挖掘及其试验研究[J].现代图书情报技术,2008(12):59-65. 被引量：8
4岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：7
5岑咏华,邓三鸿,王昊.关联推荐及其在学术资源检索网站中的应用研究[J].图书情报工作,2009,53(6):41-45. 被引量：4
6魏建香,苏新宁.基于关键词和摘要相关度的文献聚类研究[J].情报学报,2009,28(2):220-224. 被引量：4
7张云秋.基于领域本体的数字图书馆检索结果动态组织方法研究[J].图书情报工作,2009,53(15):30-33. 被引量：2
8俞辉.基于LSA和pLSA的多文档自动文摘[J].计算机工程与科学,2009,31(9):108-111. 被引量：6
9沈思.基于关联规则和Multi-Agent的个性化信息推荐系统研究[J].图书情报工作,2009,53(23):111-114. 被引量：2
10唐俊.SSC软聚类算法在面向查询的多文档文摘中的应用[J].计算机工程与科学,2010,32(6):112-114.

1刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
2毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
3张妨妨,钱雪忠.改进的GK聚类算法[J].计算机应用,2012,32(9):2476-2479. 被引量：4
4赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
5徐森,卢志茂,顾国昌.结合K均值和非负矩阵分解集成文本聚类算法[J].吉林大学学报（工学版）,2011,41(4):1077-1082. 被引量：12
6王会青,陈俊杰.基于图划分的谱聚类方法的研究[J].计算机工程与设计,2011,32(1):289-292. 被引量：16
7孙承福,张广岩.链路容量分配的最小最大原则并分组优化算法[J].小型微型计算机系统,1999,20(6):476-480. 被引量：2
8叶吉祥,陈香华,谭冠政.利用小波和分层聚类进行彩色图像分割[J].计算机与数字工程,2006,34(1):1-3. 被引量：1
9岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：7
10傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5

高技术通讯

2006年第1期

浏览历史

内容加载中请稍等...

一种改进的k-means文档聚类初值选择算法被引量：23

参考文献17

二级参考文献2

共引文献9

同被引文献201

引证文献23

二级引证文献253

相关作者

相关机构

相关主题

浏览历史

一种改进的k-means文档聚类初值选择算法 被引量：23

参考文献17

二级参考文献2

共引文献9

同被引文献201

引证文献23

二级引证文献253

相关作者

相关机构

相关主题

浏览历史

一种改进的k-means文档聚类初值选择算法被引量：23