一种基于改进K-means的文档聚类算法的实现研究被引量：7

Algorithm and Experiment Research of Textual Document Clustering Based on Improved K-means

下载PDF

导出

摘要在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于"最小最大"原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。 After a concise introduction of conotation,functions and general processs of textual document clustering, this paper expotiates the basic mechanism of a kind of improved K - means clustering based on initial eentroids selection through minimum - maximum principle, designs its algorithm, implements the clustering system, and conducts several experiments taking 300 academic articles and relative characteristic words for instances, which prove the good performance of the algorithm proposed.

作者岑咏华王晓蓉吉雍慧

机构地区南京大学信息管理系南京理工大学经济管理学院

出处《现代图书情报技术》 CSSCI 北大核心 2008年第12期73-79,共7页 New Technology of Library and Information Service

关键词文档聚类 K—means Textual document clustering K- means

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75. 被引量：13
4Hearst M A. Texttiling: Segmenting Text into Multi - paragraph Subtopic Passages [ J ]. Computational Linguistics, 1997,23 ( 1 ) : 33 -64.

二级参考文献67

1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3Hatzivassiloglou V, Klavans J L, Holcombe M L, et al.Simfinder: A flexible clustering tool for surmnarization. In: Proceedings of the NAACI, 2001 Workshop on Automatic Surrunarization, Pittsburgh, PA, 2001, 41-49 .
4Jain A K,Dubes R C. Algorithms for clustering data. Englewood Cliffs NJ, USA: Prentice Hall, 1988.
5Sneath P H, Sokal R R. Numerical Taxonomy. London, UK:Freeman. 1973.
6King B. Step-wise clustering procedures. Journal of the Amercian Statistical Association , 1967, 69(8) :86-101.
7Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases. Information Systems, 2001, 26( 1 ) : 35-58.
8Guha S, Rastogi R, Shim K. ROCK: a robust clustering algorithm for categorical attributes. In : Proceedings of the 15th International Cotfference on Data Engineering. Sydney: IEEE Computer Society Press, 1999. 512-521.
9Karypis G, Han E H, Kumar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8) :68-75.
10Han E H, Karypis G,Kumar V, et al. Clustering based on association rule hypergraphs. In: 1997 SIG-MOD Workshop on Research Issues on Data Mining and Knowledge Discovery, Tucson, Arizona, USA, 1997. 9-13.

共引文献98

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
4孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
5张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
6王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
7王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
8谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9
9丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
10索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34

同被引文献55

1王卫平,郭长旺.文本挖掘在科技情报中的应用[J].中国科技产业,2004(12):35-37. 被引量：8
2尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
3刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
4王曰芬,宋爽,卢宁,朱烨.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64. 被引量：44
5王飞跃.开源情报与网络时代的国家安全[J].科学新闻,2007(3):9-9. 被引量：16
6徐力斌,刘宗田,周文,宋二伟.基于WordNet和自然语言处理技术的半自动领域本体构建[J].计算机科学,2007,34(6):219-222. 被引量：15
7张嘉君,吴志新,乔维高.混合动力汽车整车控制策略研究[J].客车技术与研究,2007,29(4):8-11. 被引量：15
8Han Jiawei,Kamber M.Data mining:concepts and tech- niques[M].San Francisco:Morgan Kaufmann Publishers, 2000.
9Januzaj E, Kriegel H P, Pfeifle M.DBDC : Density-Based Distributed Clustering[C]//Proceedings of 9th International Conference on Extending Database Technology(EDBT). Oakland: IEEE Computer Press, 2004 : 88-105.
10Samatova N F, Ostrouchov G.RACHET : an efficient cov- er-based merging of clustering hierarchies from distribut- ed datasets[J].Distributed and Parallel Databases,2002, 11 (2) : 157-180.

引证文献7

1王曰芬,徐丹丹,李飞.专利信息内容挖掘及其试验研究[J].现代图书情报技术,2008(12):59-65. 被引量：8
2冯能山,林志华,熊金志,祝建军.一种k-means聚类的改进算法与实现[J].软件导刊,2012,11(3):66-70. 被引量：1
3毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
4王超,李书琴,肖红.基于文献的农业领域本体自动构建方法研究[J].计算机应用与软件,2014,31(8):71-74. 被引量：11
5傅畅,宋佳庆.一种基于文本聚类的web军事情报挖掘系统设计与实现[J].中国电子科学研究院学报,2015,10(5):541-545. 被引量：11
6李琪,张欣,张平康,张航.基于密度峰值优化的Canopy-Kmeans并行算法[J].通信技术,2018,51(2):312-317. 被引量：7
7张珂嘉,黄树成.一种改进的K-means入侵检测算法[J].计算机与数字工程,2021,49(10):1963-1966. 被引量：2

二级引证文献105

1申远,黄志良,胡彪,王适之.基于Doc2Vec和深度神经网络的战场态势智能推送研究[J].智能计算机与应用,2020,0(1):50-55. 被引量：8
2赵蕴华,张静.基于数据挖掘的专利数据预处理系统的设计与实现[J].情报科学,2011,29(12):1851-1855. 被引量：2
3徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
4海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：13
5杨劲锋,刘涛,陈启冠,阙华坤,肖勇.基于海量计量数据的电力客户在线分群研究[J].华东电力,2013,41(8):1581-1585. 被引量：4
6胡阿沛,张静,张晓宇.基于专利文献的技术演化分析方法评述[J].现代情报,2013,33(10):172-176. 被引量：16
7戴涛,杨洲,方勇,景旭.基于CUDA的k-means文档聚类算法并行优化[J].计算机工程与设计,2013,34(11):4032-4036. 被引量：2
8胡阿沛,张静,雷孝平,张晓宇.基于文本挖掘的专利技术主题分析研究综述[J].情报杂志,2013,32(12):88-92. 被引量：42
9余晓山,吴扬扬.基于MapReduce的文本层次聚类并行化[J].计算机应用,2014,34(6):1595-1599. 被引量：5
10王曰芬,刘卫江,邱玉婷.专利预警信息分析系统的体系架构设计[J].情报理论与实践,2014,37(6):107-111. 被引量：14

1刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3
2张蕾,崔志坤,李井泉,白涛.改进K-means模型在电力系统用户行为分析中的应用[J].无线电工程,2017,47(3):12-14. 被引量：2
3孙秀娟.加权平均值的改进k-means算法[J].电子技术与软件工程,2014(4):198-198. 被引量：1
4王欢,李红辉,张骏温.改进K-means聚类的云任务调度算法[J].计算机与现代化,2017(2):1-5. 被引量：10
5原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
6卜旭松,刘立波,石磊.基于PAM和簇阈值的改进K-Means聚类算法[J].湖北工程学院学报,2015,35(3):36-39. 被引量：2
7范晶晶,邢桂山.基于改进K—Means聚类算法的网络流量预测系统研究[J].中国科技投资,2014(A02):219-219.
8郭晨晨,朱红康.一种基于MapReduce的改进k-means聚类算法研究[J].河北工业大学学报,2016,45(5):35-43. 被引量：2
9钱政.Android平台下基于改进的K-means酒店信息聚类算法[J].淮海工学院学报（自然科学版）,2014,23(4):22-25. 被引量：2
10赵鑫龙,张维石,李辉.基于改进聚类的云计算平台攻击检测方法[J].网络新媒体技术,2016,0(4):46-51. 被引量：1

现代图书情报技术

2008年第12期

浏览历史

内容加载中请稍等...

一种基于改进K-means的文档聚类算法的实现研究被引量：7

参考文献4

二级参考文献67

共引文献98

同被引文献55

引证文献7

二级引证文献105

相关作者

相关机构

相关主题

浏览历史

一种基于改进K-means的文档聚类算法的实现研究 被引量：7

参考文献4

二级参考文献67

共引文献98

同被引文献55

引证文献7

二级引证文献105

相关作者

相关机构

相关主题

浏览历史

一种基于改进K-means的文档聚类算法的实现研究被引量：7