基于粒子群的模糊C均值文本聚类算法研究被引量：2

The Algorithm Research on Particle Swarm Based on Fuzzy C-Means Text Clustering

导出

摘要利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。 The classical fuzzy c-means clustering algorithm, which is used to clustering Chinese text, is sensitive to the initial clustering center and the clustering number, it also has the limitation of converging to the local infinitesimal point. In this paper, a fuzzy cmeans clustering algorithm based on particle swarm optimization is proposed to cluster Chinese text, the particle swarm optimization helps determining the initial clustering center, furthermore using the vector space model and features extraction preprocessed, then a fuzzy c-means clustering is used for text clustering. The experimental results show that this algorithm avoids the limitation of fuzzy c- means and is obviously superior to the classical fuzzy c-means in accuracy ratio and clustering performances.

作者高劲松张俊丽

机构地区华中师范大学信息管理系南京大学信息管理系

出处《图书情报工作》 CSSCI 北大核心 2010年第6期57-60,65,共5页 Library and Information Service

关键词模糊C均值粒子群文本聚类 fuzzy c-means particle swarm text clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Dunn J C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters. Cybemet, 1974, 3 (3) : 32 - 57.
2Bezdek J C. Cluster validity with fuzzy sets. Journal of Cybernetics, 1974,3(3) :58 -72.
3齐淼,张化祥.改进的模糊C-均值聚类算法研究[J].计算机工程与应用,2009,45(20):133-135. 被引量：41
4北京大学计算语言学研究所.[2009-07-16].http://www.icl.pku.edu.cn/default_cn.asp.
5Frakes W B,Baeza-Yates R. Information retrieval:Data structures and algorithms. New Jersey: Prentice-Hall, Inc., 1992.
6陆国丽,王小华,王荣波.最大词重降维算法与模拟退火算法相结合的文本聚类方法研究[J].现代图书情报技术,2008(12):43-47. 被引量：2
7Yang Y M, Liu X. A re -examination of text categorization methods//Hearst M, Gey F, Tong R. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval. New York : Assoc Computing Machinery, 1999 : 42 - 49.
8陈惠明.图像欧氏距离在人脸识别中的应用研究[J].计算机工程与设计,2008,29(14):3735-3737. 被引量：16
9毛嘉莉.基于K-means的文本聚类算法[J].计算机系统应用,2009,18(10):85-87. 被引量：9
10叶吉祥,林泉.基于粒子群算法的文档模糊均值聚类分析[J].计算机工程与设计,2009,30(6):1446-1448. 被引量：2

二级参考文献47

1叶吉祥,谭冠政,路秋静.基于核的非凸数据模糊K-均值聚类研究[J].计算机工程与设计,2005,26(7):1784-1785. 被引量：7
2尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
3武兆慧,张桂娟,刘希玉.基于模拟退火遗传算法的聚类分析[J].计算机应用研究,2005,22(12):24-26. 被引量：15
4罗可,张学茂.一种高效的频集挖掘算法[J].长沙理工大学学报（自然科学版）,2006,3(3):84-90. 被引量：2
5王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：45
6许磊,张凤鸣.基于PSO的模糊聚类算法[J].计算机工程与设计,2006,27(21):4128-4129. 被引量：17
7龙海侠,须文波,孙俊.基于QPSO的数据聚类[J].计算机应用研究,2006,23(12):40-42. 被引量：14
8伍建军,康耀红.一种基于特征词聚类的文本分类方法[J].情报理论与实践,2007,30(1):109-111. 被引量：2
9刘晓峰,陈通.PSO算法的收敛性及参数选择研究[J].计算机工程与应用,2007,43(9):14-17. 被引量：23
10苏晋荣,李兵义,王晓凯.一种利用种群平均信息的粒子群优化算法[J].计算机工程与应用,2007,43(10):58-59. 被引量：18

共引文献187

1孙美卫.一种基于学习模型与BoW-SURF的目标识别算法[J].中原工学院学报,2021(1):79-83.
2李屹,赵春兰,屈瑶,何婷,岑康.基于多维动态隶属度的模糊时间序列的天然气月负荷预测[J].模糊系统与数学,2023,37(2):134-143.
3刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
4徐辉,李石君.一种整合粒子群优化和K-均值的数据聚类算法[J].山西大学学报（自然科学版）,2011,34(4):518-523. 被引量：9
5秦敏,郭玉坤,李金屏.基于多颜色空间的不良视频检测[J].吉林大学学报（工学版）,2013,43(S1):283-286.
6叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
7李珍刚.论跨国地方政府关系的构建[J].广西民族学院学报（哲学社会科学版）,2006,28(1):167-174. 被引量：10
8张顶学,关治洪,刘新芝.基于PSO的RBF神经网络学习算法及其应用[J].计算机工程与应用,2006,42(20):13-15. 被引量：44
9高尚,汤可宗,杨静宇.一种新的基于混合蚁群算法的聚类方法[J].微电子学与计算机,2006,23(12):38-40. 被引量：17
10刘纯青,杨莘元,张颖.基于文化算法的聚类分析[J].计算机应用,2006,26(12):2953-2955. 被引量：14

同被引文献22

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
2况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
3张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
4谷保平,许孝元,郭红艳.基于粒子群优化的k均值算法在网络入侵检测中的应用[J].计算机应用,2007,27(6):1368-1370. 被引量：24
5牛强,夏士雄,周勇,张磊.改进的模糊C-均值聚类方法[J].电子科技大学学报,2007,36(6):1257-1259. 被引量：12
6刘晶晶,吴传生.一种带交叉算子的改进的粒子群优化算法[J].青岛科技大学学报（自然科学版）,2008,29(1):77-79. 被引量：16
7宋娇,葛临东.一种遗传模糊聚类算法及其应用[J].计算机应用,2008,28(5):1197-1199. 被引量：13
8张国锁,周创明,雷英杰.改进FCM聚类算法及其在入侵检测中的应用[J].计算机应用,2009,29(5):1336-1338. 被引量：15
9齐淼,张化祥.改进的模糊C-均值聚类算法研究[J].计算机工程与应用,2009,45(20):133-135. 被引量：41
10雷秀娟,付阿利,孙晶晶.改进PSO算法的性能分析与研究[J].计算机应用研究,2010,27(2):453-458. 被引量：41

引证文献2

1黄凯锋,吴庆涛,郑瑞娟.基于模糊C-均值聚类优化的入侵检测算法[J].计算机工程与设计,2012,33(11):4100-4104. 被引量：1
2谷莹,李贺,祝琳琳.融合主题聚类和语义图模型的产品评论自动摘要方法研究[J].图书情报工作,2022,66(13):118-126. 被引量：5

二级引证文献6

1王祚华,杨若瑜.改进FCM多分类器组的无监督入侵检测算法[J].小型微型计算机系统,2014,35(10):2353-2356.
2钟镇,刘志文,雷兵.技术分享型微信文章的公众号转载特征分析--以“Python”为例[J].图书情报工作,2023,67(4):114-123. 被引量：1
3沈洪洲,闻育,黄仕靖,袁勤俭.社交媒体中主流网络民意的表达与演化:基于共评网络的分析[J].情报理论与实践,2023,46(10):138-146.
4史雅莉,贺红钰.2003—2023年我国自动标引研究及实践进展[J].情报探索,2024(4):120-127. 被引量：1
5李红莲,陈浩天,张乐,吕学强,田驰.融合情感-主题双通道信息的评论摘要生成模型[J].数据分析与知识发现,2024,8(6):30-43. 被引量：1
6吴娜,刘畅,刘江峰,王东波.AIGC驱动古籍自动摘要研究:从自然语言理解到生成[J].图书馆论坛,2024,44(9):111-123.

1李红,吴粉侠.基于模糊C均值的图像分割[J].网络安全技术与应用,2014(8):126-126.
2王永贵,李鸿绪,宋晓.MapReduce模型下的模糊C均值算法研究[J].计算机工程,2014,40(10):47-51. 被引量：10
3黄敏明,林柏钢.基于遗传算法的模糊聚类入侵检测研究[J].通信学报,2009,30(S2):140-145. 被引量：5
4潘庆丰,陈水利,陈国龙.基于核函数的模糊C均值聚类算法[J].集美大学学报（自然科学版）,2006,11(4):369-374. 被引量：5
5王春霞,侯艳丽.基于模糊C均值的数据流入侵检测算法[J].电子设计工程,2012,20(4):7-8.
6刘蕊洁,张金波,刘锐.模糊c均值聚类算法[J].重庆工学院学报（自然科学版）,2008,22(2):139-141. 被引量：36
7陈厦,方方,胡战利.模糊聚类算法综述[J].生命科学仪器,2013,11(6):33-37. 被引量：6
8李侃,刘玉树.模糊核聚类的自适应算法[J].控制与决策,2004,19(5):595-597. 被引量：9
9吴成茂,何晶,王辉.隐马尔科夫模糊C均值聚类分割算法改进[J].西安邮电大学学报,2017,22(1):44-49.
10左浩,李雯.混沌粒子群与模糊聚类在图像分割中的应用[J].计算机工程与应用,2012,48(2):194-196. 被引量：8

图书情报工作

2010年第6期

浏览历史

内容加载中请稍等...

基于粒子群的模糊C均值文本聚类算法研究被引量：2

参考文献12

二级参考文献47

共引文献187

同被引文献22

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于粒子群的模糊C均值文本聚类算法研究 被引量：2

参考文献12

二级参考文献47

共引文献187

同被引文献22

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于粒子群的模糊C均值文本聚类算法研究被引量：2