基于遗传算法的文档聚类算法的设计与仿真(英文) 被引量：4

Design and simulation of a document clustering algorithm based on genetic algorithm

下载PDF

导出

摘要在各种聚类算法中,K-means是一种基于划分的经典算法.但是由于K-means方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之间的部分相似度,设计出更加精确的文档相似度计算公式.在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;适应度函数采用所有类内距离的均方差之和加1的倒数表示,当类内均方差之和越小,则个体的适应度越大,被选择进入下一代的概率也越大.通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优,最终找到最优的类中心点.通过实验仿真,K-means收敛速度快,聚类的平均目标函数大于genetic algorithm(GA)且正确率明显小于GA.本文提出的GA算法的分类正确率能达到98%以上,与传统的K-means方法相比,聚类的准确性更高,说明本文提出的算法是一种行之有效的文档聚类方法. Among various document algorithms, K-means is a classical one. However it is a greedy algorithm, which is sensitive to the choice of cluster center and is much easier to result in local optimization. As genetic algorithm （GA） is a global convergence algorithm and the best cluster center can be found easily, a new dynamic document clustering method based on GA is presented in this paper. Reviewing all kinds of traditional document clustering methods, the partial similarity of keywords was not taken into account, so the document similar matrix is a sparse matrix. To some extent, the accuracy of document similarity is influenced. In this paper, some new formulas are given which are improved based on the traditional method. The formulas take the partial similarity of keywords into account, thus improving the accuracy of the calculation of similarity. In this algorithm, the single individual is presented by a matrix which consists of K cluster centers. All individuals are encoded by floating-point numbers. The reciprocal of the sum of mean square deviation of intra class distance plus one is adopted as the fitness function. The smaller the fitness function, the littler probability that the individual can be selected to enter the next generation. The optimal cluster center is finally found by the following iteration process： selection, crossover, mutation and so on. The simulation results show that the accuracy of this classification can reach over 98 percent and the algorithm is superior to K-means in performance. Thus, the algorithm of this paper is an effective method of document clustering.

作者魏建香刘怀苏新宁

机构地区南京大学信息管理系南京人口管理干部学院信息科学系南京师范大学电气与自动化工程学院

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2009年第3期432-438,共7页 Journal of Nanjing University（Natural Science）

基金 National Natural Science Foundation of China(10771076)

关键词文档聚类遗传算法相似度类中心 document clustering, genetic algorithm, similarity, cluster center

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1杨建林.基于文献集相似度的分类方法[J].情报学报,1999,18(S1):92-94. 被引量：5
2Casillas A,Gonzdlez de Lena M T,Martínez R.Document clustering into an unknown number of clusters using a genetic algorithm.International Conference on Text Speech and Dialogue,2003,43-49.
3林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
4苗建新,吉根林.GML文档结构聚类算法Clu-GML[J].南京大学学报（自然科学版）,2008,44(2):188-194. 被引量：8
5Selim S Z,Ismail M A.K-means-type algorithms:a generalized convergence theorem characterization of local optimality.IEEE Transactions Pattern Analysis and Machine Intelligence,1984,6(1):81-87.
6Bradley P S,Fayyad U M.Refining initial points for K-means clustering.Advance in Knowledge Discovery and Data Mining.Cambridge:MIT Press,1996.
7Raymond T N,Han J W.Efficient and effective clustering methods for spatial data mining.Proceeding of the 20th VLDB Conference Santiago,Chile,1994,144-155.
8索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
9Shi Z.Efficient online spherical K-means lustering.Proceedings of the 2005 IEEE International Joint Conference on Neural Networks.Montreal,IEEE Press,2005,3180-3185.
10曹付元,梁吉业,姜广.基于邻域模型的K-means初始聚类中心选择算法[J].计算机科学,2008,35(11):181-184. 被引量：6

二级参考文献58

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
3陆翠明,李芳,Athena I Vakali.XML文档相似性的仿真研究[J].计算机仿真,2005,22(12):300-302. 被引量：1
4王正群,陈世福,陈兆乾.基于模糊划分的神经网络集成[J].南京大学学报（自然科学版）,2006,42(1):63-68. 被引量：6
5潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
6刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
7金阳,左万利.一种基于动态近邻选择模型的聚类算法[J].计算机学报,2007,30(5):756-762. 被引量：18
8柴省三.内容词-共引聚类分析及其在科学结构研究中的应用[J].情报学报,1997,16(1):69-74. 被引量：24
9玄光男程润伟.遗传算法与工程设计[M].北京:科学出版社,2000..
10Han J,Kamber M. Data Mining:Concepts and Techniques. San Francisco, US: Morgan Kaufmann, 2001

共引文献116

1李飞建,郑玲.混沌免疫遗传算法在汽车悬置系统设计中的应用[J].噪声与振动控制,2013,33(1):127-131. 被引量：2
2余健明,蔡利敏,杨文宇.基于改进遗传算法的多目标配电网络重构[J].电工技术杂志,2004,26(3):60-63. 被引量：2
3陈杰,周冬华.浮点数编码的遗传算法在模糊控制器参数寻优中的应用[J].安徽建筑工业学院学报（自然科学版）,2004,12(2):40-43. 被引量：1
4田永红,薄亚明,高美凤.多维多极值函数优化的和声退火算法[J].计算机仿真,2004,21(10):79-82. 被引量：12
5陈博,王平军,胡金山.基于遗传算法的齿轮泵结构优化设计[J].机床与液压,2004,32(12):96-98. 被引量：6
6张建雄,唐万生.基于BMI的一类不确定分段线性系统的最优控制设计[J].信息与控制,2005,34(2):253-256. 被引量：1
7张建雄,唐万生.基于BMI的一类非线性系统的最优控制设计[J].系统工程与电子技术,2005,27(5):874-878. 被引量：1
8张建雄,唐万生.分段线性系统最优控制设计的一种混合算法[J].控制与决策,2005,20(4):451-454. 被引量：6
9孙晓云,高鑫,王鹏.新型并行遗传算法及其在参数估计中的应用[J].计算机工程与应用,2005,41(19):50-52. 被引量：6
10石季英,毛睿,吴俊昭,潘如政.灾变式均匀布种遗传算法[J].计算机仿真,2005,22(10):133-135. 被引量：1

同被引文献60

1叶东毅,陈昭炯.一个新的二进制可辨识矩阵及其核的计算[J].小型微型计算机系统,2004,25(6):965-967. 被引量：49
2李德毅,刘常昱.论正态云模型的普适性[J].中国工程科学,2004,6(8):28-34. 被引量：896
3李德毅,刘常昱,杜鹢,韩旭.不确定性人工智能[J].软件学报,2004,15(11):1583-1594. 被引量：401
4王颖,谢剑英.一种自适应蚁群算法及其仿真研究[J].系统仿真学报,2002,14(1):31-33. 被引量：232
5徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
6刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
7马玉良,杨家强,颜文俊.基于模糊相似度的实值属性信息系统规则约简[J].浙江大学学报（工学版）,2006,40(9):1550-1553. 被引量：3
8Pawlak Z. Rough set. International Journal of Computer and Information Sciences, 1982, 11 : 341-356.
9Pawlak Z, Grzymala-Busse J, Slowinski R, et al. Rough sets. Communications of the ACM, 1995,38(11) :89-95.
10Pawlak Z. Vagueness--A rough set view. My- cielski J, Rozenberg G, Salomaa A. Structures in Logie and Computer Science:A selection of Essays in Honor of A. Ehrenfeucht. Berlin: Springer-Verlag, 1997,106 - 117.

引证文献4

1代劲,何中市,胡峰.基于云模型的连续属性决策表简化算法[J].南京大学学报（自然科学版）,2009,45(5):638-644. 被引量：5
2王璐,邱桃荣,何妞,刘萍.基于粗糙集和蚁群优化算法的特征选择方法[J].南京大学学报（自然科学版）,2010,46(5):487-493. 被引量：19
3常瑜,梁吉业,高嘉伟,杨静.一种基于Seeds集和成对约束的半监督聚类算法[J].南京大学学报（自然科学版）,2012,48(4):405-411. 被引量：7
4李明,李莹,周庆,王君.基于TF-PIDF的网络问答社区中的知识供需研究[J].数据分析与知识发现,2021,5(2):106-115. 被引量：4

二级引证文献35

1王树义,张晋,李峻.图数据库驱动的知识管理应用特性对比研究——以Roam Research为例[J].知识管理论坛,2021(5):292-301. 被引量：1
2陈玉明,吴克寿,孙金华.基于幂树的决策表最小属性约简[J].南京大学学报（自然科学版）,2012,48(2):164-171. 被引量：5
3黄宇达,王迤冉.基于朴素贝叶斯与ID3算法的决策树分类[J].计算机工程,2012,38(14):41-43. 被引量：19
4黄宇达,范太华.决策树ID3算法的分析与优化[J].计算机工程与设计,2012,33(8):3089-3093. 被引量：16
5施珺,李慧,周立东.基于云计算的安全数据存储研究[J].南京师大学报（自然科学版）,2012,35(3):138-142. 被引量：9
6王虎,李冰.基于高维云模型的多属性客户群体相似性度量[J].工业工程与管理,2012,17(6):76-82. 被引量：2
7于洪,姚园,赵军.一种有效的基于风险最小化的属性约简算法[J].南京大学学报（自然科学版）,2013,49(2):210-216. 被引量：6
8顾沈明,叶晓敏,吴伟志.多标记粒度不完备信息系统的粗糙近似[J].南京大学学报（自然科学版）,2013,49(2):250-257. 被引量：4
9孙佳瑶,詹永照,毛启容,王敏超.基于遗传算法的交通视频事件多特征选择方法[J].微电子学与计算机,2013,30(7):42-46.
10刘杨磊,梁吉业,高嘉伟,杨静.基于Tri-training的半监督多标记学习算法[J].智能系统学报,2013,8(5):439-445. 被引量：4

1原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
2赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
3杨占华,杨燕.一种基于SOM和K-means的文档聚类算法[J].计算机应用研究,2006,23(5):73-74. 被引量：16
4林庆,袁晓峰,吴旻.中文Web文档聚类算法研究[J].计算机工程与设计,2009,30(20):4759-4761. 被引量：3
5苑兆忠,姜华.Web挖掘技术在信息检索中的应用研究[J].聊城大学学报（自然科学版）,2006,19(1):74-77. 被引量：4
6申玉斌,蔡勇,华才健.虚拟环境中的碰撞检测技术的研究与应用[J].交通与计算机,2005,23(1):74-78. 被引量：13
7陈曦,徐家宁,杨建雄.基于免疫网络的k-means文档聚类算法研究[J].计算机工程与设计,2008,29(10):2629-2631.
8李昕,钱旭,王自强.用于文档聚类的间隔流形学习算法研究[J].计算机工程,2010,36(15):40-42. 被引量：1
9吴景岚.一种基于GRASP的文档聚类算法[J].闽江学院学报,2009,30(5):62-65.
10曾勇,赵侠.网页设计中的细节与规范[J].今日科苑,2010(18):245-245.

南京大学学报（自然科学版）

2009年第3期

浏览历史

内容加载中请稍等...