基于图划分的谱聚类算法在文本挖掘中应用被引量：6

Application of Spectral Cluster Algorithm Based on Graph Partition in Text Mining

下载PDF

导出

摘要传统文本挖掘算法都是建立在凸球形的样本空间上,当样本空间不为凸时,算法就陷入"局部"最优。为了满足"全局"最优,引进了无向图结构表示文档之间的相似关系,由无向图建立文档之间的相邻接矩阵,谱聚类算法是通过对邻接矩阵进行分析,导出聚类对象的新特征,利用新的特征对原数据进行聚类。通过实验对该算法和其他的文本挖掘的算法进行分析比较,实验结果表明该算法聚类效果比传统数据挖掘方法好。最后指出谱聚类的不足和进一步的研究方向。 Traditional text mining algorithms are based on the sample of spherical convex space, when sample space is not convex, the algorithm performance on a ＂local＂ optimization, introduced no direction graph to map similar relationship between documents, then set up adjacent matrix between documents, spectral clustering algorithm analysis adjacent matrix to get the new cluster features, then use the new features to cluser,then it is compared with other algorithm of the text mining by experimental methods. The results showed that the spectral duster algorithm produced good effect. At last, descripts shortage and further research directions of spectral cluster algorithm.

作者沈亚田沈夏炯张磊

机构地区河南大学计算机与信息工程学院

出处《计算机技术与发展》 2009年第5期96-98,共3页 Computer Technology and Development

基金河南省自然科学基金项目(0311011700)

关键词谱聚类邻接矩阵文本挖掘正则割 Laplancian矩阵 spectral cluster adjacent matrix text mining normalized cuts Laplancian matrix

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1Donth W E,Hoffman A J. Lower bounds for the partitioning of graphs[J]. IBM J Res Develop, 1973,17: 420 - 425.
2Fiedler M. Algebraic connectivity of graphs[ J ]. Czech Math J, 1973,23 : 298 - 305.
3Hagen L,Kahng A B.New spectral methods for ratio cut partitioning and clustering [ J ]. IEEE Tramactions on Computed - Aided Design, 1992,11 (9) : 1047 - 1085.
4Mohar B. Some applations of Laplace eigenvalues of graphs [C]//In: Hahn G eds. Graph Symmetry:Algebraic Methods and Applations, Vol 497 of NATO ASI Series C. [ s. l. ] : Kluwer, 1997:225 - 275.
5卞月华,吴建专,顾国华,等.图论及其应用[M].南京:东南大学出版社,2002.
6周志华,王钰.机器学习及其应用[M].北京:清华大学出版社,2006.
7Stoer M,Wanger. F. A simple min- cut algorithm[J]. Journal of the ACM, 1997,44 (4) : 585 - 591.
8Shi J B,Malik J. Normalized cuts and image segmentation[J ]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2000,22(8) :888 - 905.
9刘泉凤,陆蓓,王小华.文本挖掘中聚类算法的比较研究[J].计算机时代,2005(6):7-8. 被引量：8
10王丽坤,王宏,陆玉昌.文本挖掘及其关键技术与方法[J].计算机科学,2002,29(12):12-19. 被引量：42

二级参考文献19

1Fayyad U M,Piatetsky-Shapiro G,Smyth P.Adavance in Knowledge Discovery and Data Mining.Cambridge MA: AAAI/MIT Press,1996
2John George H.Enhancements to the data mining process: [Ph.D.Thesis].Stanford University, 1997
3Rao A S.AgentSpeak(L):BDI Agents Speak Out in a Logical Computable Language.In:Proc.Eur.Workshop Model.Auto.Agents Multi-Agent World (MAAMAW-96, 7th), 1996.42～55
4梁南元郑延斌.一个汉语自动分词模型CWSM及自动分词系统PC—CWSS[J].Communications of COLIPS,1991,1(1):51-55.
5Wang XiaoLong,et al.The Problem of Separating Characters into Fewest Words and Its Algorithms.Chinese Science Bulletin,1989,34 (22): 1924～1928
6Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing.Communication of the ACM 1995,18:613～620
7Mladenic D.Machine Learning on non-homogeneous, distributed text data.Doctoral Dissertation, University of Ljubljana,1998
8McCallum A,Nigam K.A Comparison of Event Models for Naive Bayes Text Classification.Just Research 4616 Henry Street Pittsburgh,PA 15213
9McCallum A,Nigam K.Text Classification by Bootstrapping with Keywords, EM and Shrinkage.Just Research 4616 Henry Street Pittsburgh, PA 15213
10The International Journal of Artificial Intelligence.Neural Networks, and Complex Problem-Solving Technologies.http: //textmining.krdl.org.sg/APIN/TWMcfp.html, 2001

共引文献51

1李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
2李湘云.ISODATA动态聚类算法在文本挖掘中的应用[J].长春工程学院学报（自然科学版）,2007(2):56-58.
3任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
4马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
5陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
6王卫平,郭长旺.基于文本挖掘的企业竞争情报系统[J].现代情报,2004,24(9):188-189. 被引量：7
7吕冬煜,党齐民.基于文本挖掘的可视化竞争情报提取[J].计算机应用与软件,2005,22(2):50-51. 被引量：8
8陈朵玲,胡肖锋.基于Web文本挖掘技术的企业竞争情报系统研究[J].情报杂志,2005,24(6):22-24. 被引量：15
9印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
10傅国强.基于关联规则的协同垃圾邮件过滤系统研究[J].深圳职业技术学院学报,2005,4(3):15-18. 被引量：2

同被引文献82

1司文武,钱沄涛.一种基于谱聚类的半监督聚类方法[J].计算机应用,2005,25(6):1347-1349. 被引量：11
2郑欣,林学訚.学习非唯一的最佳聚类数[J].清华大学学报（自然科学版）,2006,46(7):1282-1285. 被引量：1
3胡杰,余贻鑫.电力系统动态等值参数聚合的实用方法[J].电网技术,2006,30(24):26-30. 被引量：72
4田铮,李小斌,句彦伟.谱聚类的扰动分析[J].中国科学（E辑）,2007,37(4):527-543. 被引量：33
5朱强生,何华灿,周延泉.谱聚类算法对输入数据顺序的敏感性[J].计算机应用研究,2007,24(4):62-63. 被引量：7
6C J VAN RIJSBERGEN. Information Retrieval[M]. London: Butter- sworth, 1989.
7YANG Y, CARBONELL J G, BROWN R D, et al. Arehi, "Learning approaches for detecting and tracking news events"[J]. IEEE Intelligent Systems and their Applications, 1999,32-43.
8HOTHO A, MAEDCHE A, STAAB S. Ontology-based Text Document Clustering[C]//Klopotek Ma, Wierzchon St, Trojanowski K, eds. Proc of the Conf on Intelligent Information Systems.Zakopane : Springer Verlag, 2003.
9BOLEY D. Principal direction divisive partitoning[J]. Data Mining and Knowledge Discovery, 1998,2(4) :325-344,1998.
10HAGEN L, KAHNG A B. New spectral methods for ratio cut partition- ing and clustering[J]. IEEE Trans Computer-Aided Design, 1992,11 (9) : 1074-1085.

引证文献6

1张长帅,周大可,杨欣.半监督谱聚类比较研究[J].中国电子商情（通信市场）,2010(3):124-129.
2冯霞,闫冠男,李娟娟.一种基于潜在语义索引的谱聚类方法研究[J].中国民航大学学报,2011,29(3):47-51. 被引量：2
3李小红,罗敏.一种新的基于图划分聚类算法——GAGPBCUK算法[J].计算机科学,2012,39(9):162-165. 被引量：1
4王磊.一种改进的半监督谱聚类算法[J].商洛学院学报,2013,27(4):55-58. 被引量：1
5毛晚堆,谷千军,褚蓓蓓,瞿有利.科技项目评审专家分组匹配算法[J].北京理工大学学报,2014,34(5):523-527. 被引量：7
6林俐,潘险险.基于分裂层次半监督谱聚类算法的风电场机群划分方法[J].电力自动化设备,2015,35(2):8-14. 被引量：18

二级引证文献29

1靳克,彭玉鲸,王彦生,许文良.中国—朝鲜长白山区新生代火山事件的划分及对比[J].长春科技大学学报,2000,30(2):125-130. 被引量：5
2陈海文,王守相,王绍敏,王丹.基于门控循环单元网络与模型融合的负荷聚合体预测方法[J].电力系统自动化,2019,43(1):65-72. 被引量：39
3张倩,丁津津,张道农,王群京,马金辉.基于集群划分的高渗透率分布式系统无功优化[J].电力系统自动化,2019,43(3):130-137. 被引量：22
4杨龙光,吴晶妹.统计与聚类视角的中国中小企业信用评级研究[J].四川大学学报（哲学社会科学版）,2014(6):89-97. 被引量：4
5王志刚,王丽宏.探究风电场有功功率最大变化率在线监测系统[J].电子技术与软件工程,2015(19):205-205.
6秦川,管维亚,鞠平,吴峰.并网AWS波浪发电场等效建模[J].电力自动化设备,2015,35(11):25-31. 被引量：8
7徐立亮,胡仁祥,张毅,常喜强,闫亚东.基于K-means聚类算法的风电场机群划分方法[J].四川电力技术,2015,38(6):72-75. 被引量：2
8郭志,陈洁,黄净,詹仲强,苏元鹏.基于改进遗传KM聚类算法的风电场机群划分方法[J].可再生能源,2016,34(2):238-243. 被引量：9
9陈泽亚,王庆,郭静,陈晰,王晶华.基于二分图网络的项目与专家多重匹配策略[J].小型微型计算机系统,2016,37(3):545-550. 被引量：2
10朱成亮,刘三明,王致杰,潘磊,殷建炜.基于改进分裂H-K聚类算法的风电场机群划分方法[J].高压电器,2016,52(9):110-115. 被引量：2

1高琰,谷士文,唐琎,蔡自兴.机器学习中谱聚类方法的研究[J].计算机科学,2007,34(2):201-203. 被引量：31
2柳先辉,徐梦锦.基于多级图划分的协同过滤算法研究[J].机械设计与制造工程,2015,44(12):14-17. 被引量：3
3邱英汉.有向图投影图的邻接矩阵及其应用[J].计算机工程,1992,18(4):69-73. 被引量：1
4张岚.球形的秘密[J].数码设计（surface）,2010(5):200-200.
5王芳,徐玮.数据结构在交通网络中的应用[J].电脑与电信,2007(4):51-52.
6邢洁清,符传谊.谱聚类算法及其研究进展[J].电脑知识与技术,2016,0(7):159-161.
7潘大志,刘志斌,谭代伦.二叉树在Floyd算法最短路径存储中的应用[J].西华师范大学学报（自然科学版）,2010,31(2):204-206. 被引量：2
8马军,马绍汉.求解图最大团的并行算法[J].山东大学学报（自然科学版）,1990,25(3):302-307.
9李小红,罗敏.一种新的基于图划分聚类算法——GAGPBCUK算法[J].计算机科学,2012,39(9):162-165. 被引量：1
10王朝珠.离散广义系统正则反馈控制的传递函数设计方法[J].控制与决策,1990,5(6):13-19. 被引量：2

计算机技术与发展

2009年第5期

浏览历史

内容加载中请稍等...

基于图划分的谱聚类算法在文本挖掘中应用被引量：6

参考文献12

二级参考文献19

共引文献51

同被引文献82

引证文献6

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于图划分的谱聚类算法在文本挖掘中应用 被引量：6

参考文献12

二级参考文献19

共引文献51

同被引文献82

引证文献6

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于图划分的谱聚类算法在文本挖掘中应用被引量：6