一种基于频繁概念集的文本聚类方法
A Text Clustering Method Based on Frequent Concept-Sets
摘要
针对传统文本表示模型的不足以及文本向量的"高维诅咒"问题,本文提出一种基于频繁概念集的文本聚类方法(CFC)。该方法利用HowNet将文本中的关键词映射为概念,然后使用Apriori算法找出概念文本集中的频繁特征项,我们称之为频繁概念,最后利用CFC算法实现文本聚类。实验表明,较传统的基于频繁特征项的同类方法,该方法能获得更好的聚类效果。
出处
《计算机系统应用》
2009年第5期81-84,共4页
Computer Systems & Applications
参考文献6
-
1刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量:65
-
2Liu YC, Wang XL, Wu C. ConSOM: A conceptional self-organizing map model for text. Clustering Neuroc- omputing, 2008(71):857 - 862.
-
3Hotho A, Staab S, Stumme G. Ontologies improve text document clustering. Proceedings of the 3rd IEEE International Conference on Data Mining, 2003:541 - 544.
-
4Li Y J, Chung SM, Holt J. Text Document Clustering Based on Frequent Word Meaning Sequences. Data and Knowledge Engineering, 2008, 64(1):381 - 404.
-
5Fung BCM, Wang K, Ester M. Hierarchical document clustering using frequent itemsets. Proceedings of SIAM Internatio'nal Conference on Data Mining, 2003.
-
6Bellare M, Rogaway P. The game-playing technique. Cryptology ePrint Archive Report. 2004. http://eprint. iacr.org/.
二级参考文献39
-
1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量:16
-
2Regina Barzilay,Min-Yen Kan,and Kathleen R.McKeown.Simfinder:A Flexible Clustering Tool for Summarization[A].In proceedings of the Workshop on Summarization in NAACL 01[C].Pittsburg,Pennsylvania,USA:June 2001.
-
3Zheng Chen,Wei-Ying Ma,Jinwen Ma.Learning to Cluster Web Search Results[A].In:proceedings of the 27th Annual International ACM SIGIR Conference[C].Sheffield,South Yorkshire,UK,July 2004,210 -217.
-
4Y.C.Fang,S.Parthasarathy,F.Schwartz.Using Clustering to Boost Text Classification[J].In:proceedings of the IEEE ICDM Workshop on Text Mining,Maebashi City,Japan,2002.
-
5A.Rauber,and M.Frühwirth.Automatically Analyzing and Organizing Music Archives[A].In:proceedings of the 5.European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001)[C].Darmstadt,Germany,2001.
-
6Cutting,D.,Karger,D.,and etc.Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collections[A].SIGIR ‘ 92,1992[C].318-329.
-
7JR Wen,JY Nie,HJ Zhang.Clustering User Queries of a Search Engine[A].The Tenth International World Wide Web Conference[C].Hong Kong.May 1 -5,2001.
-
8Anton Leuski and James Allan.Improving Interactive Retrieval by Combining Ranked Lists and Clustering[A].In:proceedings of RIAO2000[C].Paris,France,April 12-14,2000,665 -681.
-
9Anton V.Leouski and W.Bruce Croft.An Evaluation of Techniques for Clustering Search Results[A].Technical Report IR-76,Department of Computer Science,University of Massachusetts,Amherst,1996.
-
10Htttp://www.cs.washington.edu/research/clustering.
共引文献64
-
1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量:3
-
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量:3
-
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量:10
-
4张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量:15
-
5王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量:3
-
6王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量:1
-
7谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量:9
-
8丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量:9
-
9索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报(理学版),2008,43(1):60-64. 被引量:34
-
10蔡荣太,王延杰.矢量聚类及其在稀疏分量分析中的应用[J].计算机工程,2008,34(5):8-10.
-
1龙鹏飞,唐军,王琳.基于特征选择的数据流聚类[J].计算机工程与设计,2010,31(19):4235-4237.
-
2时百胜.基于结构化属性集的规则学习[J].计算机应用,2010,30(8):2010-2012.
-
3张长胜,阮婧,黄海隆,励龙昌,杨炳儒.基于概念格的数据流频繁项集挖掘[J].科学技术与工程,2013,21(23):6739-6745.
-
4薛安荣,王富强,李明.基于Iceberg概念格的最大频繁项集挖掘[J].计算机工程,2011,37(7):35-37. 被引量:4
-
5赵慧珍,刘付显,李龙跃.Parzen窗确定系数的协同模糊C均值算法[J].重庆邮电大学学报(自然科学版),2017,29(2):272-278. 被引量:4
-
6柴玉梅,张卓,王黎明.基于频繁概念直乘分布的全局闭频繁项集挖掘算法[J].计算机学报,2012,35(5):990-1001. 被引量:19
-
7张卓,李石君,余伟,田建伟.基于Iceberg概念格叠置半集成的全局闭频繁项集挖掘算法[J].小型微型计算机系统,2010,31(3):391-397. 被引量:4
-
8孔磊.基于频繁量化约简格的非冗余关联规则发现算法研究[J].计算机应用与软件,2008,25(9):30-32.