一种基于频繁概念集的文本聚类方法

A Text Clustering Method Based on Frequent Concept-Sets

下载PDF

导出

摘要针对传统文本表示模型的不足以及文本向量的"高维诅咒"问题,本文提出一种基于频繁概念集的文本聚类方法(CFC)。该方法利用HowNet将文本中的关键词映射为概念,然后使用Apriori算法找出概念文本集中的频繁特征项,我们称之为频繁概念,最后利用CFC算法实现文本聚类。实验表明,较传统的基于频繁特征项的同类方法,该方法能获得更好的聚类效果。

作者肖杰黄汉永张驹

机构地区中南大学信息科学与工程学院

出处《计算机系统应用》 2009年第5期81-84,共4页 Computer Systems & Applications

关键词文本聚类概念映射频繁项集 CFC算法

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
2Liu YC, Wang XL, Wu C. ConSOM: A conceptional self-organizing map model for text. Clustering Neuroc- omputing, 2008(71):857 - 862.
3Hotho A, Staab S, Stumme G. Ontologies improve text document clustering. Proceedings of the 3rd IEEE International Conference on Data Mining, 2003:541 - 544.
4Li Y J, Chung SM, Holt J. Text Document Clustering Based on Frequent Word Meaning Sequences. Data and Knowledge Engineering, 2008, 64(1):381 - 404.
5Fung BCM, Wang K, Ester M. Hierarchical document clustering using frequent itemsets. Proceedings of SIAM Internatio'nal Conference on Data Mining, 2003.
6Bellare M, Rogaway P. The game-playing technique. Cryptology ePrint Archive Report. 2004. http://eprint. iacr.org/.

二级参考文献39

1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
2Regina Barzilay,Min-Yen Kan,and Kathleen R.McKeown.Simfinder:A Flexible Clustering Tool for Summarization[A].In proceedings of the Workshop on Summarization in NAACL 01[C].Pittsburg,Pennsylvania,USA:June 2001.
3Zheng Chen,Wei-Ying Ma,Jinwen Ma.Learning to Cluster Web Search Results[A].In:proceedings of the 27th Annual International ACM SIGIR Conference[C].Sheffield,South Yorkshire,UK,July 2004,210 -217.
4Y.C.Fang,S.Parthasarathy,F.Schwartz.Using Clustering to Boost Text Classification[J].In:proceedings of the IEEE ICDM Workshop on Text Mining,Maebashi City,Japan,2002.
5A.Rauber,and M.Frühwirth.Automatically Analyzing and Organizing Music Archives[A].In:proceedings of the 5.European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001)[C].Darmstadt,Germany,2001.
6Cutting,D.,Karger,D.,and etc.Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collections[A].SIGIR ‘ 92,1992[C].318-329.
7JR Wen,JY Nie,HJ Zhang.Clustering User Queries of a Search Engine[A].The Tenth International World Wide Web Conference[C].Hong Kong.May 1 -5,2001.
8Anton Leuski and James Allan.Improving Interactive Retrieval by Combining Ranked Lists and Clustering[A].In:proceedings of RIAO2000[C].Paris,France,April 12-14,2000,665 -681.
9Anton V.Leouski and W.Bruce Croft.An Evaluation of Techniques for Clustering Search Results[A].Technical Report IR-76,Department of Computer Science,University of Massachusetts,Amherst,1996.
10Htttp://www.cs.washington.edu/research/clustering.

共引文献64

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
4张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
5王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
6王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
7谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9
8丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
9索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
10蔡荣太,王延杰.矢量聚类及其在稀疏分量分析中的应用[J].计算机工程,2008,34(5):8-10.

1龙鹏飞,唐军,王琳.基于特征选择的数据流聚类[J].计算机工程与设计,2010,31(19):4235-4237.
2时百胜.基于结构化属性集的规则学习[J].计算机应用,2010,30(8):2010-2012.
3张长胜,阮婧,黄海隆,励龙昌,杨炳儒.基于概念格的数据流频繁项集挖掘[J].科学技术与工程,2013,21(23):6739-6745.
4薛安荣,王富强,李明.基于Iceberg概念格的最大频繁项集挖掘[J].计算机工程,2011,37(7):35-37. 被引量：4
5赵慧珍,刘付显,李龙跃.Parzen窗确定系数的协同模糊C均值算法[J].重庆邮电大学学报（自然科学版）,2017,29(2):272-278. 被引量：4
6柴玉梅,张卓,王黎明.基于频繁概念直乘分布的全局闭频繁项集挖掘算法[J].计算机学报,2012,35(5):990-1001. 被引量：19
7张卓,李石君,余伟,田建伟.基于Iceberg概念格叠置半集成的全局闭频繁项集挖掘算法[J].小型微型计算机系统,2010,31(3):391-397. 被引量：4
8孔磊.基于频繁量化约简格的非冗余关联规则发现算法研究[J].计算机应用与软件,2008,25(9):30-32.

计算机系统应用

2009年第5期

浏览历史

内容加载中请稍等...

一种基于频繁概念集的文本聚类方法

参考文献6

二级参考文献39

共引文献64

相关作者

相关机构

相关主题

浏览历史