基于频繁特征项集的文档聚类研究被引量：1

Documents clustering based on frequent term sets

下载PDF

导出

摘要提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。 Novel method of frequent term sets-based text clustering was presented. For the pre-treated documents, such frequent sets could be efficiently discovered by using the Apriori method, which subset was used for documents clustering according to frequent terms＇ correlation. This method allows us to reduce drastically the dimensionality of the term sets and provides an understandable description of the discovered clusters by their frequent terms sets.

作者郑小慎

机构地区天津科技大学海洋科学与工程学院

出处《计算机应用》 CSCD 北大核心 2006年第4期875-877,共3页 journal of Computer Applications

基金天津市高等学校科技发展基金项目(20051505) 天津科技大学引进人才科技启动基金(20050420)

关键词频繁特征项集文档聚类文档挖掘 frequent term sets text clustering text mining

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1ACKERMAN M,BILLSUS D,GAFFNEY S.Learning probabilistic user profiles[J].AI Magazine,1997,18(2):47-56.
2ZAMIR O,ETZIONI O.Web Document Clustering:A Feasibility Demonstration[A].Proceedings of ACM SIGIR 98[C].1998.46-54.
3LEWIS DD.Reuters-21578[DB/OL].http://www.daviddlewis.com/resources/testcollections/,2005.

同被引文献5

1Zamir O,Etzioni O.Web Document Clustering: A Feasibility Demonstration[A]. Proceedings of ACM SIGIR 98[C].1998: 46-54.
2Ackreman M,Billsus D,Gaffney S.Learning Probabilistic User Profiles[J]. AI Magazine,1997,18(2): 47-56.
3冯洁,陶宏才.一种频繁项集的快速挖掘算法[J].微计算机信息,2007(18):164-166. 被引量：7
4程灿,梁军,张超英.基于遗传粒子群算法的频繁项集挖掘算法[J].现代计算机,2009,15(1):15-18. 被引量：2
5周爱武,王宝铜,李玉梅,周闪闪.最大值约束下的多最小支持度关联规则挖掘[J].现代计算机,2009,15(2):9-10. 被引量：2

引证文献1

1汪继文,汪磊锋,韩超.基于频繁项集的Web文档聚类的应用改进[J].现代计算机,2009,15(10):11-13.

1陈莉,焦李成.文档挖掘与降维技术[J].西北大学学报（自然科学版）,2003,33(3):267-271. 被引量：13
2苏勇,王燕.基于XQuery的XML文档的关联规则挖掘[J].信息技术,2011,35(5):91-94. 被引量：1
3黄名选,钟智,张师超.基于频繁项集与负规则的局部反馈查询扩展[J].计算机工程与设计,2012,33(5):1863-1866.
4宋江春,沈钧毅,宋擒豹.一个基于关联规则的多层文档聚类算法[J].计算机应用,2005,25(7):1570-1572. 被引量：4
5王惠仙,龙华.基于改进的正向最大匹配中文分词算法研究[J].贵州大学学报（自然科学版）,2011,28(5):112-115. 被引量：11
6王艳,元昌安,覃晓,彭昱忠,宋叶俊.基于VC++/MFC的中文自动分词算法及其软件的实现[J].广西师范学院学报（自然科学版）,2008,25(3):104-108. 被引量：5
7傅鹏,张德运,陈海诠,董皓.基于后缀树词序列核挖掘Web文档[J].微电子学与计算机,2005,22(12):4-7. 被引量：2
8何中市,刘里.基于上下文关系的文本分类特征描述方法[J].计算机科学,2007,34(5):183-186. 被引量：6
9贺忠堂,李新安,岳强,赵锋伟.一种基于突发事件应急管理的知识库引擎[J].信息技术,2014,38(9):60-62. 被引量：4
10吴红梅,牛耘.基于词性加权和单词相似性的蛋白质交互识别[J].计算机技术与发展,2015,25(12):6-9.

计算机应用

2006年第4期

浏览历史

内容加载中请稍等...

基于频繁特征项集的文档聚类研究被引量：1

参考文献3

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于频繁特征项集的文档聚类研究 被引量：1

参考文献3

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于频繁特征项集的文档聚类研究被引量：1