一种基于术语簇和关联规则的文档聚类方法

Document clustering approach based on term clustering and association rules

下载PDF

导出

摘要提出一种新的基于术语簇和关联规则的文档聚类方法。首先对文档集合进行分词,根据术语之间的平均互信息形成术语簇,用术语簇来表示文档矢量空间模型,使用关联规则挖掘文档的初始聚类,对此进行聚类分析获得最终的文档聚类。实验结果表明,与传统的聚类方法相比,其运行速度快,聚类效果和聚类质量都有明显提高。 This paper proposes a new document clustering approach based on term clustering and association rules.In this approach,firstly we extract words from document collection,then construct term clustering according to AMI（Average Mutual Informarion） between terms,the document VSM（Vector Space Model） is represented by term clustering,then we use association rules to mirle initial document clustering,finally we do the clustering analysis to get final document clustering.The experimental results show that the performance and clustering quality of this approach are obviously improved than those of traditional methods in the procession of document clustering.

作者徐建民成岳鹏辛丽军

机构地区河北大学数学与计算机学院河北大学图书馆

出处《计算机工程与应用》 CSCD 北大核心 2007年第5期178-181,188,共5页 Computer Engineering and Applications

基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.70571056) 河北省科学技术研究与发展计划(04213534)

关键词术语簇关联规则文档聚类 WEB挖掘矢量空间模型 term clustering association rules document clustering Web mining Vector Space Model

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1Kosala R,lockeel H.Web mining research:a survey[C]//ACMSIGKDD Explorer Newslett,2000(1):1-15.
2刘立平,易华容,何文斌.一种基于向量空间模型的文本聚类方法[J].株洲师范高等专科学校学报,2004,9(5):23-25. 被引量：4
3康铁钢,戴汝为.一种基于大规模标注语料库的词语聚类方法[J].系统仿真学报,2003,15(10):1439-1442. 被引量：3
4Park J S,Chen M S,Yu P S.An effective hash-based algorithm for mining association rules[C]//ACM SIGMOD Conference on Management of Data,San Jose,CA,May,1995:175-186.
5张蓉.一种快速有效的Web文档聚类方法[J].计算机应用研究,2004,21(4):174-176. 被引量：1
6宋擒豹,沈钧毅.基于关联规则的Web文档聚类算法[J].软件学报,2002,13(3):417-423. 被引量：41
7赵岩,王晓龙,刘秉权,关毅.基于矢量空间模型和最大熵模型的词义问题解决策略[J].高技术通讯,2005,15(1):1-6. 被引量：1
8杨敏,丁月华,文贵华.有关关联规则挖掘的研究[J].计算机时代,2005(2):5-7. 被引量：2
9de Campos L M,Fernandez-Luna J M,Huete J F.Clustering terms in the Bayesian network retrieval model:a new approach with two term-layers[J/OL].Applied Soft Computing,2004(4):149-158.
10李炜,宋瀚涛.基于相似性的关联规则启发式发现[J].北京理工大学学报,2002,22(1):98-100. 被引量：2

二级参考文献41

1.人民日报标注语料库(1998年1月份).http://www.fujitsu.corn.on,[EB／OL],2001.
2.Word Clustering.http://www.ilc.pi.cnr.it/EAGLES96/ rep2/node37.html [EB/OL].,.
3[1]Broder,A.Z.,Glassman,S.C.,Manasse,M.S.Syntactic clustering of the Web.Technical Report,1997-015,Palo Alto,CA:Digital Systems Research Center (Digital),1997.
4[2]Chang,C.H.,Hsu,C.C.Customizable multi-engine search tool with clustering.Computer Network and ISDN Systems,1997,29(8-13):1217~1224.
5[3]Chen,L.,Katya,S.Webmate:a personal agent browsing and searching.In:Sycara,K.P.,Wooldridge,M.,eds.Proceedings of the 2nd International Conference on Autonomous Agents.New York:ACM Press,1998.132~139.
6[4]Ron,W.,Bienvenido,V.,Mark,A.S.,et al.Hypursuit:a hierarchical network search engine that exploits content-link hypertext clustering.In:ACM,ed.Proceedings of the 7th ACM Conference on Hypertext.New York:ACM Press,1996.180~193.
7[5]Ackerman,M.,Billsus,D.,Gaffney,S.,et al.Learning probabilistic user profiles.AI Magazine,1997,18(2):47~56.
8[6]Cheeseman,P.,Stutz,J.Bayesian classification (autoclass):theory and results.In:Fayyad,U.M.,Piatetsky-Shapiro,G.,Smyth,P.,et al.,eds.Advances in Knowledge Discovery and Data Mining.Menlo Park,CA:AAAI/MIT Press,1996.153~180.
9[7]Agrawal,R.,Srikant,R.Fast algorithm for mining association rules.In:Jorge,B.B,Matthias,J.,Carlo,Z.,eds.Proceedings of the 20th International Conference on Very Large Databases.Santiago:Morgan Kaufmann Publishers,Inc.,1994.487~499.
10徐志明.[D].哈尔滨工业大学工学,2001.

共引文献47

1孙辉,陈晓云,马志新.基于语句-词条矩阵的聚簇式动态增长聚类算法[J].清华大学学报（自然科学版）,2005,45(S1):1814-1817. 被引量：1
2张培颖.基于模糊隶属度的个性化网页推荐系统[J].计算机系统应用,2008,17(11):11-13.
3王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
4邢东山,沈钧毅,宋擒豹.集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移挖掘算法[J].小型微型计算机系统,2004,25(7):1170-1173. 被引量：5
5朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
6王楠.基于聚类的全文检索系统后处理[J].情报杂志,2005,24(1):112-114. 被引量：4
7谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
8马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
9来升强,朱建平.数据挖掘中关联规则算法的发展趋势[J].统计与信息论坛,2005,20(3):16-20. 被引量：3
10朱红灿,孟志青.一种基于SOM和层次凝聚的中文文本聚类方法[J].湘潭大学自然科学学报,2005,27(3):36-40. 被引量：8

1张蓉.Web挖掘技术研究[J].计算机工程,2006,32(15):4-6. 被引量：21
2包剑,冀常鹏,李义杰.基于矢量空间模型的文本自动分类系统研究[J].计算机系统应用,2005,14(3):47-49. 被引量：6
3董道国,薛向阳,罗航哉.多维数据索引结构回顾[J].计算机科学,2002,29(3):1-6. 被引量：9
4尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
5赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
6党齐民,吕冬煜.基于词关联语义的文本分类研究[J].计算机应用,2004,24(4):62-63. 被引量：6
7卫琳.基于搜索结果的个性化推荐系统研究[J].计算机技术与发展,2007,17(9):65-67. 被引量：3
8李永,徐德智,张勇,邢春晓.VRE中基于内容过滤的论文推荐算法[J].计算机应用研究,2007,24(9):58-60. 被引量：9
9姜祖新,张德贤,张苗,李军军.基于新型文档频的平均互信息改进研究[J].软件导刊,2012,11(5):138-139.
10李学俊.基于人工智能的主观题自动评分算法实现[J].江南大学学报（自然科学版）,2009,8(3):292-295. 被引量：18

计算机工程与应用

2007年第5期

浏览历史

内容加载中请稍等...

一种基于术语簇和关联规则的文档聚类方法

参考文献10

二级参考文献41

共引文献47

相关作者

相关机构

相关主题

浏览历史