期刊文献+

一种基于后缀树的中文网页层次聚类方法 被引量:11

Hierarchical clustering of Chinese web pages based on suffix tree
下载PDF
导出
摘要 为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。 In order to facilitate users browsing web search results produced by search engines, a new method called STCC algorithm is proposed, which combines STC algorithm and chameleon algorithm to group similar Chinese web pages in a hierarchical fashion. This method employs Jaccard coefficient to modify the similarity measure of base cluster in STC, then according to the similarity matrix of base cluster, chameleon algorithm is used to cluster web pages. Experimental results show that the precision in STCC increases by nearly ten percent compared with that in STC, meanwhile, chain effect in single-link algorithm can be avoided by using STCC algorithm, and it is suitable for large scale web pages clustering.
出处 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2006年第6期890-892,共3页 Journal of Liaoning Technical University (Natural Science)
基金 国家自然科学基金资助项目(90604013)
关键词 WEB挖掘 层次聚类 WEB搜索 后缀树 web mining hierarchical clustering web search., suffix tree
  • 相关文献

参考文献7

  • 1Karypis G,Han EH,Kumar V.Chameleon:hierarchical clustering using dynamic modeling[J].Computer,1999(32):68-75.
  • 2郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报(自然科学版),2004,23(6):826-828. 被引量:4
  • 3Krishnapuram R,Kummamuru K.Automatic taxonomy generation:Issues and possibilities[J].LNCS:In:Proceedings of Fuzzy Sets and Systems (IFSA),Springer-Verlag Heidelberg,2003,27(15):52-63.
  • 4Sanderson M,Croft W B.Deriving concept hierarchies from text[C]//Proceedings of SIGIR,1999::206-213.
  • 5Lawrie D,Croft W B,Rosenberg A.Finding topic words for hierarchical summarization[C]//Proceedings ofSIGIR,2001:349-357.
  • 6HJ Zeng,QC He,Z Chen,WY Ma,J Ma.Learning to Cluster Web Search Results[C]//Proceedings of SIGIR,2004:210-217.
  • 7Zamir O,Etzioni O.Web document clustering:A feasibility demonstration[C]//Proceedings of SIGIR,1998:46-54.

二级参考文献4

共引文献3

同被引文献130

引证文献11

二级引证文献50

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部