期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
FPC:大规模网页的快速增量聚类 被引量:3
1
作者 余钧 郭岩 +4 位作者 张凯 刘林 刘悦 俞晓明 程学旗 《中文信息学报》 CSCD 北大核心 2016年第2期182-188,共7页
面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类... 面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。 展开更多
关键词 DOM树分层向量 网页簇中心 局部敏感哈希 快速增量聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部