-
题名FPC:大规模网页的快速增量聚类
被引量:3
- 1
-
-
作者
余钧
郭岩
张凯
刘林
刘悦
俞晓明
程学旗
-
机构
中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室
中国科学院大学
中国信息安全评测中心
-
出处
《中文信息学报》
CSCD
北大核心
2016年第2期182-188,共7页
-
基金
国家973计划(2012CB316303
2013CB329602)
+4 种基金
国家863计划(2014AA015204)
国家自然科学基金(61232010
61425016
61572473
61572467)
-
文摘
面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。
-
关键词
DOM树分层向量
网页簇中心
局部敏感哈希
快速增量聚类
-
Keywords
DOM tree layered vectors
web page cluster center
local sensitive hashing
fast incremental clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于马尔可夫链的网页间距离衡量方法
- 2
-
-
作者
熊智
郭成城
-
机构
汕头大学计算机科学系
武汉大学电子信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第5期110-112,共3页
-
文摘
HTTP/1.1的持续连接特性会给基于内容请求分发的Web集群服务器带来额外的开销。为减少这种开销,可将用户经常一起访问的网页组成簇并以簇为单位来分布文档。如何衡量网页间的距离是网页组簇的关键问题。该文提出一种基于马尔可夫链的衡量网页间距离的方法,该方法同时考虑了用户访问的时间相关性和用户的访问路径。实例表明,与基于时间相关性的衡量网页间距离的方法相比,采用该衡量方法能更有效地减少网页组簇后HTTP/1.1持续连接所带来的额外开销。
-
关键词
WEB集群服务器
网页间距离
网页组簇
马尔可夫链
-
Keywords
Web server cluster
distance among Web pages
Web page clustering
Markov chain
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名Web集群中文档组织分布的优化策略
被引量:1
- 3
-
-
作者
熊智
晏蒲柳
郭成城
-
机构
武汉大学电子信息学院
-
出处
《计算机科学》
CSCD
北大核心
2006年第11期114-118,共5页
-
基金
国家自然科学基金(90204008)
武汉市重大科技攻关项目(20001001004)的资助
-
文摘
Web集群服务器已被广泛用来提高Web服务器的性能。对于如今内容海量级的大型网站来说,如何在Web集群服务器上组织和分布Web文档是一个急需解决的问题。本文提出了一种Web集群服务器中文档组织和分布的优化策略,其目是减少集群系统的平均响应时间。通过对Web服务器日志的分析,挖掘客户的访问模式,将关联度高的网页聚类成网页簇,然后根据网页簇的负载计算其拷贝份数,最后在集群中优化分布各网页簇的拷贝。以这种方法组织和分布文档,可以减少服务器端的TCP连接迁移开销,可以实现集群内的负载均衡,从而减小集群系统的平均响应时间;且相对于内容全镜像的文档分布方案,节约了存储空间,减少了维护各服务器文档一致性的开销。
-
关键词
WEB集群服务器
网页簇
文档组织
文档分布
-
Keywords
Web server cluster,Webpage cluster,Document organization,Document distribution
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-