-
题名CCDet:一种高效的大规模中文重复网页检测方法
被引量:4
- 1
-
-
作者
韦永壮
袁春风
黄宜华
-
机构
南京大学计算机科学与技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第S2期140-152,共13页
-
基金
国家自然科学基金项目(61072152)
江苏省工业支撑计划基金项目(BE2011172)
-
文摘
重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数据的并行化算法.提出一种基于句号特征的大规模重复中文网页检测方法CCDet.CCDet采用了一种基于中文句号特征来完成重复文档的相似性比对方法,与现有的主要重复网页检测算法相比,CCDet大幅提高了检测具有重复关系网页和具有包含关系网页的准确性,并拥有较高的检测效率.同时,为了适应大规模新闻网页的查重处理,使用MapReduce编程框架实现了并行化的CCDet算法,使之能够并行化地进行重复网页检测.实验结果表明,并行化的CCDet算法具有较好的检测效果和计算性能,并具有良好的可扩展性.
-
关键词
ccdet算法
重复网页检测
中文句号特征
索引剪切
-
Keywords
ccdet algorithm
duplicate Web page detection
chinese period feature
index pruning
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
TP391.3
[自动化与计算机技术—计算机应用技术]
-