摘要
网页分类是指在给定分类体系的情况下,根据网页的属性自动确定其所属类别的过程。近年来,网页分类在信息检索和机器学习领域得到了广泛的关注,有不少效果较好的方法,如SVM,KNN等。但是由于网页是具有丰富的描述信息的结构体,使用纯文本分类技术处理网页是不合理的。本文提出了一种新的网页分类方法将网页分类粒度从整个网页作为分类的原子对象细化到网页的各内容部分,强调了重点部分,弱化了次要部分。本文在KNN算法的基础上,实现了基于元数据的网页分类方法。
出处
《福建电脑》
2007年第6期137-137,145,共2页
Journal of Fujian Computer