摘要
介绍了一种常用的文件类型HTML文件的文本信息预处理方法,该方法能够快速提取网页文本。实验表明,该预处理方法具有较好的分类效果。
The paper proposes a text information preprocessing for html file. This method can fast extract the homepage text. The experiment shows that this method has the better classification effect.
出处
《科技广场》
2008年第5期148-150,共3页
Science Mosaic
关键词
预处理
HTML
网页自动分类
Preprocessing
HTML
HomePage Auto Classification