摘要
本文介绍了一种基于DOM文档模型和网页视觉属性的信息过滤方法。通过对网页内容的结构和特点进行分析,把整个网页信息内容拆分成信息块和干扰块两种类型,通过网页解析器把页面转化成DOM模型并对网页干扰信息进行判定,依据页面的视觉属性对DOM模型进行简化,最终实现对DOM模型干扰信息的有效过滤。
This paper introduces a method of information filtering that is based on the DOM and Web vision attribute. By analysing the structure and characters of web information,web page can be separated into two categories: Valuable segments and Noise segments. This paper gets DOM with Parser, identifies web page noise, reduces DOM based on vision attribute and then eliminates web page noise.
出处
《电子设计工程》
2013年第13期28-30,共3页
Electronic Design Engineering
基金
河南省基础与前沿技术研究计划项目(122300410388)