摘要
提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。
Presents a method of automatic extraction of information on templated web list pages. Describes its key technoligies, including web page pre-processing operation,the location of the main data areas and the data records areas. Proposes an effective approach to align and mark data attributes of DOM subtree and gives the correlate algorithm. Experimental results shows this method can automatically locates and extracts the main information of Web list pages and achieves high recall and precision.
基金
江苏建筑职业技术学院院级科研项目(No.JYA310-14)
关键词
WEB信息抽取
列表页面
DOM
网页去噪
数据属性对齐
Web Information Extraction
List Pages
DOM
Web Noise Removing
Alignment of Data Attributes