摘要
本文研究了对于Web页面列表信息的抽取方法。通过对超文本文档特征的分析获取抽取知识,并通过自学习适应页面的变化,实现了对于列表信息的抽取。
The paper studied autonomous information extraction from Web pages based on structure of list. Gettingextraction knowledge according to the analysis of Web pages' feature, wrapper can adapt to the pages' changes with self-learning and make it automatic extraction effectively.
出处
《科技广场》
2007年第3期117-118,共2页
Science Mosaic
关键词
信息抽取
包装器
文档对象模型
Information Extraction
Wrapper
Document Object Model