摘要
本文研究对于Web页面表格信息的抽取方法,通过对初始页面标注以获取抽取知识,并通过自学习适应页面的变化,有效地完成对表格信息的抽取。
The paper studies autonomous information extraction from HTML pages base on structure of table, gets extraction knowledge for extracting information from table by marking the initial page. Wrapper can adapt to the pages' changes with self-learning and make it automatic extraction effectively.
出处
《科技广场》
2006年第4期70-72,共3页
Science Mosaic
基金
吉林师范大学硕士启动项目(基于Web个性化服务技术与研究
2004年)资助
关键词
信息抽取
包装器
文档对象模型
Information Extraction
Wrapper
Document Object Model