摘要
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。
The existent wrapper can not correctly extract all the information from such page is called MIB (multiple information block) Web page. A kind of new extraction rule, which combines the advantage of extraction rules based on document structure and extraction rules based on patterns, is introduced to solve the problem.
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第9期42-44,50,共4页
Computer Engineering
基金
国家自然科学基金项目(60073030)
国家高技术研究发展计划"863"计划项目(2001AA114041)
关键词
Web
信息抽取
包装器
抽取规则
信息集成
Web
Information extraction
Wrapper
Extraction rule
Information integration