摘要
目前 ,从HTML文档中有效的抽取数据是一个值得研究的问题。文中提出了一种基于预定义模式的方法来构造HTML包装器 ,并将它运用到XWIS(基于XML的Web信息查询系统 )中。这种方法下 ,由用户定义模式并给出模式与HTML页面的映射关系 。
At present, effectively extracting data from HTML documents remains nontrivial task. In this paper, we presents a schema-guided approach to construct wrappers of HTML pages and implement it in the XWIS (XML-based Web Information Query System). Under this approach, the user defines a schema and provides sample mappings between the schema and the HTML page. The system will induce the mapping rules and then generate a wrapper.
出处
《计算机应用》
CSCD
北大核心
2001年第9期1-3,7,共4页
journal of Computer Applications