摘要
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。
This paper proposes an algorithm that is used to construct the Web structure tree and a Web information extraction method based on Web page structure tree. While extracting information, it locates the information that should be extracted in the Web page structure tree and matches the pattern information with the terminal information in Web page structure tree. The Web information extraction is the terminal information extraction in Web page structure tree. This method can efficiently extract information from Web pages.
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第20期54-55,140,共3页
Computer Engineering
基金
国家自然科学基金资助项目(60003019)
广东省自然科学基金资助项目(990582)
广东省科技攻关资助项目项目(C10201)
关键词
信息抽取
半结构
网页结构树
模式
Information extraction
Semi-structure
Web page structure tree
Pattern