摘要
将XML技术应用于搜索引擎,提出一种基于XML和DOM技术的Web信息抽取模型,对模型的数据采集、页面优化处理、抽取规则生成和信息抽取四个阶段进行了详细分析,讨论了网页爬虫、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技术在Web信息抽取中的应用,实现了Web信息抽取的半自动化.
XML technology is applied in search engine, and a web information extraction model based on XML and DOM technology is proposed. The stages of data acquisition, web age optimization, extraction rule genera- tion and information extraction are analyzed in detail. The technologies of webpage reptile, NekoHTML, Xerc- es-J, JTree, Xpath and XSLT are applied in Web information extraction. Finally, semi-automation method of Web information extraction is realized.
出处
《大连交通大学学报》
CAS
2013年第3期96-99,118,共5页
Journal of Dalian Jiaotong University
基金
武汉大学软件工程国家重点实验室开放基金资助项目(SKLSE2012-9-27)
四川省重点实验基金资助项目(GK201202)
广西混杂计算与集成电路设计分析重点实验室基金资助项目