摘要
利用蜘蛛技术爬取相关行业网站的数据。通过基于一种基于新的定位与模式匹配抽取WEB数据的方法,将得到的数据分类后以XML文件保存;通过相应的信息处理、表现技术对分类后的行业URL地址进行展现。最后以林业行业网址的获取和黄页的生成为例进行了实现。
This paper mainly refers to make use of spiders crawling technology get industry website URL address。 Firstly extract web text base on location and pattern matching methods, then data will be classified ; by the information processing, performance technology industries classified URL address to show. Finally, the forestry Yellow Pages web site for the generation implemented as an example.
出处
《微计算机信息》
2010年第33期14-16,共3页
Control & Automation
关键词
行业黄页
WEB信息抽取
模式匹配
抽取规则
Business Yellow Pages
Web Text Extraction
Pattern Matching
Extraction Rules