摘要
随着Web信息的快速增长,如何对Web信息进行检索,获取有价值的信息,已经成为Web信息检索的重点研究内容。本文设计一种可扩展的蜘蛛程序Spider,运用负载均衡策略调度分布Spider的协同工作,实现Web站点页面的分布式下载,在获取页面信息的同时,获取站点的拓扑结构。
As Web information grows quickly, how to get important information from Web has being a research focus of Web information retrieval. This paper proposed a new extendable Spider, which was designed by distributed computing and implemented load-balancing collaborative work, so to obtain Website structure when downloading Website info pages.
出处
《微计算机信息》
北大核心
2008年第30期116-118,共3页
Control & Automation
基金
海南省自然科学基金资助项目(80636)
海南省教育厅高校科研基金资助项目(Hjkj200704)