期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
搜索引擎系统中网页抓取模块研究
1
作者 金婵鸣 徐东平 《现代计算机》 2010年第3期36-39,共4页
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败。鉴于此,介绍搜索引擎... 如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败。鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑。 展开更多
关键词 搜索引擎 网页抓取模块 开源网络蜘蛛 扩展
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部