期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
搜索引擎系统中网页抓取模块研究
1
作者
金婵鸣
徐东平
《现代计算机》
2010年第3期36-39,共4页
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败。鉴于此,介绍搜索引擎...
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败。鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑。
展开更多
关键词
搜索引擎
网页抓取模块
开源网络蜘蛛
扩展
下载PDF
职称材料
题名
搜索引擎系统中网页抓取模块研究
1
作者
金婵鸣
徐东平
机构
武汉理工大学计算机科学与技术学院
出处
《现代计算机》
2010年第3期36-39,共4页
文摘
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败。鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑。
关键词
搜索引擎
网页抓取模块
开源网络蜘蛛
扩展
Keywords
Search Engine
Web Crawler Module
Open Source Web Spider
Extend
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
搜索引擎系统中网页抓取模块研究
金婵鸣
徐东平
《现代计算机》
2010
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部