期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
基于Heritrix和HTMLParser的网页商品信息提取的研究
下载PDF
职称材料
导出
摘要
主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。
作者
刘文浩
谢韬
吴进
机构地区
四川大学软件学院
出处
《计算机光盘软件与应用》
2012年第8期190-191,共2页
Computer CD Software and Application
关键词
HERITRIX
HTMLPARSER
网络爬虫
信息提取
垂直搜索
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
0
参考文献
0
共引文献
0
同被引文献
0
引证文献
0
二级引证文献
0
1
赵亮.
“三站合一”计算机微课系统设计[J]
.中国管理信息化,2016,19(20):206-207.
被引量:1
2
肖明忠,闵博楠,王佳聪,代亚非.
一个实用的针对URL的哈希函数[J]
.小型微型计算机系统,2006,27(3):538-541.
被引量:3
3
风刀.
看豆瓣影讯 下天下电影[J]
.电脑迷,2012(8):74-74.
4
李晓明,凤旺森.
两种对URL的散列效果很好的函数[J]
.软件学报,2004,15(2):179-184.
被引量:45
5
李胜广,刘建伟,张其善.
MANET分簇IDS告警消息保全传递的一种方案[J]
.计算机工程,2007,33(19):13-15.
被引量:1
6
Sinba.
网络补习班——网页制作连载(四)[J]
.玩电脑,2005(1):92-94.
7
何峰,王晨昀,曹春华.
网站导航[J]
.电脑迷,2004,0(11):82-84.
8
袁小洁.
基于Heritrix的商品信息搜索的网络爬虫系统的设计[J]
.电脑编程技巧与维护,2012(22):74-74.
被引量:2
9
吴丽辉,白硕,张刚,张凯.
Web信息采集中的哈希函数比较[J]
.小型微型计算机系统,2006,27(4):673-676.
被引量:8
10
陈阳.
一统天下[J]
.网络与信息,2006,20(11):50-52.
计算机光盘软件与应用
2012年 第8期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部