期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于Heritrix和HTMLParser的网页商品信息提取的研究

下载PDF

导出

摘要主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。

作者刘文浩谢韬吴进

机构地区四川大学软件学院

出处《计算机光盘软件与应用》 2012年第8期190-191,共2页 Computer CD Software and Application

关键词 HERITRIX HTMLPARSER 网络爬虫信息提取垂直搜索

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1赵亮.“三站合一”计算机微课系统设计[J].中国管理信息化,2016,19(20):206-207. 被引量：1
2肖明忠,闵博楠,王佳聪,代亚非.一个实用的针对URL的哈希函数[J].小型微型计算机系统,2006,27(3):538-541. 被引量：3
3风刀.看豆瓣影讯下天下电影[J].电脑迷,2012(8):74-74.
4李晓明,凤旺森.两种对URL的散列效果很好的函数[J].软件学报,2004,15(2):179-184. 被引量：45
5李胜广,刘建伟,张其善.MANET分簇IDS告警消息保全传递的一种方案[J].计算机工程,2007,33(19):13-15. 被引量：1
6Sinba.网络补习班——网页制作连载（四）[J].玩电脑,2005(1):92-94.
7何峰,王晨昀,曹春华.网站导航[J].电脑迷,2004,0(11):82-84.
8袁小洁.基于Heritrix的商品信息搜索的网络爬虫系统的设计[J].电脑编程技巧与维护,2012(22):74-74. 被引量：2
9吴丽辉,白硕,张刚,张凯.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676. 被引量：8
10陈阳.一统天下[J].网络与信息,2006,20(11):50-52.

计算机光盘软件与应用

2012年第8期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部