期刊文献+

基于Heritrix和HTMLParser的网页商品信息提取的研究

下载PDF
导出
摘要 主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。
出处 《计算机光盘软件与应用》 2012年第8期190-191,共2页 Computer CD Software and Application
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部