基于HTMLParser信息提取的网络爬虫设计被引量：7

Design of Crawler Based on HTML Parser Information Extraction

下载PDF

导出

摘要无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL。经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求。 Whether general search engine or vertical search engine, the design of web crawler is the core technology. In this article, a novel system of life-theme web crawler based on HTMLParser information extraction is thoroughly studied. In this system, a simulation searcher is designed for collecting the seed URL by analyzing tree structure of life-theme website, then, based on the discussion of HTMLParser information extraction, the target URL that relate to life-theme is extracted from the seed pages. Empirical studies show that the Precision=93.552% and the Recall=96.720% , proving its effectiveness and achieving requirements for general enterprise-level application of vertical search engine.

作者郑力明易平

机构地区暨南大学信息科学技术学院

出处《微计算机信息》 2009年第15期123-124,69,共3页 Control & Automation

关键词网络爬虫垂直搜索 HTMLPARSER web crawler vertical search engine HTMLParser

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Kunpeng Zhu,Zhiming Xu,Xiaolong Wang, and Yuming Zhao.A Full Distribute Web Crawler Based on Structred Network_Lecture Notes in Computer Science.2008, 4993:478-483
2Shoubin Dong,Xiaofeng Lu,Ling Zhang,and Kejing He. An Efficient Parallel Crawler in Grid Environment. Lecture Notes in Computer Science .2004, 3032:229-232
3徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
4Yun Huang,Yun Ming Ye. wHunter: A Focused Web Crawler - A Tool for Digital Library. Lecture Notes in Computer Science. 2004,3334:519-522
5Lefleris Kozanidis.An Ontology-Based Focused Crawler.LNCS. 2008,5039:376-379
6Yong Wang, Yiqun Liu, et al. A News Page Discovery Policy for Instant Crawlers. LNCS.2008,4993:520-525
7http://htmlparser.sourc e forge.net
8F Menczer, G Pant, M Ruiz et al. Evaluating topic-driven web erawlers[C].In: Proc ACM SIGIR 2001,2001

二级参考文献5

1印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
2陈刚,卢炎生.BBS搜索引擎设计与实现[J].微计算机信息,2006,22(06X):34-36. 被引量：4
3Winter.中文搜索引擎技术揭密:网络蜘蛛[EB/OL].http://article.bwtech.net/artshow_33.htm.
4Winter.中文搜索引擎技术揭密:中文分词[EB/OL].http://article.bwtech.net/artshow_30.htm.
5Winter.中文搜索引擎技术揭密:排序技术[EB/OL].http://article.bwtech.net/artshow_31.htm.

共引文献35

1项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
2李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
3叶君.web网站信息采集系统的设计方案[J].硅谷,2008,1(22):81-81. 被引量：1
4赵晓峰.基于Web的网站信息采集系统的设计与实现[J].电脑知识与技术,2008(6):1263-1264. 被引量：1
5王大伟,张岩,曾皓,潘延辉.一个预测网页变化的增量式更新模型[J].微计算机信息,2009,25(6):153-154. 被引量：2
6杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
7王江红,朱丽君,李彩虹.一种新型网络爬虫的设计与实现[J].微计算机信息,2010,26(3):136-137. 被引量：4
8金婵鸣,徐东平.搜索引擎系统中网页抓取模块研究[J].现代计算机,2010,16(3):36-39.
9孟时,王彦.larbin网络爬虫的体系结构[J].电脑学习,2010(4):80-81. 被引量：3
10贠晓晴.基于.NET 3.5的网络信息采集系统设计与实现[J].电脑编程技巧与维护,2010(16):73-74. 被引量：1

同被引文献52

1方震,赵湛,郭鹏,张玉国.基于RSSI测距分析[J].传感技术学报,2007,20(11):2526-2530. 被引量：265
2马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
3崔莉,鞠海玲,苗勇,李天璞,刘巍,赵泽.无线传感器网络研究进展[J].计算机研究与发展,2005,42(1):163-174. 被引量：730
4任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24
5张洁颖,孙懋珩,王侠.基于RSSI和LQI的动态距离估计算法[J].电子测量技术,2007,30(2):142-145. 被引量：58
6陈奋.过滤型网络爬虫的研究与设计[D].厦门:厦门大学博士论文,2008:8-11.
7王慧强.基于本体的领域智能搜索技术研究[D].哈尔滨:哈尔滨工程大学,2007.28-29.
8Document Object Model,http://www.w3.org/DOM/.
9Nancy A. Chinchor, Overview of MUC-7/MET-2, In Proceedings of the Seventh Message Understanding Conference, 1998.
10Zhang Y M, Zhou J F, A Trainable Method for Extracting Chinese Entity Names and Their Relations, In Proceedings of the Second Chinese Language Processing Workshop, Hong Kong, Oct. 2000.

引证文献7

1王二红,寿永熙,马志强,李静.多线程搜索器的设计与实现[J].内蒙古农业大学学报（自然科学版）,2010,31(3):272-276. 被引量：2
2陈晓云,宋伟国,苗胜法.基于DOM的中文人物WEB信息提取[J].微计算机信息,2010,26(36):15-17. 被引量：2
3吴文忠,易平.MapReduce在分布式搜索引擎中的应用[J].计算机系统应用,2012,21(2):249-251. 被引量：6
4张苍松,郭军,崔娇,尚军.基于RSSI的室内定位算法优化技术[J].计算机工程与应用,2015,51(3):235-238. 被引量：30
5杨军超,雒江涛,申健,邓生雄.基于MapReduce的校园网用户网购偏好分析[J].计算机系统应用,2015,24(10):222-226. 被引量：1
6邱云飞,倪学峰,邵良杉.商品隐式评价对象提取的方法研究[J].计算机工程与应用,2015,51(19):114-118. 被引量：5
7Mengxi Zhao,Dan Li,Yongshen Long.Forestry big data platform by Knowledge Graph[J].Journal of Forestry Research,2021,32(3):1305-1314. 被引量：2

二级引证文献48

1聂卉,何欢.引入词向量的隐性特征识别研究[J].数据分析与知识发现,2020,4(1):99-110. 被引量：2
2杨丽军.FFmpeg在媒体资产管理系统中的应用[J].现代电子技术,2011,34(15):147-149. 被引量：6
3杨金.基于JAVA技术的搜索引擎研究[J].中国新通信,2015,17(13):110-110. 被引量：1
4哈图,金永昌.计算机远程监控系统在教学中的研究与实现[J].内蒙古农业大学学报（自然科学版）,2015,36(3):141-146. 被引量：2
5韩文君,刘宏立,徐琨,胡久松.基于不同发射功率的室内定位算法优化[J].计算机工程与应用,2016,52(5):94-98.
6陈先灏,雒江涛.面向电商数据的可视化查询系统[J].计算机系统应用,2016,25(4):123-127. 被引量：3
7刘旭东,刘晓荣,陈国良,刘建,谢泰.基于超宽带的新型舰艇伤员定位系统设计[J].医疗卫生装备,2016,37(5):5-7. 被引量：3
8肖伟民,孙鹏,郭志川,胡琳琳.基于WebKit内核的焦点查询策略研究与优化[J].计算机应用与软件,2016,33(10):77-81. 被引量：1
9陈大孝,张莲,张攀,刘增里.基于小波变换测距优化的RSSI加权质心定位算法[J].电子世界,2016,0(20):17-18.
10华海亮,关维国,刘志建,孙泽鸿.基于优化贝叶斯的室内WiFi与蓝牙融合定位算法[J].计算机工程,2016,42(11):114-119. 被引量：8

1曹琨.基于HMM的主题爬虫问题研究[J].河南科技,2016,35(17):27-28.
2汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
3不仅仅只能上网 IE地址栏的新奇妙用[J].计算机与网络,2011,37(19):31-31.
4妙用IE地址栏[J].大众电脑,2003(7):108-108.
5周进.妙用IE地址栏[J].电脑知识与技术（经验技巧）,2003(15).
6二角.IE地址栏还可以这样用[J].网络与信息,2004,18(11):56-56.
7戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(3):138-141. 被引量：14
8胡晟.基于网络爬虫的Web挖掘应用[J].软件,2012,33(7):145-147. 被引量：8
9张皓,王玉龙.一种网站分析系统的设计方案[J].电信网技术,2013(10):37-42.
10杨琳,慕云逸,时铭月.基于NCrawler的网络爬虫设计及其应用探讨[J].软件产业与工程,2016(5):31-35. 被引量：3

微计算机信息

2009年第15期

浏览历史

内容加载中请稍等...

基于HTMLParser信息提取的网络爬虫设计被引量：7

参考文献8

二级参考文献5

共引文献35

同被引文献52

引证文献7

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于HTMLParser信息提取的网络爬虫设计 被引量：7

参考文献8

二级参考文献5

共引文献35

同被引文献52

引证文献7

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于HTMLParser信息提取的网络爬虫设计被引量：7