基于网页分块技术主题爬行器的实现被引量：4

Realization of Focused Crawler Based on Page Segmentation

下载PDF

导出

摘要针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawler1.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上. In the light of result returned currently by general-purpose search engines being excessive, and having no strong similarity with the topic, this paper covers a technique of dividing the web page to chunks to implement a focused crawler. With this method, Crawlerl, a prototype of a focused crawler has been realized. Experimental results indicate that Crawlerl has better performance. The number of topic web pages crawled by Crawlerl attains more than 55%.

作者李晓亚赫枫龄左万利

机构地区吉林大学计算机科学与技术学院

出处《吉林大学学报（理学版）》 CAS CSCD 北大核心 2007年第6期959-965,共7页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:60373099)

关键词主题搜索主题爬行相关度分析网页分块 topic-specific search focused crawling relevance analysis page segmentation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Fetterly D, Manasse M, Najork M, et al. A Large-scale Study of the Evolution of Web Pages [ C ]//Proceedings of the 12th International World Wide Web Conference. Budapest, Hungary: ACM Press, 2003: 669-678.
2赫枫龄,左万利.利用超链接信息改进网页爬行器的搜索策略[J].吉林大学学报（信息科学版）,2005,23(1):59-63. 被引量：8
3SuGuiyang LiJianhua MaYinghua LiShenghong SongJuping.New focused crawling algorithm[J].Journal of Systems Engineering and Electronics,2005,16(1):199-203. 被引量：1
4Cho J, Garcia-Molina H, Page L. Efficient Crawling through URL Ordering [ J ]. Computer Networks, 1998, 30 (1/7) : 161-172.
5Menczer F. Complementing Search Engines with Online Web Mining Agents [ J ]. Decision Support Systems, 2003, 35(2) : 195-212.
6SONG Rui-hua, LIU Hai-feng, WEN Ji-rong, etal. Learning Block Importance Models for Web Pages [ C ]//The Thirteenth World Wide Web Conference (WWW 2004). New York: ACM Press, 2004: 203-211.
7Diligenti M, Coetzee F, Lawrence S, et al. Focused Crawling Using Context Graphs [ C ]//26th International Conference on Very Large Databases, VLDB 2000. Cairo, Egypt : [ s. n. ], 2000 : 527-534.
8LIN Shian-hua, HO Jan-ming. Discovering Informative Content Blocks from Web Documents [ C ]//Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2002: 588-593.
9Clark A, Cyber Neko. HTML Parser [ EB/OL]. 2005-06-18. http://people. apache. org/- andyc/neko/doc/html.
10鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120

二级参考文献21

1AGGARWAL C, AL- GARAWI F, YU P. Intelligent Crawling on the World Wide Web with Arbitrary Predicates [A]. In Proceedings of the 10th International World Wide Web Conference ( 2001 ) [ C]. Hong Kong: ACM Press, 2001 : 96-105.
2JENNY EDWARDS, KEVIN MCCURLEY, JOHN TOMLIN. An Adaptive Model for Optimizing Performance of an Incremental Web Crawler [A]. In Proceedings of the 10th International World Wide Web Conference (2001) [C]. Hong Kong: ACM Press, 2001 : 106-113.
3MUKHERJEA S. WTMS: A System for Collecting and Analyzing Topic-Specific Web Information [ A]. In Proceedings of the 9th International World Wide Web Conference [ C]. Amsterdam: Netherlands ACM Press, 2000: 15-19.
4JUNGHO0 CHO, HECTOR GARCIA MOLINA. Parallel Crawlers [ A]. In Proc. of the 11 th International World-Wide Web Conference (2002) [C]. Honolulu, Hawaii: ACM Press, 2002: 124-135.
5DENNIS FETTERLY, MARK MANASSE, MARC NAJORK, JANET WIENER. A Large-Scale Study of the Evolution of Web Pages [ A]. In Proceedings of the 12th International World Wide Web Conference (May 2003) [ C]. Budapest, Hungary:ACM Press, 2003: 669-678.
6HEYDON A, NAJORK M. Mercator: A Scalable, Extensible Web Crawler [J]. World Wide Web, 1999, 2 (4) : 219-229.
7CHO J, GARCIA-MOLINA H, PAGE L. Etficient Crawling Through URL Ordering [ A ]. In Proceedings of the 7th International WWW Conference (1998) [C]. Brisbane, Australia: ACM Press, 1998: 213-225.
8ANDREI Z. BRODER, MARC NAJORK, JANET L WIENER. EFficient URL Caching for World Wide Web Crawling [ A].In Proceedings of the 12th International World Wide Web Conference (May 2003 ) [ C ]. Budapest, Hungary: ACM Press,2003 : 679-689.
9VLADISLAV SHKAPENYUK, TORSTEN SUEL. Design and Implementation of a High-performance Distributed Web Crawler[ A]. In Proceedings of the 18th International Conference on Data Engineering (ICDE02, February, 2002) [ C]. San Jose,California: IEEE, 2002 : 357-369.
10NAJORK M, WIENER J. Breadth-first Search Crawling Yields High-quality Pages [A]. In Proceedings of the 10th International World Wide Web Conference (2001) [C]. Hong Kong: ACM Press, 2001: 114-118.

共引文献126

1周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
2许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
3胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
4王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
5徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
6吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法[J].计算机与数字工程,2005,33(3):11-13. 被引量：4
7王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
8朱征宇,裴仰军,陈华月,付关友.个性化服务中用户近期兴趣视图的生成[J].计算机工程与设计,2005,26(4):951-954. 被引量：5
9谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
10丁尚友.中小学图书馆(室)的业务管理[J].齐齐哈尔大学学报（哲学社会科学版）,2005(3):138-138.

同被引文献25

1杨频,李涛,赵奎.一种网络舆情的定量分析方法[J].计算机应用研究,2009,26(3):1066-1068. 被引量：19
2钟敏娟,林亚平,陈治平.基于超链接和标记文本的信息检索算法[J].小型微型计算机系统,2004,25(7):1344-1347. 被引量：7
3车东.在应用中加入全文检索功能-基于Java的全文索引引擎Lucene简介[EB/OL].Http:www.chedong.com/tech/lucene.html,2002.
4CHO J, GARCIA-MOLINA H, PAGE L. Efficient Crawling Through URL Ordering[J]. Computer Networks,1998, 30(1-7) : 161-172.
5Diligenti M, Gori M, Maggini M. Web Page Scoring Systems for Horizontal and Vertical Search[C]//Proc of the Eleventh Int'l World Wide Web Conf, 2002 : 508-516.
6Chris Ding, He Xiaofeng, Zha Hongyuan, et al. PageRank, HITS and a Unified Framework for Link Analysis[C] // Proc of the 25th ACM SIGIR Conf,2002: 353-354.
7Clark A, Neko C. HTML Parser[EB/OL]. [2005-06-18]. http://people. apache. org/-andyc/neko/doc/html.
8Arasu A, Cho J H, Molina H G, et al. Searching the Web[J].ACM Transactions on Internet Technology,2001,8(1): 2- 43.
9刘亚妹黄岳.基于Lucene的MYSearch全文搜索引擎.电子技术应用,2010,(18):89-91.
10刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132

引证文献4

1范会联,李献礼,曾广朴.基于改进遗传算法的聚焦爬虫设计[J].计算机工程与科学,2010,32(5):126-129. 被引量：3
2刘佐达,张久岭,陈茂科,李星.一种面向BBS信息检索的主题网络爬虫算法[J].郑州大学学报（理学版）,2010,42(2):22-25. 被引量：13
3王征,徐培文.基于互联网用户心理挖掘的网站深翻系统[J].计算机科学,2012,39(11):187-190. 被引量：2
4严良达.一种基于Lucene的面向主题爬行搜索引擎的研究[J].福建电脑,2013,29(5):24-25. 被引量：1

二级引证文献19

1吴菊英,贾炅昊,冯秀芳.基于农业领域的网络爬虫[J].电脑开发与应用,2012,25(8):30-32. 被引量：2
2梁士金.基于聚焦爬虫的编目数据搜集模型构建[J].图书馆学研究,2013(13):78-80.
3刘锐,张丽梅,王文晶.Lucene在学位论文检测系统中的应用[J].中国科技信息,2014(7):147-148. 被引量：1
4耿向华,潘宁.引入或然状态优化控制的网络文本特征挖掘[J].科技通报,2014,30(6):61-63. 被引量：1
5康凤,蒋小惠,冯梅.网络伪装隐形文本特征检测及数据挖掘方法[J].科技通报,2014,30(4):113-115. 被引量：3
6罗蓉.基于异层迭代算法的网络隐晦词汇深挖技术[J].科技通报,2014,30(4):137-139.
7赵哲,马晓珺.基于URL定位信息的BBS数据挖掘方法研究[J].科技通报,2014,30(4):206-208. 被引量：2
8张帆,王艳杰.加入用户行为因素的BBS热点分析算法仿真[J].科技通报,2014,30(8):146-148.
9马国富.网络论坛类媒体舆情热点主动发现的方法[J].重庆科技学院学报（社会科学版）,2015(3):7-8.
10荆文鹏,王育坚,董伟伟.自适应遗传算法在主题爬虫搜索策略中的应用研究[J].计算机科学,2016,43(8):254-257. 被引量：6

1张忠元,王洪肖.基于网页分块技术的主题爬行[J].中国高新技术企业,2008(16):122-122.
2刘博,范玉顺.面向服务的工作流性能评价及指标相关度分析[J].计算机集成制造系统,2008,14(1):160-166. 被引量：17
3李春旺.基于OSS的主题搜索引擎设计与实现[J].现代图书情报技术,2007(1):49-52. 被引量：1
4宋海洋,刘晓然,钱海俊.一种新的主题网络爬虫爬行策略[J].计算机应用与软件,2011,28(11):264-267. 被引量：15
5郑国良,叶飞跃,林国俊,耿冬.基于领域本体的主题信息采集方法[J].计算机应用,2008,28(12):3274-3277. 被引量：7
6刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
7王洋课,费树岷,翟军勇.基于聚类的多模型软测量建模及其应用[J].化工自动化及仪表,2010,37(1):49-52. 被引量：5
8蒋宗礼,鲁国相.MatchLink：一种主题爬行方法[J].北京工业大学学报,2007,33(11):1227-1232.
9朱金加,楚栓成.一种视频监控新算法研究[J].软件导刊,2015,14(2):71-73.
10万静,王文聪,易军凯.一种基于本体的知识库语义扩展搜索方法[J].计算机工程,2012,38(6):19-21. 被引量：5

吉林大学学报（理学版）

2007年第6期

浏览历史

内容加载中请稍等...

基于网页分块技术主题爬行器的实现被引量：4

参考文献11

二级参考文献21

共引文献126

同被引文献25

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于网页分块技术主题爬行器的实现 被引量：4

参考文献11

二级参考文献21

共引文献126

同被引文献25

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于网页分块技术主题爬行器的实现被引量：4