一种专题Web信息采集系统的设计方案被引量：2

Fine design on focused Web crawler

下载PDF

导出

摘要飞速发展的网络给综合性的采集系统带来了巨大的挑战 ,由此小型的专题信息采集已成为近年的研究热点。文章介绍了专题的 Web信息采集系统的基本原理 ,分析了专题页面在网络中的分布特性 ,提出了一种通过提供高质量种子集的方法来改善采集器性能的方法 ,节约了硬件和网络资源 ,使更新更加容易。 The rapid growth of the WorldWide Web poses unprecedented scaling challenges for generalpurpose crawlers. So the focused Web crawler becomes the focus research. We introduce the basic principles on focused Web crawler, the main function and technology. Based on analyzing distribution of the pages that are relevant to a topic in the Web, a new approach that provides the crawler with a good set of seeds is brought forward to improve the crawler's performance, leads to savings in hardware and network resources, and helps the crawler more easy to update.

作者欧歌赵恒永

机构地区北京化工大学信息科学与技术学院

出处《电脑与信息技术》 2004年第6期52-55,共4页 Computer and Information Technology

关键词 WEB信息采集系统页面硬件网络资源采集器子集专题信息综合性研究热点 topic Web crawler seed

分类号 TP393 [自动化与计算机技术—计算机应用技术] G250.73 [文化科学—图书馆学]

引文网络
相关文献

参考文献4

1Mukherjea S. WTMS:a system for collecting and analyzing topic - specific Web information [J].Computer Networks,2000(33) ,457 - 471.
2Lempel R, Moran S. The stochastic approach for Link -structure analysis (SALSA)and the TKC effect [J]. Computer Netwroks, 2000 (33), 387 - 401.
3杨杰,徐炜民.搜索引擎技术的运用与研究[J].计算机工程,2002,28(1):265-266. 被引量：5
4凌志泉.搜索引擎中的网络数据挖掘技术[J].计算机工程与设计,2003,24(9):70-72. 被引量：10

二级参考文献12

1毛国君.数据挖掘的概念、系统结构和方法[J].计算机工程与设计,2002,23(8):13-17. 被引量：28
2Dell Zhang. A novel web usage mining approach for search engines[J]. Computer Networks, 2002,39:303-310.
3Hart Jiawei. Data mining concepts and techniques[M]. Morgan Kaufinann Press,2001.435-449.
4Beeferman D, Berger A. Agglomerative clustering of a search engine query log[C]. Proceedings of ACM KDD 2000,Boston, MA, USA.
5Den R Greening. Data mining on the Web[J]. Web Techniques, 2000 (1):26-29.
6Kleinberg J. Authoritative Sources in a Hyperlinked Environment,Proc. ACM-SLAM Symposium on Discrete Algorithms, 1998
7Page L, Brin S. The Anatomy of a Large-scale Hypertextual Web Search Engine. http://www-diglib.stan ford.edu/cgi-bin/get/STOL-WP-1999-0123
8Arocena G O, Mendelzon A O, Mihalla G A. Applications of a Web Query Language. Proc. 6th International World Wide Web Conference, 1997
9Spertus E. ParaSite: Mining Structural Information on the Web. Proc 6th International World Wide Web Confereoce, 1997
10Salton G, McGill M J. Introduction to Modem Information Retrieval [M]. New York: McGraw-Hill, 1993

共引文献13

1林文渊.网络搜索引擎的原理分析和实现[J].商业文化（学术版）,2010(12):189-189. 被引量：2
2王伊明,蔡鸿明.基于Oracle复制的针对结构化数据的搜索引擎功能的实现[J].东华大学学报（自然科学版）,2005,31(4):41-44. 被引量：1
3刘合翔,吴斌.人工智能技术在精准林业中的运用与发展[J].西北林学院学报,2006,21(1):183-188. 被引量：3
4吴清江,吴政,刘琳琅.面向侨务信息主题的搜索引擎系统[J].华侨大学学报（自然科学版）,2006,27(4):429-432. 被引量：1
5徐以斌.试析搜索引擎技术在网络信息挖掘中的应用[J].农业图书情报学刊,2007,19(4):112-114.
6饶兰香.基于隐私保护的数据挖掘研究[J].计算机与现代化,2011(12):109-111.
7秦萧,甄峰,熊丽芳,朱寿佳.大数据时代城市时空间行为研究方法[J].地理科学进展,2013,32(9):1352-1361. 被引量：206
8陈建伟,李丽坤.搜索引擎及网络数据挖掘相关技术研究[J].数字技术与应用,2014,32(4):126-126. 被引量：1
9赵亮,梁胜彬,楚广琳.以大数据为基础的挖掘数据引擎研究[J].电脑知识与技术,2018,14(8X):261-261.
10蒲东齐.数据挖掘在人工智能上的应用[J].信息与电脑,2016,28(19):157-157. 被引量：3

同被引文献9

1涂波,王忠民.智能化Web信息采集系统的研究与设计[J].情报杂志,2005,24(3):48-49. 被引量：1
2吴丽辉,王斌,张刚.一个个性化的Web信息采集模型[J].计算机工程,2005,31(22):86-88. 被引量：17
3庞景安.Web信息采集技术研究与发展[J].情报科学,2009,27(12):1891-1895. 被引量：10
4李珊,马静,邱广华,冯文龙.基于网页分块的科技信息采集系统的设计与实现[J].价值工程,2011,30(2):169-170. 被引量：4
5田范江,王曦东,王鼎兴.高效率WWW信息采集(英文)[J].软件学报,2001,12(1):33-40. 被引量：10
6张绍华,薛文玲,李天柱.基于Web的快速信息抽取[J].计算机应用,2001,21(7):18-19. 被引量：12
7潘顺,金远平.半结构化数据到结构化数据的模式抽取[J].计算机工程,2002,28(5):57-58. 被引量：3
8李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
9李盛韬,余智华,程学旗,白硕.Web信息采集研究进展[J].计算机科学,2003,30(2):151-157. 被引量：25

引证文献2

1胡静芳,沈亚斌.基于Web的新闻采集系统[J].电脑知识与技术,2009,5(7):5111-5113. 被引量：2
2袁传思.基于B／S的高校科研信息采集系统的设计与实现[J].科技成果管理与研究,2011(9):30-31.

二级引证文献2

1杨光熠.热点新闻的采集与发布[J].黑龙江科技信息,2010(14):174-174.
2陈建国.基于Web结构的网站新闻采集系统的设计与实现[J].井冈山大学学报（自然科学版）,2012,33(2):54-57. 被引量：3

1钱力,齐林海,马素霞.基于ASP.NET 2.0 AJAX的Web信息采集系统的设计与实现[J].中国电力教育,2007(S3):241-243. 被引量：3
2涂波,王忠民.智能化Web信息采集系统的研究与设计[J].情报杂志,2005,24(3):48-49. 被引量：1
3话题[J].现代计算机（中旬刊）,2009(10):5-5.
4吴丽辉,王斌,余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程,2005,31(3):123-124. 被引量：11
5刘文学.网络环境下高校图书馆采访工作探索[J].科技情报开发与经济,2006,16(16):50-52.
6岑琳焕.档案信息化建设的问题及对策探析[J].办公室业务,2012(3S):84-85. 被引量：8
7邓宇,夏红霞.Web信息采集系统的设计与实现[J].微计算机信息,2009,25(24):83-85. 被引量：2
8网站导航[J].电脑迷,2010(17):63-63.
9张余.移动互联网时代H5页面的设计与营销[J].东南传播,2015(9):87-89. 被引量：21
10李荣.SEO专题页面优化布局网站差异化策略[J].计算机与网络,2016,42(7):38-38.

电脑与信息技术

2004年第6期

浏览历史

内容加载中请稍等...

一种专题Web信息采集系统的设计方案被引量：2

参考文献4

二级参考文献12

共引文献13

同被引文献9

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种专题Web信息采集系统的设计方案 被引量：2

参考文献4

二级参考文献12

共引文献13

同被引文献9

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种专题Web信息采集系统的设计方案被引量：2