Web信息主题采集技术研究被引量：17

Technologies of Focused Web Crawling

导出

摘要简单介绍主题信息采集系统;从5个方面对其核心技术进行深入研究,包括种子页面生成、主题表示、相关度计算策略、爬行策略以及结束搜索策略等;详细讨论种子页面生成的人工方式、自动方式及混合方式,基于关键词的主题表示与基于Ontology的主题表示,多种相关度计算启发式策略比较,基本爬行策略与隧道技术以及结束爬行的多种情形等;在分析相关技术的算法、特点与应用情况的同时,针对主题信息采集特点提出相应的改进意见。 This paper briefly introduces the core technologies of the focused Web crawler. Three main modes are used to create seed URLs. Several methodical technologies, such as keyword- and ontology-based topic description, various heuristic functions and algorithms, tunneling methods, basic focused crawling strategies and strategies to stop crawling, are discussed and analyzed in this paper. Furthermore, suggestions are put forward to improve the Web crawling technologies by comparing the merits and demerits of focus crawling algorithms.

作者李春旺

机构地区中国科学院文献情报中心

出处《图书情报工作》 CSSCI 北大核心 2005年第4期77-80,70,共5页 Library and Information Service

关键词 WEB 搜索引擎主题采集技术 Web search engine focused crawling technology

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献48

1Deep Web white paper. [2003-12-06 ]. http://www. complete-planet. com/Tutorials/Deep Web/index. asp.
2Anthes G H. Search engines-The future. [ 2004 - 05 - 31 ]. http://www. computerworld. com/softwaretopics/software/story/0,10801,91841,00. html.
3Chakrabarti S, Dom B E, Kumar S R et al. Mining the Web's link structure. IEEE Computer, 1999,32(8): 60-67.
4Chakrabarti S, van den Berg M, Dom B E. Distributed hypertext resource discovery through examples. [ 2004 -05 -26 ]. http ://citeseer. ist. psu. edu/chaklabariti99ditributed. html.
5Chakrabartia S, Doma B, Raghavana P et al. Automatic resource compilation by analyzing hyperlink structure and associated text.[ 2004 - 05 - 26 ]. http ://cindoc. csic. es/cybermetrics/pdf/25. pdf.
6Yang Y S, Wang H. Implementation of focused crawler. [2004 -05 -25 ]. http://www. cs. ust. hk/- ysyang/courses/comp630d/630dreport. pdf.
7Heydon A, Najork M. Mercator : A scalable,extensible Web crawler. World Wide Web, 1999,2(4) :219 -229. [2004 -07 -02].http://research. compaq. com/SRC/mereator/papers/www/paper.pdf.
8Melnik S, Garcia- Molina H, Rahm E. Similarity flooding: a versatile graph matching algorithm and its application to Schema matching. [ 2004 - 05 - 30 ]. http ://www -db. stanford. edu/- melnik/pub/melnik_ICDE02. pdf.
9Ehrig M. Ontology-Focused Crawling of Documents and Relational Metadata. [ Master thesis ]. University of Karlsruhe, Germany.2002. [2004 -05 - 10]. http://projekte. learninglab. uni - hannover. de/pub/bscw. cgi/d5266/Ehrig - Ontology_Focused_Crawling_of_Documents_and_Relational_Metadata - Thesis. pdf.
10Ehrig M, Maedche A. Ontology-focused crawling of Web documents. [2004 -05 -10]. http://www. aifb. uni-karlsruhe. de/WBS/meh/publications/ehrig03 ontology. pdf.

二级参考文献29

1[8]Cho,Molina. Synchronizing a database to improve freshness. In:Junghoo Cho, Hector Garcia-Molina, eds. Proc. of 2000 ACM Intl. Conf. on Management of Data(SIGMOD),May 2000
2[9]Cho, Molina, Page. Efficient Crawling Through URL Ordering.In: Junghoo Cho,Hector Garcia-Molina and Lawrence Page, eds.Proc. of the Seventh Intl. World Wide Web Conf. Toronto,Canada,May 1999
3[10]Edwards,et al. An Adaptive Model for Optimizing Performance of an Incremental Web Crawler. In: J. Edwards, K. McCurley, J.Tomlin,eds. Proc. of the 10th Intl. World Wide Web Conf. Hong Kong ,May 2001
4[11]Heydon ,Najork .Mercator:A Scalable,Extensible Web Crawler.A. Heydon and M. Najork. In World Wide Web Journal, Dec.1999. 219～229
5[12]Kamba T,Bharat K,Albers M. The Krakatoa Chronicle - An Interactive, Personalized, Newspaper on the Web. In: Proc. of WWW 4,Boston, USA,Dec. 1995
6[13]Kahle B. Preserving the Internet,Scientific American,March 1997
7[14]Koster M. The Web Robots Pages. 1999
8[15]Lawrence S,Giles C L. Accessibility of information on the Web.Nature, 1999,400(6740) :107～109
9[16]Letizia. An Agent That Assists Web Browsing. In:H. Lieberman,ed. Proc. of the Intl. Joint Conf. on AI,Montreal ,Canada,Aug.1995
10[17]Is Agent-Based Online Search Feasible?. In: F. Menzcer, ed.Working Notes of the AAAI Spring Symposium on Intelligent Agents in Cyberspace,Stanford,USA,March 1999

共引文献70

1宋瑞祺.Web文本数据挖掘关键技术及其在网络检索中的应用[J].山西财经大学学报（高等教育版）,2007(S1). 被引量：1
2徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
3朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报（自然科学版）,2003,26(z1):657-661. 被引量：17
4贺国旗,张强.基于用户模型的文献检索研究[J].雁北师范学院学报,2002,18(5):29-32. 被引量：1
5张艳英,吕子军.基于网络环境的信息挖掘及信息服务[J].图书馆学研究,2002(11):68-70. 被引量：1
6杨璐光,雷宁光,朱晨光.互联网信息挖掘技术及其实现[J].哈尔滨铁道科技,2006(1):17-19. 被引量：1
7任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
8李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
9熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量：1
10赖俊,周琳,张学平.基于Web挖掘的主题式搜索引擎的设计[J].军事通信技术,2004,25(3):67-70.

同被引文献316

1刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
2王芳,王月娥,陈洁,卢振波.基于图书馆学研究视角的媒体舆情信息采集[J].图书情报工作,2011,55(S2):259-261. 被引量：2
3沈迪飞.谈谈我国图书馆应用计算机的起步问题[J].中国图书馆学报,1979,7(2):66-71. 被引量：6
4深圳大学图书馆计算机管理集成系统通过鉴定[J].图书情报工作,1988,32(2):43-43. 被引量：1
5张惠惠.DIALOG国际联机检索系统——检索策略的探讨[J].图书馆杂志,1987,6(5):24-26. 被引量：2
6毕强.联机情报检索网络浅谈[J].现代情报,1987,8(1):30-32. 被引量：1
7夏波.情报检索系统的误差与分析[J].情报理论与实践,1987,10(6):35-38. 被引量：1
8莫少强.广东省西文图书自动编目系统简介[J].图书馆论坛,1984,6(3):23-27. 被引量：2
9姜戈,邓琼芳.俄亥俄学院图书馆网络[J].图书馆,1980(6):41-44. 被引量：1
10李哲民.国外图书馆应用计算机的一些情况[J].国家图书馆学刊,1978(1):42-43. 被引量：1

引证文献17

1吴金红,张玉峰,王翠波.面向主题的网络竞争情报采集系统[J].现代图书情报技术,2006(12):54-57. 被引量：18
2李春旺.基于OSS的主题搜索引擎设计与实现[J].现代图书情报技术,2007(1):49-52. 被引量：1
3唐崇忻.基于华文教育主题的专业搜索引擎的结构分析与程序设计[J].现代情报,2007,27(7):62-64. 被引量：1
4张玉峰,吴金红,王翠波.基于Web结构挖掘的网络动态竞争情报采集研究[J].中国图书馆学报,2007,33(6):62-64. 被引量：15
5白光祖,吕俊生.基于WebSPHINX的主题搜索引擎原理研究与结构设计[J].现代图书情报技术,2007(11):58-62. 被引量：1
6唐崇忻.面向华文教育主题的专业搜索引擎的研究与设计[J].晋图学刊,2007(6):38-41. 被引量：1
7关慧芬,师军,马继红.基于遗传算法的主题爬行技术研究[J].计算机与数字工程,2008,36(10):50-53. 被引量：4
8杨艺,代春艳.基于IOCC的定题Web信息发现机制研究[J].计算机工程与设计,2008,29(22):5906-5909. 被引量：1
9贺晟,程家兴,蔡欣宝.基于模拟退火算法的主题爬虫[J].计算机技术与发展,2009,19(12):55-58. 被引量：8
10陈悦,陈运,杨义先,胡迪.基于遗传算法的聚焦爬虫搜索策略设计与研究[J].成都信息工程学院学报,2011,26(5):533-537. 被引量：3

二级引证文献65

1赵光,刘益兵,王人颢,齐晓林,张红萍,王志萍.中外大学附属医院图书情报学领域数据挖掘研究现状对比分析与应对[J].新一代信息技术,2022,5(4):114-117.
2白光祖,吕俊生.基于WebSPHINX的主题搜索引擎原理研究与结构设计[J].现代图书情报技术,2007(11):58-62. 被引量：1
3刘高勇,汪会玲,吴金红.基于语义Web Service的Deep Web动态竞争情报采集[J].情报杂志,2008,27(3):79-81. 被引量：5
4赵洁,金培权.Web环境下本体和实体驱动的企业竞争情报获取机制研究[J].情报理论与实践,2008,31(5):777-780. 被引量：5
5董坚峰,张玉峰,唐涛.网络环境下企业持续性情报保障研究[J].情报理论与实践,2009,32(1):96-99. 被引量：2
6宋新平,吴晓伟,刘竞.基于信息融合和综合集成研讨厅混合的企业竞争情报系统[J].图书情报工作,2009,53(22):76-79. 被引量：5
7赵洋,滕桂法,张玉新,何冬梅.基于Internet的农业信息垂直搜索引擎的设计[J].河北农业大学学报,2009,32(6):125-128. 被引量：6
8赵洁.基于关系抽取的企业竞争情报获取与融合框架[J].情报学报,2010,29(2):377-384. 被引量：9
9韩宇,黄青松.基于改进PageRank的情报主题相关度预测策略[J].微型电脑应用,2010,26(3):48-50. 被引量：1
10杨艺,唐灿,杨琛.一种启发式Web信息检索方法[J].重庆工商大学学报（自然科学版）,2010,27(2):139-144. 被引量：1

1何宇欣,张旭泉.《新京报》和《今日美国》图片视觉传播策略比较[J].今传媒,2011,19(5):44-46. 被引量：1
2钱爱兵.基于主题的网络舆情分析模型及其实现[J].现代图书情报技术,2008(4):49-55. 被引量：72
3岑琳焕.档案信息化建设的问题及对策探析[J].办公室业务,2012(3S):84-85. 被引量：8
4权彦清.改进日常生活中应用计算机检索信息的探讨[J].经营管理者,2010(23):367-367. 被引量：1
5阎伟.我院馆藏中文学术期刊数据库的构建特点与应用[J].天津职业技术师范学院学报,2000,10(2):48-51. 被引量：1
6王飞.基于主题的网络舆情分析模型及其研究[J].发展,2014(12):127-127.
7钟元飞,张硕.中美体育图书营销策略比较[J].出版广角,2014(12):74-75.
8田雪筠.网络竞争情报主题采集技术研究[J].图书与情报,2014(5):132-137. 被引量：5
9李英.信息搜索十大攻略[J].图书馆工作与研究,2012(9):102-104. 被引量：1
10王学振.施蛰存、胡风期刊编辑策略比较论略[J].南阳师范学院学报,2010,9(2):90-94.

图书情报工作

2005年第4期

浏览历史

内容加载中请稍等...

Web信息主题采集技术研究被引量：17

参考文献48

二级参考文献29

共引文献70

同被引文献316

引证文献17

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

Web信息主题采集技术研究 被引量：17

参考文献48

二级参考文献29

共引文献70

同被引文献316

引证文献17

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

Web信息主题采集技术研究被引量：17