基于本体的网络爬虫技术研究被引量：7

A Study of Ontology-based Web Crawler

下载PDF

导出

摘要互联网已经成为最大的非结构化数据库,极大方便了信息访问.然而,网络上的信息大多都是无组织的,由于网络的分布式特性,很难对它进行信息和知识管理.因此,如何建立一个智能的信息发现机制很有必要.本文在分析了爬虫工作原理和传统算法后,提出了一种基于本体的网络爬虫的信息发现框架.该框架包含了预处理模块和本体管理模块,定义了网页相关度计算策略,最后通过实验对该框架进行了评估. The Web, the largest unstructured database of the world, has greatly improved access to information. However, information on the Web is largely disorganized. Due to the distributed nature of the World Wide Web it is difficult to use it as a tool for information and knowledge management. Therefore, user doing the difficult task of exploring the Web has to be supported by intelligent means. This paper proposes an approach for information discovery building on a comprehensive framework for ontology-based web crawler. Our framework includes preproeessing module and ontology management module. It defines a relevance computation strategies of the web page and provides an empirical evaluation which has shown premising results.

作者杨学明刘柏嵩

机构地区湖州师范学院信息工程学院宁波大学网络中心

出处《情报学报》 CSSCI 北大核心 2007年第5期723-727,共5页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金资助项目（60573056）,浙江省自然科学基金重点资助项目（Z106335）,浙江省自然科学基金（Y105625）.

关键词本体网络爬虫语义网信息检索 ontology, web crawler, semantic web, information retrieval

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Davulcu H,Koduri S,Nagarajan S.Datarover:a taxonomy based crawler for automated data extraction from data-intensive websites.Proceedings of the 5th ACM international workshop on Web information and data management,November 2003.
2Aggarwal C C.Collaborative Crawling:Aggarwal C.Collaborative crawling:mining user experiences for topical resource discovery.Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining,July 2002.
3Junghoo Cho,Hector Garcia-Molina,Lawrence Page.Efficient crawling through URL ordering.In Proceedings of the Seventh International World Wide Web Conference,pages 161-172,April 1998.
4Page K,SBrin,R Motwani,Winograd T.The PageRank citation ranking:Bringing order to the web.USA:Stanford University,1998.
5Jon Kleinberg.Authoritative Sources in A Hyperlinked Environment,Journal of the ACM,1999,46(5).
6Gomez-Perez A,Manzano-Macho.A survey of ontology learning methods and techniques.OntoWeb Deliverable D1.5,2003.
7Maedche A,Staab S.Ontology learning for the semantic web.IEEE Intelligent Systems,2001,16(2).
8Aggarwal C C,Al-Garawi F,Yu P S.Intelligent crawling on the World Wide Web with arbitrary predicates.In Proc.10th Intl.World Wide Web conference,Hong Kong,May 2001.
9Rennie J,McCallum A.Using Reinforcement Learning to Spider the Web Efficiently.In ICML-99,1999.
10Ester M,Gross M.Ariadne:a focused crawler with adaptive classification of the hyperlinks.In Nat.Symp.On Machine Learning(FGML '2000),Birlinghoven,2000.

同被引文献80

1邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670. 被引量：147
2曾新红.《中国分类主题词表》的OWL表示及其语义深层揭示研究[J].情报学报,2005,24(2):151-160. 被引量：29
3侯东京,侯英梅.在互联网上检索图像信息的方法[J].现代情报,2005,25(8):77-77. 被引量：1
4毛军.元数据、自由分类法(Folksonomy)和大众的因特网[J].现代图书情报技术,2006(2):1-4. 被引量：65
5周荣庭,郑彬.分众分类:网络时代的新型信息分类法[J].现代图书情报技术,2006(3):72-75. 被引量：57
6张霞.从FRBR看书目记录的变化趋势[J].图书馆理论与实践,2006(2):91-92. 被引量：10
7梁桂英,李记旭.Folksonomy初探[J].图书馆杂志,2006,25(4):46-49. 被引量：30
8马然,向林燕.网络信息分类法的新亮点——Folksonomy[J].中国索引,2006,4(2):32-34. 被引量：13
9沙勇忠,阎劲松.维基百科:一种网络环境下的新型知识生产方式及其价值意蕴[J].情报资料工作,2006,27(4):20-24. 被引量：25
10董慧,余传明,姜赢,杨宁,徐国虎,张华.基于本体的数字图书馆检索模型研究（Ⅱ）——语义信息的提取[J].情报学报,2006,25(4):451-461. 被引量：17

引证文献7

1王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
2赖茂生,屈鹏,谢静.知识组织最新研究与实践进展[J].图书情报工作,2009,53(2):19-23. 被引量：15
3杨学明.基于本体学习的个性化网页推荐[J].情报杂志,2009,28(3):171-174. 被引量：5
4王兵,王汉,李悦,王瑞,黄啸,汤进.基于Internet的图像检索[J].计算机技术与发展,2011,21(5):33-35.
5吴宇鹏.分布式网络爬虫技术的研究与实现[J].电脑编程技巧与维护,2020(11):9-10. 被引量：4
6张立鉴.浅谈网络爬虫的网站信息采集技术[J].信息记录材料,2021,22(7):199-200. 被引量：3
7许美,田世全,陈钊.基于林产品贸易Web信息增量爬虫的研究[J].农业网络信息,2016(2):18-21.

二级引证文献38

1黄微,陈玲,范轶.数字图书馆知识组织系统热点分析[J].图书情报工作,2009,53(15):8-11. 被引量：4
2毕强.数字时代信息服务的变革与创新[J].图书馆学研究,2009(9):54-56. 被引量：22
3毕强,牟冬梅,陈晓美.数字图书馆KOS的变革与创新[J].图书馆学研究,2009(11):11-14. 被引量：3
4戴起伟,曹静,董钊,凡燕,朱科峰,王支凤.基于知识管理和信息推送技术的农村信息服务系统[J].江苏农业学报,2009,25(6):1413-1419. 被引量：18
5毕强.数字图书馆知识组织系统建构的发展趋势——从机器可读到机器可理解[J].国家图书馆学刊,2010,19(1):12-17. 被引量：17
6吴江.利用大众分类法构建本体研究[J].图书馆界,2010(1):26-29. 被引量：8
7吴江.凝聚子群分析构建自动分类网络地图[J].图书馆学研究,2010(2):56-62. 被引量：9
8赵君喆,李晶.对中文博客用语的一些调查研究[J].咸宁学院学报,2010,30(1):76-78.
9贾君枝.分众分类法与受控词表的结合研究进展[J].中国图书馆学报,2010,36(5):96-101. 被引量：24
10刘鹏,刘魁,刘翠茹.RBAC模型在高校web信息系统中的应用与改进[J].硅谷,2010,3(19):83-84. 被引量：1

1贾丽柯.基于校园网的搜索引擎排序算法研究[J].商丘职业技术学院学报,2008,7(2):32-35.
2陈浩.基于Web日志挖掘的网页权重技术分析[J].广东水利电力职业技术学院学报,2009,7(3):34-36.
3裴成超.搜索引擎技术初探[J].科技信息,2011(9).
4宋聚平,王永成.搜索引擎中的信息存储技术[J].计算机工程,2000,26(S1):716-720.
5倪贤贵,蔡明.基于链接结构和内容相似度的聚焦爬虫系统[J].计算机工程与设计,2008,29(7):1709-1710. 被引量：3
6郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
7赵永霄,哈力旦.阿布都热依木,张振东.面向增量同生主题的维吾尔文爬虫的研究[J].计算机应用研究,2014,31(11):3269-3272. 被引量：1
8宋聚平,王永成.搜索引擎中信息存储结构的改进[J].情报学报,2001,20(5):514-518. 被引量：3
9熊金辉,杨勇,罗海燕,王淑彦,刘怡良.基于扩展SKOS模型的简单农业本体系统建设方法[J].沈阳农业大学学报,2010,41(4):503-505. 被引量：1
10王锡钢,王正,陈虎.关于搜索引擎的中文分词与页面排序的研究[J].计算机应用与软件,2013,30(9):211-214. 被引量：4

情报学报

2007年第5期

浏览历史

内容加载中请稍等...

基于本体的网络爬虫技术研究被引量：7

参考文献11

同被引文献80

引证文献7

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于本体的网络爬虫技术研究 被引量：7

参考文献11

同被引文献80

引证文献7

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于本体的网络爬虫技术研究被引量：7