基于Ontology的面向主题的网络信息采集算法被引量：6

An Ontology-based Approach to Topic-specific Web Resource Discovery

导出

摘要介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法有助于提高Ontology的构建速度;最后,在分析传统采集算法的基础上,提出一种新的基于Ontology的面向主题的网页采集算法,并通过试验证明其优越性。 This paper summarizes the merits and flaws of the traditional approaches to topic specific web resource discovery, which include page content-based approach, page link-based approach and the approach of using reinforcement learning. In addition, the paper introduces a method of using a dictionary to build Ontology. which can reduce much time of users, On this basis, an Ontology-based approach to topic-specific web resource discovery is put forward, which shows great advantages through experiments.

作者刘军凌云王勋

机构地区秦山学院浙江工商大学计算机与信息工程学院

出处《图书情报工作》 CSSCI 北大核心 2006年第5期78-82,共5页 Library and Information Service

基金浙江省2004年自然基金项目"面向电子商务的语义信息搜索与挖掘研究"(项目编号:M063149)的研究成果之一。

关键词网页采集 ONTOLOGY RDFS page crawling Ontology rdfs

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献10

1李学勇,欧阳柳波,李国徽,钟敏娟.搜索引擎中网络蜘蛛搜索策略比较研究[J].计算技术与自动化,2003,22(4):63-67. 被引量：12
2Cho .I, Garcia-Molina H, Page L. Efficient crawling through URLordering. Computer Networks, 1998,30(1-7):161-172
3Padmini Srinivasan, Gautam Pant, Filippo Menczer. Target seeking crawlers and their Topical Performance.[2005-08-03].http://citeseer.ist,psu.edu/srinivasan02target.html
4Rennie J, McCallum A. Using reinforcement learning to spiderthe Web efficiently. In: Bratko I, Dzeroski S, eds. Proc. of the International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc. 1999.335-343
5Lewis D D et al. Training algorithms for linear text classifiers.In: Frei H, Harman D, Schauble Pet al. eds Proceedings of the Nineteenth International ACM SIGIR Conference on Research and Development in Information Retrieval, New York: ACM Press, 1996.298-306
6Chakrabarti S, Berg M, van den Dom B. Focused crawling: A new approach to topic-specific web resource discovery. Computer Networks, 1999,31 ( 11-16): 1623-1640
7W3C. Resource description framework.[2005-08-03].http://www.w3.org/RDF/
8Zhao Y. Ontology resource page.[2005-08-03].http://people.cs. uchicago.edu/-yongzh/Ontology.html
9Dong Z D. How Net Knowledge Database.[2005-08-03].http://www.Keenage.com/
10W3C. RDF vocabulary description language 1.0: RDF schema.[2005-08-03].http://www.w3 .org/TR/2004/REC-rdf- schema-20040210/

二级参考文献22

1[1]Murray B H, Moore A. Sizing the Internet[ M]. A White Paper:Cyveillance, Inc. 2000.
2[2]Lawrence S, Giles L. Acxessibility and distribution of information on the Web[J]. Nature. 1999, 400:107～ 109.
3[3]Cho J, Garcia - Molina H. The evolution of the Web and implication for an incremental crawler[J]. In: Proc of the 26th International Conference on Very Large Databases ( VLDB' 00), 2000.
4[4]Brewington B E, Cybenko G. How dynamic is the Web[J ] . In: Procof the 9th Intemational World Wide Web Conference. 2000.
5[5]Ester M, Grob M, Kriegel H. Focused Web crawling: a generic framework for specifying the user interest and for adaptive crawling stratrgies[J]. In: Proc of the International Conference on Very Large Database(VLDB'0i ),2001.
6[6]Cho J, Garcia-Molina H, Page L. Efficient crawling through URL ordering[J]. Computer Networks. 1998 30( 1 ～7): 161 ～ 172.
7[7]Chakrabarti S, van den Berg M, Dom B. Focused crawling: a new approach to topic - specific Web resource discovery [J]. Computer Networks. 1999, 31 (11～ 16):1623～1640.
8[8]Rennie J, McCallum A. Using reinforcement leaming to spider the Web efficiently[J]. In: Proc of the Intemational Conference on Machine Learning( ICML 99), 1999.
9[9]Aggarwal C, AI - Garawi F, Yu S P. Intelligent crawling on the World Wide Web with arbitrary Predicates[J]. In: Proc of the 10th International World Wide Web Conference,2001.
10[10]Mentzer F. Complementing search engines with online Web mining agents. Decision Support Systcrs[J]. 2003, 35(2): 195～212.

共引文献11

1李耀辉,周丽莉.搜索引擎技术分析[J].中国科技信息,2006(12):166-166. 被引量：2
2王小根.基于遗传算法的网络教学资源共享优化调度[J].电化教育研究,2006,27(10):46-48. 被引量：3
3王秀平,马保权,李治柱.企业专用搜索引擎的搜索策略[J].计算机与现代化,2006(11):59-61. 被引量：4
4张海东.关于对互联网信息采集支持静态页面和动态页面的抓取技术的文献综述[J].科学咨询,2007(5):49-51.
5彭赓,赵天博,龙海泉,刘凡.互联网搜索市场竞争的均衡结构[J].工业技术经济,2008,27(7):61-64. 被引量：1
6郑凯.基于动态评价URL链接结构的主题爬行策略[J].福建电脑,2010,26(2):83-84.
7钟晓旭,胡学钢.基于数据挖掘的Web招聘信息相关性分析[J].安徽建筑工业学院学报（自然科学版）,2010,18(4):93-96. 被引量：12
8连雁平,章甲午.网络蜘蛛模拟系统分析与设计[J].安阳工学院学报,2012,11(6):38-40.
9李耀华,杨海燕.论网络爬虫搜索策略[J].山西广播电视大学学报,2013,18(2):48-50. 被引量：2
10万福成,李冬晨,何向真,徐涛.面向信息检索的藏文文本索引策略研究[J].计算机工程与应用,2014,50(7):208-211. 被引量：1

同被引文献33

1凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005,24(6):684-689. 被引量：12
2王立希,王建东,汪静.基于数据挖掘的新词发现[J].计算机应用研究,2006,23(12):195-197. 被引量：8
3Hansen M T. The scarch-transfer problem:The role of weak ties in sharing knowledge scross organization subunits. Administrative Science Quarterly, 1999 (44) :78 - 89.
4[1]Ling Liu,Calton Pu,Wei Han.XWRAP:An XML-enabledWrapper Construction System for Weblnformation Sources[A].Proceedings of the 16th International Conference on Data Engineering (ICDE' 2000)[C],San Diego,CA,2000:611-621.
5[2]S.Soderland.Leaming information extraction rules for semistructured and free text[J].Machine Learning,1999,34 (1-3):233-272.
6[3]Bootstrapping an Ontology-Based Information Extraction System[EB/OL],http://www.fzi.de/ipe/publikationen.php?id=827,2006-6-29.
7[4]C.Cortes and V.Vapnik.Support vector networks[J].Machine learning.1995,20:273-297.
8[5]Document Object Model (DOM)[EB/OL],http://www.w3.org/DOM/,2006-6-29.
9[6]VIPS:a Vision-based Page Segmentation Algorithm[EB/OL],http://research.microsoft.com/research/pubs/view.aspx?tr_id=690,2006-6-29.
10邓胜利,胡昌平,张玉峰.企业竞争情报智能采集的策略研究[J].情报学报,2007,26(4):620-626. 被引量：4

引证文献6

1刘军.基于支持向量机的网页主题信息提取算法[J].电脑知识与技术（过刊）,2007(2):451-452.
2陈征华,杨内.基于数据挖掘的网络信息采集与服务研究[J].情报理论与实践,2007,30(5):702-704. 被引量：8
3刘军,于世良.基于Ontology的企业知识管理模型研究[J].泰山学院学报,2009,31(5):88-90.
4刘军.企业员工隐性知识交流能力评价模型[J].图书情报工作,2010,54(4):79-81. 被引量：10
5王建雄.基于特殊主题的PageRank改进算法[J].图书情报工作,2012,56(21):114-118. 被引量：1
6王翠英.基于分众分类的信息唤醒机制研究[J].情报理论与实践,2013,36(10):53-57. 被引量：4

二级引证文献23

1张垒.期刊知识交流效率及影响因素分析——基于DEA_Tobit两阶段法[J].科学学研究,2015,33(4):516-521. 被引量：23
2梁爱东,赵丽华.高校图书馆网络信息资源采集策略研究[J].曲靖师范学院学报,2008,27(3):119-122. 被引量：3
3何坚石.数字出版环境下的信息资源采集研究现状与展望[J].江西图书馆学刊,2010,40(3):19-22. 被引量：5
4何瑛,刘琦,宋军,张树祥.网络信息采集现状及技术研究[J].甘肃科技,2011,27(1):19-20. 被引量：3
5陈自琛,赖建锋.网络信息资源数据挖掘类型及应用[J].硅谷,2011,4(9):154-154. 被引量：1
6刘军.课堂讨论活动中知识流转分析[J].知识经济,2011(20):160-161.
7贺婷.烟草信息采集过程中的不足与改革思路[J].新西部（下旬·理论）,2012(6):71-71. 被引量：1
8李倩,程刚.国内外企业隐性知识研究综述[J].情报探索,2013(3):29-34. 被引量：7
9刘军,张立柱.隐性知识交流网络中员工重要性评价模型[J].统计与决策,2013,29(8):55-57. 被引量：1
10李倩,程刚.企业隐性知识共享能力综合评价研究[J].情报理论与实践,2014,37(2):66-70. 被引量：11

1邓辉.资源描述框架(RDF)——数字图书馆资源描述技术[J].数字图书馆论坛,2004(7):18-21.
2樊明武.发挥科技支撑引领作用推动经济平稳较快发展[J].科技创新与品牌,2010(3):52-54.
3石拓.《中国好声音》节目模式创新研究[J].电视研究,2013(3):70-71. 被引量：1
4朱华.浅谈网络信息资源采集技术[J].国家图书馆学刊,2004,13(2):38-40. 被引量：29
5王晓耘,李春颖.基于RDFS/OIL的供应链管理商务信息语义模型研究[J].情报杂志,2004,23(10):30-32. 被引量：1
6陈文彬.Ontology在图书服务网络中的应用[J].现代图书情报技术,2003(6):8-12. 被引量：11
7魏大威.利用WGET实现网络文献保存和发布的技术探讨[J].国家图书馆学刊,2004,13(2):41-45. 被引量：1
8袁毅.网络信息资源内容评价关键指标研究[J].中国图书馆学报,2005,31(6):54-57. 被引量：9
9唐虹.基于模糊综合评价方法的图书馆组织结构评价[J].新世纪图书馆,2012(8):75-79.
10张艳丽,蔡继辉.学术图书评价实证研究――以应用性研究成果皮书内容评价为例[J].出版广角,2016(14):36-38. 被引量：4

图书情报工作

2006年第5期

浏览历史

内容加载中请稍等...

基于Ontology的面向主题的网络信息采集算法被引量：6

参考文献10

二级参考文献22

共引文献11

同被引文献33

引证文献6

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于Ontology的面向主题的网络信息采集算法 被引量：6

参考文献10

二级参考文献22

共引文献11

同被引文献33

引证文献6

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于Ontology的面向主题的网络信息采集算法被引量：6