基于目录树的网络科技资源采集算法被引量：3

Crawler Algorithm Based on Directory Tree in Network Science and Technology Resource

下载PDF

导出

摘要针对网络科技领域资源分类方式多样化、数据量大等特点,提出一种基于目录树的采集算法,以领域本体知识库提供的本体知识作为评价依据进行有效目录链接的提取和识别,通过一种改进的链接分析策略获取有效的节点链接并进行采集操作。该算法研究采集体系结构,注重对最新资源获取速度的优化。实验结果证明,该算法可有效提高资源采集速率。 Aimming at full consideration of the characteristics of the network technology in a various methods of classification of resources and a large quantity, this paper proposes a kind of crawler algorithm based on directory tree. The algorithm extracts and recognizes the directory links based on domain ontology knowledge as effective evaluation, and links the nodes effectively through a modified strategy of link analysis, eventually carry through collecting operation. The algorithm not only studies in-depth on the crawler architecture, but also pays attention to the speed of access to the latest resources optimization. Experimental results show that the algorithm can effectively achieve the established objectives both in speed and efficiency.

作者李国栋刘忠强柳长安

机构地区华北电力大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2009年第1期277-279,282,共4页 Computer Engineering

基金国家科技基础条件平台建设基金资助项目(2005DKA63904)

关键词科技资源信息采集目录树本体 science and technology resource information crawling directory tree ontology

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1Li Jun, Furuse K, Yamaguchi K. Focused Crawling by Exploiting Anchor Text Using Decision Tree[C]//Proc. of the 14th International World Wide Web Conference. Chiba, Japan: [s. n.], 2005: 1190-1191.
2Cheng Jing, Li Qing, Wang Liping, et al. Automatically Generating An E-textbook on the Web[M]. Berlin, Germany: Springer-Verlag Heidelberg, 2004: 35-42.
3Chcn Xucqi. Query Rewriting for Extracting Data behind Html Forms[D]. Provo, Utah, USA: Brigham Young University, 2004.
4Sun Maosong, Chen Qunxiu. Language Computing and Text Processing Based on Contents[M]. Beijing, China: Tsinghua University Press, 2003: 488-494.
5李魁,程学旗,郭岩,张凯.WWW论坛中的动态网页采集[J].计算机工程,2007,33(6):80-82. 被引量：11
6曾义聪,杨贯中.基于概念树的主题搜索机器人系统研究[J].科学技术与工程,2006,6(16):2458-2463. 被引量：3
7Troy W. Automating the Extraction of Domain-specific Information from the Web-A Case Study for the Genealogical Domain[D]. Provo, Utah, USA: Brigham Young University, 2004.

二级参考文献10

1曾义聪,杨贯中,刘柯.基于概念树的主题爬取技术研究[J].科学技术与工程,2005,5(12):785-790. 被引量：3
2[1]Chakrabarti S,van den Berg M,Dom B.Focused crawling:a new approach to topic-specific Web resource discovery.Computer Networks,1999; 31 (11-16):1623-1640
3[2]Ganesh S,Jayaraj M,SrinivasaMurthy V K,et al.Ontology-based Web crawler.Proceedings of Information Technology:Coding and Computing (ITCC'04).Washington,DC:IEEE Computer Society,2004:337-341
4[4]Cheng Jing,Li Qing,Wang Liping,et al.Automatically generating an e-textbook on the Web.In:Lecture Notes in Computer Science 3143.Berlin:Springer-Verlag Heidelberg,2004:35-42
5[5]Open Directory Project.http://dmoz.org,2004-12-13
6Cho J,Garcia-Molina H,Page L.Efficient Crawling Through URL Ordering[C]//Proceedings of the 7^th International World Wide Web Conference.1998:161-172.
7Najork M,Wiener J L.Breadth-first Crawling Yields High-quality Pages[C]//Proceedings of the 10^th International World Wide Web Conference.2001:114-118.
8Li Jun,Furuse K,Yamaguchi K.Focused Crawl -ing by Exploiting Anchor Text Using DecisionTree[C]//Proceedings of the 14^th International World Wide Web Conference.2005:1190-1191.
9Castillo C.Effective Web Crawling[D].University of Chile,2004.
10Brin S,Page L.The Anatomy of a Large-scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117.

共引文献12

1沙科君.基于Web的天气预报系统设计与实现[J].宁波广播电视大学学报,2007,5(4):115-117. 被引量：2
2谢能付,王文生,段延娥.基于概念空间的领域信息爬虫设计研究[J].江西师范大学学报（自然科学版）,2008,32(2):192-196.
3方宏,吕太之.求职网站职位列表页链接信息的自动提取[J].现代图书情报技术,2009(7):93-96. 被引量：3
4谢志妮.一种新的基于概念树的主题网络爬虫方法[J].计算机与现代化,2010(4):103-106. 被引量：2
5蔡欣宝,郭若飞,赵朋朋,崔志明.Web论坛数据源增量爬虫的研究[J].计算机工程,2010,36(9):285-287. 被引量：5
6胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
7李恒训,李南波,邱泳钦,徐燕,刘金刚.基于结构驱动的网络论坛采集路径研究[J].计算机应用研究,2011,28(9):3284-3287. 被引量：1
8陈翰,韩永峰,李弼程.基于突发事件热度的站点地图构建算法[J].计算机应用研究,2012,29(8):2943-2947. 被引量：6
9孙善通,王嘉梅,李炳泽,弓盼,胡刚.彝文网络信息获取平台的研究[J].电子技术与软件工程,2015(13):44-46. 被引量：1
10程杜新,傅魁.基于Nutch的Web论坛分块采集系统[J].图书馆学研究,2017(7):56-60. 被引量：1

同被引文献65

1王芳,王月娥,陈洁,卢振波.基于图书馆学研究视角的媒体舆情信息采集[J].图书情报工作,2011,55(S2):259-261. 被引量：2
2高博,朱东华,韩士雄.一种智能化的信息采集系统的研究与实现[J].兵工学报,2009,30(S1):130-134. 被引量：3
3杨道玲.eb资源采集策略评析与思考[J].图书情报知识,2004,21(5):66-69. 被引量：1
4姚海法.数字图书馆网络信息资源采集与整合研究[J].情报理论与实践,2004,27(6):605-608. 被引量：30
5张秋萍,毛燕梅.数量经济学硕士点资源数据的采集与处理[J].现代情报,2004,24(12):34-36. 被引量：1
6李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80. 被引量：17
7刘晓政.博客及博客网站的发展对采集网络信息的意义[J].现代情报,2005,25(6):37-38. 被引量：4
8吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
9邢美园,陈益君.学科信息门户建设中深层网页资源采集的方法与策略[J].情报资料工作,2005,26(6):53-56. 被引量：10
10吴丽辉,王斌,张刚.一个个性化的Web信息采集模型[J].计算机工程,2005,31(22):86-88. 被引量：17

引证文献3

1唐朝伟,李俊,苗光胜,杜欣慧.基于DOM树的视频元数据抽取系统[J].计算机工程,2012,38(8):268-270. 被引量：1
2张婧,刘彦君,范漪萍,贾明慧.国内网络信息采集研究现状述评[J].科技管理研究,2017,37(9):260-266. 被引量：5
3夏禹.Web3.0背景下高校图书馆对网络信息资源的整合研究[J].智库时代,2018(51):88-90. 被引量：1

二级引证文献6

1陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
2张丽娜,范兴丰,李珂灵.大数据下图书馆信息采集编撰整合研究[J].无线互联科技,2018,15(6):85-87. 被引量：3
3李国奇,褚万军,白川平.移动智能终端信息传输过程缺陷检索仿真[J].计算机仿真,2018,35(8):123-126. 被引量：2
4殷复莲,徐荣阁,刘志心,冀美琪.影视节目扁平化标签获取技术研究[J].软件导刊,2019,18(7):150-153. 被引量：1
5林涛.Web3.0技术下高校图书馆的科研服务探究——以集美大学图书馆为例[J].黑河学院学报,2019,10(9):216-217.
6夏禹.Web3.0背景下高校图书馆对网络信息资源的整合研究[J].智库时代,2018(51):88-90. 被引量：1

1侯凡,周明全,耿国华,李杰.基于粗糙集的文本分类方法在网络科技资源应用集成环境中的应用[J].计算机应用与软件,2009,26(3):88-91. 被引量：2
2梁娜,耿国华,周明全,沈婧.科技资源应用集成环境中的单点登录研究[J].微计算机信息,2008,24(27):186-188.
3陈振标.基于本体的语义检索技术研究[J].情报探索,2011(8):96-98. 被引量：5
4高妮,周明全,耿国华,贺毅岳.网络科技资源平台中元数据的设计与实现[J].计算机工程与应用,2009,45(25):141-144. 被引量：3
5沈婧,耿国华,周明全,梁娜.LDAP目录服务在网络科技资源应用集成环境中的应用[J].计算机应用与软件,2009,26(1):57-59. 被引量：6
6湛成伟,冯林.网络科技资源的高效检索研究[J].西南农业大学学报（自然科学版）,2006,28(3):496-498.
7张岩,周明全,焦翠花.网络科技资源中异构数据库访问技术的研究[J].计算机系统应用,2008,17(11):87-90. 被引量：2
8焦翠花,周明全,张岩.远程检索在网络科技资源中的研究与应用[J].计算机系统应用,2009,18(11):153-157.
9李杰,周明全,耿国华,侯凡.基于RIA的网络科技资源呈现系统的研究与实现[J].计算机应用与软件,2009,26(4):69-71. 被引量：7
10苏超,蔡铭,姚玉荣.面向领域资源的智能元搜索技术研究[J].计算机科学,2006,33(9):107-109. 被引量：3

计算机工程

2009年第1期

浏览历史

内容加载中请稍等...

基于目录树的网络科技资源采集算法被引量：3

参考文献7

二级参考文献10

共引文献12

同被引文献65

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于目录树的网络科技资源采集算法 被引量：3

参考文献7

二级参考文献10

共引文献12

同被引文献65

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于目录树的网络科技资源采集算法被引量：3